안녕하세요. 박해선입니다.
모델이 어느 정도 학습한 여부와 상관없이 partial_fit 메서드는 사용할 수 있습니다.
partial_fit 메서드에 새로운 데이터를 전달하여 훈련할 때 특성 표준화가 사실 까다롭습니다.
전체 데이터가 이미 준비되어 있어서 통곗값을 구할 수 있고
훈련시에만 잘게 나누어 partial_fit 메서드를 호출할 수 있다면 다행입니다.
하지만 데이터가 너무 많거나 온라인 러닝에서처럼 훈련 데이터가 실시간으로 전달되는 경우도 있습니다.
만약 어떤 특성의 최대/최솟값을 대략 가늠할 수 있다면 MinMaxScaler를 사용할 수 있습니다.
(예를 들어 시험 점수나 온도 등은 특정 범위 안에서 움직일 가능성이 높습니다)
평균이나 분산을 구해야하는 StandardScaler라면 이전에 사용한 훈련 데이터의 통곗값을 기록하고
나중에 새로 주입되는 훈련 데이터를 사용해 이 통곗값을 사용해 업데이트할 수 있습니다.
대표적으로는 Welford 알고리즘이 있습니다.
하지만 통곗값을 새로운 데이터로 업데이트하고 전처리에 사용할지
이전 통곗값으로 먼저 새로운 전처리한 후에 통곗값을 업데이트하는지는
명확하게 언급된 곳이 없는 것 같습니다. 결국 이리 저리 해 보는 수 밖에.. ㅎ
감사합니다!