1. 이전 데이터 병합 과정 요약



2. 이상치 제거
이상치 제거전 데이터 분포 확인

데이터 분포에서 차이가 많이 나는 데이터들은 센서에서 이상이 발생했을 확률이 높기 때문에 제거를 해줘야 합니다.
(주의할것은 이 이상치에 대한 센서 패턴도 이유가 있을 경우가 있기 때문에 한번 확인해 보는게 좋습니다.)
① 금형온도 이상치 제거
1. 특정 컬럼에서 데이터가 많이 차이나는 값 확인 (ex 금형온도의 경우 400이상 되는 데이터들을 확인해줍니다)
2. 금형온도의 경우에는 도메인 기반으로 사출성형기의 온도가 500이상 올라갈 수 없기 때문인 것을 확인하고 제거해줍니다.

② Cycle Time, 최소쿠션, 사출시간
1. 이 경우에도 데이터가 차이나는 것들을 우선으로 바줘야합니다.
2. ① 과 다른점은 도메인 기반 제거가 불가능 하기 때문에 데이터들의 불량분포를 봐주었습니다.
(만약 불량분포가 높은경우 불량 탐지의 주 원인일 수 있기 때문에 제거해서는 안됩니다.)
3. 해당 데이터의 불량 % 가 전체 불량 %보다 적기 때문에 과감히 제거해주었습니다.


이상치 제거 전체 과정

3. 중복값 제거

중복값 제거의 경우 한 시리얼 제품에 대해서 여러 결함이 있어 수치가 다르거나 NG타입이 달라 데이터가 여러개가 생긴경우가 있기 때문에 이 경우를 제외하고 Timestamp이외 모든 값이 같은 값들을 제거해줍니다.