카테고리 없음
심화프로젝트 1일차 - 도메인 및 주제선정
iron-min
2025. 11. 6. 21:45
1. 주제선정

다음과 같은 도메인에서 데이터를 하나하나 확인해가면서 주제를 선정했습니다.
우선 조원들이 희망하는 분야가 반도체 제조 쪽이기 때문에 반도체와 제조 두 주제중 한가지를 선택해야 하는 상황이였습니다.
여기서 데이터를 뜯어보니 제조쪽이 오히려 우리가 배운 전처리나 eda, 머신러닝 모델들의 활용을 배우는데에 있어서 도움이 많이 될꺼라 생각했을 뿐만아니라, 해당 주제는 반도체나 기타 전자기기 들의 제조불량 파악에도 큰 도움이 될거란 생각이 들었습니다.
2. 데이터 확인
이제 데이터의 컬럼이나 구조를 자세하게 뜯어봤습니다.


3. 이상치 확인

전체적인 이상치를 확인하기 위해 boxplot을 그려봤습니다.
※ 문제점
여기서 이제 이상치를 어떻게 선택하고 어떤 조치를 해야할 것인가라는 문제에 빠졌습니다.
이상치가 정말로 데이터가 잘못되었거나 센서의 잘못된 측정일 수도 있지만 실제로 결함과 연결된 이상치일 수 도있기때문에 어떻게 조치해야 할지몰라서 튜터님께 도움을 구했습니다.
※ 조치
우선 결함과 정말 연관되어있는 이상치인지 violin plot을 그려보라고 해주셨습니다.

이런식으로 각 결함에 대해 바이올린 플롯을 그렸고 확실히 평균값으로 barplot을 봤을때보다 결함데이터의 산포나 평균치를 비교해볼 수 있었습니다.