내일배움캠프_QA/QC 아티클 스터디_양질의 데이터를 판별하는 5가지 방법: 2. 믿을 수 있는 데이터 인가?
https://yozm.wishket.com/magazine/detail/1074/
양질의 데이터를 판별하는 5가지 방법 : 2 믿을 수 있는 데이터인가? | 요즘IT
데이터 신뢰성이란 데이터가 얼마나 실제 정보를 똑바로 담고 있는가에 대한 개념으로 이해하면 좋습니다. 데이터 자체에 틀린 정보가 담겨있을 수도 있으며, 확실한 값이 아닌 추정 값을 데이
yozm.wishket.com
아티클 요약 및 주요 내용
아티클 요약: 신뢰성있는 데이터를 수집해야 이에 대한 분석이 충분한 영향을 가질수 있으므로 오류와 결측치 그리고 가공정도를 확인해봐야 한다.
주요내용
1. 신뢰성있는 데이터를 수집해야 하는 이유.
2. 데이터의 가공의 정도를 조절해야하는 이유.
핵심 개념 및 용어 정리
1. 핵심 개념
1) 신뢰성 있는 데이터인가.
- 잘못된 데이터를 포함한 데이터 오류로 인해 전체적인 데이터에 영향을 줄 수 있기 때문에 데이터 분석가는 분석초기에 하나하나의 데이터를 꼼꼼히 살펴보고, 각 데이터가 어떻게 수집되어온 것인지 파악해야합니다.
2) 결측데이터 확인
- 결측 데이터가 있을때에는 데이터를 삭제하거나 특정한값 또는 평규느 중앙값등으로 수치를 대체할 수도 있지만 애초에 결측데이터가 없는 혹은 최소로 존재하는 데이터를 선택하는 것이 높은 신뢰성을 가질 수 있습니다.
3) 데이터 가공의 정도
- 양질의 데이터 판별을 위해 데이터의 가공정도를 확인해야 합니다.
- 원천 데이터: 사람의 손을 최소로 탄 상태이기에 오류가 적은편이지만 너무 복잡해 내용이나 형식을 이해하기 어려운경우가 많아 최소한의 가공을 거친 데이터가 오히려 신뢰성이 높을 수도 있습니다.
- 가공 데이터: 원천데이터를 통해 원하는 지수를 개발하거나 필요한 데이터만 추출하는 가공을 진행할 수 있지만, 이 과정을 통해 만들어낸 데이터는 추정값이면서 예측값이기 때문에 오히려 낮은 신뢰성을 가질 수 도 있습니다.
2. 결론: 우리는 데이터가 신뢰성이 있는지 분석초기에 파악해야 하며 원천 데이터를 어느정도까지 가공할 것인지 그리고 가공한 데이터를 어느정도까지 사용할 것인지 결정해야합니다.
3. 용어정리
원천 데이터: 정보의 출처가 되는 초기의 데이터
가공 데이터: 원시 데이터를 수집하고 정제,변환,통합 하는 등의 과정을 거쳐 분석하거나 활용하기에 적합한 형태로 변형된 데이터