https://yozm.wishket.com/magazine/detail/1107/
양질의 데이터를 판별하는 5가지 방법 : 4 데이터 형식을 파악했는가? | 요즘IT
데이터 구조와 생김새에서 모든 데이터는 차이를 보입니다. 그리고 데이터의 생김새, 즉 데이터 형식에 따라서 분석 가치가 높은 양질의 데이터와 그렇지 못한 저품질의 데이터가 나뉘기도 합
yozm.wishket.com
내용 요약
범주형 데이터는 수학적 연산에 한계가 있기 때문에 범주형 데이터의 비중이 얼마나 되는지 상세하게 살펴봐야 합니다.
빅데이터 분석과 인사이트 도출에 있어서는 '숫자'를 대상으로 하는 것이 활용성이 높습니다.
그러므로, 범주형 데이터의 비율을 절대적인 조건으로 데이터 판별에 이용하기 보다는 하나의 참고 사항으로 양질의 데이터 판별에 활용하는 것이 타당합니다.
주요 포인트
정형 데이터와 비정형 데이터, 정형/비정형 데이터 간 활용방식의 차이, 범주형 데이터의 척도, 범주형 데이터의 비율
핵심개념
1) 정형 데이터와 비정형 데이터의 정의
| 정형 데이터 | 미리 정해 놓은 형식과 구조가 있어 그에 따라 고정된 자리에 저장된 데이터 |
| 비정형 데이터 | 정의된 구조가 없는 데이터 |
2) 정형 데이터와 비정형 데이터 간 활용 방식의 차이 : 데이터를 분석 하고자 하는 목적이 명확하다면 정형/비정형 데이터 여부에 따라서도 양질의 데이터 여부를 판달할 수 있습니다.
| 정형데이터 | 여러 통계기법을 적용할 수 있을 뿐만 아니라 머신러닝과 딥러닝 기술도 적용가능합니다. |
| 비정형 데이터 | 비정형데이터는 통계기법 사용이 불가능하고 활용에 한계가 있습니다. |
3) 데이터의 척도

1. 명목척도 : 데이터를 단순히 숫자로 변환시킨 것
2. 서열척도 : 숫자가 단순히 순서만을 의미하는 것
3. 등간척도 : 온도와 같이 각 값의 상대적 크기 비교가 가능한 것
4. 비율척도 : 무게와 같이 절대적 기준이 있는 영점이 존재하는 것
용어정리
범주형 : 몇 개의 범주로 나누어진 자료 (성별, 혈액형, 만족도 등)
수치형 : 숫자를 측정하고 표시하는 것이 가능한 자료(나이, 판매량, 고객 수 등)