카테고리 없음

내일배움캠프_QA/QC 아티클 스터디_양질의 데이터를 판별하는 5가지 방법:① 데이터 양은 충분한가?

iron-min 2025. 9. 18. 15:00

https://yozm.wishket.com/magazine/detail/1070/

분석한 아티클입니다.

 

양질의 데이터를 판별하는 5가지 방법 : 1 데이터 양은 충분한가? | 요즘IT

양질의 데이터 조건 첫 번째는 ‘충분한 양의 데이터’입니다. 최근 빅데이터라는 단어가 기승을 부리고 있으며 빅데이터는 기본적으로 방대한 양의 데이터를 의미합니다. 하지만 현실적으로

yozm.wishket.com

 

1. 아티클 내용 및 주요 포인트

내용 요약: 데이터를 분석하고자 할 경우 데이터의 품질이 고품질인지 데이터의 양은 충분한지 확인해봐야한다.

 

주요포인트

▶ 양질의 데이터란

▶ 데이터의 양이 충분한가 

2. 핵심개념 및 용어정리

★ 데이터의 품질

1) 품질이 높은 데이터를 써야하는 이유: 품질이 높은 데이터일 수록 데이터가 명확하고 깔끔하여 해석이 용이합니다.

활용가치가 없는 혹은 활용하기 어려운 데이터는 애초에 수집하지 않거나 분석을 시도하지 않는 것이 경제적인 비용과 시간적인 비용 측면에서 우수합니다.

 

2) 양질의 데이터를 판단하는 방법

① 데이터의 수가 충분히 많다.

② 데이터 자체의 오류가 적다.

③ 관계형데이터베이스 형식을 잘 지키고 있다.

④ 수치형 데이터 형식을 많이 보유하고 있다.

⑤ 활용목적에 적합하다

 

★ 데이터의 양

1) 우리는 모집단을 대표할 수 있는 충분한 양의 데이터를 확보해야합니다.

데이터가 많아질 수록 결과가 모집단과 통계적 유의성을 가질 수 있으며 평균과 수치분석을 사용할때에도 머신러닝과 딥러닝 기술의 필요성에 의해 데이터의 양을 우선으로 확인해야 합니다.

 

2) 어느정도가 데이터의 충분한 양일까

통계적 분석을 할때 : 500개 이상의 데이터

머신러닝 분야 : 변수의 수 X 100 개 이상의 데이터

 

3.실무 적용 사례

스마트 팩토리의 생산 최적화

① 실시간 모니터링 및 분석 : 공장 관리자는 대시보드를 통해 생산 라인 전반의 상태를 실시간으로 파악합니다.

② 병목 현상 식별 : 생산 흐름 데이터를 분석하여 어디에서 공정이 지연되고 있는지를 찾아내고, 이를 해결하여 전체 생산 효율을 높일 수 있습니다.