카테고리 없음

내일배움캠프_아티클스터디_양질의 데이터를 판별하는 5가지 방법⑤

iron-min 2025. 10. 1. 20:38

https://yozm.wishket.com/magazine/detail/1123/

 

양질의 데이터를 판별하는 5가지 방법 : 5 목적에 적합한 데이터인가? | 요즘IT

사실 좋은 데이터라고 매번 쓰이는 것은 아니며 좋지 않은 데이터라고 절대 사용되지 않는 것은 아닙니다. 양질의 데이터라는 것은 상황에 따라, 분석 목적에 따라 변화하기 마련입니다. 결국

yozm.wishket.com

 

 

양질의 데이터를 판별하는 5가지 방법: ⑤ 목적에 적합한 데이터인가?

 

요약

데이터를 분석하기 전에 데이터에 존재하는 종속변수를 파악해야 하고 어떻게 가공해야 할지 또는 데이터를 사용할지에 대해 생각해 보아야 합니다.

주요포인트

데이터에 원하는 정보가 담겨있는가

1) DIKW 피라미드 이론

2) 데이터 VS 분석가

 

분석 방법에 부합하는 데이터인가

1) 머신러닝을 위한 빅데이터

2) 인사이트 도출을 위한 빅데이터

 

핵심개념

1) DIKW 피라미드 이론

 

명칭 정의 및 특징 예시
데이터(Data) 원시적인 사실이나 관찰 결과로, 가공이나 해석이 이루어지지 않아 그 자체로는 의미를 갖기 어렵습니다. (What) 스마트 워치 기록: 심박수 85bpm, 걸음 수 10000걸음, 수면 시간 6시간
정보(Information) 데이터를 맥락에 맞게 가공하고 해석하여 의미를 부여한 결과입니다. 데이터 간의 연관 관계를 도출합니다. (Who, When, Where) 오늘 하루 평균 심박수는 85bpm이고, 10000걸음을 걸었으며 수면은 6시간이었다. (데이터를 모아 의미를 부여)
지식(Knowledge) 정보를 바탕으로 경험과 학습을 통해 구조화하고 일반화시킨 결과물입니다. 특정 상황에 대한 원인과 결과를 파악하고 패턴을 이해합니다. (How) 평상시보다 심박수가 높고 수면이 부족하면 피로감을 많이 느낀다는 것을 알게 됨. (정보에 기반한 규칙, 패턴 이해)
지혜(Wisdom) 지식을 기반으로 현명한 판단을 내리고, 통찰(Insight)을 얻어 미래를 예측하거나 결정을 내리는 능력입니다. 윤리적, 비판적 사고가 결합됩니다. (Why) 내일은 컨디션 조절을 위해 좀 더 일찍 자고, 휴식 시간을 늘려야겠다고 결정함. (지식을 바탕으로 한 의사결정 및 행동 계획)

 

좋은 데이터는 정보와 지식, 지혜까지 발전되는 경우도 있지만 내용이 충실하지 않은 데이터라면 애초에 저품질의 데이터로 판별하고 분석을 이어나가는게 더욱 효율적일 수 있음.

 

2) 데이터 VS 분석가 : 사람의 역량에 따라 같은 데이터라도 질이 달라질수 있습니다.

 

3) 머신러닝을 위한 빅데이터 : 머신러닝을 할때 뎅이터의 양보단 종속 변수의 유무가 중요합니다.

데이터 활용 시나리오를 생각했을때 유용한 종속변수를 설정해야하며 데이터 속에 이 값이 명확하게 존재해야 합니다.

 

4) 인사이트 도출을 위한 빅데이터 : 인사이트 도출을 위해서는 원천 그대로의 데이터가 아닌 가공된 데이터를 사용하는게 유리합니다.

용어정리

인사이트 : '인사이트'(insight)는 한국어로 '통찰력', '식견', '이해' 등을 의미하며, 사물이나 현상의 본질을 꿰뚫어 보는 능력을 뜻합니다. 단지 정보를 아는 것을 넘어, 숨겨진 가치나 원리를 파악하고 문제의 근본적인 해결책을 제시하는 깊이 있는 이해나 깨달음을 의미합니다.

 

종속변수 : 종속변수는 독립변수(원인 변수)의 영향으로 인해 변화하는 결과 변수를 의미하며, 독립변수의 값에 따라 변한다고 해서 의존변수 또는 반응변수라고도 불립니다.