내일배움캠프_데이터분석 종합반 1,2일차

카테고리 없음

iron-min 2025. 9. 9. 19:46

우선

다음과 같은 엑셀 그래프를 상관계수로 표현할 수 있는데요 원래는 분산분석을 통해 제곱합을 구하여

r(xy)=S(xy)/{S(xx)*S(YY)} 와 같은 수식으로 계산해야 하지만 이번 강의에서는 클릭한번으로 구할 수 있더라고요

XLMiner Analysis TooPak을 설치해주면

요런 확장 프로그램이 생기는데 이걸 분석해주면

이런식으로 표를 생성해줄수 있고 이걸 차트화해주면

이런 그래프를 만들어줄 수 있습니다. survived와 상관계수를 나타내준것이구요.

(차트설정에서 survived를 제외하고 다 제거해주면 됩니다)

보면 성별이 가장 큰 상관관게를 가지는 것을 볼수 있습니다.

딕셔너리 사용법

리스트 사용법

리스트랑 딕셔너리랑 차이점이 뭔지 명확하게 집고 넘어가고 싶어서 찾아봤는데

딕셔너리는 문자로 결과를 불러오는거고 리스트는 숫자로 불러오는 느낌 인것 같습니다.

다음으로 1일차에서 했던 데이터를 그대로 분석해보는 방법을 배웠습니다.

#Pandas 라이브러리 불러오기

import pandas as pd

#피마 인디언 당뇨병 파일 불러오기

diabetes = pd.read_table('diabetes.csv',sep=',')

#데이터 앞부분 확인 하기

diabetes.head()

→ head() 안에 숫자를 넣으면 위에서 부터 정해진 숫자까지 데이터를 띄어줄 수 있습니다.

#데이터가 null인 데이터 출력하기

print(diabetes.isnull().sum())

→ 확인하고 삭제해도 됩니다.

#데이터가 null인 데이터 제거 하기

diabetes = diabetes.dropna()

#상관관계 분석하기

corr = diabetes.corr(method='pearson')

→ 상관관계를 피어슨 법칙으로 분석한다고 합니다.

#Outcome 상관관계 계수가 1인 요소 제외하고 출력하기

corr = corr[corr.Outcome !=1]

corr

#matplotlib으로 시각화 하기

import matplotlib.pyplot as plt

corr['Outcome'].plot()

→ 히스토그램으로 나오게 됩니다.

#바 그래프로 변경하기

corr['Outcome'].plot.bar()

이런식으로 코드를 짜주면

요런 데이터가

요렇게 나오게 됩니다.

아직은 상관계수를 숫자로 띄우는 방법은 못배웠는데 엑셀을 사용하는 것보다 파이썬이 더 많은 데이터를 명령어 몇가지로 다룰 수 있다는 점에서 편한것 같습니다.