Guts !!

[패스트 캠퍼스 수강 후기] 올인원 패키지: 직장인을 위한 파이썬 데이터 분석 100% 환급 챌린지 27회차 미션 본문

FastCampus[직장인] 위한 파이썬(미션)

[패스트 캠퍼스 수강 후기] 올인원 패키지: 직장인을 위한 파이썬 데이터 분석 100% 환급 챌린지 27회차 미션

버블스텝 2020. 11. 14. 22:05

[ Python 필수 스킬 - Pandas ] 

- 통계값  (min, max, describe // 분산 및 표준편차 ) 

 


오늘 포스팅은 통계값 과 분산 및 표준편차에 대해서 공부를 하겠습니다. 

 

[통계값  (min, max, describe // 분산 및 표준편차) ] 

 

df. describe() 데이터프레임에 수치값으로 되어있는 컬럼의 데이터값의 count, 평균값, 표준편차, 최소값 그리고 중앙값에 25% 50% 75% 최대,최소값으로 반환이 된다. 

 

저번에 df.info()라는 명령어를 치게 되면 데이터프레임의  데이터 타입 부터 행과 열의 수 모든 정보를 알 수 있습니다. 

count가 13이라는 것은 키값을 보면 13 non-null 즉, 13개 행으로 데이터가 들어가 있다는 것을 알 수 있습니다. 

mean() : 평균을 알수 있다. sum(): 데이터의 총합을 알 수 있다.


 

[ 표준 편차 및 분산 ]

 

분산과 표준편차는 데이터가 평균으로 부터 얼마나 떨어져 있는지 정도를 나타냅니다. 

일반적으로 분산보단 표준편차를 더욱 다룬다. 그리고 분산의 루트가 표준편차이다.  분산은 (데이터-평균)**2 형태임

 

표준편차를 주로 분산보다 많이 확인하는 이유는 데이터 값이 차후에 몇백만개가 되버리면 이에 제곱근을 해주는 형태인분산의 값들은 그 이상으로 커져버리게 되서 전체적인 시스템에 부하를 주게 된다고 합니다. 

그렇기에 그냥 루트를 사용한 표준편차를 사용해서 값을 얻어 낸 다고 볼 수 있습니다. 

 

data01.mean() # 평균 구하기 

> 5.0 

data02.mean()

> 5.0 

data01.var() # 분산 구하기 

>8.0

data02.var()

>2.0

분산 -> (데이터-평균)**2 

 

a = (data01 - 5) ** 2  
a.mean() 
> 8.0 
위의 값은 data01.var() 와 같음. 

b = (data02 - 5) **2 
b.mean()
> 2.0 
위의 값은 data02.var() 와 같음.  
np.sqrt(data01.var()), np.sqrt(data02.var())

data01.std(), data02.std()

df['키'].median()  # 중앙값 처리 

df['키'].mode() # 최빈값 을 의미 한다. 이는 제일 많이 빈출된 값을 뽑아준다.

 


오늘의 포스팅은 pandas 강의 중 통계값에 대한 내용이였습니다. 

 

해당 강의 이미지 링크 

 

https://bit.ly/3havsav