Guts !!
[패스트 캠퍼스 수강 후기] 올인원 패키지: 직장인을 위한 파이썬 데이터 분석 100% 환급 챌린지 46회차 미션 본문
[패스트 캠퍼스 수강 후기] 올인원 패키지: 직장인을 위한 파이썬 데이터 분석 100% 환급 챌린지 46회차 미션
버블스텝 2020. 12. 3. 23:43패스트푸드점 매장 분포 분석 에 따른 데이터분석
[ 전처리에 관한 이야기 ] - 결측치

결측치 처리에 대해서 과정과 예제를 통해서 알아가는 시간을 갖겠습니다.
먼저 처리에 과정을 살펴보면 아래와 같습니다.
1. 결측치를 갖고 있는 데이터의 종류를 알자.
2. 결측값 유형 탐색하기 (표 만들기, 결측치간 상관관계)
3. 결측 데이터의 원인 및 각각의 원인에 따른 처리 방법론
4. 결측치 처리 방법 선택 1) 합리적 접근법, 2) 완전제거법 , 3) 다중 대체
[ 결측 데이터에 대한 종류 ]
데이터가 누락 된 이유를 이해하는 것은 나머지 데이터를 올바르게 처리하는데 중요합니다. 결측 데이터의 종류를 살펴보는 이유는 결측치의 종류에 따라 다른 접근방법이 필요하고 데이터를 이해하는데 도움이 되기 때문입니다.
결측치의 종류에 라는 것이 있나??? 그냥 없는게 결측치 아니야?? 라고 할 수 있는데 3가지로 크게 분류가 됩니다.
1. 완전 무작위 결측 ( MCAR )
변수 상에서 발생한 결측치가 다른 변수 들과 아무런 상관이 없는 경우 우리는 완전 무작위 결측 이라고 합니다. 대부분 결측치 처리 패키지를 MCAR을 가정으로 하고 있고 보통 우리가 생각하는 결측치라고 이해 하면 쉽습니다.
위와 같은 완전 무작위 결측은 보통 제거하거나 대규모 셋에서는 단순 무작위 표본추출을 통해서 완벽한 데이터 셋으로 만들어 줍니다.
2. 무작위 결측 ( MAR )
누락된 자료가 특정 변수와 관련되어 일어나지만, 그 변수의 결과는 관계가 없는 경우를 의미 합니다. 그리고 누락이 전체 정보가 있는 변수로 설명이 될 수 있음을 의미 합니다.
3. 비 무작위 결측 ( MNAR )
위의 두가지 유형이 아닌 경우를 MNAR 이라고 합니다. 이 MNAR 같은 경우는 누락된 값이 다른 변수와 연관 있는 경우를 의미합니다. 위의 예시를 확장해서, 만약 남성이 우울증 설문 조사에 기입하는게 우울증의 정도와 관련이 있다면 이것이 MNAR 입니다.
더욱 예를 들어서 MAR 와 MNAR의 차이에 대한 다른 예시로 아래와 같은 예시가 있습니다.
성별(X) 의 함수로 체중(Y)을 모델링 한다고 가정 해보십시오. 일부 응답자는 체중을 공개하지 않으므로 Y값이 누락되었습니다. 결측치 종류에는 3가지 메커니즘이 있습니다.
1) 일부 응답자가 귀하에게 체중을 말했고 다른 응답자는 체중을 말하지 않은 이유가 없습니다.
즉, Y가 누락 될 확률은 X 또는 Y와 관련이 없습니다. = MCAR (무작위로 완전히 누락)
2) 여성은 체중을 공개 할 가능성이 적습니다. 즉, Y가 누락 될 확률은 X의 값에만 의존합니다.
= MAR (무작위 결측 )
3) 무거운 사람들은 체중을 공개할 가능성이 적습니다. 즉, Y가 누락될 확률은 Y 자체의 관찰되지 않는 값에 달려 있습니다. 이러한 데이터는 비 무작위 결측이라고 합니다. (MNAR)

sort_valuses 를 이용해서 각 데이터를 뽑아주고 제일 중요한 isnull()을 이용해서 결측치를 나타내 줍시다. isnull() 함수는 각 결측치를 부울함수로 나타내 줍니다. sum()을 사용하면 결측된 데이터의 값이 더해 져서 나오게 됩니다.
ascending=False를 하게 되면 오름차순으로 정렬하게 됩니다.

결측치에 대한 값의 차이가 너무 극심하기 때문에 퍼센트로 해주었고 concat이라는 함수를 사용해서 데이터 프레임을 더해주는 역활을 하게됩니다. axis =1 이기 때문에 열을 기준으로 합치게 됩니다.


이전 시간에 배웠던 missingno를 이용해서 서로의 상관 관계를 나타내 주겠습니다.

오늘의 포스팅은 여기까지 입니다.
해당 강의 이미지 링크
'FastCampus[직장인] 위한 파이썬(미션)' 카테고리의 다른 글
| [패스트 캠퍼스 수강 후기] 올인원 패키지: 직장인을 위한 파이썬 데이터 분석 100% 환급 챌린지 48회차 미션 (0) | 2020.12.05 |
|---|---|
| [패스트 캠퍼스 수강 후기] 올인원 패키지: 직장인을 위한 파이썬 데이터 분석 100% 환급 챌린지 47회차 미션 (0) | 2020.12.04 |
| [패스트 캠퍼스 수강 후기] 올인원 패키지: 직장인을 위한 파이썬 데이터 분석 100% 환급 챌린지 45회차 미션 (0) | 2020.12.02 |
| [패스트 캠퍼스 수강 후기] 올인원 패키지: 직장인을 위한 파이썬 데이터 분석 100% 환급 챌린지 44회차 미션 (0) | 2020.12.01 |
| [패스트 캠퍼스 수강 후기] 올인원 패키지: 직장인을 위한 파이썬 데이터 분석 100% 환급 챌린지 43회차 미션 (0) | 2020.11.30 |
