Guts !!
[패스트 캠퍼스 수강 후기] 올인원 패키지: 직장인을 위한 파이썬 데이터 분석 100% 환급 챌린지 30회차 미션 본문
[패스트 캠퍼스 수강 후기] 올인원 패키지: 직장인을 위한 파이썬 데이터 분석 100% 환급 챌린지 30회차 미션
버블스텝 2020. 11. 17. 23:44[ Python 필수 스킬 - Pandas ]
- Multi index
오늘 포스팅에 대한 내용은 멀티 인덱스 입니다. 행 인덱스를 복합적으로 구성하고 싶은 경우는 인덱스를 리스트로 만들어 주는데요 실습을 통해서 진행을 하겠습니다.
[ 패키지 불러오기 및 파일 불러오기 ]
import pandas as pd
import numpy as np
df = pd.read_csv("./part1/idol.csv")
이후 인덱스를 복합적으로 잡아주는 것 이전에 배웠던 group by를 사용합니다.
df.groupby(['혈액형','성별']).mean()
위와 같이 혈액형과 성별을 인덱스로 잡아주는 형태 입니다. group by를 통해 인덱스를 2개 잡아주는 것을 멀티인덱스라고 합니다. 따로 대단한 코드가 있는 것이 아닙니다.
그러나 주의 해야 하는 것은 혈액형 , 성별 이렇게 되어있는데 이것은 과정을 잘 보면 먼저 혈액형으로 나눠주고 그 뒤에 성별로 나눠주는 형태이기 때문에 순서가 중요하게 됩니다. 반대로 하면 다르게 나오기 때문에 처음 부터 원하는 데이터가 무엇을 먼저 중심으로 잡는 냐에 따라 다르게 됩니다.
[ 멀티인덱스 데이터프레임을 피벗 으로 변환 가능 ]
df2 = df.groupby(["혈액형","성별"]).mean() 을 만들어 줍니다.
df2.unstack("혈액형")
위와 같은 코드를 입력하게 되면 혈액형이 인덱스로 묶여있는 것이 아니라 피벗테이블 처럼 위에 컬럼으로 쭉 클래스가 나열 되게 됩니다. unstack()이라는 함수는 그 안에 들어가 있는 인덱스를 클래스 별로 컬럼에 나열 시켜주는 역활을 하게 됩니다.
위의 이미지를 보시면 성별로 인덱스가 묶여 있는 상황에서 unstack("혈액형")을 통해 혈액형의 클래스가 컬럼으로 나열 된 것을 볼 수 있습니다.
이러한 변환된 인덱스를 다시 되돌리는 방법도 있어야 되는데 그건 바로 초기화 인덱스 입니다.
[ reset_index = 초기화 ]
df2.reset_index() 라는 코드 입니다.
df2.reset_index() 라는 코드를 사용하게 되면 인덱스로 묶여 있던 것들을 초기화 시켜주는 역확을 하게 됩니다.
오늘 포스팅은 여기 까지 입니다. 다음 강의 내용은 "전처리" 입니다. 이 부분에서는 조금더 자세하게 강의를 듣고 예제를 더욱 추가해서 해볼 생각입니다. 그 이유는 Raw data를 시각적으로 또는 데이터를 분석하는 단계를 잘 접어 들기 위해서는 얼마나 raw data들을 전처리를 잘하냐에 달려있다고 합니다.
해당 강의 이미지 링크
'FastCampus[직장인] 위한 파이썬(미션)' 카테고리의 다른 글
[패스트 캠퍼스 수강 후기] 올인원 패키지: 직장인을 위한 파이썬 데이터 분석 100% 환급 챌린지 32회차 미션 (0) | 2020.11.19 |
---|---|
[패스트 캠퍼스 수강 후기] 올인원 패키지: 직장인을 위한 파이썬 데이터 분석 100% 환급 챌린지 31회차 미션 (0) | 2020.11.18 |
[패스트 캠퍼스 수강 후기] 올인원 패키지: 직장인을 위한 파이썬 데이터 분석 100% 환급 챌린지 29회차 미션 (0) | 2020.11.16 |
[패스트 캠퍼스 수강 후기] 올인원 패키지: 직장인을 위한 파이썬 데이터 분석 100% 환급 챌린지 28회차 미션 (0) | 2020.11.15 |
[패스트 캠퍼스 수강 후기] 올인원 패키지: 직장인을 위한 파이썬 데이터 분석 100% 환급 챌린지 27회차 미션 (0) | 2020.11.14 |