Guts !!
[패스트 캠퍼스 수강 후기] 올인원 패키지: 직장인을 위한 파이썬 데이터 분석 100% 환급 챌린지 32회차 미션 본문
[패스트 캠퍼스 수강 후기] 올인원 패키지: 직장인을 위한 파이썬 데이터 분석 100% 환급 챌린지 32회차 미션
버블스텝 2020. 11. 19. 23:45[ Python 필수 스킬 - Pandas ]
- 중복된값 지우기 : drop_duplicates
- column, row 지우기 : drop
오늘 포스팅에 대한 주제는 어제에 이어서 전처리에 대한 이야기 입니다. 전처리 중에 "중복되는 값을 지울 수 있는 명령어 인데요." 바로 drop_duplicates()" 라는 것과 Column 과 Row 를 지울 수 있는 명령어 drop 에 대해서 포스팅을 하겠습니다.
[ 중복된값 지우기 : drop_duplicates ]
데이터를 일단 불러 오고 필요한 pandas를 임포트 시키겠습니다
Import pandas as pd df = pd.read_csv("./part1/idol.csv") ![]() |
결과값을 확인해 보면 5번과 10번의 행이 삭제되어 있는 것을 확인 할 수 있습니다. 위의 결과 이미지는 원본데이터에 대한 출력을 보여주고 있습니다.
이러한 이유는 drop_duplicates 의 가장 큰 특징 중에 하나가 중복된 값에 제일 먼저 시작된 값은 Keep 시키고 그 다음에 나오는 중복값은 제거 하는 형태이기 때문입니다. 그렇기에 5번과 10번 행의 값이 제거 된것을 알 수 있습니다.
그렇다면 이러한 첫번째에 대한 내용을 Keep을 매일 해야 할까??
변경시키는 옵션이 있습니다.
df['키'].drop.duplicates(Keep= "last") 기본적으로 적용된 값은 First 이기 떄문에 뒤에 Keep이라는 옵션을 이용해서 last라고 하면 첫번째 중복값이 사라지게됩니다. ![]() 결과를 확인해 보면 5번 행이 사라지지 않고 3번 행이 사라진 것을 볼 수 있습니다. |
[ 중복된값 지우기 : drop_duplicates (컬럼명) ]
위에서는 각각의 컬럼을 지정한 상태에서 시리즈형태로 컬럼에 해당하는 조건에 맞는 데이터 를 제거해 주는 경우였습니다. 이번에는 만약에 컬럼명을 주게 된다면 어떻게 될까??
위 처럼 하나의 컬럼 인덱스가 아닌 전체 데이터 프레임의 컬럼을 대상으로 조건을 수행 한다고 볼 수 있습니다.
여기서 info()함수를 사용해서 각 행의 갯수를 비교해 보겠습니다.
위에서 본 것은 컬럼을 기준으로 새롭게 제거한 경우이며 df라는 객체는 원본 데이터 입니다. 행의 갯수가 줄어 든 것을 볼 수 있습니다. 그룹이라는 컬럼에서 중복을 이루는 첫번째 데이터 말고 그 이후 데이터를 갖는 행이 모두 삭제 된 것이라고 예측할 수 있습니다.
[ column, row 지우기 : drop ]
이번에는 컬럼에 과 Row를 삭제하는 경우를 살펴 보겠습니다. 이번 과정에서 주의 해야 될 점은 axis에 대한 것입니다. 1일때는 컬럼 기준 0일때는 Row 기준이라는 것을 명심하고 옵션을 주어야됩니다.
위처럼 그룹이라는 이름은 컬럼에 이름이지만 뒤에 axis의 옵션을 1로 주었을때는 오류가 뜨지 않지만 0으로 줬을때는 Row의 이름이 알맞지 않다 찾지 못하겠다라는 오류를 반환해 줍니다.
또는 이렇게 컬럼을 인덱싱 하는 것처럼 하고 뒤에 함수를 붙이는 방법... 마치 이것은 틀리지 않는 구문 처럼 보이지만
drop에 대한 옵션에 어떠한 라벨이나 index 또는 컬럼을 최소한으로 하나 지정을 해줘야 한다라는 오류를 반환해 주는 것을 볼 수 있습니다.
위와 같은 오류를 범하지 않기 위해서는 컬럼에 대한 정확한 이름을 적고 다중으로 입력을 하고 싶다면 []를 이용해서 묶어주고 axis = 1 을 기준으로 (즉, 컬럼) 제거해주는 형태로 가야 합니다.
이전 과 동일 하게 drop() 과 같은 원 데이터의 변환을 주는 함수는 inplace를 True로 주게 되면 적용이 되는 것을 알 수 있습니다.
행을 지울때는 행에 해당하는 자리수를 넣어주면 됩니다. 만약에 행에 이름이 들어 갔다면 그 이름을 적으면 됩니다.
위 그림 처럼 3번째 row index가 제거 된 것을 볼 수 있습니다.
오늘 포스팅은 여기까지 입니다. 그 다음 시간은 전처리에 제거를 하였으니
이제 덧붙여주거나 추가해주는 것을 포스팅 하겠습니다.
해당 강의 이미지 링크
'FastCampus[직장인] 위한 파이썬(미션)' 카테고리의 다른 글
[패스트 캠퍼스 수강 후기] 올인원 패키지: 직장인을 위한 파이썬 데이터 분석 100% 환급 챌린지 34회차 미션 (0) | 2020.11.21 |
---|---|
[패스트 캠퍼스 수강 후기] 올인원 패키지: 직장인을 위한 파이썬 데이터 분석 100% 환급 챌린지 33회차 미션 (0) | 2020.11.20 |
[패스트 캠퍼스 수강 후기] 올인원 패키지: 직장인을 위한 파이썬 데이터 분석 100% 환급 챌린지 31회차 미션 (0) | 2020.11.18 |
[패스트 캠퍼스 수강 후기] 올인원 패키지: 직장인을 위한 파이썬 데이터 분석 100% 환급 챌린지 30회차 미션 (0) | 2020.11.17 |
[패스트 캠퍼스 수강 후기] 올인원 패키지: 직장인을 위한 파이썬 데이터 분석 100% 환급 챌린지 29회차 미션 (0) | 2020.11.16 |