Guts !!
[패스트 캠퍼스 수강 후기] 올인원 패키지: 직장인을 위한 파이썬 데이터 분석 100% 환급 챌린지 48회차 미션 본문
[패스트 캠퍼스 수강 후기] 올인원 패키지: 직장인을 위한 파이썬 데이터 분석 100% 환급 챌린지 48회차 미션
버블스텝 2020. 12. 5. 23:25[ 파이썬 의 필수 스킬 - 머신러닝 ] - 종합 정리 (2)
- 학습 데이터, 예측 데이터
- Training Set , Test Set, Validation Set
- Pre-Processing (전처리)
1) 결측치 처리

[ 학습 데이터, 예측 데이터 ]
X : Feature 라고 함. 학습을 위한 데이터 세트, 예측할 값은 빠져 있슴.
Y : Labels 라고 함. 예측해야 할 값임. 예측값만 존재함.
X_train , X_test
Y_train, Y_test(예측)
학습을 위한 데이터는 Training Set 이라고 함.
예측을 위한 데이터는 Test Set 이라고 하며 둘의 가장 큰 차이는 Label이 있냐 없냐
[ 검증 데이터 Validation ]
학습을 계속 ~ 시켜도 문제가 생기게 되는데 그것은 바로 OVERFITTING이다. 정확도는 높지만 실제 사례에 적용을 하면 일반화 오류에 빠지게 된다. 오히려 정확도를 떨어트리는 역활을 함.
반대로 UNDERFITTING은 훈련을 안해서 정확도 떨어지는 경우다.
그렇기 때문에 Training Set에 모든 데이터를 훈련을 시키는 것이 아니라 그 중에서도 100% 중 20% 만 선정을 해서 검증을 해주는 Validation Set을 만들어서 훈련을 하게 된다.
위와 같은 Training Set 과 Validation Set 을 나눠 주는 일을 진행 하겠습니다.

사이킷런에 train_test_split 이라는 패키지를 불러 오게 되고

train_test_split(train[feature], train[label] ) 인데 test_size = 0.2 로 하게 되면 100% --> 20% shuffle =True 로 하게 되면 섞게 된다. random_state = 30 으로 설정을 하게 되면 기준값을 주게 되는 것인데 매번 데이터의 기준값을 선정하고 섞이기 때문에 훈련의 능력 부분이 떨어질 가능성이 있음.
[ Pre-Processing (전처리) ]
1) 결측치 처리

위의 데이터를 보면 Age Cabin Embarked 컬럼에 결측치가 존재 하는 것을 볼 수 있습니다.

위의 형태는 이전 전처리 과정에서 배웠던 것 처럼 결측치를 처리 하는 형태 이다. 평균값으로 넣어주는 방식이다.
위 과정은 매우 불편하다 하나 하나 깨속 넣어줘야 한다. fillna 는 하나의 경우만 처리 할 수 있기 때문이다.

만약 2개 이상의 컬럼을 한번에 처리 하려면 어떻게 빠르게 할 수 있을까?? SimpleImputer 를 사용하자.
방식은 Strategy함수를 이용해서 평균의 값을 SimpleImputer를 하고 그 값을 하나의 객체에 넣어주자.
그 다음에 transform 을 이용해서 결측치가 존재하는 컬럼인덱스에 해당 값을 넣어주는 역활을 하게 된다.
결과는 ....

결측치가 제거 되었다. !!
오늘의 포스팅은 여기 까지 입니다. 다음 포스팅은 역시나 머신러닝!!! 에 대한 것
해당 강의 이미지 링크
'FastCampus[직장인] 위한 파이썬(미션)' 카테고리의 다른 글
| [패스트 캠퍼스 수강 후기] 올인원 패키지: 직장인을 위한 파이썬 데이터 분석 100% 환급 챌린지 50회차 미션 (0) | 2020.12.07 |
|---|---|
| [패스트 캠퍼스 수강 후기] 올인원 패키지: 직장인을 위한 파이썬 데이터 분석 100% 환급 챌린지 49회차 미션 (0) | 2020.12.06 |
| [패스트 캠퍼스 수강 후기] 올인원 패키지: 직장인을 위한 파이썬 데이터 분석 100% 환급 챌린지 47회차 미션 (0) | 2020.12.04 |
| [패스트 캠퍼스 수강 후기] 올인원 패키지: 직장인을 위한 파이썬 데이터 분석 100% 환급 챌린지 46회차 미션 (0) | 2020.12.03 |
| [패스트 캠퍼스 수강 후기] 올인원 패키지: 직장인을 위한 파이썬 데이터 분석 100% 환급 챌린지 45회차 미션 (0) | 2020.12.02 |
