이번에는 캐글의 타이타닉 문제에서
Erik Bruin의 2degree families and majority voting을 참고했음을 밝힙니다.
(https://www.kaggle.com/erikbruin/titanic-2nd-degree-families-and-majority-voting)
===================================================
- 먼저 데이터를 불러오고 변수별 결측값의 여부를 살핀다.
그 후 결측값이 없는 변수들부터 먼저 시각화하며 살펴본다.
1) 종속변수(Survived)
- 전체의 61.6%가 사망했음을 알 수 있다.
2) 성별(Sex)
- 전체 데이터셋에서 남녀 성비를 살펴보고,
- 트레이닝 데이터셋의 성별과 생존여부를 모두 살펴보았다.
그 결과 남자가 생존하지 못하는 비율이 아주 많음을 확인했다. - insight
3) 승객 등급(Passenger Class)
- 전체 수는 3등급이 가장 많다.
- 이를 생존여부와 함께 보았을때는 3등급에 승선한 고객은 대부분 생존하지 못했다.
- 여기에 성별까지 추가했을 때 1,2 등급에 승선한 여성 고객은 대부분 생존했음을 확인할 수 있다.
또한 2,3등급에 승선한 남성 고객은 별 차이없이 대부분 생존하지 못했음을 알 수 있다. - insight
>> 즉, 여러 변수를 추가하고 쪼개면서 그림을 그릴 수록 특정한 insight를 얻을 수 있다.
또한, 이때 ggplot의 모양을 조정하며 다양한 모습으로 그려낼 수 있다.
===================================================
다음에는 Feature Engineering에 대해서 살펴보자.
'Kaggle > Titanic' 카테고리의 다른 글
Extracting title from full name using regular expression (0) | 2018.10.16 |
---|---|
[공부] Titanic: Machine Learning from Disaster(2) (0) | 2018.02.01 |
[공부] Titanic: Machine Learning from Disaster(1) (0) | 2018.01.31 |