[Titanic] 2번째 참고 공부

2018. 2. 4. 18:54

이번에는 캐글의 타이타닉 문제에서

Erik Bruin의 2degree families and majority voting을 참고했음을 밝힙니다.

(https://www.kaggle.com/erikbruin/titanic-2nd-degree-families-and-majority-voting)

===================================================

- 먼저 데이터를 불러오고 변수별 결측값의 여부를 살핀다.

그 후 결측값이 없는 변수들부터 먼저 시각화하며 살펴본다.

1) 종속변수(Survived)

- 전체의 61.6%가 사망했음을 알 수 있다.

2) 성별(Sex)

- 전체 데이터셋에서 남녀 성비를 살펴보고,

- 트레이닝 데이터셋의 성별과 생존여부를 모두 살펴보았다.

그 결과 남자가 생존하지 못하는 비율이 아주 많음을 확인했다. - insight

3) 승객 등급(Passenger Class)

- 전체 수는 3등급이 가장 많다.

- 이를 생존여부와 함께 보았을때는 3등급에 승선한 고객은 대부분 생존하지 못했다.

- 여기에 성별까지 추가했을 때 1,2 등급에 승선한 여성 고객은 대부분 생존했음을 확인할 수 있다.

또한 2,3등급에 승선한 남성 고객은 별 차이없이 대부분 생존하지 못했음을 알 수 있다. - insight

>> 즉, 여러 변수를 추가하고 쪼개면서 그림을 그릴 수록 특정한 insight를 얻을 수 있다.

또한, 이때 ggplot의 모양을 조정하며 다양한 모습으로 그려낼 수 있다.

===================================================

다음에는 Feature Engineering에 대해서 살펴보자.

Extracting title from full name using regular expression (0)	2018.10.16
[공부] Titanic: Machine Learning from Disaster(2) (0)	2018.02.01
[공부] Titanic: Machine Learning from Disaster(1) (0)	2018.01.31

STAT_art