이번에는 캐글의 타이타닉 문제에서


Erik Bruin의 2degree families and majority voting을 참고했음을 밝힙니다.

(https://www.kaggle.com/erikbruin/titanic-2nd-degree-families-and-majority-voting)

===================================================


- 먼저 데이터를 불러오고 변수별 결측값의 여부를 살핀다.

   그 후 결측값이 없는 변수들부터 먼저 시각화하며 살펴본다.


   1) 종속변수(Survived)

       - 전체의 61.6%가 사망했음을 알 수 있다.


   2) 성별(Sex)

       - 전체 데이터셋에서 남녀 성비를 살펴보고,

       - 트레이닝 데이터셋의 성별과 생존여부를 모두 살펴보았다.

          그 결과 남자가 생존하지 못하는 비율이 아주 많음을 확인했다. - insight


   3) 승객 등급(Passenger Class)

       - 전체 수는 3등급이 가장 많다.

       - 이를 생존여부와 함께 보았을때는 3등급에 승선한 고객은 대부분 생존하지 못했다.

       - 여기에 성별까지 추가했을 때 1,2 등급에 승선한 여성 고객은 대부분 생존했음을 확인할 수 있다.

          또한 2,3등급에 승선한 남성 고객은 별 차이없이 대부분 생존하지 못했음을 알 수 있다. - insight


   >> 즉, 여러 변수를 추가하고 쪼개면서 그림을 그릴 수록 특정한 insight를 얻을 수 있다.

        또한, 이때 ggplot의 모양을 조정하며 다양한 모습으로 그려낼 수 있다.



===================================================


다음에는 Feature Engineering에 대해서 살펴보자.

+ Recent posts