* 다음 글은 erikbruin의 kernel을 보며 공부한 내용입니다.


1. ggplot을 이용한 plotting


ggplot(data=all[!is.na(all$SalePrice),], aes(x=SalePrice)) +

           geom_histogram(fill='blue', binwidth = 10000) +

           scale_x_continuous(breaks= seq(0, 800000, by=100000), labels=comma)  

  > scales라는 library를 설치해야 한다

     이는 수치형 변수인 labels에 천단위마다 ,를 붙여줌

     ex) > comma(80000)

              [1] "80,000"



2. 각 변수가 수치형인지 알아보기


numericVars <- which(sapply(all, is.numeric))

cat('There are', length(numericVars), 'numeric variables.')


    - 예전에 누가 물어봤던 건데 그에 대한 해결방법을 찾음.

    - apply(all, 2, is.numeric) 과는 결과가 다른데 왜 그런지는 알아내지 못함...




3. cor( ) 함수의 use옵션


cor_numVar <- cor(all_numVar, use="pairwise.complete.obs")


use

an optional character string giving a method for computing covariances in the presence of missing values. This must be (an abbreviation of) one of the strings "everything""all.obs""complete.obs""na.or.complete", or "pairwise.complete.obs".

> missing values에 대한 처리 방법인듯?

   pairwise.complete.obs : 각 변수별로 결측치를 관리한다.


'Kaggle > House prices' 카테고리의 다른 글

[참고] 부동산 관련 지식 reference  (0) 2018.04.22

1. 부동산 관련 영어표현

   - http://egloos.zum.com/janghans/v/718466


2. 주택의 대지

   - http://thelondonkoreannews.com/?p=460

'Kaggle > House prices' 카테고리의 다른 글

[배우고 있는 것]  (0) 2018.04.22

+ Recent posts