* 다음 글은 erikbruin의 kernel을 보며 공부한 내용입니다.
1. ggplot을 이용한 plotting
ggplot(data=all[!is.na(all$SalePrice),], aes(x=SalePrice)) +
geom_histogram(fill='blue', binwidth = 10000) +
scale_x_continuous(breaks= seq(0, 800000, by=100000), labels=comma)
> scales라는 library를 설치해야 한다
이는 수치형 변수인 labels에 천단위마다 ,를 붙여줌
ex) > comma(80000)
[1] "80,000"
2. 각 변수가 수치형인지 알아보기
numericVars <- which(sapply(all, is.numeric))
cat('There are', length(numericVars), 'numeric variables.')
- 예전에 누가 물어봤던 건데 그에 대한 해결방법을 찾음.
- apply(all, 2, is.numeric) 과는 결과가 다른데 왜 그런지는 알아내지 못함...
3. cor( ) 함수의 use옵션
cor_numVar <- cor(all_numVar, use="pairwise.complete.obs")
use | an optional character string giving a method for computing covariances in the presence of missing values. This must be (an abbreviation of) one of the strings > missing values에 대한 처리 방법인듯? pairwise.complete.obs : 각 변수별로 결측치를 관리한다. |
'Kaggle > House prices' 카테고리의 다른 글
[참고] 부동산 관련 지식 reference (0) | 2018.04.22 |
---|