구분 

표현식 

내용 

 알파벳 or 

숫자 텍스트

[[:digit:]]

 숫자 텍스트 

[[:lower:]] 

 소문자 알파벳 텍스트 

[[:upper:]]

 대문자 알파벳 텍스트 

[[:alpha:]] 

 대/소문자 알파벳 텍스트 

[[:alnum:]] 

 숫자 or 대/소문자 텍스트 

 알파벳이나 숫자가

아닌 텍스트

[[:punct:]] 

 구두점으로 표시된 텍스트

(쉼표 or 마침표 등) 

[[:gragh:]]

 [:alnum:] or [:punct:]

[[:black:]] 

 스페이스나 탭 등의 공란 텍스트 

[[:space:]]

 스페이스, 탭, 줄바꿈 등의 텍스트 

[[:print:]] 

 출력했을 때 확인할 수 있는 텍스트

[:alnun:] or [:punct:] or [:space:]

그 외 

 [[:cntrl:]]

 제어문자(control characters)로 표현된 텍스트 

[[:xdigit:]] 

 16진법을 따르는 텍스트 

 양화기호

 ?

 선행 표현을 고려할 수도, 고려하지 않을 수도 있으며 최대 1회 매칭됨 

 *

 선행 표현이 0회 혹은 그 이상 매칭됨

 +

 선행 표현이 1회 혹은 그 이상 매칭됨 

 {n}

 선행 표현이 정확하게 n회 매칭됨

 {n,}

 선행 표현이 n회 이상 매칭됨 

 {n,m}

 선행 표현이 n회, 이상 m회 미만 매칭됨  

 기타

\w 

 숫자 혹은 알파벳으로 표현된 모든 단어

 \W

 \w 제외 

\d 

 숫자로 표현된 모든 텍스트

 \D

 숫자로 표현된 모든 텍스트 제외

 \s

 공란으로 표현된 모든 텍스트 

 \S

 공란으로 표현된 모든 텍스트 제외 

 \b

 특정 표현으로 시작되거나 종결된 모든 텍스트

 \B

  특정 표현으로 시작되거나 종결되지 않은 모든 텍스트



참고) R을 이용한 텍스트 마이닝 - 백영민 지음 (한울아카데미)

이전에 우리는 ANOVA, 카이제곱 적합도 검정, 선형회귀분석 등의 방법으로 커피/프림/설탕의 섭취가 비만에 미치는 영향을 살펴보았다.


이번에는 커피 섭취 빈도가 비만에 미치는 영향을 로지스틱 회귀분석을 통해서 알아보자.





0. 로지스틱 회귀분석이란

  - 보통의 선형회귀모형은 Y(반응변수)가 연속형 변수여야한다. (오차항의 정규성 가정 때문)

    하지만 현실에서는 그렇지 못한 경우가 많은데, 대표적인 경우 고객 이탈, 발병 유무 등의 자료이다.

    이 경우 Y값은 0 또는 1을 갖는다.


    로지스틱 회귀분석은 이러한 경우에 Y가 어떠한 이항분포를 따른다고 가정하고 모형을 세우는 것이다.

    자세한 수식은 생략한다.




1. 변수 설정

   1) 앞서 언급한대로 로지스틱 회귀분석을 위해서는 반응변수(Y)가 이진 자료의 형태를 따라야 한다.

       따라서 우리가 원하는 기준변수인 HE_BMI를 기준에 따라 비만과 정상으로 분류하자.

   2) 커피 섭취 빈도는 총 9개의 범주를 가진다. 이를 적절히 묶어 범주를 줄여서 모형을 적합한다.


 변수

조건 

코딩 

 HE_BMI

25 이상

1 (비만)

25 미만

0 (정상) 

FF_COFFEE 

주1회이내 

주6회이내 

일2-3회 

3


빈도는 다음과 같다.


 주1회이내

주6회이내 

일2-3회 

 계

 641

 806

 1099

 2546






2. 모형 적합 및 결과 해석

  - 별도의 통제변수 없이 SPSS를 통해 "이분형 로지스틱" 모형을 적합한다.





    1) 유의수준 0.05에서 각 회귀계수가 모두 유의함을 확인할 수 있다.




3. 오즈비 추정


 

 

 섭취 빈도

 

 주1회이내

주6회이내 

일2-3회 

 비만여부

(HE_BMI >= 25)

 커피

 1

(기준)

1.294

(1.031-1.625) 

1.524

(1.232-1.885) 

 믹스

1

 1.076

(0.854-1.356)

 1.397

(1.156-1.688)

     

* 믹스에 대해서도 분석을 실시하여 결과를 정리했다.


  - 기준이 "주1회이내"이기 때문에 해당 칸은 1로 나타내었다.

  - 각 칸은 "주1회이내"에 대한 해당 칸의 오즈비 추정값을 구한 것이다.

  - ( ) 안에는 신뢰구간을 의미한다.


  - "주6회이내", "일2-3회" 모두 신뢰구간이 1을 포함하지 않으므로 효과가 유의하다고 할 수 있다.






4. 결론


  - 커피와 프림 모두 일일 2-3회 정도로 많이 마신다면 비만에 대해 더 큰 오즈를 갖는다.


( 발병률이 아주 낮은 사례의 경우 오즈비를 근사적으로 상대위험과 동일하게 생각할 수 있지만,

  이 때 오즈는 상대위험과 동일하게 생각하기 힘들다.)

1. 

https://shiring.github.io/machine_learning/2017/01/15/rfe_ga_post

  - 데이터셋에 대한 다양한 변수선택 방법과 그 비교

  - 누군가 한글로 rough하게 번역해둔 페이지도 있었던 것 같음.

  - Boruta Feature Importance는 무엇...



2. https://www.youtube.com/watch?v=ClAZQI_B4t8

  - Winning Data Science Competitions: Jeong-Yoon Lee

   - 말그대로 데이터사이언스 대회 관련한 팁이 담긴 1시간 30분짜리 영상

   - 단, 전부 영어..


+ Recent posts