구분 

표현식 

내용 

 알파벳 or 

숫자 텍스트

[[:digit:]]

 숫자 텍스트 

[[:lower:]] 

 소문자 알파벳 텍스트 

[[:upper:]]

 대문자 알파벳 텍스트 

[[:alpha:]] 

 대/소문자 알파벳 텍스트 

[[:alnum:]] 

 숫자 or 대/소문자 텍스트 

 알파벳이나 숫자가

아닌 텍스트

[[:punct:]] 

 구두점으로 표시된 텍스트

(쉼표 or 마침표 등) 

[[:gragh:]]

 [:alnum:] or [:punct:]

[[:black:]] 

 스페이스나 탭 등의 공란 텍스트 

[[:space:]]

 스페이스, 탭, 줄바꿈 등의 텍스트 

[[:print:]] 

 출력했을 때 확인할 수 있는 텍스트

[:alnun:] or [:punct:] or [:space:]

그 외 

 [[:cntrl:]]

 제어문자(control characters)로 표현된 텍스트 

[[:xdigit:]] 

 16진법을 따르는 텍스트 

 양화기호

 ?

 선행 표현을 고려할 수도, 고려하지 않을 수도 있으며 최대 1회 매칭됨 

 *

 선행 표현이 0회 혹은 그 이상 매칭됨

 +

 선행 표현이 1회 혹은 그 이상 매칭됨 

 {n}

 선행 표현이 정확하게 n회 매칭됨

 {n,}

 선행 표현이 n회 이상 매칭됨 

 {n,m}

 선행 표현이 n회, 이상 m회 미만 매칭됨  

 기타

\w 

 숫자 혹은 알파벳으로 표현된 모든 단어

 \W

 \w 제외 

\d 

 숫자로 표현된 모든 텍스트

 \D

 숫자로 표현된 모든 텍스트 제외

 \s

 공란으로 표현된 모든 텍스트 

 \S

 공란으로 표현된 모든 텍스트 제외 

 \b

 특정 표현으로 시작되거나 종결된 모든 텍스트

 \B

  특정 표현으로 시작되거나 종결되지 않은 모든 텍스트



참고) R을 이용한 텍스트 마이닝 - 백영민 지음 (한울아카데미)

+ Recent posts