구분 |
표현식 |
내용 |
알파벳 or 숫자 텍스트 |
[[:digit:]] |
숫자 텍스트 |
[[:lower:]] |
소문자 알파벳 텍스트 |
|
[[:upper:]] |
대문자 알파벳 텍스트 |
|
[[:alpha:]] |
대/소문자 알파벳 텍스트 |
|
[[:alnum:]] |
숫자 or 대/소문자 텍스트 |
|
알파벳이나 숫자가 아닌 텍스트 |
[[:punct:]] |
구두점으로 표시된 텍스트 (쉼표 or 마침표 등) |
[[:gragh:]] |
[:alnum:] or [:punct:] |
|
[[:black:]] |
스페이스나 탭 등의 공란 텍스트 |
|
[[:space:]] |
스페이스, 탭, 줄바꿈 등의 텍스트 |
|
[[:print:]] |
출력했을 때 확인할 수 있는 텍스트 [:alnun:] or [:punct:] or [:space:] |
|
그 외 |
[[:cntrl:]] |
제어문자(control characters)로 표현된 텍스트 |
[[:xdigit:]] |
16진법을 따르는 텍스트 |
|
양화기호 |
? |
선행 표현을 고려할 수도, 고려하지 않을 수도 있으며 최대 1회 매칭됨 |
* |
선행 표현이 0회 혹은 그 이상 매칭됨 |
|
+ |
선행 표현이 1회 혹은 그 이상 매칭됨 |
|
{n} |
선행 표현이 정확하게 n회 매칭됨 |
|
{n,} |
선행 표현이 n회 이상 매칭됨 |
|
{n,m} |
선행 표현이 n회, 이상 m회 미만 매칭됨 |
|
기타 |
\w |
숫자 혹은 알파벳으로 표현된 모든 단어 |
\W |
\w 제외 |
|
\d |
숫자로 표현된 모든 텍스트 |
|
\D |
숫자로 표현된 모든 텍스트 제외 |
|
\s |
공란으로 표현된 모든 텍스트 |
|
\S |
공란으로 표현된 모든 텍스트 제외 |
|
\b |
특정 표현으로 시작되거나 종결된 모든 텍스트 |
|
\B |
특정 표현으로 시작되거나 종결되지 않은 모든 텍스트 |
참고) R을 이용한 텍스트 마이닝 - 백영민 지음 (한울아카데미)