Loading...

[R] 한글 형태소 분석

형태소 추출 관련 라이브러리 R의 대표적인 한국어 형태소 분석기로는 RcppMeCab와 KoNLP가 있습니다. 라이브러리 설치 가이드로 아주 잘 정리된 페이지가 있어서 아래에 첨부드립니다. https://mrchypark.github.io/textR/installation#1 https://github.com/mrchypark/textR/blob/master/docs/installation.pdf RcppMeCab library(RcppMeCab) pos() 함수는 문장의 형태소를 분리해주는 역할을 하는 함수 입니다. # 한글이 깨지는 경우 `enc2utf8()` 함수를 이용해 인코딩을 UTF-8로 변경해줍니다. test % pos() ## $`한글 테스트 입니다.` ## [1] "한글/NNG" "테스트..

[R] unnest_tokens()

토큰화 텍스트 데이터를 분석할 수 있는 단위로 쪼개는 과정입니다. 분석 목적에 따라 글자, 단어, n-gram, 문장, 문단 등 다양하게 지정할 수 있으며 디폴트 값은 단어(words)입니다. 단어 단위 token = "words" 글자 단위 token = "characters" 복수의 글자 단위 token = "character_shingles" 복수의 단어 단위 token = "ngrams" 정규표현식으로 지정 token = "regex" text % unnest_tokens( input = text, output = "word", token = "words" ) ## # A tibble: 10 x 1 ## word ## ## 1 i'm ## 2 not ## 3 lazy ## 4 i'm ## 5 ju..