[R] unnest_tokens()
Posted by 제이드의 낙서장
토큰화 텍스트 데이터를 분석할 수 있는 단위로 쪼개는 과정입니다. 분석 목적에 따라 글자, 단어, n-gram, 문장, 문단 등 다양하게 지정할 수 있으며 디폴트 값은 단어(words)입니다. 단어 단위 token = "words" 글자 단위 token = "characters" 복수의 글자 단위 token = "character_shingles" 복수의 단어 단위 token = "ngrams" 정규표현식으로 지정 token = "regex" text % unnest_tokens( input = text, output = "word", token = "words" ) ## # A tibble: 10 x 1 ## word ## ## 1 i'm ## 2 not ## 3 lazy ## 4 i'm ## 5 ju..