[R] 4. Relationships between words: n-grams and correlations
Posted by 제이드의 낙서장
4. Relationships between words: n-grams and correlations 4. 1. Tokenizing by n-gram 지금까지 unnset_tokens() 함수를 사용하여 단어, 또는 문장으로 토큰화를 진행했었는데, 이러한 토큰 단위는 감정 또는 빈도 관련 분석에 유용합니다. 그러나 해당 함수를 사용하여 n-grams라고 하는 연속적인 단어 시퀀스로도 토큰화를 할 수 있습니다. 즉, 어느 단어 다음에 특정 단어가 얼마나 자주 나오는 지 확인함으로써 이들 사이의 관계를 확인해볼 수도 있습니다. 방식은 간단합니다. unnest_tokens() 함수에 token = "ngrams"와 n = 2(연속되는 단어 수) arguments를 주면 됩니다. library(janeauste..