Loading...

[R] 6. Topic modeling

## [1] "ko_KR.UTF-8" 6. Topic modeling 토픽 모델링은 클러스터링처럼 텍스트 데이터를 대상으로하는 비지도학습 분류 방법입니다. 여러 토픽 모델들이 있는데 그 중 널리 사용되는 LDA(Latent Dirichlet Allocation)에 대해서 살펴보겠습니다. 사전에 필요한 라이브러리는 topicmodels 라이브러리로 LDA 객체를 다루는 방법에 대해 소개하겠습니다. library(topicmodels) 6. 1. Latent Dirichlet Allocation LDA는 토픽 모델링을 위한 가장 일반적인 알고리즘 중 하나입니다. 해당 포스팅에서는 모델의 수학적인 전개는 생략하고 아래 두 가지 원칙에 대해서만 정리하겠습니다. 모든 문서는 토픽이 혼합되어 있다. 각 문서가 특정..

[R] 5. Converting to and from non-tidy formats

5. Converting to and from non-tidy formats 이번 챕터에서는 텍스트 데이터를 tidy text format이 아닌 tm, quanteda 라이브러리에서 활용될 수 있는 코퍼스(corpus) 객체로 분석하는 방법에 대해서 설명합니다. 5. 1. Tidying a document-term matrix 문서 용어 행렬(DTM, Document-Term Matrix)은 텍스트 분석에서 일반적으로 쓰이는 구조 중 하나 입니다. 이는 아래와 같은 형태를 갖습니다. 각 행은 하나의 문서(ex. book, article, …)를 나타냅니다. 각 열은 하나의 단어를 나타냅니다. 일반적으로 각 행렬에 대한 값은 해당 문서에서 해당 단어의 출현 빈도가 됩니다. 여러 문서 안에서 문서-단어 쌍..

[R] 4. Relationships between words: n-grams and correlations

4. Relationships between words: n-grams and correlations 4. 1. Tokenizing by n-gram 지금까지 unnset_tokens() 함수를 사용하여 단어, 또는 문장으로 토큰화를 진행했었는데, 이러한 토큰 단위는 감정 또는 빈도 관련 분석에 유용합니다. 그러나 해당 함수를 사용하여 n-grams라고 하는 연속적인 단어 시퀀스로도 토큰화를 할 수 있습니다. 즉, 어느 단어 다음에 특정 단어가 얼마나 자주 나오는 지 확인함으로써 이들 사이의 관계를 확인해볼 수도 있습니다. 방식은 간단합니다. unnest_tokens() 함수에 token = "ngrams"와 n = 2(연속되는 단어 수) arguments를 주면 됩니다. library(janeauste..

[R] 3. Analyzing word and document frequency: TF-IDF

3. Analyzing word and document frequency: TF-IDF TF-IDF에서 TF는 단어 빈도(Term Frequency), IDF는 역문서 빈도(Inverse Document Frequency)를 의미합니다 문서에서 단어의 빈도는 문서의 성격을 규명하는데 중요한 요소이지만 불용어들까지 포함하면 단어 빈도만으로는 어렵습니다. 그렇다고 해서 불용어들을 필요할때마다 임의로 처리하는 것 또한 그렇게 나이스하다고는 보기 어렵습니다. TF-IDF는 문서 묶음에서 각 단어의 빈도와 그 문서안에서의 빈도를 확인함으로써 특정 단어가 문서 내에서 얼마나 중요한 지를 체크해보는 통계량입니다. (곱) 특정 단어에 대한 IDF는 그 단어가 속한 문서의 수 대비 전체 문서 수의 로그 스케일 값으로 구..