Loading...

[R] 1. fpp3 간단한 소개

소개 https://tidyverts.org/ tidyverts는 시계열 데이터 분석을 tidy approach로 진행하게 하는 ecosystem 입니다. R에서는 fpp3 라는 이름으로 tidyverts를 구성하고 있는 라이브러리들을 불러올 수 있습니다. 또는 install_packages("..."), install_github("tidyverts/...")와 같이 필요한 라이브러리들만 별도로 불러올 수 있습니다. fpp3는 Forecasting: principles and practice 3rd의 약자라고 합니다. library(fpp3) ## ─ Attaching packages ────────────────────── fpp3 0.4.0 ─ ## ✓ tibble 3.1.2 ✓ tsibble 1...

[R] 6. Topic modeling

## [1] "ko_KR.UTF-8" 6. Topic modeling 토픽 모델링은 클러스터링처럼 텍스트 데이터를 대상으로하는 비지도학습 분류 방법입니다. 여러 토픽 모델들이 있는데 그 중 널리 사용되는 LDA(Latent Dirichlet Allocation)에 대해서 살펴보겠습니다. 사전에 필요한 라이브러리는 topicmodels 라이브러리로 LDA 객체를 다루는 방법에 대해 소개하겠습니다. library(topicmodels) 6. 1. Latent Dirichlet Allocation LDA는 토픽 모델링을 위한 가장 일반적인 알고리즘 중 하나입니다. 해당 포스팅에서는 모델의 수학적인 전개는 생략하고 아래 두 가지 원칙에 대해서만 정리하겠습니다. 모든 문서는 토픽이 혼합되어 있다. 각 문서가 특정..

[R] 4. Relationships between words: n-grams and correlations

4. Relationships between words: n-grams and correlations 4. 1. Tokenizing by n-gram 지금까지 unnset_tokens() 함수를 사용하여 단어, 또는 문장으로 토큰화를 진행했었는데, 이러한 토큰 단위는 감정 또는 빈도 관련 분석에 유용합니다. 그러나 해당 함수를 사용하여 n-grams라고 하는 연속적인 단어 시퀀스로도 토큰화를 할 수 있습니다. 즉, 어느 단어 다음에 특정 단어가 얼마나 자주 나오는 지 확인함으로써 이들 사이의 관계를 확인해볼 수도 있습니다. 방식은 간단합니다. unnest_tokens() 함수에 token = "ngrams"와 n = 2(연속되는 단어 수) arguments를 주면 됩니다. library(janeauste..

[R] 3. Analyzing word and document frequency: TF-IDF

3. Analyzing word and document frequency: TF-IDF TF-IDF에서 TF는 단어 빈도(Term Frequency), IDF는 역문서 빈도(Inverse Document Frequency)를 의미합니다 문서에서 단어의 빈도는 문서의 성격을 규명하는데 중요한 요소이지만 불용어들까지 포함하면 단어 빈도만으로는 어렵습니다. 그렇다고 해서 불용어들을 필요할때마다 임의로 처리하는 것 또한 그렇게 나이스하다고는 보기 어렵습니다. TF-IDF는 문서 묶음에서 각 단어의 빈도와 그 문서안에서의 빈도를 확인함으로써 특정 단어가 문서 내에서 얼마나 중요한 지를 체크해보는 통계량입니다. (곱) 특정 단어에 대한 IDF는 그 단어가 속한 문서의 수 대비 전체 문서 수의 로그 스케일 값으로 구..