Loading...

[R] 5. Converting to and from non-tidy formats

5. Converting to and from non-tidy formats 이번 챕터에서는 텍스트 데이터를 tidy text format이 아닌 tm, quanteda 라이브러리에서 활용될 수 있는 코퍼스(corpus) 객체로 분석하는 방법에 대해서 설명합니다. 5. 1. Tidying a document-term matrix 문서 용어 행렬(DTM, Document-Term Matrix)은 텍스트 분석에서 일반적으로 쓰이는 구조 중 하나 입니다. 이는 아래와 같은 형태를 갖습니다. 각 행은 하나의 문서(ex. book, article, …)를 나타냅니다. 각 열은 하나의 단어를 나타냅니다. 일반적으로 각 행렬에 대한 값은 해당 문서에서 해당 단어의 출현 빈도가 됩니다. 여러 문서 안에서 문서-단어 쌍..

[R] 4. Relationships between words: n-grams and correlations

4. Relationships between words: n-grams and correlations 4. 1. Tokenizing by n-gram 지금까지 unnset_tokens() 함수를 사용하여 단어, 또는 문장으로 토큰화를 진행했었는데, 이러한 토큰 단위는 감정 또는 빈도 관련 분석에 유용합니다. 그러나 해당 함수를 사용하여 n-grams라고 하는 연속적인 단어 시퀀스로도 토큰화를 할 수 있습니다. 즉, 어느 단어 다음에 특정 단어가 얼마나 자주 나오는 지 확인함으로써 이들 사이의 관계를 확인해볼 수도 있습니다. 방식은 간단합니다. unnest_tokens() 함수에 token = "ngrams"와 n = 2(연속되는 단어 수) arguments를 주면 됩니다. library(janeauste..

[R] 3. Analyzing word and document frequency: TF-IDF

3. Analyzing word and document frequency: TF-IDF TF-IDF에서 TF는 단어 빈도(Term Frequency), IDF는 역문서 빈도(Inverse Document Frequency)를 의미합니다 문서에서 단어의 빈도는 문서의 성격을 규명하는데 중요한 요소이지만 불용어들까지 포함하면 단어 빈도만으로는 어렵습니다. 그렇다고 해서 불용어들을 필요할때마다 임의로 처리하는 것 또한 그렇게 나이스하다고는 보기 어렵습니다. TF-IDF는 문서 묶음에서 각 단어의 빈도와 그 문서안에서의 빈도를 확인함으로써 특정 단어가 문서 내에서 얼마나 중요한 지를 체크해보는 통계량입니다. (곱) 특정 단어에 대한 IDF는 그 단어가 속한 문서의 수 대비 전체 문서 수의 로그 스케일 값으로 구..

[R] 한글 형태소 분석

형태소 추출 관련 라이브러리 R의 대표적인 한국어 형태소 분석기로는 RcppMeCab와 KoNLP가 있습니다. 라이브러리 설치 가이드로 아주 잘 정리된 페이지가 있어서 아래에 첨부드립니다. https://mrchypark.github.io/textR/installation#1 https://github.com/mrchypark/textR/blob/master/docs/installation.pdf RcppMeCab library(RcppMeCab) pos() 함수는 문장의 형태소를 분리해주는 역할을 하는 함수 입니다. # 한글이 깨지는 경우 `enc2utf8()` 함수를 이용해 인코딩을 UTF-8로 변경해줍니다. test % pos() ## $`한글 테스트 입니다.` ## [1] "한글/NNG" "테스트..