[R] 5. Converting to and from non-tidy formats
Posted by 제이드의 낙서장
5. Converting to and from non-tidy formats 이번 챕터에서는 텍스트 데이터를 tidy text format이 아닌 tm, quanteda 라이브러리에서 활용될 수 있는 코퍼스(corpus) 객체로 분석하는 방법에 대해서 설명합니다. 5. 1. Tidying a document-term matrix 문서 용어 행렬(DTM, Document-Term Matrix)은 텍스트 분석에서 일반적으로 쓰이는 구조 중 하나 입니다. 이는 아래와 같은 형태를 갖습니다. 각 행은 하나의 문서(ex. book, article, …)를 나타냅니다. 각 열은 하나의 단어를 나타냅니다. 일반적으로 각 행렬에 대한 값은 해당 문서에서 해당 단어의 출현 빈도가 됩니다. 여러 문서 안에서 문서-단어 쌍..