Loading...

[R] 5. Converting to and from non-tidy formats

5. Converting to and from non-tidy formats 이번 챕터에서는 텍스트 데이터를 tidy text format이 아닌 tm, quanteda 라이브러리에서 활용될 수 있는 코퍼스(corpus) 객체로 분석하는 방법에 대해서 설명합니다. 5. 1. Tidying a document-term matrix 문서 용어 행렬(DTM, Document-Term Matrix)은 텍스트 분석에서 일반적으로 쓰이는 구조 중 하나 입니다. 이는 아래와 같은 형태를 갖습니다. 각 행은 하나의 문서(ex. book, article, …)를 나타냅니다. 각 열은 하나의 단어를 나타냅니다. 일반적으로 각 행렬에 대한 값은 해당 문서에서 해당 단어의 출현 빈도가 됩니다. 여러 문서 안에서 문서-단어 쌍..

[R] 1. Tidy text format

1. The tidy text format tidy text format을 행(row)당 하나의 토큰(token)이 있는 테이블로 정의합니다. 토큰은 분석에서 사용하고자 하는 “단어”와 같이 의미가 있는 텍스트 단위를 의미합니다. 물론 토큰은 단일 단어 뿐만 아니라 n-gram, 문장 또는 단락 등이 될 수도 있습니다. 행당 하나의 토큰 구조를 만들기 위해서는 토큰화(tokenization)를 거쳐야 합니다. 1. 1. Contrasting tidy text with other data structures 문자열(String): 문자열, 즉 문자 벡터 말뭉치(Corpus): 이러한 유형은 일반적으로 메타데이터 및 세부정보로 주석이 달린 원시 문자열 등이 포함 문서-단어 행렬(Document-term ma..