Loading...

[R] 1. Tidy text format

1. The tidy text format tidy text format을 행(row)당 하나의 토큰(token)이 있는 테이블로 정의합니다. 토큰은 분석에서 사용하고자 하는 “단어”와 같이 의미가 있는 텍스트 단위를 의미합니다. 물론 토큰은 단일 단어 뿐만 아니라 n-gram, 문장 또는 단락 등이 될 수도 있습니다. 행당 하나의 토큰 구조를 만들기 위해서는 토큰화(tokenization)를 거쳐야 합니다. 1. 1. Contrasting tidy text with other data structures 문자열(String): 문자열, 즉 문자 벡터 말뭉치(Corpus): 이러한 유형은 일반적으로 메타데이터 및 세부정보로 주석이 달린 원시 문자열 등이 포함 문서-단어 행렬(Document-term ma..

[R] 텍스트 데이터 분석을 위한 라이브러리 준비

tidyverse, tidytext library(tidyverse) ## ─ Attaching packages ──────────────────── tidyverse 1.3.1 ─ ## ✓ ggplot2 3.3.5 ✓ purrr 0.3.4 ## ✓ tibble 3.1.2 ✓ dplyr 1.0.7 ## ✓ tidyr 1.1.3 ✓ stringr 1.4.0 ## ✓ readr 1.4.0 ✓ forcats 0.5.1 ## ─ Conflicts ───────────────────── tidyverse_conflicts() ─ ## x dplyr::filter() masks stats::filter() ## x dplyr::lag() masks stats::lag() library(tidytext) 텍스트 데이..