[R] 텍스트 데이터 분석을 위한 라이브러리 준비
반응형
tidyverse
, tidytext
library(tidyverse)
## ─ Attaching packages ──────────────────── tidyverse 1.3.1 ─
## ✓ ggplot2 3.3.5 ✓ purrr 0.3.4
## ✓ tibble 3.1.2 ✓ dplyr 1.0.7
## ✓ tidyr 1.1.3 ✓ stringr 1.4.0
## ✓ readr 1.4.0 ✓ forcats 0.5.1
## ─ Conflicts ───────────────────── tidyverse_conflicts() ─
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
library(tidytext)
- 텍스트 데이터를 분석하면서 기본으로 쓰이게 될 두 라이브러리는
tidyverse
와tidytext
입니다. - 초간단하게 정리하자면 데이터를
tibble
로 구성하여 핸들링하는데 필요한 라이브러리가tidyverse
이고,
텍스트 포맷의 데이터를 여러 토큰(token) 단위로 쪼개서 분석하는데 필요한 라이브러리가tidytext
라고 생각하시면 됩니다.
KoNLP
- 이 밖에 한글로 된 텍스트 데이터를 분석하는데 있어서 이전부터 자주 쓰였던 라이브러리 중 하나는
KoNLP
라이브러리 입니다. - 어떠한 이슈때문인지는 잘 모르지만,
KoNLP
라이브러리가 R cran에 내려져 있어 설치가 좀 까다롭습니다. - 방법을 찾던 중 소개를 잘 해주신 페이지가 있어서 아래에 첨부합니다. (Facebook page)
다음 포스팅에서는..
tidytext
포스팅 카테고리에서는 Text mining with R에서 소개하는 내용을 정리해보려고 합니다.- 관심 있으신분들은 해당 책을 구매하여 읽어보거나 구글링을 통해 검색하면서 공부해보시면 많은 도움이 될 것 같습니다!
반응형
'tidytext' 카테고리의 다른 글
[R] unnest_tokens() (0) | 2021.07.17 |
---|---|
[R] 2. Sentiment analysis with tidy data (0) | 2021.07.17 |
[R] 정규표현식 관련 (0) | 2021.07.15 |
[R] stringr 문자열 관련 처리 함수 (0) | 2021.07.14 |
[R] 1. Tidy text format (0) | 2021.07.14 |
TAGS.