[R] 텍스트 데이터 분석을 위한 라이브러리 준비

반응형

tidyverse, tidytext

library(tidyverse)
## ─ Attaching packages ──────────────────── tidyverse 1.3.1 ─
## ✓ ggplot2 3.3.5     ✓ purrr   0.3.4
## ✓ tibble  3.1.2     ✓ dplyr   1.0.7
## ✓ tidyr   1.1.3     ✓ stringr 1.4.0
## ✓ readr   1.4.0     ✓ forcats 0.5.1
## ─ Conflicts ───────────────────── tidyverse_conflicts() ─
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()
library(tidytext)
  • 텍스트 데이터를 분석하면서 기본으로 쓰이게 될 두 라이브러리는 tidyversetidytext 입니다.
  • 초간단하게 정리하자면 데이터를 tibble로 구성하여 핸들링하는데 필요한 라이브러리가 tidyverse이고,
    텍스트 포맷의 데이터를 여러 토큰(token) 단위로 쪼개서 분석하는데 필요한 라이브러리가 tidytext라고 생각하시면 됩니다.



KoNLP

  • 이 밖에 한글로 된 텍스트 데이터를 분석하는데 있어서 이전부터 자주 쓰였던 라이브러리 중 하나는 KoNLP 라이브러리 입니다.
  • 어떠한 이슈때문인지는 잘 모르지만, KoNLP 라이브러리가 R cran에 내려져 있어 설치가 좀 까다롭습니다.
  • 방법을 찾던 중 소개를 잘 해주신 페이지가 있어서 아래에 첨부합니다. (Facebook page)



다음 포스팅에서는..

  • tidytext 포스팅 카테고리에서는 Text mining with R에서 소개하는 내용을 정리해보려고 합니다.
  • 관심 있으신분들은 해당 책을 구매하여 읽어보거나 구글링을 통해 검색하면서 공부해보시면 많은 도움이 될 것 같습니다!
반응형

'tidytext' 카테고리의 다른 글

[R] unnest_tokens()  (0) 2021.07.17
[R] 2. Sentiment analysis with tidy data  (0) 2021.07.17
[R] 정규표현식 관련  (0) 2021.07.15
[R] stringr 문자열 관련 처리 함수  (0) 2021.07.14
[R] 1. Tidy text format  (0) 2021.07.14
TAGS.

Comments