Loading...

[R] stringr 문자열 관련 처리 함수

stringr 이번 포스팅에서는 stringr 라이브러리에서 주로 다루는 함수에 대해서 정리해보겠습니다. stringr 라이브러리는 tidyverse 라이브러리를 구동할 때 같이 불러오는 라이브러리 중 하나 입니다. 이 라이브러리는 주로 문자열 데이터를 다루는 함수를 내포하고 있습니다. 발견 관련 str_detect() 문자열에서 패턴의 일치여부를 찾아 논리값(TRUE 또는 FALSE)을 출력합니다. 논리값은 수치계산 시에 TRUE는 1, FALSE는 0으로 취급됩니다. str_detect(string, pattern) text % filter(str_detect(string = text, pattern = "보아야")) ## # A tibble: 2 x 2 ## seq text ## ## 1 1 자세히..

[R] 1. Tidy text format

1. The tidy text format tidy text format을 행(row)당 하나의 토큰(token)이 있는 테이블로 정의합니다. 토큰은 분석에서 사용하고자 하는 “단어”와 같이 의미가 있는 텍스트 단위를 의미합니다. 물론 토큰은 단일 단어 뿐만 아니라 n-gram, 문장 또는 단락 등이 될 수도 있습니다. 행당 하나의 토큰 구조를 만들기 위해서는 토큰화(tokenization)를 거쳐야 합니다. 1. 1. Contrasting tidy text with other data structures 문자열(String): 문자열, 즉 문자 벡터 말뭉치(Corpus): 이러한 유형은 일반적으로 메타데이터 및 세부정보로 주석이 달린 원시 문자열 등이 포함 문서-단어 행렬(Document-term ma..

[R] 텍스트 데이터 분석을 위한 라이브러리 준비

tidyverse, tidytext library(tidyverse) ## ─ Attaching packages ──────────────────── tidyverse 1.3.1 ─ ## ✓ ggplot2 3.3.5 ✓ purrr 0.3.4 ## ✓ tibble 3.1.2 ✓ dplyr 1.0.7 ## ✓ tidyr 1.1.3 ✓ stringr 1.4.0 ## ✓ readr 1.4.0 ✓ forcats 0.5.1 ## ─ Conflicts ───────────────────── tidyverse_conflicts() ─ ## x dplyr::filter() masks stats::filter() ## x dplyr::lag() masks stats::lag() library(tidytext) 텍스트 데이..