Loading...

[R] purrr 라이브러리 내 map() 함수 이해하기

## [1] "ko_KR.UTF-8" purrr 이번 포스팅에서는 purrr 라이브러리에서 주로 다루는 함수에 대해서 정리해보겠습니다. purrr 라이브러리는 tidyverse 라이브러리를 구동할 때 같이 불러오는 라이브러리 중 하나 입니다. tidyverse에서 purrr를 소개하기로는.. 함수형 프로그래밍 도구(functional programming toolkit)라는 표현을 하고 있습니다. 여기서는 purrr 라이브러리 내 map() 함수에서만 짧게 소개하겠습니다. map_*() 여러 함수(커스텀 함수 등을 포함)들을 적용하여 반복 계산을 조금 더 용이하게 해주는 함수입니다. 일단 기본함수인 map()은 객체 .x에 대해 특정 함수 .f를 적용하여 해당 결과를 리스트로 출력해줍니다. map(.x,..

[R] stringr 문자열 관련 처리 함수

stringr 이번 포스팅에서는 stringr 라이브러리에서 주로 다루는 함수에 대해서 정리해보겠습니다. stringr 라이브러리는 tidyverse 라이브러리를 구동할 때 같이 불러오는 라이브러리 중 하나 입니다. 이 라이브러리는 주로 문자열 데이터를 다루는 함수를 내포하고 있습니다. 발견 관련 str_detect() 문자열에서 패턴의 일치여부를 찾아 논리값(TRUE 또는 FALSE)을 출력합니다. 논리값은 수치계산 시에 TRUE는 1, FALSE는 0으로 취급됩니다. str_detect(string, pattern) text % filter(str_detect(string = text, pattern = "보아야")) ## # A tibble: 2 x 2 ## seq text ## ## 1 1 자세히..

[R] 1. Tidy text format

1. The tidy text format tidy text format을 행(row)당 하나의 토큰(token)이 있는 테이블로 정의합니다. 토큰은 분석에서 사용하고자 하는 “단어”와 같이 의미가 있는 텍스트 단위를 의미합니다. 물론 토큰은 단일 단어 뿐만 아니라 n-gram, 문장 또는 단락 등이 될 수도 있습니다. 행당 하나의 토큰 구조를 만들기 위해서는 토큰화(tokenization)를 거쳐야 합니다. 1. 1. Contrasting tidy text with other data structures 문자열(String): 문자열, 즉 문자 벡터 말뭉치(Corpus): 이러한 유형은 일반적으로 메타데이터 및 세부정보로 주석이 달린 원시 문자열 등이 포함 문서-단어 행렬(Document-term ma..

[R] 텍스트 데이터 분석을 위한 라이브러리 준비

tidyverse, tidytext library(tidyverse) ## ─ Attaching packages ──────────────────── tidyverse 1.3.1 ─ ## ✓ ggplot2 3.3.5 ✓ purrr 0.3.4 ## ✓ tibble 3.1.2 ✓ dplyr 1.0.7 ## ✓ tidyr 1.1.3 ✓ stringr 1.4.0 ## ✓ readr 1.4.0 ✓ forcats 0.5.1 ## ─ Conflicts ───────────────────── tidyverse_conflicts() ─ ## x dplyr::filter() masks stats::filter() ## x dplyr::lag() masks stats::lag() library(tidytext) 텍스트 데이..