Loading...

[R] 3. tsibbledata

tsibbledata tsibbledata 라이브러리는 시계열 데이터로 적절한 예시로 쓰일 수 있는 데이터들을 제공해줍니다. github에서 나와 있는 예시는 olympic_running 데이터입니다. 아래 데이터는 올림픽 달리기 종목의 성별 최고기록에 관한 데이터라고 합니다. olympic_running ## # A tsibble: 312 x 4 [4Y] ## # Key: Length, Sex [14] ## Year Length Sex Time ## ## 1 1896 100 men 12 ## 2 1900 100 men 11 ## 3 1904 100 men 11 ## 4 1908 100 men 10.8 ## 5 1912 100 men 10.8 ## 6 1916 100 men NA ## 7 1920 100..

[R] 2. tsibble

tsibble() tsibble 객체는 아래와 같은 기본적인 원칙을 가집니다. index: 과거부터 현재까지 순서화된 자료값의 관측 시간 key: 시간에 따른 관측값을 정의하는 변수의 집합 각 관측치는 index와 key를 통해 유니크하게 식별되어야 합니다. 각 관측치는 등간격으로 관측된 자료여야만 합니다. 즉, tsibble 포맷으로 변환하기 위해서는 데이터에서 key와 index를 명시해주어야 합니다. 아래 nycflights13 라이브러리의 weather 데이터를 활용해서 예시를 보이겠습니다. weather_sample % select(origin, time_hour, temp, humid, precip) weather_sample ## # A tibble: 26,115 x 5 ## origin t..

[R] 1. fpp3 간단한 소개

소개 https://tidyverts.org/ tidyverts는 시계열 데이터 분석을 tidy approach로 진행하게 하는 ecosystem 입니다. R에서는 fpp3 라는 이름으로 tidyverts를 구성하고 있는 라이브러리들을 불러올 수 있습니다. 또는 install_packages("..."), install_github("tidyverts/...")와 같이 필요한 라이브러리들만 별도로 불러올 수 있습니다. fpp3는 Forecasting: principles and practice 3rd의 약자라고 합니다. library(fpp3) ## ─ Attaching packages ────────────────────── fpp3 0.4.0 ─ ## ✓ tibble 3.1.2 ✓ tsibble 1...

[R] 6. Topic modeling

## [1] "ko_KR.UTF-8" 6. Topic modeling 토픽 모델링은 클러스터링처럼 텍스트 데이터를 대상으로하는 비지도학습 분류 방법입니다. 여러 토픽 모델들이 있는데 그 중 널리 사용되는 LDA(Latent Dirichlet Allocation)에 대해서 살펴보겠습니다. 사전에 필요한 라이브러리는 topicmodels 라이브러리로 LDA 객체를 다루는 방법에 대해 소개하겠습니다. library(topicmodels) 6. 1. Latent Dirichlet Allocation LDA는 토픽 모델링을 위한 가장 일반적인 알고리즘 중 하나입니다. 해당 포스팅에서는 모델의 수학적인 전개는 생략하고 아래 두 가지 원칙에 대해서만 정리하겠습니다. 모든 문서는 토픽이 혼합되어 있다. 각 문서가 특정..