Loading...

[R] 6. 날짜 및 시간 변수 (lubridate)

날짜 및 시간 변수 분석가들은 종종 시계열 데이터를 다룰때도 있습니다. 이번 포스팅에서는 날짜, 시간 변수를 다루는 방법에 대해서 살펴보겠습니다. 날짜 및 시간 변수는 표기하는 방법이 매우 다양하며 타임존(time-zone) 또한 늘 따라다니므로 항상 염두해두고 분석하셔야 합니다. 아래 가상으로 만든 데이터로 확인해보겠습니다. temp % mutate( ts_year = year(start_ts), ts_month = month(start_ts), ts_day = day(start_ts), ts_hour = hour(start_ts), ts_minute = minute(start_ts), ts_second = second(start_ts) ) ## # A tibble: 100 x 8 ## song_id ..

[R] 5. mutate()

0. 예시로 쓰일 데이터 예제 set.seed(2021) # 임의로 데이터를 생성한다. (100명의 유저가 특정 곡을 스트리밍한 이력) temp % mutate(user_age_na_yn = is.na(user_age)) %>% filter(is.na(user_age)) %>% head() ## # A tibble: 0 x 6 ## # … with 6 variables: user_id , user_age , user_gender , ## # song_id , streaming_count , user_age_na_yn temp %>% mutate(user_age_na_yn = is.na(user_age)) %>% filter(!is.na(user_age)) %>% head() ## # A tibble: 6..

[R] 4. select(), filter(), group_by(), summarise(), arrange(), rename()

0. 예시로 쓰일 데이터 예제 set.seed(2021) # 임의로 데이터를 생성한다. (100명의 유저가 특정 곡을 스트리밍한 이력) temp % select(-song_id, -streaming_count) ## # A tibble: 100 x 2 ## user_id user_age ## ## 1 10000 32 ## 2 10001 43 ## 3 10002 41 ## 4 10003 30 ## 5 10004 38 ## 6 10005 40 ## 7 10006 38 ## 8 10007 27 ## 9 10008 44 ## 10 10009 49 ## # … with 90 more rows 데이터 분석을 위해 전처리를 하는 작업을 거치다보면서 변수명에 _id 와 같이 특정 변수명 규칙을 발견할 수 있습니다. 이..

[R] 3. 파이프 오퍼레이터 (%>%)

파이프 오퍼레이터(Pipe Operator, %>%) 파이프 오퍼레이터 %>%는 tidyverse 라이브러리를 사용하여 작성된 R 코드를 조금 더 쉽고 단순화 및 가독성 있게 만들어주는데 도움을 줍니다. 일단 tidyverse 라이브러리를 많이 이용하게 될 것이라면 파이프 오퍼레이터에 익숙해질 필요가 있습니다. 아래 예시를 들어 설명하겠습니다. temp ## # A tibble: 5 x 2 ## name score ## ## 1 Ray 5 ## 2 Dylan 4 ## 3 Samuel 3 ## 4 Rin 2 ## 5 Jade 1 filter() 함수는 특정 조건을 만족하는 값을 출력(where in SQL)해주는 함수인데 이를 %>%와 곁들이면 아래와 같습니다. temp %>% filter(name == ..