Loading...

[R] 8. 데이터 합치기 (join)

0. 예시로 쓰일 데이터 예제 set.seed(2021) # 임의로 데이터를 생성한다. (100명의 유저가 특정 곡을 스트리밍한 이력) temp % mutate( song_class_flag = case_when( song_id %in% c("d", "e", "f") ~ "인기곡", TRUE ~ "비인기곡" ) ) temp ## # A tibble: 100 x 6 ## user_id user_age user_gender song_id streaming_count song_class_flag ## ## 1 10000 49 여성 i 19 비인기곡 ## 2 10001 49 여성 m 28 비인기곡 ## 3 10002 26 여성 f 21 인기곡 ## 4 10003 48 남성 e 14 인기곡 ## 5 10004 4..

[R] 7. 데이터 형태 변환

0. 예시로 쓰일 데이터 예제 set.seed(2021) # 임의로 데이터를 생성한다. (100명의 유저가 특정 곡을 스트리밍한 이력) temp % mutate( song_class_flag = case_when( song_id %in% c("d", "e", "f") ~ "인기곡", TRUE ~ "비인기곡" ) ) temp ## # A tibble: 100 x 6 ## user_id user_age user_gender song_id streaming_count song_class_flag ## ## 1 10000 49 여성 i 19 비인기곡 ## 2 10001 49 여성 m 28 비인기곡 ## 3 10002 26 여성 f 21 인기곡 ## 4 10003 48 남성 e 14 인기곡 ## 5 10004 4..

[R] 6. 날짜 및 시간 변수 (lubridate)

날짜 및 시간 변수 분석가들은 종종 시계열 데이터를 다룰때도 있습니다. 이번 포스팅에서는 날짜, 시간 변수를 다루는 방법에 대해서 살펴보겠습니다. 날짜 및 시간 변수는 표기하는 방법이 매우 다양하며 타임존(time-zone) 또한 늘 따라다니므로 항상 염두해두고 분석하셔야 합니다. 아래 가상으로 만든 데이터로 확인해보겠습니다. temp % mutate( ts_year = year(start_ts), ts_month = month(start_ts), ts_day = day(start_ts), ts_hour = hour(start_ts), ts_minute = minute(start_ts), ts_second = second(start_ts) ) ## # A tibble: 100 x 8 ## song_id ..

[R] 5. mutate()

0. 예시로 쓰일 데이터 예제 set.seed(2021) # 임의로 데이터를 생성한다. (100명의 유저가 특정 곡을 스트리밍한 이력) temp % mutate(user_age_na_yn = is.na(user_age)) %>% filter(is.na(user_age)) %>% head() ## # A tibble: 0 x 6 ## # … with 6 variables: user_id , user_age , user_gender , ## # song_id , streaming_count , user_age_na_yn temp %>% mutate(user_age_na_yn = is.na(user_age)) %>% filter(!is.na(user_age)) %>% head() ## # A tibble: 6..