Loading...

[R] 표본 추출

1. Sampling 전체 데이터(모집단) 중 일부를 샘플(표본)로 추출하는 작업은 데이터에 분석에서 필수적 입니다. 또한 표본추출은 훈련 데이터(Training data)와 테스트 데이터(Test data)의 분리에서도 중요한 역할을 합니다. 데이터를 분리하지 않고 전체 데이터를 모델링 하여 모델 평가에 사용하게 되면 데이터에 내재하는 실제적 특징 외에 우연히 포함된 노이즈까지 반영한 모델링을 할 위험이 있습니다. (과적합, overfitting) 모형이 과적합하게 되는 경우 예측력이 떨어지는 위험성이 존재하게 됩니다. 이번 포스팅에서는 전체 데이터로부터 표본을 추출하는 방법으로 단순임의추출, 층화임의추출, 계통추출에 대해서 말씀드리겠습니다. 1. 1. Simple random sampling 단순임의..

[R] 난수생성과 기초통계량

1. 난수생성 R에서는 주어진 통계 분포를 따르는 난수를 발생시키는 다양한 함수를 제공합니다. 이 함수들의 특징은 난수(random)를 뜻하는 r 뒤에 분포명의 축약형을 붙인 형태 입니다. 아래는 주요 분포에 대한 난수 발생 함수를 정리한 것 입니다. 이항분포: rbinom F-분포: rf 기하분포: rgeom 초기하분포: rhyper 음이항분포: rnbinom 정규분포: rnorm 포아송분포: rpois t-분포: rt 균일분포: runif 이러한 함수들에 대한 구체적인 argument는 ?help를 참고하시는 것이 편하실 것 같아서 따로 언급은 하지 않겠습니다. 대표적인 예시로 표준정규분포를 따르는 난수 10개를 생성한 결과는 아래와 같습니다. rnorm(n = 10, mean = 0, sd = 1)..

[R] 기본 plot 함수

1. Basic graphic function plot() 1. 1. Options 2. points() 3. lines() 4. abline() 5. curve() 6. text() 7. polygon() 8. arrows() 9. legend() 10. boxplot() 11. hist() 1. Basic graphic function plot() 시각화로 많이 쓰이는 ggplot2 패키지나 interactive 한 plot을 제공하는 plotly 패키지 등 R에서는 다양한 시각화 함수를 제공하고 있습니다. 그러한 함수를 배우기 이전에 앞서 R에서 기본으로 내장되어 있는 함수 plot() 에 대해서 설명을 하고 더 나아가 필요한 함수들에 대해서 설명하겠습니다. 앞서 글을 포스팅하는데 있어 한국외국어대..

[R] 데이터 불러오기

1. 기본 워크 스페이스 디렉토리 확인 getwd() 함수를 이용하여 Default Working Directory를 확인할 수 있습니다. getwd() ## [1] "/Users/kakao1/Desktop/Jade_logging/basic" 만일 새로운 경로로 Working Directory를 설정하고 싶다면 setwd() 함수를 이요하여 설정할 수 있습니다. setwd("/Users/kakao1/Desktop/Jade_logging") 2. CSV 파일 불러오기 CSV 파일을 데이터 프레임(data.frame)으로 읽어들이려면 read.csv() 기본 내장 함수를 이용합니다. 코드와 파라미터에 대한 설명은 아래와 같습니다. file : 파일 경로 및 파일명 header = FALSE : 파일의 첫 행..