[R] 표본 추출

1. Sampling 전체 데이터(모집단) 중 일부를 샘플(표본)로 추출하는 작업은 데이터에 분석에서 필수적 입니다. 또한 표본추출은 훈련 데이터(Training data)와 테스트 데이터(Test data)의 분리에서도 중요한 역할을 합니다. 데이터를 분리하지 않고 전체 데이터를 모델링 하여 모델 평가에 사용하게 되면 데이터에 내재하는 실제적 특징 외에 우연히 포함된 노이즈까지 반영한 모델링을 할 위험이 있습니다. (과적합, overfitting) 모형이 과적합하게 되는 경우 예측력이 떨어지는 위험성이 존재하게 됩니다. 이번 포스팅에서는 전체 데이터로부터 표본을 추출하는 방법으로 단순임의추출, 층화임의추출, 계통추출에 대해서 말씀드리겠습니다. 1. 1. Simple random sampling 단순임의..