Symbolic Data Analysis : Interval-valued data
1. 심볼릭 데이터 분석 (Symbolic Data Analysis)
- AI의 성능이 빠르게 발전되는 주요 원인 중 하나로 빅데이터를 생각할 수 있다.
- 컴퓨터 하드웨어와 인터넷 소프트웨어 기술의 지속적인 개발과 비용 감소에 의해 AI의 학습을 위해 필요한 디지털 데이터가 급속도로 증가하고 있고, 이를 통하여 AI는 충분히 학습을 할 수 있게 되어 AI의 진화 속도는 더욱 더 빨라지고 있다.
- 하지만 이와 같은 환경에서 한 가지 문제가 되는 부분을 본다면 바로 학습을 위한 컴퓨팅 속도이다. 효율적인 프로그래밍 또는 알고리즘 개선을 통해 일부는 해결 가능하지만 근본적인 해결방안을 모색할 필요가 있다.
여러 해결방안 중 하나는 전체 데이터를 학습하지 않고 전체 데이터를 요약한 정보의 학습을 통하여 컴퓨팅 시간을 단축할 수 있는 방법을 고민할 수 있고 이를 위한 통계적 기법으로 심볼릭 데이터 분석(Symbolic Data Analysis)이 있다.
- SDA는 E. Diday (1989)에 의해 소개된 심볼릭 데이터 기반의 통계분석 기법이다.
- 심볼릭 데이터는 수집된 개별 데이터의 요약 정보를 의미한다.
- 대표적인 예로는 히스토그램(histogram-valued data), 테이블(table), 구간형(interval-valued data), 리스트(list) 등이 있다.
- SDA 관점에서는 분석의 대상이 되는 데이터를 개별 관측값이 아닌 전체 데이터의 요약된 결과를 사용한다. 즉, 구간, 히스토그램, 테이블, 리스트, 분포, 모형 등 다양한 요약 정보가 심볼릭 데이터가 될 수 있다.
심볼릭 데이터의 사용을 통해 분석해야할 데이터의 크기는 줄어든다. 이 때 발생하는 정보의 손실을 최소화하면서 데이터를 분석하는 것이 SDA이다.
여기서는 심볼릭 데이터 구조 중 하나인 구간형 자료(Interval-valued Data)를 중심으로 설명을 하겠다.
1. 1. 구간형 자료 (Interval-valued Data)
- 구간형 자료는 말 그 자체로 데이터의 형태가 구간의 형태로 주어진다. 즉, 각 변수의 관측 값은 구간의 하한과 상한의 형태로 주어지게 된다.
- 실생활에서 접할 수 있는 구간형 자료의 예시는 일 최저/최고기온, 최저/최고혈압 등이 있다.
Xij=[XLij,XUij]
이를 좌표평면 상에서 나타내면 다음과 같다.
xi yi [2,7] [1,3] [4,8] [2,4] [1,5] [5,7] 이처럼 구간형 자료는 내부적인 구조와 변동을 가지고 있고 이 구간에서의 중앙값(median)이나 범위(range)를 이용하여 분석을 할 수 있다.
참고로 R에서는 구간형 자료를 분석할 수 있는 패키지로
RSDA
,symbolicDA
,iRegression
등이 존재한다.
2. 구간형 자료의 선형 회귀 모형
- 통계학을 전공하지 않은 비전공자도 대부분 통계적 분석 모형으로 선형 회귀(Linear Regression)에 대해서는 많이 들어본 적이 있을 것이다.
- 회귀 모형은 대표적인 통계 분석 모형 중 하나로 다른 분석방법에 비해 계산이 쉬우며 결과를 해석하는데도 어려움이 없는 모형이다.
- 구간형 자료에 대한 회귀 모형 역시 2000년대 초반부터 연구가 진행되어 왔다. 이 장표에서는 대표적인 몇 가지 방법을 소개하고자 한다.
2. 1. Center Method (CM)
- Billard and Diday(2000)에 의해 제안된 방법으로 각 구간에서 중심점을 추출하여 이를 선형회귀 모형으로 적합시키는 방법이다.
xcij=xLij+xUij2,yci=yLi+yUi2
각 변수의 구간의 중심점을 Xc1,...,Xcp,Yc라고 할 때 모형식은 다음과 같다.
Yc=Xcβc+ϵc
이 때 회귀계수는 최소제곱법(Least Squared Estimation)으로 추정한다.
^βc=((Xc)TXc)−1(Xc)TYc
그러나 이 방법은 예측값(Predicted value)를 구할 때 음의 회귀계수가 존재한다면 하한 값이 상한 값보다 커지는 경우가 발생할 수 있다. 이를 처음 발견한 Xu(2010)는 예측구간에서의 최소값과 최대값을 각 예측값의 하한과 상한으로 제시하였다.
ˆYL=min(X0L^βc,X0U^βc)
ˆYU=max(X0L^βc,X0U^βc)
2. 2. Center and Range Method (CRM)
- CM의 문제점은 단순히 구간의 중심점만 가지고 추정을 하기 때문에 구간 내부의 변동성을 설명하지 못한다는 단점이 있다.
- 이러한 문제를 해결하기 위해 Lima Neto et al.(2004)에 의해 CRM이 고안되었다.
- 이 방법의 기본적인 아이디어는 구간의 중심점과 마찬가지로 범위값을 계산한 후
xrij=xUij−xLij,yri=yUi−yLi
- 중심점과 범위에 대해 각각 독립적으로 모형을 추정하는 것이다.
Yc=Xcβc+ϵc
Yr=Xrβr+ϵr
- 이 역시도 회귀 계수는 CM과 동일하게 최소제곱법으로 추정한다.
min(||ec||2+||er||2)=min(||Yc−Xc^βc||2+||Yr−Xr^βr||2])
- 예측 값 ˆY=[ˆYL,ˆYU]은 다음과 같다.
ˆYL=^Yc−^Yr2 ˆYU=^Yc+^Yr2
2. 3. Constrained Center and Range Method (CCRM)
- CRM의 또 다른 단점은 범위 모형의 예측 값이 음수가 나올 수 있다는 점이다.
- 범위는 구간의 폭을 의미하기 때문에 상한이 하한보다 크므로 음수가 나올 수 없는게 맞다.
- 그래서 Lima Neto and De Carvalho(2010)는 CRM에서 범위 모형의 계수가 모두 양수라는 제약조건 βr≥0을 추가한 CCRM을 제시하였다.
- 중심점 모형은 최소제곱법을 이용, 범위 모형은 비음최소제곱법(Non-Negative Least Square)을 이용하여 계수를 추정한다.
min(||ec||2+||er||2)=min(||Yc−Xc^βc||2+||Yr−Xr^βr||2]),^βr≥0
- 예측값의 구간은 CRM과 동일하다.
ˆYL=^Yc−^Yr2 ˆYU=^Yc+^Yr2
2. 4. Symbolic Covariance Method (SCM)
- Xu(2010)가 제안한 SCM은 간략하게 말하자면 심볼릭 공분산 행렬(Symbolic Covariance Matrix)을 이용하여 회귀게수를 추정하는 방법이다.
- SCM에서는 선형회귀모형을 중심화한 모형을 사용한다.
Y−ˉY=(X−ˉX)β+ϵ
- 여기서 ˉX는 설명변수의 심볼릭 표본 평균 행렬(Symbolic sample mean matrix)이고, ˉY는 반응변수의 심볼릭 표본 평균 벡터를 의미한다.
- 구간형 자료에서 심볼릭 표본 평균은 다음과 같이 구한다.
ˉXj=12nn∑i=1(XLij+XUij),j=1,...,p
- 회귀계수는 최소제곱법으로 추정하는데 이 때 심볼릭 공분산 행렬을 이용한다. 이를 수식으로 나타내면 다음과 같다.
ˆβ=[(X−ˉX)T(X−ˉX)]−1(X−ˉX)T(Y−ˉY)=S−1XXSXY
- 여기서 SXX는 설명변수 Xj의 심볼릭 표본 분산-공분산 행렬(Symbolic sample variance-covariance matrix)이고, SXY는 반응변수 Y와 설명변수 Xj의 심볼릭 표본 공분산 벡터이다. 표본공분산 식은 다음과 같다.
Cov(Xj,Xk)=16nn∑i=1[2(XLij−¯Xj)(XLik−¯Xk)+(XLij−¯Xj)(XUik−¯Xk)+(XUij−¯Xj)(XLik−¯Xk)+2(XUij−¯Xj)(XUik−¯Xk)]
- 위 식에서 볼 수 있듯이 심보릭 표본 공분산을 계산하는 과정은 각 변수의 하한, 상한 값을 모두 이용하기 때문에 SCM 역시 구간의 변동성을 잘 반영한다고 볼 수 있다.
- 예측 값의 구간은 CRM과 동일하다.
ˆYL=^Yc−^Yr2 ˆYU=^Yc+^Yr2
2. 5. Monte Carlo Method (MCM)
- Ahn et al.(2012)가 제안한 Monte Carlo Method(MCM)은 재표본 추출법을 이용하여 모형을 추정하는 방법이다.
- 모든 변수의 관측값이 구간으로 주어지는데 이 각각의 관측값들의 구간 내에서 임의의 표본을 총 B번 재표본 추출을 실시하여 추출된 표본을 이용하는 방법이다.
- 이렇게 추출된 표본을 가지고 각 B개의 선형회귀모형 계수를 계산하는 것이 MCM의 특징이다.
재표본 추출법
재표본 추출
- i=1,..,n, j=1,...,p 일 때, 균일 분포를 이용하여 Xij=[aij,bij]에서 추출한 값을 X∗bij, Yi=[ci,di]에서 추출한 값을 Y∗bi라고 하면 총 B개의 랜덤 벡터 (Y∗bi,X∗bi1,...,X∗bip)가 생성된다.
선형회귀모형의 계수를 추정하기 위하여 1번에서 얻은 랜덤 벡터를 b번째 랜덤 표본인 Y∗b=(Y∗b1,...,Y∗bn)T, X∗bj=(X∗bij,...,X∗bnj)T, j=1,..,p로 재구성한다.
2번을 수행하면 총 B개의 랜덤표본이 생성되는데 b번쨰 표본으로 최소제곱법을 이용하여 회귀계수를 구한다.
ˆβ∗b=[(X∗b)T(X∗b)]−1(X∗b)TY∗b
- 총 B개의 회귀계수의 평균을 이용해 구간형 자료의 최종 모형을 추정한다. 이 때 모형의 회귀계수는 ¯ˆβj는 ¯ˆβj=1B∑Bb=1ˆβ∗bj, j=0,...,p 이다.
ˆY∗=¯ˆβ∗0+¯ˆβ∗1X1+...+¯ˆβ∗pXp
이러한 재표본 추출시 이용되는 분포는 Ahn et al.(2012)가 제안한 균일분포(Uniform distribution)를 이용할 수도 있고 절단정규분포(Truncated Normal distribution)를 이용할 수도 있다.
- 여기서 절단정규분포란 확률변수 X가 N(μ,σ2)을 따르고 구간 X∈(a,b), −∞≤a<b≤∞일 때 a<X<b에서 X의 조건부 분포를 의미한다.
f(x;μ,σ,a,b)=1σϕ(x−μσ)Φ(b−μσ)−Φ(a−μσ),a≤x≤b
3. 구간형 자료의 비선형 회귀 모형
- 선형 회귀 모형뿐만아니라 비선형 회귀 모형에 대해서도 꾸준히 연구가 진행 중이며 커널 함수를 비롯한 여러 가지 모형이 제안되었다.
3. 1. Nonlinear Regression Method (NLM)
- CRM을 처음 제안하였던 Lima Neto and De Carvalho(2017)는 구간형 자료에 대한 비선형 회귀 모형으로 NLM(Nonlinear regression method for interval-valued data) 모형을 제안하였다.
- 기존에 제안했던 CRM과 비슷한 형태라고 생각할 수 있다. 기존의 선형 모형 CRM은 선형 함수를 고려한 모형이지만 NLM은 비선형 함수를 고려한 모형이라고 생각하면 된다. 즉 CRM에서 비선형 모형 함수를 고려한 특별한 케이스라고 생각할 수 있다.
yci=fc(xci,θc)+ϵci
yri=fr(xri,θr)+ϵri
- 위 식에서 ϵci와 ϵri은 평균이 0이고 등분산을 가정하는 임의의 오차를 의미하며 θc와 θr은 중심점과 범위에 대한 모수 벡터(parameter vector)에 해당한다.
- fc, fr은 비선형 함수에 해당한다.
- 즉 아래와 같은 잔차제곱합을 최소화하는 식으로부터 값을 추정할 수 있다.
minθc,θr(n∑i=1(yci−fc(xci,θc))2+n∑i=1(yri−fr(xri,θr))2)
- 이러한 비선형 함수를 최적화 하는 방법으로는 대표적으로 BFGS(Broyden–Fletcher–Goldfarb–Shanno) Algorithm, Stochastic Gradient, Conjugate Gradient, Simulated Annealing 등을 이용하여 최적화하여 해당 비선형 함수를 추정할 수 있다.
- 예측 값 구간의 형태는 아래와 같다. (여기서 range는 half-range이다.)
ˆYL=min(^Yc−^Yr,^Yc+^Yr) ˆYㅕ=max(^Yc−^Yr,^Yc+^Yr)