Symbolic Data Analysis : Interval-valued data

반응형
Symbolic Data Analysis : Interval-valued data

1. 심볼릭 데이터 분석 (Symbolic Data Analysis)

  • AI의 성능이 빠르게 발전되는 주요 원인 중 하나로 빅데이터를 생각할 수 있다.
  • 컴퓨터 하드웨어와 인터넷 소프트웨어 기술의 지속적인 개발과 비용 감소에 의해 AI의 학습을 위해 필요한 디지털 데이터가 급속도로 증가하고 있고, 이를 통하여 AI는 충분히 학습을 할 수 있게 되어 AI의 진화 속도는 더욱 더 빨라지고 있다.
  • 하지만 이와 같은 환경에서 한 가지 문제가 되는 부분을 본다면 바로 학습을 위한 컴퓨팅 속도이다. 효율적인 프로그래밍 또는 알고리즘 개선을 통해 일부는 해결 가능하지만 근본적인 해결방안을 모색할 필요가 있다.
  • 여러 해결방안 중 하나는 전체 데이터를 학습하지 않고 전체 데이터를 요약한 정보의 학습을 통하여 컴퓨팅 시간을 단축할 수 있는 방법을 고민할 수 있고 이를 위한 통계적 기법으로 심볼릭 데이터 분석(Symbolic Data Analysis)이 있다.

  • SDA는 E. Diday (1989)에 의해 소개된 심볼릭 데이터 기반의 통계분석 기법이다.
  • 심볼릭 데이터는 수집된 개별 데이터의 요약 정보를 의미한다.
    • 대표적인 예로는 히스토그램(histogram-valued data), 테이블(table), 구간형(interval-valued data), 리스트(list) 등이 있다.
  • SDA 관점에서는 분석의 대상이 되는 데이터를 개별 관측값이 아닌 전체 데이터의 요약된 결과를 사용한다. 즉, 구간, 히스토그램, 테이블, 리스트, 분포, 모형 등 다양한 요약 정보가 심볼릭 데이터가 될 수 있다.
  • 심볼릭 데이터의 사용을 통해 분석해야할 데이터의 크기는 줄어든다. 이 때 발생하는 정보의 손실을 최소화하면서 데이터를 분석하는 것이 SDA이다.

  • 여기서는 심볼릭 데이터 구조 중 하나인 구간형 자료(Interval-valued Data)를 중심으로 설명을 하겠다.

1. 1. 구간형 자료 (Interval-valued Data)

  • 구간형 자료는 말 그 자체로 데이터의 형태가 구간의 형태로 주어진다. 즉, 각 변수의 관측 값은 구간의 하한과 상한의 형태로 주어지게 된다.
    • 실생활에서 접할 수 있는 구간형 자료의 예시는 일 최저/최고기온, 최저/최고혈압 등이 있다.

Xij=[XLij,XUij]

  • 이를 좌표평면 상에서 나타내면 다음과 같다.

    xi yi
    [2,7] [1,3]
    [4,8] [2,4]
    [1,5] [5,7]

  • 이처럼 구간형 자료는 내부적인 구조와 변동을 가지고 있고 이 구간에서의 중앙값(median)이나 범위(range)를 이용하여 분석을 할 수 있다.

  • 참고로 R에서는 구간형 자료를 분석할 수 있는 패키지로 RSDA, symbolicDA, iRegression 등이 존재한다.



2. 구간형 자료의 선형 회귀 모형

  • 통계학을 전공하지 않은 비전공자도 대부분 통계적 분석 모형으로 선형 회귀(Linear Regression)에 대해서는 많이 들어본 적이 있을 것이다.
  • 회귀 모형은 대표적인 통계 분석 모형 중 하나로 다른 분석방법에 비해 계산이 쉬우며 결과를 해석하는데도 어려움이 없는 모형이다.
  • 구간형 자료에 대한 회귀 모형 역시 2000년대 초반부터 연구가 진행되어 왔다. 이 장표에서는 대표적인 몇 가지 방법을 소개하고자 한다.

2. 1. Center Method (CM)

  • Billard and Diday(2000)에 의해 제안된 방법으로 각 구간에서 중심점을 추출하여 이를 선형회귀 모형으로 적합시키는 방법이다.

xcij=xLij+xUij2,yci=yLi+yUi2

  • 각 변수의 구간의 중심점을 Xc1,...,Xcp,Yc라고 할 때 모형식은 다음과 같다.

    Yc=Xcβc+ϵc

  • 이 때 회귀계수는 최소제곱법(Least Squared Estimation)으로 추정한다.

    ^βc=((Xc)TXc)1(Xc)TYc

  • 그러나 이 방법은 예측값(Predicted value)를 구할 때 음의 회귀계수가 존재한다면 하한 값이 상한 값보다 커지는 경우가 발생할 수 있다. 이를 처음 발견한 Xu(2010)는 예측구간에서의 최소값과 최대값을 각 예측값의 하한과 상한으로 제시하였다.

ˆYL=min(X0L^βc,X0U^βc)

ˆYU=max(X0L^βc,X0U^βc)


2. 2. Center and Range Method (CRM)

  • CM의 문제점은 단순히 구간의 중심점만 가지고 추정을 하기 때문에 구간 내부의 변동성을 설명하지 못한다는 단점이 있다.
  • 이러한 문제를 해결하기 위해 Lima Neto et al.(2004)에 의해 CRM이 고안되었다.
  • 이 방법의 기본적인 아이디어는 구간의 중심점과 마찬가지로 범위값을 계산한 후

xrij=xUijxLij,yri=yUiyLi

  • 중심점과 범위에 대해 각각 독립적으로 모형을 추정하는 것이다.

Yc=Xcβc+ϵc

Yr=Xrβr+ϵr

  • 이 역시도 회귀 계수는 CM과 동일하게 최소제곱법으로 추정한다.

min(||ec||2+||er||2)=min(||YcXc^βc||2+||YrXr^βr||2])

  • 예측 값 ˆY=[ˆYL,ˆYU]은 다음과 같다.

ˆYL=^Yc^Yr2 ˆYU=^Yc+^Yr2


2. 3. Constrained Center and Range Method (CCRM)

  • CRM의 또 다른 단점은 범위 모형의 예측 값이 음수가 나올 수 있다는 점이다.
  • 범위는 구간의 폭을 의미하기 때문에 상한이 하한보다 크므로 음수가 나올 수 없는게 맞다.
  • 그래서 Lima Neto and De Carvalho(2010)는 CRM에서 범위 모형의 계수가 모두 양수라는 제약조건 βr0을 추가한 CCRM을 제시하였다.
  • 중심점 모형은 최소제곱법을 이용, 범위 모형은 비음최소제곱법(Non-Negative Least Square)을 이용하여 계수를 추정한다.

min(||ec||2+||er||2)=min(||YcXc^βc||2+||YrXr^βr||2]),^βr0

  • 예측값의 구간은 CRM과 동일하다.

ˆYL=^Yc^Yr2 ˆYU=^Yc+^Yr2


2. 4. Symbolic Covariance Method (SCM)

  • Xu(2010)가 제안한 SCM은 간략하게 말하자면 심볼릭 공분산 행렬(Symbolic Covariance Matrix)을 이용하여 회귀게수를 추정하는 방법이다.
  • SCM에서는 선형회귀모형을 중심화한 모형을 사용한다.

YˉY=(XˉX)β+ϵ

  • 여기서 ˉX는 설명변수의 심볼릭 표본 평균 행렬(Symbolic sample mean matrix)이고, ˉY는 반응변수의 심볼릭 표본 평균 벡터를 의미한다.
  • 구간형 자료에서 심볼릭 표본 평균은 다음과 같이 구한다.

ˉXj=12nni=1(XLij+XUij),j=1,...,p

  • 회귀계수는 최소제곱법으로 추정하는데 이 때 심볼릭 공분산 행렬을 이용한다. 이를 수식으로 나타내면 다음과 같다.

ˆβ=[(XˉX)T(XˉX)]1(XˉX)T(YˉY)=S1XXSXY

  • 여기서 SXX는 설명변수 Xj의 심볼릭 표본 분산-공분산 행렬(Symbolic sample variance-covariance matrix)이고, SXY는 반응변수 Y와 설명변수 Xj의 심볼릭 표본 공분산 벡터이다. 표본공분산 식은 다음과 같다.

Cov(Xj,Xk)=16nni=1[2(XLij¯Xj)(XLik¯Xk)+(XLij¯Xj)(XUik¯Xk)+(XUij¯Xj)(XLik¯Xk)+2(XUij¯Xj)(XUik¯Xk)]

  • 위 식에서 볼 수 있듯이 심보릭 표본 공분산을 계산하는 과정은 각 변수의 하한, 상한 값을 모두 이용하기 때문에 SCM 역시 구간의 변동성을 잘 반영한다고 볼 수 있다.
  • 예측 값의 구간은 CRM과 동일하다.

ˆYL=^Yc^Yr2 ˆYU=^Yc+^Yr2


2. 5. Monte Carlo Method (MCM)

  • Ahn et al.(2012)가 제안한 Monte Carlo Method(MCM)은 재표본 추출법을 이용하여 모형을 추정하는 방법이다.
  • 모든 변수의 관측값이 구간으로 주어지는데 이 각각의 관측값들의 구간 내에서 임의의 표본을 총 B번 재표본 추출을 실시하여 추출된 표본을 이용하는 방법이다.
  • 이렇게 추출된 표본을 가지고 각 B개의 선형회귀모형 계수를 계산하는 것이 MCM의 특징이다.

재표본 추출법

  1. 재표본 추출

    • i=1,..,n, j=1,...,p 일 때, 균일 분포를 이용하여 Xij=[aij,bij]에서 추출한 값을 Xbij, Yi=[ci,di]에서 추출한 값을 Ybi라고 하면 총 B개의 랜덤 벡터 (Ybi,Xbi1,...,Xbip)가 생성된다.
  2. 선형회귀모형의 계수를 추정하기 위하여 1번에서 얻은 랜덤 벡터를 b번째 랜덤 표본인 Yb=(Yb1,...,Ybn)T, Xbj=(Xbij,...,Xbnj)T, j=1,..,p로 재구성한다.

  3. 2번을 수행하면 총 B개의 랜덤표본이 생성되는데 b번쨰 표본으로 최소제곱법을 이용하여 회귀계수를 구한다.

ˆβb=[(Xb)T(Xb)]1(Xb)TYb

  1. B개의 회귀계수의 평균을 이용해 구간형 자료의 최종 모형을 추정한다. 이 때 모형의 회귀계수는 ¯ˆβj¯ˆβj=1BBb=1ˆβbj, j=0,...,p 이다.

ˆY=¯ˆβ0+¯ˆβ1X1+...+¯ˆβpXp

  • 이러한 재표본 추출시 이용되는 분포는 Ahn et al.(2012)가 제안한 균일분포(Uniform distribution)를 이용할 수도 있고 절단정규분포(Truncated Normal distribution)를 이용할 수도 있다.

    • 여기서 절단정규분포란 확률변수 XN(μ,σ2)을 따르고 구간 X(a,b), a<b일 때 a<X<b에서 X의 조건부 분포를 의미한다.

f(x;μ,σ,a,b)=1σϕ(xμσ)Φ(bμσ)Φ(aμσ),axb

3. 구간형 자료의 비선형 회귀 모형

  • 선형 회귀 모형뿐만아니라 비선형 회귀 모형에 대해서도 꾸준히 연구가 진행 중이며 커널 함수를 비롯한 여러 가지 모형이 제안되었다.

3. 1. Nonlinear Regression Method (NLM)

  • CRM을 처음 제안하였던 Lima Neto and De Carvalho(2017)는 구간형 자료에 대한 비선형 회귀 모형으로 NLM(Nonlinear regression method for interval-valued data) 모형을 제안하였다.
  • 기존에 제안했던 CRM과 비슷한 형태라고 생각할 수 있다. 기존의 선형 모형 CRM은 선형 함수를 고려한 모형이지만 NLM은 비선형 함수를 고려한 모형이라고 생각하면 된다. 즉 CRM에서 비선형 모형 함수를 고려한 특별한 케이스라고 생각할 수 있다.

yci=fc(xci,θc)+ϵci

yri=fr(xri,θr)+ϵri

  • 위 식에서 ϵciϵri은 평균이 0이고 등분산을 가정하는 임의의 오차를 의미하며 θcθr은 중심점과 범위에 대한 모수 벡터(parameter vector)에 해당한다.
  • fc, fr은 비선형 함수에 해당한다.
  • 즉 아래와 같은 잔차제곱합을 최소화하는 식으로부터 값을 추정할 수 있다.

minθc,θr(ni=1(ycifc(xci,θc))2+ni=1(yrifr(xri,θr))2)

  • 이러한 비선형 함수를 최적화 하는 방법으로는 대표적으로 BFGS(Broyden–Fletcher–Goldfarb–Shanno) Algorithm, Stochastic Gradient, Conjugate Gradient, Simulated Annealing 등을 이용하여 최적화하여 해당 비선형 함수를 추정할 수 있다.
  • 예측 값 구간의 형태는 아래와 같다. (여기서 range는 half-range이다.)

ˆYL=min(^Yc^Yr,^Yc+^Yr) ˆY=max(^Yc^Yr,^Yc+^Yr)

반응형
TAGS.

Comments