Symbolic Data Analysis : Interval-valued data

1. 심볼릭 데이터 분석 (Symbolic Data Analysis)
- 1. 1. 구간형 자료 (Interval-valued Data)
2. 구간형 자료의 선형 회귀 모형
3. 구간형 자료의 비선형 회귀 모형
- 3. 1. Nonlinear Regression Method (NLM)

1. 심볼릭 데이터 분석 (Symbolic Data Analysis)

AI의 성능이 빠르게 발전되는 주요 원인 중 하나로 빅데이터를 생각할 수 있다.
컴퓨터 하드웨어와 인터넷 소프트웨어 기술의 지속적인 개발과 비용 감소에 의해 AI의 학습을 위해 필요한 디지털 데이터가 급속도로 증가하고 있고, 이를 통하여 AI는 충분히 학습을 할 수 있게 되어 AI의 진화 속도는 더욱 더 빨라지고 있다.
하지만 이와 같은 환경에서 한 가지 문제가 되는 부분을 본다면 바로 학습을 위한 컴퓨팅 속도이다. 효율적인 프로그래밍 또는 알고리즘 개선을 통해 일부는 해결 가능하지만 근본적인 해결방안을 모색할 필요가 있다.
여러 해결방안 중 하나는 전체 데이터를 학습하지 않고 전체 데이터를 요약한 정보의 학습을 통하여 컴퓨팅 시간을 단축할 수 있는 방법을 고민할 수 있고 이를 위한 통계적 기법으로 심볼릭 데이터 분석(Symbolic Data Analysis)이 있다.
SDA는 E. Diday (1989)에 의해 소개된 심볼릭 데이터 기반의 통계분석 기법이다.
심볼릭 데이터는 수집된 개별 데이터의 요약 정보를 의미한다.
- 대표적인 예로는 히스토그램(histogram-valued data), 테이블(table), 구간형(interval-valued data), 리스트(list) 등이 있다.
SDA 관점에서는 분석의 대상이 되는 데이터를 개별 관측값이 아닌 전체 데이터의 요약된 결과를 사용한다. 즉, 구간, 히스토그램, 테이블, 리스트, 분포, 모형 등 다양한 요약 정보가 심볼릭 데이터가 될 수 있다.
심볼릭 데이터의 사용을 통해 분석해야할 데이터의 크기는 줄어든다. 이 때 발생하는 정보의 손실을 최소화하면서 데이터를 분석하는 것이 SDA이다.
여기서는 심볼릭 데이터 구조 중 하나인 구간형 자료(Interval-valued Data)를 중심으로 설명을 하겠다.

1. 1. 구간형 자료 (Interval-valued Data)

구간형 자료는 말 그 자체로 데이터의 형태가 구간의 형태로 주어진다. 즉, 각 변수의 관측 값은 구간의 하한과 상한의 형태로 주어지게 된다.
- 실생활에서 접할 수 있는 구간형 자료의 예시는 일 최저/최고기온, 최저/최고혈압 등이 있다.

\[X_{ij} = [X_{Lij}, X_{Uij}]\]

이를 좌표평면 상에서 나타내면 다음과 같다.

\(x_i\) \(y_i\)

\([2, 7]\) \([1, 3]\)

\([4, 8]\) \([2, 4]\)

\([1, 5]\) \([5, 7]\)
이처럼 구간형 자료는 내부적인 구조와 변동을 가지고 있고 이 구간에서의 중앙값(median)이나 범위(range)를 이용하여 분석을 할 수 있다.
참고로 R에서는 구간형 자료를 분석할 수 있는 패키지로 RSDA, symbolicDA, iRegression 등이 존재한다.

\(x_i\)	\(y_i\)
\([2, 7]\)	\([1, 3]\)
\([4, 8]\)	\([2, 4]\)
\([1, 5]\)	\([5, 7]\)

2. 구간형 자료의 선형 회귀 모형

통계학을 전공하지 않은 비전공자도 대부분 통계적 분석 모형으로 선형 회귀(Linear Regression)에 대해서는 많이 들어본 적이 있을 것이다.
회귀 모형은 대표적인 통계 분석 모형 중 하나로 다른 분석방법에 비해 계산이 쉬우며 결과를 해석하는데도 어려움이 없는 모형이다.
구간형 자료에 대한 회귀 모형 역시 2000년대 초반부터 연구가 진행되어 왔다. 이 장표에서는 대표적인 몇 가지 방법을 소개하고자 한다.

2. 1. Center Method (CM)

Billard and Diday(2000)에 의해 제안된 방법으로 각 구간에서 중심점을 추출하여 이를 선형회귀 모형으로 적합시키는 방법이다.

\[x_{ij}^{c} = \frac{x_{Lij} + x_{Uij}}{2}, y_{i}^{c} = \frac{y_{Li} + y_{Ui}}{2}\]

각 변수의 구간의 중심점을 \(X_{1}^{c}, ..., X_{p}^{c}, Y^{c}\)라고 할 때 모형식은 다음과 같다.

\[Y^{c} = X^{c} \beta^{c} + \epsilon^{c}\]
이 때 회귀계수는 최소제곱법(Least Squared Estimation)으로 추정한다.

\[\hat{\beta^{c}} = ((X^{c})^\text{T}X^{c})^{-1} (X^{c})^\text{T}Y^{c}\]
그러나 이 방법은 예측값(Predicted value)를 구할 때 음의 회귀계수가 존재한다면 하한 값이 상한 값보다 커지는 경우가 발생할 수 있다. 이를 처음 발견한 Xu(2010)는 예측구간에서의 최소값과 최대값을 각 예측값의 하한과 상한으로 제시하였다.

\[\hat{Y}_{L} = \min {(X_{L}^{0} \hat{\beta^{c}}, X_{U}^{0} \hat{\beta^{c}})}\]

\[\hat{Y}_{U} = \max {(X_{L}^{0} \hat{\beta^{c}}, X_{U}^{0} \hat{\beta^{c}})}\]

2. 2. Center and Range Method (CRM)

CM의 문제점은 단순히 구간의 중심점만 가지고 추정을 하기 때문에 구간 내부의 변동성을 설명하지 못한다는 단점이 있다.
이러한 문제를 해결하기 위해 Lima Neto et al.(2004)에 의해 CRM이 고안되었다.
이 방법의 기본적인 아이디어는 구간의 중심점과 마찬가지로 범위값을 계산한 후

\[x_{ij}^{r} = x_{Uij} - x_{Lij}, y_{i}^{r} = y_{Ui} - y_{Li}\]

중심점과 범위에 대해 각각 독립적으로 모형을 추정하는 것이다.

\[Y^{c} = X^{c} \beta^{c} + \epsilon^{c}\]

\[Y^{r} = X^{r} \beta^{r} + \epsilon^{r}\]

이 역시도 회귀 계수는 CM과 동일하게 최소제곱법으로 추정한다.

\[\min (||e^{c}||^{2} + ||e^{r}||^{2}) = \min (||Y^{c}-X^{c}\hat{\beta^{c}}||^{2} + ||Y^{r}-X^{r}\hat{\beta^{r}}||^{2}])\]

예측 값 \(\hat{Y} = [\hat{Y}_{L}, \hat{Y}_{U}]\)은 다음과 같다.

\[\hat{Y}_{L} = \hat{Y^{c}} - \frac{\hat{Y^{r}}}{2}\] \[\hat{Y}_{U} = \hat{Y^{c}}+ \frac{\hat{Y^{r}}}{2}\]

2. 3. Constrained Center and Range Method (CCRM)

CRM의 또 다른 단점은 범위 모형의 예측 값이 음수가 나올 수 있다는 점이다.
범위는 구간의 폭을 의미하기 때문에 상한이 하한보다 크므로 음수가 나올 수 없는게 맞다.
그래서 Lima Neto and De Carvalho(2010)는 CRM에서 범위 모형의 계수가 모두 양수라는 제약조건 \(\beta^{r} \ge 0\)을 추가한 CCRM을 제시하였다.
중심점 모형은 최소제곱법을 이용, 범위 모형은 비음최소제곱법(Non-Negative Least Square)을 이용하여 계수를 추정한다.

\[\min (||e^{c}||^{2} + ||e^{r}||^{2}) = \min (||Y^{c}-X^{c}\hat{\beta^{c}}||^{2} + ||Y^{r}-X^{r}\hat{\beta^{r}}||^{2}]), \hat{\beta^{r}} \ge 0\]

예측값의 구간은 CRM과 동일하다.

\[\hat{Y}_{L} = \hat{Y^{c}} - \frac{\hat{Y^{r}}}{2}\] \[\hat{Y}_{U} = \hat{Y^{c}}+ \frac{\hat{Y^{r}}}{2}\]

2. 4. Symbolic Covariance Method (SCM)

Xu(2010)가 제안한 SCM은 간략하게 말하자면 심볼릭 공분산 행렬(Symbolic Covariance Matrix)을 이용하여 회귀게수를 추정하는 방법이다.
SCM에서는 선형회귀모형을 중심화한 모형을 사용한다.

\[Y - \bar{Y} = (X - \bar{X})\beta + \epsilon\]

여기서 \(\bar{X}\)는 설명변수의 심볼릭 표본 평균 행렬(Symbolic sample mean matrix)이고, \(\bar{Y}\)는 반응변수의 심볼릭 표본 평균 벡터를 의미한다.
구간형 자료에서 심볼릭 표본 평균은 다음과 같이 구한다.

\[\bar{X}_{j} = \frac{1}{2n}\sum^{n}_{i=1} (X_{Lij}+X_{Uij}), j=1,...,p\]

회귀계수는 최소제곱법으로 추정하는데 이 때 심볼릭 공분산 행렬을 이용한다. 이를 수식으로 나타내면 다음과 같다.

\[\hat{\beta} = [(X-\bar{X})^{T}(X-\bar{X})]^{-1} (X-\bar{X})^{T}(Y-\bar{Y}) = S^{-1}_{XX} S_{XY}\]

여기서 \(S_{XX}\)는 설명변수 \(X_{j}\)의 심볼릭 표본 분산-공분산 행렬(Symbolic sample variance-covariance matrix)이고, \(S_{XY}\)는 반응변수 \(Y\)와 설명변수 \(X_{j}\)의 심볼릭 표본 공분산 벡터이다. 표본공분산 식은 다음과 같다.

\[Cov(X_{j}, X_{k}) = \frac{1}{6n}\sum^{n}_{i=1} [2(X_{Lij}-\bar{X_{j}})(X_{Lik}-\bar{X_{k}}) + (X_{Lij}-\bar{X_{j}})(X_{Uik}-\bar{X_{k}}) + (X_{Uij}-\bar{X_{j}})(X_{Lik}-\bar{X_{k}}) + 2(X_{Uij}-\bar{X_{j}})(X_{Uik}-\bar{X_{k}})]\]

위 식에서 볼 수 있듯이 심보릭 표본 공분산을 계산하는 과정은 각 변수의 하한, 상한 값을 모두 이용하기 때문에 SCM 역시 구간의 변동성을 잘 반영한다고 볼 수 있다.
예측 값의 구간은 CRM과 동일하다.

\[\hat{Y}_{L} = \hat{Y^{c}} - \frac{\hat{Y^{r}}}{2}\] \[\hat{Y}_{U} = \hat{Y^{c}}+ \frac{\hat{Y^{r}}}{2}\]

2. 5. Monte Carlo Method (MCM)

Ahn et al.(2012)가 제안한 Monte Carlo Method(MCM)은 재표본 추출법을 이용하여 모형을 추정하는 방법이다.
모든 변수의 관측값이 구간으로 주어지는데 이 각각의 관측값들의 구간 내에서 임의의 표본을 총 \(B\)번 재표본 추출을 실시하여 추출된 표본을 이용하는 방법이다.
이렇게 추출된 표본을 가지고 각 \(B\)개의 선형회귀모형 계수를 계산하는 것이 MCM의 특징이다.

재표본 추출법

재표본 추출
- \(i=1,..,n\), \(j=1,...,p\) 일 때, 균일 분포를 이용하여 \(X_{ij} = [a_{ij}, b_{ij}]\)에서 추출한 값을 \(X_{ij}^{*b}\), \(Y_{i}=[c_i, d_i]\)에서 추출한 값을 \(Y_{i}^{*b}\)라고 하면 총 \(B\)개의 랜덤 벡터 \((Y_{i}^{*b}, X_{i1}^{*b}, ..., X_{ip}^{*b})\)가 생성된다.
선형회귀모형의 계수를 추정하기 위하여 1번에서 얻은 랜덤 벡터를 \(b\)번째 랜덤 표본인 \(Y^{*b}=(Y_{1}^{*b}, ...,Y_{n}^{*b})^{T}\), \(X_{j}^{*b} = (X_{ij}^{*b}, ..., X_{nj}^{*b})^{T}\), \(j=1,..,p\)로 재구성한다.
2번을 수행하면 총 \(B\)개의 랜덤표본이 생성되는데 \(b\)번쨰 표본으로 최소제곱법을 이용하여 회귀계수를 구한다.

\[\hat{\beta}^{*b} = [(X^{*b})^{T}(X^{*b})]^{-1}(X^{*b})^{T}Y^{*b}\]

총 \(B\)개의 회귀계수의 평균을 이용해 구간형 자료의 최종 모형을 추정한다. 이 때 모형의 회귀계수는 \(\bar{\hat{\beta}_{j}}\)는 \(\bar{\hat{\beta}_{j}} = \frac{1}{B} \sum^{B}_{b=1} \hat{\beta}_{j}^{*b}\), \(j=0,...,p\) 이다.

\[\hat{Y}^{*} = \bar{\hat{\beta}_{0}^{*}} + \bar{\hat{\beta}_{1}^{*}}X_{1} + ... + \bar{\hat{\beta}_{p}^{*}}X_{p}\]

이러한 재표본 추출시 이용되는 분포는 Ahn et al.(2012)가 제안한 균일분포(Uniform distribution)를 이용할 수도 있고 절단정규분포(Truncated Normal distribution)를 이용할 수도 있다.
- 여기서 절단정규분포란 확률변수 \(X\)가 \(N(\mu, \sigma^2)\)을 따르고 구간 \(X \in (a,b)\), \(-\infty \le a \lt b \le \infty\)일 때 \(a\lt X \lt b\)에서 \(X\)의 조건부 분포를 의미한다.

\[f(x; \mu, \sigma, a, b) = \frac{\frac{1}{\sigma} \phi\big(\frac{x-\mu}{\sigma}\big)}{\Phi\big(\frac{b-\mu}{\sigma}\big) - \Phi\big(\frac{a-\mu}{\sigma}\big)}, a \le x \le b\]

3. 구간형 자료의 비선형 회귀 모형

선형 회귀 모형뿐만아니라 비선형 회귀 모형에 대해서도 꾸준히 연구가 진행 중이며 커널 함수를 비롯한 여러 가지 모형이 제안되었다.

3. 1. Nonlinear Regression Method (NLM)

CRM을 처음 제안하였던 Lima Neto and De Carvalho(2017)는 구간형 자료에 대한 비선형 회귀 모형으로 NLM(Nonlinear regression method for interval-valued data) 모형을 제안하였다.
기존에 제안했던 CRM과 비슷한 형태라고 생각할 수 있다. 기존의 선형 모형 CRM은 선형 함수를 고려한 모형이지만 NLM은 비선형 함수를 고려한 모형이라고 생각하면 된다. 즉 CRM에서 비선형 모형 함수를 고려한 특별한 케이스라고 생각할 수 있다.

\[y_{i}^{c} = f_{c}\big(\mathbf{x}_{i}^{c}, \theta^{c}\big) + \epsilon_{i}^{c}\]

\[y_{i}^{r} = f_{r}\big(\mathbf{x}_{i}^{r}, \theta^{r}\big) + \epsilon_{i}^{r}\]

위 식에서 \(\epsilon_{i}^{c}\)와 \(\epsilon_{i}^{r}\)은 평균이 0이고 등분산을 가정하는 임의의 오차를 의미하며 \(\theta^{c}\)와 \(\theta^{r}\)은 중심점과 범위에 대한 모수 벡터(parameter vector)에 해당한다.
\(f_{c}\), \(f_{r}\)은 비선형 함수에 해당한다.
즉 아래와 같은 잔차제곱합을 최소화하는 식으로부터 값을 추정할 수 있다.

\[\min_{\theta^{c}, \theta^{r}}\bigg(\sum^{n}_{i=1}\big(y_{i}^{c} - f_{c}(x_{i}^{c}, \mathbf{\theta^{c}})\big)^2 + \sum^{n}_{i=1}\big(y_{i}^{r} - f_{r}(x_{i}^{r}, \mathbf{\theta^{r}})\big)^2\bigg)\]

이러한 비선형 함수를 최적화 하는 방법으로는 대표적으로 BFGS(Broyden–Fletcher–Goldfarb–Shanno) Algorithm, Stochastic Gradient, Conjugate Gradient, Simulated Annealing 등을 이용하여 최적화하여 해당 비선형 함수를 추정할 수 있다.
예측 값 구간의 형태는 아래와 같다. (여기서 range는 half-range이다.)

\[\hat{Y}_{L} = \min\big({\hat{Y^{c}} - \hat{Y^{r}}}, {\hat{Y^{c}} + \hat{Y^{r}}}\big)\] \[\hat{Y}_{ㅕ} = \max\big({\hat{Y^{c}} - \hat{Y^{r}}}, {\hat{Y^{c}} + \hat{Y^{r}}}\big)\]

TAGS.

제이드의 낙서장

카테고리

방문자수