Symbolic Data Analysis : Interval-valued data
1. 심볼릭 데이터 분석 (Symbolic Data Analysis)
- AI의 성능이 빠르게 발전되는 주요 원인 중 하나로 빅데이터를 생각할 수 있다.
- 컴퓨터 하드웨어와 인터넷 소프트웨어 기술의 지속적인 개발과 비용 감소에 의해 AI의 학습을 위해 필요한 디지털 데이터가 급속도로 증가하고 있고, 이를 통하여 AI는 충분히 학습을 할 수 있게 되어 AI의 진화 속도는 더욱 더 빨라지고 있다.
- 하지만 이와 같은 환경에서 한 가지 문제가 되는 부분을 본다면 바로 학습을 위한 컴퓨팅 속도이다. 효율적인 프로그래밍 또는 알고리즘 개선을 통해 일부는 해결 가능하지만 근본적인 해결방안을 모색할 필요가 있다.
여러 해결방안 중 하나는 전체 데이터를 학습하지 않고 전체 데이터를 요약한 정보의 학습을 통하여 컴퓨팅 시간을 단축할 수 있는 방법을 고민할 수 있고 이를 위한 통계적 기법으로 심볼릭 데이터 분석(Symbolic Data Analysis)이 있다.
- SDA는 E. Diday (1989)에 의해 소개된 심볼릭 데이터 기반의 통계분석 기법이다.
- 심볼릭 데이터는 수집된 개별 데이터의 요약 정보를 의미한다.
- 대표적인 예로는 히스토그램(histogram-valued data), 테이블(table), 구간형(interval-valued data), 리스트(list) 등이 있다.
- SDA 관점에서는 분석의 대상이 되는 데이터를 개별 관측값이 아닌 전체 데이터의 요약된 결과를 사용한다. 즉, 구간, 히스토그램, 테이블, 리스트, 분포, 모형 등 다양한 요약 정보가 심볼릭 데이터가 될 수 있다.
심볼릭 데이터의 사용을 통해 분석해야할 데이터의 크기는 줄어든다. 이 때 발생하는 정보의 손실을 최소화하면서 데이터를 분석하는 것이 SDA이다.
여기서는 심볼릭 데이터 구조 중 하나인 구간형 자료(Interval-valued Data)를 중심으로 설명을 하겠다.
1. 1. 구간형 자료 (Interval-valued Data)
- 구간형 자료는 말 그 자체로 데이터의 형태가 구간의 형태로 주어진다. 즉, 각 변수의 관측 값은 구간의 하한과 상한의 형태로 주어지게 된다.
- 실생활에서 접할 수 있는 구간형 자료의 예시는 일 최저/최고기온, 최저/최고혈압 등이 있다.
\[X_{ij} = [X_{Lij}, X_{Uij}]\]
이를 좌표평면 상에서 나타내면 다음과 같다.
\(x_i\) \(y_i\) \([2, 7]\) \([1, 3]\) \([4, 8]\) \([2, 4]\) \([1, 5]\) \([5, 7]\) 이처럼 구간형 자료는 내부적인 구조와 변동을 가지고 있고 이 구간에서의 중앙값(median)이나 범위(range)를 이용하여 분석을 할 수 있다.
참고로 R에서는 구간형 자료를 분석할 수 있는 패키지로
RSDA
,symbolicDA
,iRegression
등이 존재한다.
2. 구간형 자료의 선형 회귀 모형
- 통계학을 전공하지 않은 비전공자도 대부분 통계적 분석 모형으로 선형 회귀(Linear Regression)에 대해서는 많이 들어본 적이 있을 것이다.
- 회귀 모형은 대표적인 통계 분석 모형 중 하나로 다른 분석방법에 비해 계산이 쉬우며 결과를 해석하는데도 어려움이 없는 모형이다.
- 구간형 자료에 대한 회귀 모형 역시 2000년대 초반부터 연구가 진행되어 왔다. 이 장표에서는 대표적인 몇 가지 방법을 소개하고자 한다.
2. 1. Center Method (CM)
- Billard and Diday(2000)에 의해 제안된 방법으로 각 구간에서 중심점을 추출하여 이를 선형회귀 모형으로 적합시키는 방법이다.
\[x_{ij}^{c} = \frac{x_{Lij} + x_{Uij}}{2}, y_{i}^{c} = \frac{y_{Li} + y_{Ui}}{2}\]
각 변수의 구간의 중심점을 \(X_{1}^{c}, ..., X_{p}^{c}, Y^{c}\)라고 할 때 모형식은 다음과 같다.
\[Y^{c} = X^{c} \beta^{c} + \epsilon^{c}\]
이 때 회귀계수는 최소제곱법(Least Squared Estimation)으로 추정한다.
\[\hat{\beta^{c}} = ((X^{c})^\text{T}X^{c})^{-1} (X^{c})^\text{T}Y^{c}\]
그러나 이 방법은 예측값(Predicted value)를 구할 때 음의 회귀계수가 존재한다면 하한 값이 상한 값보다 커지는 경우가 발생할 수 있다. 이를 처음 발견한 Xu(2010)는 예측구간에서의 최소값과 최대값을 각 예측값의 하한과 상한으로 제시하였다.
\[\hat{Y}_{L} = \min {(X_{L}^{0} \hat{\beta^{c}}, X_{U}^{0} \hat{\beta^{c}})}\]
\[\hat{Y}_{U} = \max {(X_{L}^{0} \hat{\beta^{c}}, X_{U}^{0} \hat{\beta^{c}})}\]
2. 2. Center and Range Method (CRM)
- CM의 문제점은 단순히 구간의 중심점만 가지고 추정을 하기 때문에 구간 내부의 변동성을 설명하지 못한다는 단점이 있다.
- 이러한 문제를 해결하기 위해 Lima Neto et al.(2004)에 의해 CRM이 고안되었다.
- 이 방법의 기본적인 아이디어는 구간의 중심점과 마찬가지로 범위값을 계산한 후
\[x_{ij}^{r} = x_{Uij} - x_{Lij}, y_{i}^{r} = y_{Ui} - y_{Li}\]
- 중심점과 범위에 대해 각각 독립적으로 모형을 추정하는 것이다.
\[Y^{c} = X^{c} \beta^{c} + \epsilon^{c}\]
\[Y^{r} = X^{r} \beta^{r} + \epsilon^{r}\]
- 이 역시도 회귀 계수는 CM과 동일하게 최소제곱법으로 추정한다.
\[\min (||e^{c}||^{2} + ||e^{r}||^{2}) = \min (||Y^{c}-X^{c}\hat{\beta^{c}}||^{2} + ||Y^{r}-X^{r}\hat{\beta^{r}}||^{2}])\]
- 예측 값 \(\hat{Y} = [\hat{Y}_{L}, \hat{Y}_{U}]\)은 다음과 같다.
\[\hat{Y}_{L} = \hat{Y^{c}} - \frac{\hat{Y^{r}}}{2}\] \[\hat{Y}_{U} = \hat{Y^{c}}+ \frac{\hat{Y^{r}}}{2}\]
2. 3. Constrained Center and Range Method (CCRM)
- CRM의 또 다른 단점은 범위 모형의 예측 값이 음수가 나올 수 있다는 점이다.
- 범위는 구간의 폭을 의미하기 때문에 상한이 하한보다 크므로 음수가 나올 수 없는게 맞다.
- 그래서 Lima Neto and De Carvalho(2010)는 CRM에서 범위 모형의 계수가 모두 양수라는 제약조건 \(\beta^{r} \ge 0\)을 추가한 CCRM을 제시하였다.
- 중심점 모형은 최소제곱법을 이용, 범위 모형은 비음최소제곱법(Non-Negative Least Square)을 이용하여 계수를 추정한다.
\[\min (||e^{c}||^{2} + ||e^{r}||^{2}) = \min (||Y^{c}-X^{c}\hat{\beta^{c}}||^{2} + ||Y^{r}-X^{r}\hat{\beta^{r}}||^{2}]), \hat{\beta^{r}} \ge 0\]
- 예측값의 구간은 CRM과 동일하다.
\[\hat{Y}_{L} = \hat{Y^{c}} - \frac{\hat{Y^{r}}}{2}\] \[\hat{Y}_{U} = \hat{Y^{c}}+ \frac{\hat{Y^{r}}}{2}\]
2. 4. Symbolic Covariance Method (SCM)
- Xu(2010)가 제안한 SCM은 간략하게 말하자면 심볼릭 공분산 행렬(Symbolic Covariance Matrix)을 이용하여 회귀게수를 추정하는 방법이다.
- SCM에서는 선형회귀모형을 중심화한 모형을 사용한다.
\[Y - \bar{Y} = (X - \bar{X})\beta + \epsilon\]
- 여기서 \(\bar{X}\)는 설명변수의 심볼릭 표본 평균 행렬(Symbolic sample mean matrix)이고, \(\bar{Y}\)는 반응변수의 심볼릭 표본 평균 벡터를 의미한다.
- 구간형 자료에서 심볼릭 표본 평균은 다음과 같이 구한다.
\[\bar{X}_{j} = \frac{1}{2n}\sum^{n}_{i=1} (X_{Lij}+X_{Uij}), j=1,...,p\]
- 회귀계수는 최소제곱법으로 추정하는데 이 때 심볼릭 공분산 행렬을 이용한다. 이를 수식으로 나타내면 다음과 같다.
\[\hat{\beta} = [(X-\bar{X})^{T}(X-\bar{X})]^{-1} (X-\bar{X})^{T}(Y-\bar{Y}) = S^{-1}_{XX} S_{XY}\]
- 여기서 \(S_{XX}\)는 설명변수 \(X_{j}\)의 심볼릭 표본 분산-공분산 행렬(Symbolic sample variance-covariance matrix)이고, \(S_{XY}\)는 반응변수 \(Y\)와 설명변수 \(X_{j}\)의 심볼릭 표본 공분산 벡터이다. 표본공분산 식은 다음과 같다.
\[Cov(X_{j}, X_{k}) = \frac{1}{6n}\sum^{n}_{i=1} [2(X_{Lij}-\bar{X_{j}})(X_{Lik}-\bar{X_{k}}) + (X_{Lij}-\bar{X_{j}})(X_{Uik}-\bar{X_{k}}) + (X_{Uij}-\bar{X_{j}})(X_{Lik}-\bar{X_{k}}) + 2(X_{Uij}-\bar{X_{j}})(X_{Uik}-\bar{X_{k}})]\]
- 위 식에서 볼 수 있듯이 심보릭 표본 공분산을 계산하는 과정은 각 변수의 하한, 상한 값을 모두 이용하기 때문에 SCM 역시 구간의 변동성을 잘 반영한다고 볼 수 있다.
- 예측 값의 구간은 CRM과 동일하다.
\[\hat{Y}_{L} = \hat{Y^{c}} - \frac{\hat{Y^{r}}}{2}\] \[\hat{Y}_{U} = \hat{Y^{c}}+ \frac{\hat{Y^{r}}}{2}\]
2. 5. Monte Carlo Method (MCM)
- Ahn et al.(2012)가 제안한 Monte Carlo Method(MCM)은 재표본 추출법을 이용하여 모형을 추정하는 방법이다.
- 모든 변수의 관측값이 구간으로 주어지는데 이 각각의 관측값들의 구간 내에서 임의의 표본을 총 \(B\)번 재표본 추출을 실시하여 추출된 표본을 이용하는 방법이다.
- 이렇게 추출된 표본을 가지고 각 \(B\)개의 선형회귀모형 계수를 계산하는 것이 MCM의 특징이다.
재표본 추출법
재표본 추출
- \(i=1,..,n\), \(j=1,...,p\) 일 때, 균일 분포를 이용하여 \(X_{ij} = [a_{ij}, b_{ij}]\)에서 추출한 값을 \(X_{ij}^{*b}\), \(Y_{i}=[c_i, d_i]\)에서 추출한 값을 \(Y_{i}^{*b}\)라고 하면 총 \(B\)개의 랜덤 벡터 \((Y_{i}^{*b}, X_{i1}^{*b}, ..., X_{ip}^{*b})\)가 생성된다.
선형회귀모형의 계수를 추정하기 위하여 1번에서 얻은 랜덤 벡터를 \(b\)번째 랜덤 표본인 \(Y^{*b}=(Y_{1}^{*b}, ...,Y_{n}^{*b})^{T}\), \(X_{j}^{*b} = (X_{ij}^{*b}, ..., X_{nj}^{*b})^{T}\), \(j=1,..,p\)로 재구성한다.
2번을 수행하면 총 \(B\)개의 랜덤표본이 생성되는데 \(b\)번쨰 표본으로 최소제곱법을 이용하여 회귀계수를 구한다.
\[\hat{\beta}^{*b} = [(X^{*b})^{T}(X^{*b})]^{-1}(X^{*b})^{T}Y^{*b}\]
- 총 \(B\)개의 회귀계수의 평균을 이용해 구간형 자료의 최종 모형을 추정한다. 이 때 모형의 회귀계수는 \(\bar{\hat{\beta}_{j}}\)는 \(\bar{\hat{\beta}_{j}} = \frac{1}{B} \sum^{B}_{b=1} \hat{\beta}_{j}^{*b}\), \(j=0,...,p\) 이다.
\[\hat{Y}^{*} = \bar{\hat{\beta}_{0}^{*}} + \bar{\hat{\beta}_{1}^{*}}X_{1} + ... + \bar{\hat{\beta}_{p}^{*}}X_{p}\]
이러한 재표본 추출시 이용되는 분포는 Ahn et al.(2012)가 제안한 균일분포(Uniform distribution)를 이용할 수도 있고 절단정규분포(Truncated Normal distribution)를 이용할 수도 있다.
- 여기서 절단정규분포란 확률변수 \(X\)가 \(N(\mu, \sigma^2)\)을 따르고 구간 \(X \in (a,b)\), \(-\infty \le a \lt b \le \infty\)일 때 \(a\lt X \lt b\)에서 \(X\)의 조건부 분포를 의미한다.
\[f(x; \mu, \sigma, a, b) = \frac{\frac{1}{\sigma} \phi\big(\frac{x-\mu}{\sigma}\big)}{\Phi\big(\frac{b-\mu}{\sigma}\big) - \Phi\big(\frac{a-\mu}{\sigma}\big)}, a \le x \le b\]
3. 구간형 자료의 비선형 회귀 모형
- 선형 회귀 모형뿐만아니라 비선형 회귀 모형에 대해서도 꾸준히 연구가 진행 중이며 커널 함수를 비롯한 여러 가지 모형이 제안되었다.
3. 1. Nonlinear Regression Method (NLM)
- CRM을 처음 제안하였던 Lima Neto and De Carvalho(2017)는 구간형 자료에 대한 비선형 회귀 모형으로 NLM(Nonlinear regression method for interval-valued data) 모형을 제안하였다.
- 기존에 제안했던 CRM과 비슷한 형태라고 생각할 수 있다. 기존의 선형 모형 CRM은 선형 함수를 고려한 모형이지만 NLM은 비선형 함수를 고려한 모형이라고 생각하면 된다. 즉 CRM에서 비선형 모형 함수를 고려한 특별한 케이스라고 생각할 수 있다.
\[y_{i}^{c} = f_{c}\big(\mathbf{x}_{i}^{c}, \theta^{c}\big) + \epsilon_{i}^{c}\]
\[y_{i}^{r} = f_{r}\big(\mathbf{x}_{i}^{r}, \theta^{r}\big) + \epsilon_{i}^{r}\]
- 위 식에서 \(\epsilon_{i}^{c}\)와 \(\epsilon_{i}^{r}\)은 평균이 0이고 등분산을 가정하는 임의의 오차를 의미하며 \(\theta^{c}\)와 \(\theta^{r}\)은 중심점과 범위에 대한 모수 벡터(parameter vector)에 해당한다.
- \(f_{c}\), \(f_{r}\)은 비선형 함수에 해당한다.
- 즉 아래와 같은 잔차제곱합을 최소화하는 식으로부터 값을 추정할 수 있다.
\[\min_{\theta^{c}, \theta^{r}}\bigg(\sum^{n}_{i=1}\big(y_{i}^{c} - f_{c}(x_{i}^{c}, \mathbf{\theta^{c}})\big)^2 + \sum^{n}_{i=1}\big(y_{i}^{r} - f_{r}(x_{i}^{r}, \mathbf{\theta^{r}})\big)^2\bigg)\]
- 이러한 비선형 함수를 최적화 하는 방법으로는 대표적으로 BFGS(Broyden–Fletcher–Goldfarb–Shanno) Algorithm, Stochastic Gradient, Conjugate Gradient, Simulated Annealing 등을 이용하여 최적화하여 해당 비선형 함수를 추정할 수 있다.
- 예측 값 구간의 형태는 아래와 같다. (여기서 range는 half-range이다.)
\[\hat{Y}_{L} = \min\big({\hat{Y^{c}} - \hat{Y^{r}}}, {\hat{Y^{c}} + \hat{Y^{r}}}\big)\] \[\hat{Y}_{ㅕ} = \max\big({\hat{Y^{c}} - \hat{Y^{r}}}, {\hat{Y^{c}} + \hat{Y^{r}}}\big)\]