ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 정준연결함수(Canonical Function)
    Math 2021. 7. 25. 17:57

    패턴인식과 머신러닝 책에서 정준연결함수에 대한 내용과 그 가정을 바탕으로 이론을 설명하는 경우가 있다. 

     

    책의 내용만으로는 이해가 되지 않아서 따로 정리를 하려 한다.

     

    연결함수에 대해 이해하려면 먼저 선형회귀 일반화된 선형모형을 알아야 한다.

     

    선형회귀 (Linear Regression)

     

    \begin{equation}
    \mu_i = b_0 + b_1x_1
    \end{equation}
    \begin{equation}
    y_i \sim \mathcal N(\mu_i, \epsilon)
    \end{equation}

     

    위 식에 대한 그래프는 아래와 같다.

    선형회귀는 연속형 범주의 값 $y$를 설명변수(독립변수) $x$들의 선형결합으로 예측하려는 것이다.

    선형회귀를 식으로써 표현하면 아래와 같다. $i$는 각각의 샘플에 대한 인덱스이고 $y$값은 분산이 노이즈 $\epsilon$인 정규분포를 따른다.

     

    하지만 위의 그림은 포아송 분포를 따르는 것처럼 보인다. 따라서 선형회귀로는 문제를 풀 수 없다 **. 단순히 선형회귀모델을 현실에 적용하는데는 다음과 같은 문제점들이 있다.** 

    1. X와 Y의 관계가 선형이 아니라면 회귀 문제를 어떻게 모델링 해야할까??
    2. Y의 값의 분산이 X에 대하여 상수가 아니라 점점 변하는 수치라면??
    3. Y의 값이 연속형이 아니라 범주형이라서 분류 문제를 풀어야 한다면??

    이를 해결하기 위해서 일반화된 선형 모형 (Generalized Linear Model)에 대한 이론의 필요성이 생겼다.

     

    일반화된 선형모형

    GLM는 연속형 반응변수 (Y)에 대한 회귀모형, 분산분석모형과 이산형 범주형 반응변수에 대한 모형을 모두 포함한다.

    GLM에는 세 가지 구성요소가 있다.

    1. 선형예측 (Linear Predictor)

    $$\eta = \mathbf X \beta$$

    linear predictor (eta)는 독립 변수들에 대한 정보를 모델에 통합한 수치이다.

    이는 연결함수를 통해 계산된 데이터의 기댓값과 관련이 있다.

    eta는미지의 모수 beta와의 선형결합으로 표현된다. 이때 선형결합의 계수는 독립변수들의 행렬로써 표현된다. 즉, linear predictor는 단순히 설명변수(x)와 모델의 파라미터를 곱한 값이다.

    2. 연결함수 (Link Function)

    연결함수는 linear predictor와 분포함수의 평균(랜덤변수의 기댓값) 사이의 관계에 대한 함수적 정보를 제공한다.

    $$g(\mu) = \beta_0 + \beta_1x_1 + ... + \beta_kx_k = \eta$$

    말 그대로 연결함수는 linear predictor와 확률 분포의 평균를 연결하는 함수이다.

    아래 그림은 포아송 분포의 평균 $\lambda$와 Linear predictor의 관계를 보여주고 있다.

     

    포아송 회귀 문제의 경우 로그 연결함수를 주로 사용한다. 그 이유는 모수 람다가 양수여야하기 때문이다.

     

    3. 확률분포 (Probability Distribution)

    확률분포는 랜덤변수가 특정한 값을 나타내도록 하는 함수를 의미한다. GLM을 풀기 위해서는 Y에 대한 특정 확률분포를 가정하게 된다. Ex) 정규분포, 지수분포, 포아송분포, 디리쿨레 분포 등의 지수족 분포

    이제 GLM의 식을 살펴보자.

    $Y = (y, \mathbf x)$를 반응변수들의 값 $y$와 k차원 벡터 $\mathbf x = (x_1, x_2, ..., x_k)$의 집합이라고 하자.

    여기서 $E(y) = \mu$이다. $n$개의 독립적인 관측값 $y_i$가 각각 지수족 분포를 따른다고 가정하자.

    $$f(y_i; \theta_i, \phi) = exp^ {{{y_i\theta_i - \gamma(\theta_i)} \over \phi} +\tau(y_i, \phi)} $$

    여기서 $\theta_i$ 는 우리가 관심이 있는 파라미터로 Natural Parameter 또는 Canonical Parameter라고 한다. 지수족 확률분포함수의 파라미터를 뜻한다.

    $\phi$는 스케일 파라미터이고 $\gamma, \tau$의 경우 알려진 함수이다.

    $\gamma (\theta_i)$의 경우, 적률 모멘트 생성 함수 (cumulant moment generating function) 이라고 한다. 파라미터 $\theta$와 $\mu$의 관계를 표현하는 함수이다. (아무래도 확률분포의 평균을 1차 모멘트라고 하기 때문에 누적 모멘트 생성 함수라고 표현하는 것 같다.)

    우리는 아래의 식을 통해 입력 벡터 $\mathbf x$가 linear predictor에 영향을 미친다고 가정했다. 그리고 이 linear predictor는 지수족 분포의 파라미터 $\theta_i$ 에 의존적이다. 왜냐? Y의 개별관측값들에 대한 확률 분포를 지수족이라고 가정했기 때문이다.

    $$\eta_i = \beta_0 + \beta_1x_{i1} + ... + \beta_kx_{ik} $$

    $$g(\mu) = \beta_0 + \beta_1x_1 + ... + \beta_kx_k = \eta$$

    위 식에서 연결함수가 단조증가한다면 $g(\mu) = \eta$ 이므로, $\mu = g^{-1}(\eta)$가 될 것이다.

    따라서 위 그림에 의하면 역함수의 미분법을 적용해서 다음과 같은 관계식을 얻을 수 있다.

    $$\eta = g(\gamma^\prime(\theta))$$

    $$\theta = \gamma^{-1}(g^{-1}(\eta))$$

    정준 연결함수 (Canonical Link Function)

    정준연결함수는 간단하다.

    $$\eta \equiv \theta$$

    위와 같이 linear predictor를 canonical prameter로 정의하면 아래와 같은 식이 되고 이때의 연결함수 g를 정준연결함수라고 한다. 왜 이름이 정준연결함수냐면 지수족 분포의 canonical parameter와 linear predictor의 관계를 표현하기 때문이다.

    $$g(\theta) = \eta$$

    따라서 누적 모멘트 생성함수를 미분한 것과 연결함수 사이의 관계는 다음과 같이 된다.

    $$(g \cdot \gamma) ^{-1} = I ~~~(항등함수)$$

     

     

     

     

    [출처]

    1. https://towardsdatascience.com/generalized-linear-models-9cbf848bb8ab
    2. https://en.wikipedia.org/wiki/Linear_regression
    3. https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=chanbal0907&logNo=221389917796
    4. https://stats.stackexchange.com/questions/40876/what-is-the-difference-between-a-link-function-and-a-canonical-link-function

    댓글

Designed by Tistory.