-
정보이론 간단 요약Math/Pattern Recognition & Machine Learning 2021. 8. 10. 15:20
- 정보이론의 핵심 : 발생하기 어려운 사건들을 배우는 것들이 발생하기 쉬운 사건을 배우는 것보다 더 많은 정보를 얻을 수 있다는 것이다.
- 예를 들어 오늘 아침에 해가 떴다. 라는 말은 모두가 아는 사실임으로 정보가 매우 적다. 그러나 오늘 아침에 일식이 일어났다는 사실은 정보가 훨씬 많다.
정보량(Information)
- 특정 사건 x의 정보를 정의하기 위해 다음과 같이 자기 정보를 정의한다.
$$I(x) = -\log P(x)$$
- 사건 x의 정보량은 확률이 1/e 인 사건을 관측해서 얻은 정보의 양이다.
엔트로피(Entropy)
- 특정 사건들을 모두 모은 집합 X에 대한 정보량을 엔트로피라고 하며 이는 다음과 같이 정의된다.
$$H(X) = \Bbb E_{x\sim P}[I(x)] = - \Bbb E_{x\sim P}[\log P(x)]$$
- 즉, 확률분포에 대한 엔트로피는 분포에서 추출한 사건들의 평균 정보량이다.
쿨백 라이블러 발산(KL Divergence)
- 같은 확률변수 x에 대한 두 확률분포 P(x)와 Q(x)가 있을 때, 두 분포의 차이를 쿨백-라이블러 발산이라고 한다.
$$D_{KL}(P ~\|~Q) = \Bbb E_{x\sim P} \bigg \lbrack\log {P(x)\over Q(x)}\bigg \rbrack = \Bbb E_{x\sim P}[\log P(x) - \log Q(x)]$$
- KL 다이버전스의 값은 음수가 아니다. 항상 0 또는 양수이다. P와 Q가 같은 분포이면 값은 0이 된다. 엄밀하게 KL 다이버전스는 비대칭이므로 거리라고 말할 수는 없다.
교차 엔트로피(Cross Entropy)
$$H(P, Q) = H(P) ~+~ D_{KL}(P ~\|~ Q)$$
$$H(P, Q) = - \Bbb E_{x\sim P}[\log Q(x)]$$
- Q에 관해 교차엔트로피를 최소화하는 것은 KL 다이버전스 값을 최소화하는 것과 같다.
상호정보량(Mutual Information)
- 상호정보량은 두 랜덤변수의 결합확률분포$P(X, Y)$와 각각의 주변확률분포의 곱$P(X)P(Y)$에 대한 쿨백 라이블러 발산으로 정의된다.
$$MI[X, Y] = KL(~P(X, Y) ~\|~ P(X)P(Y) ~) $$
- 상호정보량은 한 확률분포에 대한 엔트로피와 조건부 엔트로피와의 차이와 같다.
$$MI[X, Y] = H(X) - H(X|Y)$$
[출처]
심층학습, Ian Goodfellow
'Math > Pattern Recognition & Machine Learning' 카테고리의 다른 글
[PRML] 8.4.4 Sum-Product Algorithm (0) 2021.12.27 랜덤 프로세스 (0) 2021.08.07 헤시안 행렬 (0) 2021.08.01