정보이론 간단 요약

정보이론 간단 요약

Math/Pattern Recognition & Machine Learning 2021. 8. 10. 15:20
정보이론의 핵심 : 발생하기 어려운 사건들을 배우는 것들이 발생하기 쉬운 사건을 배우는 것보다 더 많은 정보를 얻을 수 있다는 것이다.

예를 들어 오늘 아침에 해가 떴다. 라는 말은 모두가 아는 사실임으로 정보가 매우 적다. 그러나 오늘 아침에 일식이 일어났다는 사실은 정보가 훨씬 많다.

정보량(Information)

특정 사건 x의 정보를 정의하기 위해 다음과 같이 자기 정보를 정의한다.

$$I(x) = -\log P(x)$$

사건 x의 정보량은 확률이 1/e 인 사건을 관측해서 얻은 정보의 양이다.

엔트로피(Entropy)

특정 사건들을 모두 모은 집합 X에 대한 정보량을 엔트로피라고 하며 이는 다음과 같이 정의된다.

$$H(X) = \Bbb E_{x\sim P}[I(x)] = - \Bbb E_{x\sim P}[\log P(x)]$$

즉, 확률분포에 대한 엔트로피는 분포에서 추출한 사건들의 평균 정보량이다.

쿨백 라이블러 발산(KL Divergence)

같은 확률변수 x에 대한 두 확률분포 P(x)와 Q(x)가 있을 때, 두 분포의 차이를 쿨백-라이블러 발산이라고 한다.

$$D_{KL}(P ~\|~Q) = \Bbb E_{x\sim P} \bigg \lbrack\log {P(x)\over Q(x)}\bigg \rbrack = \Bbb E_{x\sim P}[\log P(x) - \log Q(x)]$$

KL 다이버전스의 값은 음수가 아니다. 항상 0 또는 양수이다. P와 Q가 같은 분포이면 값은 0이 된다. 엄밀하게 KL 다이버전스는 비대칭이므로 거리라고 말할 수는 없다.

교차 엔트로피(Cross Entropy)

$$H(P, Q) = H(P) ~+~ D_{KL}(P ~\|~ Q)$$

$$H(P, Q) = - \Bbb E_{x\sim P}[\log Q(x)]$$

Q에 관해 교차엔트로피를 최소화하는 것은 KL 다이버전스 값을 최소화하는 것과 같다.

상호정보량(Mutual Information)

상호정보량은 두 랜덤변수의 결합확률분포$P(X, Y)$와 각각의 주변확률분포의 곱$P(X)P(Y)$에 대한 쿨백 라이블러 발산으로 정의된다.

$$MI[X, Y] = KL(~P(X, Y) ~\|~ P(X)P(Y) ~) $$

상호정보량은 한 확률분포에 대한 엔트로피와 조건부 엔트로피와의 차이와 같다.

$$MI[X, Y] = H(X) - H(X|Y)$$

[출처]

심층학습, Ian Goodfellow
'Math > Pattern Recognition & Machine Learning' 카테고리의 다른 글

[PRML] 8.4.4 Sum-Product Algorithm  (0) 2021.12.27

랜덤 프로세스  (0) 2021.08.07

헤시안 행렬  (0) 2021.08.01
관련글 관련글 더보기
댓글

ABOUT ME

아는 것과 모르는 것에 대한 구분 아는 것과 모르는 것에 대한 구분

정보량(Information)

엔트로피(Entropy)

쿨백 라이블러 발산(KL Divergence)

교차 엔트로피(Cross Entropy)

상호정보량(Mutual Information)

'Math > Pattern Recognition & Machine Learning' 카테고리의 다른 글

티스토리툴바

[PRML] 8.4.4 Sum-Product Algorithm (0)	2021.12.27
랜덤 프로세스 (0)	2021.08.07
헤시안 행렬 (0)	2021.08.01

ABOUT ME

정보량(Information)

엔트로피(Entropy)

쿨백 라이블러 발산(KL Divergence)

교차 엔트로피(Cross Entropy)

상호정보량(Mutual Information)

'Math > Pattern Recognition & Machine Learning' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바