지난시간에는 확률변수 각 원소의 정보량을 구하는 방법을 알아보았습니다. 정보량은 놀라움의 정도를 나타내며, 발생확률이 낮을 수록 높은 정보량을 가졌습니다.
이번시간에는 확률분포의 정보량을 구하는 방법을 알아봅시다. 아래와 같은 확률분포가 있다고 합시다.
$p(x)=\left\{\begin{matrix}
0.5 & (x=1) & \\
0.4 & (x=2) & \\
0.1 & (x=3) &
\end{matrix}\right.$
확률변수 원소의 정보량은 아래와 같이 계산되었습니다.
$I(1)=\ln\frac{1}{0.5}=\ln2$
$I(2)=\ln\frac{1}{0.4}=\ln2.5$
$I(3)=\ln\frac{1}{0.1}=\ln10$
위와 같은 확률분포의 정보량은 어떻게 정의하면 될까요? 우리가 이 확률분포에서 원소를 뽑을 때, 얼마의 정보량을 기대할 수 있는가를 확률분포의 정보량이라고 생각할 수 있습니다. 따라서 확률분포의 정보량은 정보량의 기댓값으로 정의할 수 있습니다.
확률분포의 정보량을 '엔트로피'라고 부릅니다. 기호로는 H로 나타냅니다. 위 예시에 있는 확률분포의 정보량은 아래와 같이 계산됩니다.
$H[X]=I(1)p(1)+I(2)p(2)+I(3)p(3)$
일반화 시키면 아래와 같습니다.
$H[X]=\sum_{i=1}^{k}p(x_{k})I(x_{k})$
정보량의 정의를 이용하면 아래와 같이 표현할 수 있습니다.
$H[X]=\sum_{i=1}^{k}p(x_{k})\ln\frac{1}{p(x_{k})}$
로그 안을 변형하면 아래와 같이 변형됩니다.
$H[X]=-\sum_{i=1}^{k}p(x_{k})\ln p(x_{k})$
연속확률분포에서 엔트로피는 아래와 같이 정의됩니다.
$H[X]=-\int_{-\infty}^{\infty}f(x)\ln f(x)dx$
'기타 강의 > KL divergence 의 이해' 카테고리의 다른 글
[KL divergence 의 이해] 6. 그냥 크로스 엔트로피를 쓰면 되는 이유 (0) | 2023.10.06 |
---|---|
[KL divergence 의 이해] 5. KL divergence 왜 항상 0보다 같거나 큰가 (증명) (0) | 2023.10.06 |
[KL divergence 의 이해] 4. 크로스 엔트로피와 KL divergence (0) | 2023.10.05 |
[KL divergence 의 이해] 3. 엔트로피가 높은 확률분포란? (0) | 2023.10.05 |
[KL divergence 의 이해] 1. 정보량 (0) | 2023.10.04 |
댓글