확률분포의 정보량을 엔트로피라고 한다는 것을 지난시간에 배웠습니다. 확률분포마다 엔트로피가 다를텐데요. 어떤 확률분포가 다른 확률분포 보다 엔트로피가 높다는 것은 무엇을 의미하는지 알아봅시다.
두 확률분포 $p_{x}(x)$ 와 $p_{y}(y)$ 가 있다고 합시다. 분포함수는 아래와 같이 정의됩니다.
$p_{x}(x)=\left\{\begin{matrix}
0.5 & (x=1)\\
0.5 & (x=2)
\end{matrix}\right.$
$p_{y}(y)=\left\{\begin{matrix}
0.9 & (y=1)\\
0.1 & (y=2)
\end{matrix}\right.$
각 확률분포의 엔트로피를 구해봅시다. 확률분포 $p_{x}(x)$의 정보량은 아래와 같이 구합니다.
$H[X]=-0.5\ln 0.5-0.5\ln 0.5=0.693$
확률분포 $p_{y}(y)$의 정보량은 아래와 같이 구합니다.
$H[Y]=-0.1\ln 0.1-0.9\ln 0.9=0.325$
확률분포 $p_{x}(x)$ 의 엔트로피가 더 큽니다. 확률분포 $p_{x}(x)$ 는 모든 원소의 확률이 같은 분포입니다. 엔트로피가 크다는 것은 정보량이 많다는 것이고, 정보량이 많다는 것은 놀랄 일이 더 많다는 것입니다. 무슨 소리일까요?
확률분포 $p_{y}(y)$ 를 보면 90%의 확률로 y=2 가 발생합니다. 예측가능하고 놀랄 일이 별로 없습니다. 반면 확률분포 $p_{x}(x)$ 는 어떤 값이 발생할지 알 수 없습니다. 놀랄 일이 더 많은 것입니다.
확률분포의 형태가 한 값에 몰려있는 극단적인 형태에서는 정보량이 낮다는 것을 알 수 있습니다. 분포 중에서 가장 정보량이 많은 분포는 무엇일까요? 바로 균등분포입니다.
'기타 강의 > KL divergence 의 이해' 카테고리의 다른 글
[KL divergence 의 이해] 6. 그냥 크로스 엔트로피를 쓰면 되는 이유 (0) | 2023.10.06 |
---|---|
[KL divergence 의 이해] 5. KL divergence 왜 항상 0보다 같거나 큰가 (증명) (0) | 2023.10.06 |
[KL divergence 의 이해] 4. 크로스 엔트로피와 KL divergence (0) | 2023.10.05 |
[KL divergence 의 이해] 2. 엔트로피 (확률분포의 정보량) (0) | 2023.10.05 |
[KL divergence 의 이해] 1. 정보량 (0) | 2023.10.04 |
댓글