본문 바로가기
기타 강의/KL divergence 의 이해

[KL divergence 의 이해] 3. 엔트로피가 높은 확률분포란?

by bigpicture 2023. 10. 5.
반응형

확률분포의 정보량을 엔트로피라고 한다는 것을 지난시간에 배웠습니다. 확률분포마다 엔트로피가 다를텐데요. 어떤 확률분포가 다른 확률분포 보다 엔트로피가 높다는 것은 무엇을 의미하는지 알아봅시다. 

두 확률분포 $p_{x}(x)$ 와 $p_{y}(y)$ 가 있다고 합시다. 분포함수는 아래와 같이 정의됩니다. 

$p_{x}(x)=\left\{\begin{matrix}
0.5 & (x=1)\\ 
0.5 & (x=2)
\end{matrix}\right.$

$p_{y}(y)=\left\{\begin{matrix}
0.9 & (y=1)\\ 
0.1 & (y=2)
\end{matrix}\right.$

각 확률분포의 엔트로피를 구해봅시다. 확률분포 $p_{x}(x)$의 정보량은 아래와 같이 구합니다. 

$H[X]=-0.5\ln 0.5-0.5\ln 0.5=0.693$

확률분포 $p_{y}(y)$의 정보량은 아래와 같이 구합니다. 

$H[Y]=-0.1\ln 0.1-0.9\ln 0.9=0.325$

확률분포 $p_{x}(x)$ 의 엔트로피가 더 큽니다. 확률분포 $p_{x}(x)$ 는 모든 원소의 확률이 같은 분포입니다. 엔트로피가 크다는 것은 정보량이 많다는 것이고, 정보량이 많다는 것은 놀랄 일이 더 많다는 것입니다. 무슨 소리일까요?

확률분포  $p_{y}(y)$ 를 보면 90%의 확률로 y=2 가 발생합니다. 예측가능하고 놀랄 일이 별로 없습니다. 반면 확률분포 $p_{x}(x)$  는 어떤 값이 발생할지 알 수 없습니다. 놀랄 일이 더 많은 것입니다. 

확률분포의 형태가 한 값에 몰려있는 극단적인 형태에서는 정보량이 낮다는 것을 알 수 있습니다. 분포 중에서 가장 정보량이 많은 분포는 무엇일까요? 바로 균등분포입니다. 

반응형

댓글