본문 바로가기
기타 강의/KL divergence 의 이해

[KL divergence 의 이해] 6. 그냥 크로스 엔트로피를 쓰면 되는 이유

by bigpicture 2023. 10. 6.
반응형

지난시간에 KL divergence 는 항상 0보다 같거나 크다라는 것을 증명했습니다. KL divergence 는 아래와 같이 정의됩니다. 

$D_{KL}(p||q)=H[p,q]-H[p]$

H[p,q] 는 크로스엔트로피이고 H[p]는 엔트로피입니다. 이때 아래 부등식이 만족한다는 것을 증명했습니다. 

$D_{KL}(p||q)=H[p,q]-H[p]\geq 0$

우리는 위 부등식을 통해 H[p,q]가 H[p]보다 항상 크다는 사실을 알 수 있습니다. H[p] 는 어떤 집단의 실제 분포의 엔트로피이므로 고정된 값입니다. 따라서 KL divergence 를 0으로 만드는 것은, H[p,q]을 최소화하는 것과 같습니다. 

KL divergence 를 사용하려면 H[p] 도 알아야 하는데 일반적으로는 알 수 없습니다. 이 문제는 KL divergence 대신 Cross entropy 를 사용하는 것으로 해결할 수 있습니다. 

H[p,q] 를 손실함수로 두고 minimize 하면 됩니다. 

반응형

댓글