반응형 엔트로피5 [KL divergence 의 이해] 5. KL divergence 왜 항상 0보다 같거나 큰가 (증명) KL divergence 는 아래와 같이 정의됩니다. $D_{KL}(p||q)=H[p,q]-H[p]$ 크로스엔트로피와 엔트로피의 차이입니다. 수식을 자세히 쓰면 아래와 같습니다. $D_{KL}(p||q)=\int_{-\infty}^{\infty}p(x)\ln \frac{p(x)}{q(x)}dx$ 이번 시간에는 KL divergence가 항상 양수라는 것을 증명하겠습니다. 증명에는 아래 부등식이 사용됩니다. $\ln x \leq x-1$ $(x>0)$ 위 부등식을 먼저 증명하겠습니다. 위 식을 아래와 같이 변형합니다. $x \leq e^{x-1}$ 아래와 같이 이항합니다. $0\leq e^{x-1}-x$ 우변의 식을 f(x)라고 놓겠습니다 f(x)가 x가 양수인 영역에서 항상 0보다 크다는 것을 증명하면 .. 2023. 10. 6. [KL divergence 의 이해] 4. 크로스 엔트로피와 KL divergence 어떤 집단의 실제 분포를 $p(x)$라고 놓겠습니다. 우리가 예측한 분포를 $q(x)$라고 놓겠습니다. 실제 분포 $p(x)$의 엔트로피는 아래 수식을 통해 구할 수 있습니다. $H[p]=-\int_{-\infty}^{\infty}p(x)\ln p(x)dx$ 위 식에서 $-\ln p(x)$는 x에 올 수 있는 값의 정보량입니다. 여기서 p(x)를 q(x)로 바꾸면 크로스 엔트로피가 됩니다. 아래와 같습니다. $H[p,q]=-\int_{-\infty}^{\infty}p(x)\ln q(x)dx$ 실제 분포의 정보량 대신 우리가 예측한 분포의 정보량을 넣은 것입니다. 만약 우리가 집단의 분포를 아주 잘 예측해서 p(x)와 q(x)가 거의 같다면, 크로스엔트로피와 엔트로피도 같을 것입니다. 여기서 우리는 예측한.. 2023. 10. 5. [KL divergence 의 이해] 3. 엔트로피가 높은 확률분포란? 확률분포의 정보량을 엔트로피라고 한다는 것을 지난시간에 배웠습니다. 확률분포마다 엔트로피가 다를텐데요. 어떤 확률분포가 다른 확률분포 보다 엔트로피가 높다는 것은 무엇을 의미하는지 알아봅시다. 두 확률분포 $p_{x}(x)$ 와 $p_{y}(y)$ 가 있다고 합시다. 분포함수는 아래와 같이 정의됩니다. $p_{x}(x)=\left\{\begin{matrix} 0.5 & (x=1)\\ 0.5 & (x=2) \end{matrix}\right.$ $p_{y}(y)=\left\{\begin{matrix} 0.9 & (y=1)\\ 0.1 & (y=2) \end{matrix}\right.$ 각 확률분포의 엔트로피를 구해봅시다. 확률분포 $p_{x}(x)$의 정보량은 아래와 같이 구합니다. $H[X]=-0.5\ln .. 2023. 10. 5. [KL divergence 의 이해] 2. 엔트로피 (확률분포의 정보량) 지난시간에는 확률변수 각 원소의 정보량을 구하는 방법을 알아보았습니다. 정보량은 놀라움의 정도를 나타내며, 발생확률이 낮을 수록 높은 정보량을 가졌습니다. 이번시간에는 확률분포의 정보량을 구하는 방법을 알아봅시다. 아래와 같은 확률분포가 있다고 합시다. $p(x)=\left\{\begin{matrix} 0.5 & (x=1) & \\ 0.4 & (x=2) & \\ 0.1 & (x=3) & \end{matrix}\right.$ 확률변수 원소의 정보량은 아래와 같이 계산되었습니다. $I(1)=\ln\frac{1}{0.5}=\ln2$ $I(2)=\ln\frac{1}{0.4}=\ln2.5$ $I(3)=\ln\frac{1}{0.1}=\ln10$ 위와 같은 확률분포의 정보량은 어떻게 정의하면 될까요? 우리가 이 확률.. 2023. 10. 5. [KL divergence 의 이해] 1. 정보량 딥러닝에서 사용되는 KL divergence 를 이해하는 것이 목표입니다. KL divergence를 수학적으로 자세히 설명할 것이지만, 일단 의미만 먼저 이해하면 아래와 같습니다. "두 확률분포의 차이를 나타내주는 값이다." KL divergence 를 이해하려면 사전지식이 필요합니다. 정보량, 엔트로피, 크로스엔트로피입니다. 차례대로 설명하겠습니다. 확률분포를 다룰 때는 편의상 1차원만을 고려하겠습니다. 정보량이라고 하면 많은 양의 텍스트를 떠올리기 쉬운데 여기서 다룰 정보량은 정보이론이라는 학문에 등장하는 정보량입니다. 기존에 흔히 알던 개념이 아니므로 정보량의 정의가 무엇인지 먼저 알아봅시다. 정보이론에서 정보량은 '놀라움의 정도'를 말합니다. 여기서 놀라움은 이런 유형의 놀라움입니다. "아니 이.. 2023. 10. 4. 이전 1 다음 반응형