From dda1ced42eda39913a0677c822bb999823d49b64 Mon Sep 17 00:00:00 2001 From: yLDeveloper Date: Sat, 15 Nov 2025 21:48:28 +0800 Subject: [PATCH] Update softmax-regression.md MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit 更改 ”3.4.7.3. 重新审视交叉熵” 的部分文字描述,使内容描述更为通畅便于理解,同时不失去原文的专业性与准确度。 --- chapter_linear-networks/softmax-regression.md | 7 ++++--- 1 file changed, 4 insertions(+), 3 deletions(-) diff --git a/chapter_linear-networks/softmax-regression.md b/chapter_linear-networks/softmax-regression.md index ab7b61ecb..95c01ddff 100644 --- a/chapter_linear-networks/softmax-regression.md +++ b/chapter_linear-networks/softmax-regression.md @@ -283,14 +283,15 @@ $$H[P] = \sum_j - P(j) \log P(j).$$ ### 重新审视交叉熵 + 如果把熵$H(P)$想象为“知道真实概率的人所经历的惊异程度”,那么什么是交叉熵? 交叉熵*从*$P$*到*$Q$,记为$H(P, Q)$。 -我们可以把交叉熵想象为“主观概率为$Q$的观察者在看到根据概率$P$生成的数据时的预期惊异”。 -当$P=Q$时,交叉熵达到最低。 +我们可以把交叉熵想象为“一个主观相信分布为为$Q$的观察者,在亲眼看到来自真实分布$P$的数据时,所感受到的平均惊异程度。 +当$P=Q$时,观察者的预期与事实一致,此时交叉熵达到最低。 在这种情况下,从$P$到$Q$的交叉熵是$H(P, P)= H(P)$。 简而言之,我们可以从两方面来考虑交叉熵分类目标: -(i)最大化观测数据的似然;(ii)最小化传达标签所需的惊异。 +(i)最大化观测数据的似然,使模型预测$Q$尽可能符合真实数据$P$;(ii)最小化传达标签所需的惊异,减少因使用有偏差的预测$Q$而带来的额外“惊异”或信息传递成本。 ## 模型预测和评估