From dda1ced42eda39913a0677c822bb999823d49b64 Mon Sep 17 00:00:00 2001
From: yLDeveloper <yLDeveloper@Outlook.com>
Date: Sat, 15 Nov 2025 21:48:28 +0800
Subject: [PATCH] Update softmax-regression.md
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

更改 ”3.4.7.3. 重新审视交叉熵” 的部分文字描述，使内容描述更为通畅便于理解，同时不失去原文的专业性与准确度。
---
 chapter_linear-networks/softmax-regression.md | 7 ++++---
 1 file changed, 4 insertions(+), 3 deletions(-)

diff --git a/chapter_linear-networks/softmax-regression.md b/chapter_linear-networks/softmax-regression.md
index ab7b61ecb..95c01ddff 100644
--- a/chapter_linear-networks/softmax-regression.md
+++ b/chapter_linear-networks/softmax-regression.md
@@ -283,14 +283,15 @@ $$H[P] = \sum_j - P(j) \log P(j).$$
 
 ### 重新审视交叉熵
 
+
 如果把熵$H(P)$想象为“知道真实概率的人所经历的惊异程度”，那么什么是交叉熵？
 交叉熵*从*$P$*到*$Q$，记为$H(P, Q)$。
-我们可以把交叉熵想象为“主观概率为$Q$的观察者在看到根据概率$P$生成的数据时的预期惊异”。
-当$P=Q$时，交叉熵达到最低。
+我们可以把交叉熵想象为“一个主观相信分布为为$Q$的观察者，在亲眼看到来自真实分布$P$的数据时，所感受到的平均惊异程度。
+当$P=Q$时，观察者的预期与事实一致，此时交叉熵达到最低。
 在这种情况下，从$P$到$Q$的交叉熵是$H(P, P)= H(P)$。
 
 简而言之，我们可以从两方面来考虑交叉熵分类目标：
-（i）最大化观测数据的似然；（ii）最小化传达标签所需的惊异。
+（i）最大化观测数据的似然，使模型预测$Q$尽可能符合真实数据$P$；（ii）最小化传达标签所需的惊异，减少因使用有偏差的预测$Q$而带来的额外“惊异”或信息传递成本。
 
 ## 模型预测和评估