d2l-ai · SolynAcVersion · Nov 15, 2025
diff --git a/chapter_linear-networks/softmax-regression.md b/chapter_linear-networks/softmax-regression.md
@@ -283,14 +283,15 @@ $$H[P] = \sum_j - P(j) \log P(j).$$
 
 ### 重新审视交叉熵
 
+
 如果把熵$H(P)$想象为“知道真实概率的人所经历的惊异程度”，那么什么是交叉熵？
 交叉熵*从*$P$*到*$Q$，记为$H(P, Q)$。
-我们可以把交叉熵想象为“主观概率为$Q$的观察者在看到根据概率$P$生成的数据时的预期惊异”。
-当$P=Q$时，交叉熵达到最低。
+我们可以把交叉熵想象为“一个主观相信分布为为$Q$的观察者，在亲眼看到来自真实分布$P$的数据时，所感受到的平均惊异程度。
+当$P=Q$时，观察者的预期与事实一致，此时交叉熵达到最低。
 在这种情况下，从$P$到$Q$的交叉熵是$H(P, P)= H(P)$。
 
 简而言之，我们可以从两方面来考虑交叉熵分类目标：
-（i）最大化观测数据的似然；（ii）最小化传达标签所需的惊异。
+（i）最大化观测数据的似然，使模型预测$Q$尽可能符合真实数据$P$；（ii）最小化传达标签所需的惊异，减少因使用有偏差的预测$Q$而带来的额外“惊异”或信息传递成本。
 
 ## 模型预测和评估