Skip to content
Open
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
7 changes: 4 additions & 3 deletions chapter_linear-networks/softmax-regression.md
Original file line number Diff line number Diff line change
Expand Up @@ -283,14 +283,15 @@ $$H[P] = \sum_j - P(j) \log P(j).$$

### 重新审视交叉熵


如果把熵$H(P)$想象为“知道真实概率的人所经历的惊异程度”,那么什么是交叉熵?
交叉熵*从*$P$*到*$Q$,记为$H(P, Q)$。
我们可以把交叉熵想象为“主观概率为$Q$的观察者在看到根据概率$P$生成的数据时的预期惊异”
当$P=Q$时,交叉熵达到最低
我们可以把交叉熵想象为“一个主观相信分布为为$Q$的观察者,在亲眼看到来自真实分布$P$的数据时,所感受到的平均惊异程度
当$P=Q$时,观察者的预期与事实一致,此时交叉熵达到最低
在这种情况下,从$P$到$Q$的交叉熵是$H(P, P)= H(P)$。

简而言之,我们可以从两方面来考虑交叉熵分类目标:
(i)最大化观测数据的似然;(ii)最小化传达标签所需的惊异。
(i)最大化观测数据的似然,使模型预测$Q$尽可能符合真实数据$P$;(ii)最小化传达标签所需的惊异,减少因使用有偏差的预测$Q$而带来的额外“惊异”或信息传递成本

## 模型预测和评估

Expand Down
Loading