深度学习｜表示学习｜一个可以手算的小小RNN例子｜29

漂亮_大男孩

961人浏览 · 2025-04-11 02:01:31

漂亮_大男孩 · 2025-04-11 02:01:31 发布

如是我闻：

语言模型的目标是估计：
$p(w_t \mid w_1, w_2, \dots, w_{t-1})$
RNN 是一种可以逐步读取输入词序列并更新“记忆”的神经网络模型。今天我们就手动算一个最小化 RNN 的例子，从输入词向量 → 计算隐藏状态 → softmax 预测。

✅ 设定：极简词表

我们用一个小词表：

单词	编号
“I”	0
“like”	1
“cats”	2

✅ 模型参数设计

📦 词嵌入矩阵 $\in \mathbb{R}^{2 \times 3}$

每个词是一个 2 维向量，矩阵为：
$\begin{bmatrix} 1 & 0 & 1 \\ 0 & 1 & 1 \end{bmatrix}$

表示：

“I” → $1, 0]^T$
“like” → $0, 1]^T$
“cats” → $1, 1]^T$

🧠 RNN 权重参数：

$\begin{bmatrix} 1 & 1 \\ 0 & 1 \end{bmatrix}$ （词向量部分）
$\begin{bmatrix} 1 & 0 \\ 1 & 1 \end{bmatrix}$ （隐藏状态部分）
$\begin{bmatrix} 0 \\ 0 \end{bmatrix}$ （偏置项）
初始状态： $h0=[00]h_0 = \begin{bmatrix} 0 \\ 0 \end{bmatrix}$
激活函数：简化为 $tanh⁡(x)≈x\tanh(x) \approx x$

🔚 输出层参数：

$\begin{bmatrix} 1 & 0 \\ 0 & 1 \\ 2 & 2 \end{bmatrix} \in \mathbb{R}^{3 \times 2}$

输出层目标是将隐藏状态 ( h ) 投影为 logits，表示下一个词的得分。

🧮 输入句子：“I like”

我们计算这个序列经过 RNN 的处理，最终预测第三个词的概率分布。

⏳ Step 1: 输入 “I”

查词向量：
$x_1 = C(w_1) = C(0) = \begin{bmatrix} 1 \\ 0 \end{bmatrix}$

隐藏状态计算：
$h_1 = \tanh(b + U h_0 + W x_1) \approx b + U h_0 + W x_1 = 0 + 0 + \begin{bmatrix} 1 \\ 0 \end{bmatrix} = \begin{bmatrix} 1 \\ 0 \end{bmatrix}$

⏳ Step 2: 输入 “like”

查词向量：
$x_2 = C(1) = \begin{bmatrix} 0 \\ 1 \end{bmatrix}$

隐藏状态计算：
$h_1 = \begin{bmatrix} 1 & 0 \\ 1 & 1 \end{bmatrix} \cdot \begin{bmatrix} 1 \\ 0 \end{bmatrix} = \begin{bmatrix} 1 \\ 1 \end{bmatrix}$

$x_2 = \begin{bmatrix} 1 & 1 \\ 0 & 1 \end{bmatrix} \cdot \begin{bmatrix} 0 \\ 1 \end{bmatrix} = \begin{bmatrix} 1 \\ 1 \end{bmatrix}$

$h_2 = \tanh(b + U h_1 + W x_2) \approx \begin{bmatrix} 2 \\ 2 \end{bmatrix}$

🎯 输出预测：

$\begin{bmatrix} 1 & 0 \\ 0 & 1 \\ 2 & 2 \end{bmatrix}, \quad h_2 = \begin{bmatrix} 2 \\ 2 \end{bmatrix}$

$h_2 = \begin{bmatrix} 1 \cdot 2 + 0 \cdot 2 \\ 0 \cdot 2 + 1 \cdot 2 \\ 2 \cdot 2 + 2 \cdot 2 \end{bmatrix}$
$h_2 = \begin{bmatrix} 2 \\ 2 \\ 8 \end{bmatrix}$

$\text{softmax}(V h_2) = \text{softmax}([2, 2, 8]) = \left[ \frac{e^2}{e^2 + e^2 + e^8}, \frac{e^2}{e^2 + e^2 + e^8}, \frac{e^8}{e^2 + e^2 + e^8} \right] \approx [0.0025,\ 0.0025,\ 0.995]$

softmax：
$\text{softmax}([2, 2, 8]) \approx \left[ \frac{e^2}{Z}, \frac{e^2}{Z}, \frac{e^8}{Z} \right]$

近似计算：

$e2≈7.39e^2 \approx 7.39$
$e8≈2980e^8 \approx 2980$
$\approx 7.39 + 7.39 + 2980 = 2994.78$

所以概率分布为：
$\approx [0.0025, 0.0025, 0.995]$

✅ 最终结果

模型预测下一个词是：“cats”，概率高达 99.5%。结果非常amazing啊

以上

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

免费多模态大模型来了：Agnes 三大模型实测与 Claude Code 接入指南

DAMO开发者矩阵

国产协作机器人怎么选？从越疆、UR、节卡、遨博的产品路线看真实差异

DAMO开发者矩阵

小白养马记，windows10傻瓜式安装到配置hermes_v0.17.0

出现上述页面，表示 Hermes Agent v0.17.0已经连上 DeepSeek deepseek-v4-flash 模型，可以开始对话了。DeepSeek — 推荐首选，国内直连，价格便宜，注册简单。” 是 Telegram/Discord 机器人或定时任务用的默认工作目录，跟命令行启动时的目录无关。只是本地使用 Hermes 聊天，不需要连接 Telegram/Discord的话选2，否