九、现代循环神经网络

9.1. 门控循环单元(GRU)

门控循环单元(gated recurrent unit,GRU)
重置门(reset gate)和更新门(update gate)
能关注的机制:更新门
能遗忘的机制:重置门
在门控循环单元模型中计算重置门和更新门
在门控循环单元模型中计算重置门和更新门
候选隐状态 candidate hidden state
在门控循环单元模型中计算候选隐状态
在门控循环单元模型中计算候选隐状态
符号是Hadamard积(按元素乘积)运算符
可以减少以往状态的影响
使用tanh非线性激活函数来确保候选隐状态中的值保持在区间(−1,1)中
隐状态 hidden state
计算门控循环单元模型中的隐状态
计算门控循环单元模型中的隐状态
每当更新门Zt接近1时,模型就倾向只保留旧状态 当接近0时,就会接近候选隐状态
 

9.2. 长短期记忆网络(LSTM)

输入门、忘记门和输出门
忘记门(forget gate):将值朝0减少
输入门(input gate):决定不是忽略掉输入数据
输出门(output gate):决定是不是使用隐状态
长短期记忆模型中的输入门、遗忘门和输出门
长短期记忆模型中的输入门、遗忘门和输出门
候选记忆元 candidate memory cell
长短期记忆模型中的候选记忆元
长短期记忆模型中的候选记忆元
记忆元 memory cell
在长短期记忆网络模型中计算记忆元
在长短期记忆网络模型中计算记忆元
隐状态
在长短期记忆模型中计算隐状态¶
在长短期记忆模型中计算隐状态
 

9.3. 深度循环神经网络

具有L个隐藏层的深度循环神经网络, 每个隐状态都连续地传递到当前层的下一个时间步和下一层的当前时间步
具有L个隐藏层的深度循环神经网络, 每个隐状态都连续地传递到当前层的下一个时间步和下一层的当前时间步
 

9.4. 双向循环神经网络

双向循环神经网络架构
双向循环神经网络架构
双向循环神经网络通过反向更新的隐藏层来利用方向时间信息
通常用来对序列抽取特征、填空,而不是预测未来
 

9.6. 编码器-解码器架构

编码器-解码器架构
编码器-解码器架构
编码器(encoder)处理输入 解码器(decoder)生成输出
notion image
 
notion image
 

9.7. 序列到序列学习(seq2seq)

Seq2seq从一个句子生成另一个句子
使用循环神经网络编码器和循环神经网络解码器的序列到序列学习
使用循环神经网络编码器和循环神经网络解码器的序列到序列学习
编码器是一个没有输出的RNN,读取输入句子(可以是双向,双向可以做encoder,不可做做decoder)
解码器使用另外一个RNN来输出,最后时间步的隐状态作为解码器的初始隐状态
notion image
 
衡量生成序列的好坏的BLEU(bilingual evaluation understudy)
对于预测序列中的任意n元语法(n-grams), BLEU的评估都是这个n元语法是否出现在标签序列中
例:标签序列A B C D E F 预测序列A B B C D
惩罚过短的预测,长匹配有高权重
 
 
 

9.8. 束搜索

notion image
notion image
notion image
notion image
 
Loading...