九、现代循环神经网络
9.1. 门控循环单元(GRU)
门控循环单元(gated recurrent unit,GRU)
重置门(reset gate)和更新门(update gate)
能关注的机制:更新门
能遗忘的机制:重置门
候选隐状态 candidate hidden state
符号是Hadamard积(按元素乘积)运算符
可以减少以往状态的影响
使用tanh非线性激活函数来确保候选隐状态中的值保持在区间(−1,1)中
隐状态 hidden state
每当更新门Zt接近1时,模型就倾向只保留旧状态 当接近0时,就会接近候选隐状态
9.2. 长短期记忆网络(LSTM)
输入门、忘记门和输出门
忘记门(forget gate):将值朝0减少
输入门(input gate):决定不是忽略掉输入数据
输出门(output gate):决定是不是使用隐状态
候选记忆元 candidate memory cell
记忆元 memory cell
隐状态
9.3. 深度循环神经网络
9.4. 双向循环神经网络
双向循环神经网络通过反向更新的隐藏层来利用方向时间信息
通常用来对序列抽取特征、填空,而不是预测未来
9.6. 编码器-解码器架构
编码器(encoder)处理输入
解码器(decoder)生成输出
9.7. 序列到序列学习(seq2seq)
Seq2seq从一个句子生成另一个句子
编码器是一个没有输出的RNN,读取输入句子(可以是双向,双向可以做encoder,不可做做decoder)
解码器使用另外一个RNN来输出,最后时间步的隐状态作为解码器的初始隐状态
衡量生成序列的好坏的BLEU(bilingual evaluation understudy)
对于预测序列中的任意n元语法(n-grams), BLEU的评估都是这个n元语法是否出现在标签序列中
例:标签序列A B C D E F 预测序列A B B C D
惩罚过短的预测,长匹配有高权重