各位同学大家好，本小节讲解《循环神经网络及其应用》。

本小节涵盖四个主要部分：循环神经网络的概览、长短期记忆网络（LSTM）的深入探讨、双向循环神经网络（BiRNN）的介绍，以及循环神经网络在自然语言处理中的应用实例。

首先讲解循环神经网络的基础知识。

循环神经网络（RNN）是处理序列数据的核心技术，能够解决传统神经网络无法处理的变长序列问题，如时间序列预测、文本生成和语音识别。它通过内部环状连接存储历史信息，适应不同长度的输入并捕捉序列中的依赖关系，使其能够处理需要记住过去信息的任务，例如预测股票走势或生成连贯的句子。尽管早期RNN存在梯度消失或爆炸问题，但这也催生了LSTM、GRU等改进模型的出现。RNN的循环结构使其能够动态处理序列数据，例如在文本中每个词的含义都依赖上下文，RNN能够捕捉这种关联。RNN的应用非常广泛，如语音识别将声波转为文字，情感分析判断评论的正负面，以及机器翻译需要理解整个句子的含义。技术上，RNN通过参数共享减少计算量，并能处理任意长度的输入。但它的挑战也很明显：梯度问题导致长序列训练困难，计算资源消耗较大。

简单循环网络（SRN）是递归神经网络（RNN）的基础结构，它主要由三个部分组成：输入层、循环隐藏层以及输出层。在SRN中，隐藏层的反馈连接扮演着至关重要的角色，因为网络的当前状态是由当前的输入数据以及前一时刻的隐藏状态共同决定的。在数学表达上，隐藏层在时间步t的状态ht的计算，是基于当前时间步的输入以及前一时间步t-1的隐藏状态h{t-1}的结合。然而，尽管SRN在处理序列数据方面具有一定的优势，它在处理较长的序列时却容易遇到一个显著的问题，即早期信息的丢失。这种现象主要是由于梯度消失问题所引起的，它限制了SRN在实际应用中的广泛使用。

鉴于SRN所面临的问题，LSTM应运而生。

SRN按时间展开后相当于一个深度前馈网络，参数共享降低了复杂度，但梯度消失或爆炸问题难以避免。例如，训练100步的序列时，反向传播的梯度可能接近零或无穷大。长短期记忆网络（LSTM）通过三个门控单元解决梯度问题。记忆单元c存储长期信息，遗忘门决定保留多少旧记忆，输入门控制新信息的写入，输出门调节信息的输出。比如，在生成文章时，LSTM可以记住文章开头的主题，同时根据新词调整内容，避免重复或跑题。

LSTM的门控机制公式解析如下：遗忘门ft通过sigmoid函数计算，决定上一时刻记忆保留的程度；输入门it与候选记忆c~t共同作用以更新当前记忆；最终，输出门ot控制记忆如何影响当前的隐藏状态。这种机制使得LSTM能够既记住“巴黎是法国首都”这类长期信息，也能遗忘“今天中午吃了沙拉”这样的临时信息。门控机制仿佛是一个信息过滤器。遗忘门防止无关信息的累积——例如，聊天机器人无需记忆三天前的对话细节。输入门确保新信息的有效整合，例如在识别“苹果股价上涨”时，能够正确理解“苹果”指的是公司而非水果。输出门则精确控制哪些信息将用于预测下一个词，从而提高预测的准确性。

接下来我们讲解双向循环网络（BiRNN）

BiRNN通过其前向和后向两个隐藏层，分别捕捉序列的过去和未来信息，从而提供更全面的上下文理解。在每个时间点，BiRNN将前向和后向隐藏层的状态进行拼接，形成最终的隐藏状态，这增强了模型的表达能力。BiRNN在诸如机器翻译、命名实体识别等任务中表现出色，因为它能够综合考虑序列的前后依赖关系，从而提高预测的准确性。例如，在句子‘他藏在银行里’中，‘银行’可能指代金融机构或河岸。前向层看到‘藏在’时可能会推测是地点，而后向层结合‘里’则能进一步确认。两个隐藏层的状态拼接后，模型能更全面地理解上下文。

BiRNN在机器翻译领域表现出色，原因在于它能够综合考虑源语言句子的前后文信息，从而提升翻译的准确性。在命名实体识别任务中，BiRNN借助其双向信息流的优势，能够更精确地界定实体的边界和类型。此外，BiRNN在情感分析方面也大有裨益，它通过整合上下文信息，能够更深入地理解文本中的情感倾向。在阅读理解任务中，BiRNN通过双向信息处理，增强了问题与文本内容之间的关联理解。例如，在机器翻译中，BiRNN能够理解并准确翻译整个短语，如将法语短语‘je t’aime’翻译为‘我爱你’，而不是逐字直译。在命名实体识别中，BiRNN能够正确判断‘苹果公司’是一个单一实体，而非‘苹果’和‘公司’两个独立词汇的组合。这种双向理解机制显著提高了翻译质量和实体识别的精确度。

最后，我们讲一下RNN在自然语言处理中的应用。RNN在NLP中的核心应用包括语言模型、机器翻译、语音识别等。

语言模型能够预测下一个词出现的概率，GPT等模型正是基于这一原理构建的；传统n-gram模型只能考虑固定长度的上下文，而RNN（循环神经网络）能够处理任意长度的上下文信息，这有助于提高预测的准确性。语言模型的核心功能在于通过评估单词序列的概率来预测下一个单词。基于RNN的神经语言模型利用其循环结构，有效地捕捉了序列中的依赖关系。RNN对语言建模过程进行了优化，使得模型的预测更加精确和高效。

机器翻译的Seq2Seq框架通过将输入序列（例如英文句子）编码成向量，然后解码成目标序列（例如中文翻译），实现了端到端的处理流程。编码器负责将源语句转换为向量表示，而解码器则利用这个向量生成目标语句。这一过程动态地关注源语句的不同部分，从而提升翻译的准确性和流畅性。该框架支持多种语言之间的翻译，无需对每种语言进行特定的预处理，非常适合即时通讯等实时交互场景，能够迅速满足用户的需求。

传统的语音识别系统依赖于声学模型、词典和语言模型的多步骤协同工作，而端到端模型则通过递归神经网络（RNN）直接将语音频谱图转换成文字。在这一过程中，编码器负责提取语音特征，而解码器则生成对应的文本，省去了复杂的中间对齐步骤。端到端模型能够实时处理语音流，非常适合用于会议记录、语音助手等应用场景。以一段“你好”的语音波形为例，该模型能够直接输出对应的文本“你好”，无需进行繁琐的音素标注。这种端到端的方法不仅简化了处理流程，而且更加适合实时语音转写的场景。

从基础的简单循环网络（SRN）到长短期记忆网络（LSTM）和双向循环神经网络（BiRNN），循环神经网络通过不断的结构创新，逐步克服了长距离依赖和梯度消失的问题。在自然语言处理领域，RNN技术支撑了机器翻译、语音识别等领域的突破性进展。

高等教育微课