解密 Transformer：NLP 革命性架构的预训练与产业实践

字数: (7063)

阅读: (7131)

2026-04-23 21:49:29

内容摘要：解密 Transformer：NLP 革命性架构的预训练与产业实践,

在自然语言处理（NLP）领域，Transformer 模型无疑是一场革命。它以其强大的并行计算能力和注意力机制，彻底改变了我们处理文本数据的方式。从早期的机器翻译到如今的各种 NLP 应用，Transformer 架构都在发挥着至关重要的作用。

Transformer 的底层原理：Attention is All You Need

Transformer 模型的核心在于其 自注意力机制（Self-Attention）。与传统的循环神经网络（RNN）相比，Transformer 可以并行处理输入序列中的所有token，极大地提高了训练效率。同时，自注意力机制能够捕捉序列中不同位置token之间的依赖关系，从而更好地理解文本的语义信息。

自注意力机制详解

自注意力机制的计算过程可以概括为以下几步：

线性变换： 将输入序列中的每个token通过三个线性变换得到 query (Q), key (K), value (V)。
计算注意力权重： 使用 Q 和 K 计算注意力权重。常用的方法是 scaled dot-product attention，即先计算 Q 和 K 的点积，然后除以 sqrt(dk)，其中 dk 是 K 的维度，最后通过 softmax 函数进行归一化。
加权求和： 将注意力权重与 V 相乘，得到最终的输出。

import torch
import torch.nn as nn
import math

class SelfAttention(nn.Module):
    def __init__(self, embed_size, heads):
        super(SelfAttention, self).__init__()
        self.embed_size = embed_size
        self.heads = heads
        self.head_dim = embed_size // heads

        assert (self.head_dim * heads == embed_size), "Embed size needs to be div by heads"

        self.values = nn.Linear(self.head_dim, self.head_dim, bias=False)
        self.keys = nn.Linear(self.head_dim, self.head_dim, bias=False)
        self.queries = nn.Linear(self.head_dim, self.head_dim, bias=False)
        self.fc_out = nn.Linear(heads * self.head_dim, embed_size)

    def forward(self, values, keys, query, mask):
        N = query.shape[0]
        value_len, key_len, query_len = values.shape[1], keys.shape[1], query.shape[1]

        # Split into different heads
        values = values.reshape(N, value_len, self.heads, self.head_dim)
        keys = keys.reshape(N, key_len, self.heads, self.head_dim)
        queries = query.reshape(N, query_len, self.heads, self.head_dim)

        values = self.values(values)
        keys = self.keys(keys)
        queries = self.queries(queries)

        # Scaled dot-product attention
        energy = torch.einsum("nqhd,nkhd->nhqk", [queries, keys])  # (N, heads, query_len, key_len)

        if mask is not None:
            energy = energy.masked_fill(mask == 0, float("-1e20"))

        attention = torch.softmax(energy / (self.embed_size ** (1/2)), dim=3)

        out = torch.einsum("nhqk,nkhd->nqhd", [attention, values]).reshape(
            N, query_len, self.heads*self.head_dim
        )

        # Linear layer sends in to get size (N, sequence_length, embed_size)
        out = self.fc_out(out)
        return out

位置编码 (Positional Encoding)

由于 Transformer 模型不包含 RNN 的循环结构，无法直接感知序列中token的位置信息。因此，需要引入位置编码来显式地告诉模型每个token的位置。常见的位置编码方法包括正弦余弦函数和可学习的位置嵌入。

预训练范式：从 BERT 到 GPT

Transformer 模型的成功也催生了预训练范式的兴起。通过在大规模文本语料库上进行预训练，模型可以学习到通用的语言知识。然后，在下游任务上进行微调，可以快速提升模型的性能。例如，BERT 和 GPT 等模型都是基于 Transformer 架构的预训练模型。

BERT：双向Transformer编码器

BERT (Bidirectional Encoder Representations from Transformers) 是一个双向的 Transformer 编码器。它通过 masked language model (MLM) 和 next sentence prediction (NSP) 两个任务进行预训练。MLM 随机遮盖输入序列中的一些token，然后让模型预测这些被遮盖的token。NSP 则让模型判断两个句子是否是相邻的句子。