Bidirectional Encoder Representation from Transformer(双向连接的多个 encoder)
【BERT模型】暴力的美学,协作的力量
69 BERT预训练【动手学深度学习v2】
针对微调设计
基于transformdr的encoder进行修改:
- 模型更大,训练数据更多
- 输入句子对,片段嵌入,可学习的位置编码
- 训练时使用两个任务:带掩码的语言模型;下一个句子的预测
实战
教你用PyTorch玩转Transformer英译中翻译模型!
保姆级教程,用PyTorch和BERT进行文本分类
基于BERT预训练模型的SQuAD问答任务
基于BERT模型的知识库问答(KBQA)系统
变体
BERT(Bidirectional Encoder Representations from Transformers)自推出以来,催生了许多变体,这些变体旨在通过不同的方法提高性能、增强泛化能力或降低资源消耗。以下是一些著名的 BERT 变体的简述:
-
RoBERTa (Robustly Optimized BERT Approach): RoBERTa 对 BERT 的预训练过程进行了改进,包括去除了 Next Sentence Prediction (NSP) 任务,增加了训练数据量,使用了更大的 batch size 和更长的训练时间。这些优化显著提高了模型在多个自然语言处理任务上的性能。
-
ALBERT (A Lite BERT): ALBERT 通过引入参数共享和因子化词嵌入技术来减少模型大小,这使得 ALBERT 在保持与 BERT 相似的性能的同时,具有更少的参数,从而减少了内存消耗和提高了训练速度。
-
DistilBERT: DistilBERT 是一个更小、更快、更轻量的 BERT 模型,通过知识蒸馏技术从 BERT 模型中提取知识,保持了相当部分的性能,但参数量却大大减少,适用于资源受限的环境。
-
TinyBERT: TinyBERT 通过两阶段的转换过程进一步减小了模型尺寸,同时保持了良好的性能。在第一阶段,通过一般性蒸馏方法训练一个小型的通用 TinyBERT 模型;在第二阶段,对特定任务进行微调蒸馏,使其更适合特定的下游任务。
-
DeBERTa (Decoding-enhanced BERT with Disentangled Attention): DeBERTa 通过引入解耦注意力机制和增强的掩码解码器来改进 BERT 的注意力机制。这些改进使得 DeBERTa 在多个自然语言处理基准测试中取得了领先的性能。