|
第二章 大语言模型基础技术
一、语言表示介绍
(一)词表示技术
文本一般由词序列组成,词通常是自然语言处理的最小单元。
词表示方式:
词表V含有所有词,独热是每个长度为|V|的词向量。在该向量中,词表里的第i个词在第i维上被设置为1,其余维均为0。
利用大规模的未标注数据,根据每个词的上下文分布对其进行表示。
常规是先构造各类共现矩阵,例如词-文档矩阵和词-上下文矩阵;然后对共现矩阵进行降维操作从而得到词的表示,例如潜在语义索引(Latent Semantic Indexing,LSI)和隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)。
词嵌入表示同样将每个词映射为一个低维稠密的实值向量。
基于预训练的词嵌入表示是先在语料库中利用某种语言模型进行预训练,然后将其应用到下游任务,词向量是可以随着任务更新、调整的。
(二)分词技术
词表示技术的总体思路是用数值表示每个词单元。将文本划分为一系列更小、更具代表性的单元,这些单元被称为Token。将文本划为Token的过程称为分词,执行此操作的工具或算法称为Tokenizer。
从分割粒度的角度出发的Tokenizer算法和模型:
词粒度分词技术,如Word2vec、GloVe。
优点:word粒度能够完整地保留语言的语义信息,尤其是包含特定文化、历史 或地区背景的词。
缺点:无法处理不在词表的词(Out Of Vocabulary,OOV)或者新增的词。因 为word粒度无法无限制地扩大词表。
字符粒度分词技术
优点:
1、词表简洁
2、避免出现OOV
缺点:
1、损失语义的丰富性
2、增加输入序列的长度
子词粒度分词技术,是word粒度和character粒度之间的折中策略。
1、可有效处理OOV
2、允许学习词缀关系
3、具有灵活性
4、具有跨语言一致性
二、经典结构Transformer
Transformer是一种基于自主义力机制的编码器-解码器结构,其主要由编码器(Encoder)和解码器(Decoder)组成,每个部分都由多个堆叠在一起的相同层组成。自注意力机制使得Transformer有效避免了卷积神经网络中梯度消失和梯度爆炸的问题,且更加高效和易于并行化,因此Transformer能够处理更长的文本序列。同时,模型编码器可以使用更多的层,进而捕获输入序列中元素间更深的关系,并学习更加全面的感知上下文的向量表示。
三、预训练语言模型
基于Transformer结构预训练语音模型可以分为
1、Encoder-Only预训练语言模型
专注于捕获输入文本中的双向关系,为下游任务提供丰富的文本表示。
2、Decoder-Only预训练语言模型
更擅长生成任务。
3、Encoder-Decoder预训练语言模型
将各种自然语言处理任务统一为一个序列到序列的框架,提供更加通用和灵活的结构。