日志

《大语言模型——原理与工程实践》第一章什么是大语言模型（一）

已有 511 次阅读2024-9-9 09:31 |个人分类:《大语言模型——原理与工程实践》

第一章什么是大语言模型

一、什么是大语言模型

大语言模型（Large Language Model，LLM）

大语言模型是人工智能领域的一项重要技术。

大语言模型在自然语言处理（Natural Language Processing，NLP）领域中被广泛应用。

大语言模型作为一种强大的语言处理技术，正在推动人工智能和自然语言处理领域的发展。通过深度学习和大规模数据集的训练，大语言模型能够理解和生成自然语言文本，在问答系统、机器翻译、文本生成等领域有着巨大的应用潜力。随着技术的不断进步，大语言模型将在未来进一步为人机交互和语言处理带来更多的创新和突破。

二、语言模型的发展

语言模型（Language Model，LM）

语言模型师自然语言处理的核心组件，它能够学习和理解人类语言的统计规律。即可以预测一个词序列的概率。

技术	优点	缺点
n-gram模型	最早的一种语言模型用于小规模数据	处置复杂任务和大数据环境时效果不佳
循环神经网络（Recurrent Neural Network，RNN）	处理短序列数据时效果为佳	处理长序列数据时效果不佳
长短时记忆网络（Long Short-Term Memory，LSTM）	能够捕获长距离的依赖关系，可以处理文本中长距离的依赖和复杂结构
Transformer架构	能够有效处理长序列，显著提升训练效率