当前位置: 首页 > 资讯 > >正文

AI技术干货|从头开始图解大语言模型(下篇)

来源:金博士    时间:2023-07-27 18:59:15

X 关闭

在阅读本文前,有几个热身的问题,您尝试回答一下。

1. 什么是大语言模型(LLM)?

2. 大语言模型开发与传统机器学习开发有什么区别?


(资料图片)

3. 什么是任务特定模型?

4. 什么是大语言模型的微调和参数有效调整?

5. 如何理解大语言模型的一体多用特性?

下面就让我们开启探讨大语言模型奥秘之旅。

前文回顾:

AI技术干货|从头开始图解大语言模型(上篇)

AI技术干货|从头开始图解大语言模型(中篇)

引言

深度学习的子领域中有两个重要的概念:大型语言模型(LLMs)和生成式人工智能(Generative AI)。这两者在许多方面都有交集,并且都属于深度学习的研究范畴。如果您对生成式人工智能感兴趣,建议您阅读金博士的《生成式人工智能简介》一文。

在过去的几年中,生成式人工智能发展迅速,吸引了大量的关注。这种类型的人工智能能够生成全新的内容,包括文本、图像、音频和合成数据。

本文我们探讨一下什么是大型语言模型。这类模型预先通过大量的文本数据进行训练,通常是从互联网或其他公开可获取的书籍中提取的。预训练期间,模型学习并理解文本数据的模式和结构。之后,在微调阶段,模型会根据特定的任务进行优化,这些任务可能包括机器翻译、文本生成、情感分析等。

下面我们通过几个通俗易懂的示例,逐步对大模型的工作机理展开进行讲解,希望能够让更多的读者掌握相关的背景知识。

前文回顾;

AI技术干货|从头开始图解大语言模型(上篇)

AI技术干货|从头开始图解大语言模型(中篇)

大语言模型的定义和特征

大语言模型的特征

大型语言模型的一个显著特性是它们的“多任务”能力,即一个模型能适应并完成各种不同的任务。这种特性使得大型语言模型在诸多领域中具有巨大的应用价值,例如:聊天机器人、内容生成、自然语言理解和生成等,任何涉及理解和生成文本的场景,它们都能大显身手。

那么“预训练”和“微调”到底是什么含义呢?试想一下训练一只狗。通常,你会训练你的狗学习基本的命令,比如“坐下”,“过来”,“趴下”,和“停”。这些命令在日常生活中通常就足够用了,能够帮助你的狗成为一个良好的宠物公民。然而,如果你需要特殊的服务犬,比如警犬、导盲犬或者猎犬,你就需要给它进行额外的特殊训练。

这个思路同样适用于大型语言模型。这些模型进行通用目的的训练,来解决常见的语言问题,如文本分类、问题回答、文档摘要和跨行业的文本生成等。然后,这些模型可以根据不同领域,如零售、金融和娱乐等,利用相对较小规模的领域数据集,进行微调,解决特定的问题。

这个过程中的“预训练”阶段,就相当于教狗狗基本的命令。而“微调”阶段,则对应于对狗狗进行特殊的额外训练。预训练的模型就像一只已经学会基本命令的狗,能够进行基本的任务;而经过微调后的模型,则像是一个专门训练过的服务犬,可以完成更特定、更复杂的任务。

让我们进一步将大型语言模型的概念分解为三个主要特征。

1. “大型”有两个含义。首先,它表示训练数据集的巨大规模,有时达到PB(petabyte,即千兆字节)级别。其次,它指的是参数的数量。在机器学习中,参数通常被称为超参数。参数基本上是机器从模型训练中学到的记忆和知识。参数决定了一个模型在解决问题(如预测文本)时的技能水平。

2. “通用目的”意味着这些模型足以解决常见问题。有两个原因导致了这个观点。首先,无论具体任务是什么,人类语言都有其通用性。其次,资源是有限的。只有某些组织有能力使用巨大的数据集和大量的参数来训练这种大型语言模型。

3. “预训练”和“微调”,即在有能力的组织为他人创建基础语言模型之后,用户使用大规模数据集为通用目的预训练一个大型语言模型,然后使用一个小得多的数据集为特定目标微调它。

在这个框架下,你可以将大型语言模型看作是一个强大的、高度适应性的工具。它们被设计为可以处理各种不同的语言任务,并且可以根据需要进行调整和优化,以满足特定的需求。而这一切,都是基于大规模数据集的预训练和精细的微调实现的,这是大型语言模型的核心思想和主要优势所在。

大语言模型的分类

X 关闭

推荐内容

最近更新

Copyright ©  2015-2022 南非洁具网  版权所有    
备案号:沪ICP备2022005074号-13     
 联系邮箱:58 55 97 3@qq.com