AI技术干货|从头开始图解大语言模型(下篇)

在阅读本文前,有几个热身的问题,您尝试回答一下。

1. 什么是大语言模型(LLM)?

2. 大语言模型开发与传统机器学习开发有什么区别?


(资料图片)

3. 什么是任务特定模型?

4. 什么是大语言模型的微调和参数有效调整?

5. 如何理解大语言模型的一体多用特性?

下面就让我们开启探讨大语言模型奥秘之旅。

前文回顾:

AI技术干货|从头开始图解大语言模型(上篇)

AI技术干货|从头开始图解大语言模型(中篇)

引言

深度学习的子领域中有两个重要的概念:大型语言模型(LLMs)和生成式人工智能(Generative AI)。这两者在许多方面都有交集,并且都属于深度学习的研究范畴。如果您对生成式人工智能感兴趣,建议您阅读金博士的《生成式人工智能简介》一文。

在过去的几年中,生成式人工智能发展迅速,吸引了大量的关注。这种类型的人工智能能够生成全新的内容,包括文本、图像、音频和合成数据。

本文我们探讨一下什么是大型语言模型。这类模型预先通过大量的文本数据进行训练,通常是从互联网或其他公开可获取的书籍中提取的。预训练期间,模型学习并理解文本数据的模式和结构。之后,在微调阶段,模型会根据特定的任务进行优化,这些任务可能包括机器翻译、文本生成、情感分析等。

下面我们通过几个通俗易懂的示例,逐步对大模型的工作机理展开进行讲解,希望能够让更多的读者掌握相关的背景知识。

前文回顾;

AI技术干货|从头开始图解大语言模型(上篇)

AI技术干货|从头开始图解大语言模型(中篇)

大语言模型的定义和特征

大语言模型的特征

大型语言模型的一个显著特性是它们的“多任务”能力,即一个模型能适应并完成各种不同的任务。这种特性使得大型语言模型在诸多领域中具有巨大的应用价值,例如:聊天机器人、内容生成、自然语言理解和生成等,任何涉及理解和生成文本的场景,它们都能大显身手。

那么“预训练”和“微调”到底是什么含义呢?试想一下训练一只狗。通常,你会训练你的狗学习基本的命令,比如“坐下”,“过来”,“趴下”,和“停”。这些命令在日常生活中通常就足够用了,能够帮助你的狗成为一个良好的宠物公民。然而,如果你需要特殊的服务犬,比如警犬、导盲犬或者猎犬,你就需要给它进行额外的特殊训练。

这个思路同样适用于大型语言模型。这些模型进行通用目的的训练,来解决常见的语言问题,如文本分类、问题回答、文档摘要和跨行业的文本生成等。然后,这些模型可以根据不同领域,如零售、金融和娱乐等,利用相对较小规模的领域数据集,进行微调,解决特定的问题。

这个过程中的“预训练”阶段,就相当于教狗狗基本的命令。而“微调”阶段,则对应于对狗狗进行特殊的额外训练。预训练的模型就像一只已经学会基本命令的狗,能够进行基本的任务;而经过微调后的模型,则像是一个专门训练过的服务犬,可以完成更特定、更复杂的任务。

让我们进一步将大型语言模型的概念分解为三个主要特征。

1. “大型”有两个含义。首先,它表示训练数据集的巨大规模,有时达到PB(petabyte,即千兆字节)级别。其次,它指的是参数的数量。在机器学习中,参数通常被称为超参数。参数基本上是机器从模型训练中学到的记忆和知识。参数决定了一个模型在解决问题(如预测文本)时的技能水平。

2. “通用目的”意味着这些模型足以解决常见问题。有两个原因导致了这个观点。首先,无论具体任务是什么,人类语言都有其通用性。其次,资源是有限的。只有某些组织有能力使用巨大的数据集和大量的参数来训练这种大型语言模型。

3. “预训练”和“微调”,即在有能力的组织为他人创建基础语言模型之后,用户使用大规模数据集为通用目的预训练一个大型语言模型,然后使用一个小得多的数据集为特定目标微调它。

在这个框架下,你可以将大型语言模型看作是一个强大的、高度适应性的工具。它们被设计为可以处理各种不同的语言任务,并且可以根据需要进行调整和优化,以满足特定的需求。而这一切,都是基于大规模数据集的预训练和精细的微调实现的,这是大型语言模型的核心思想和主要优势所在。

大语言模型的分类

标签:

最近更新

AI技术干货|从头开始图解大语言模型(下篇)
2023-07-27 18:59:15
SoftWorks Global宣布绿色和红色信号房地产投资平台现已推出
2023-07-27 18:32:20
广元开展2023年全国节能宣传周系列活动
2023-07-27 18:29:08
偏食(关于偏食的基本详情介绍)
2023-07-27 18:20:19
国家统计局:1~6月份全国规模以上工业企业利润下降16.8%
2023-07-27 18:19:42
甘肃省印发《方案》推进和美乡村建设
2023-07-27 18:08:09
国学论谭|胡中行:《长安三万里》也有的几处“硬伤”
2023-07-27 17:58:31
领略传统之美
2023-07-27 17:53:17
河南省科技馆游玩路线推荐(中老年)
2023-07-27 17:45:12
工信部:研究制定新能源汽车动力蓄电池回收利用管理办法
2023-07-27 17:42:25
深圳市2023年福田区中考最低录取分数线表
2023-07-27 17:24:20
北京市第11届民族传统体育运动会8月举办 新增冰蹴球等项目
2023-07-27 17:17:16
新时代 新征程 新伟业丨金银花开幸福来
2023-07-27 17:10:56
刘瑶水库(刘瑶)
2023-07-27 17:04:45
意媒:除了佩莱格里尼,米兰还有意引进佩纳罗尔19岁边卫米兰斯
2023-07-27 16:50:42
两船试航一船开工!大连造船节点连连
2023-07-27 16:31:21
上海探索新型研发机构体制机制改革
2023-07-12 12:18:22
我国首个高海拔光氢储项目投产发电
2023-07-12 11:56:25
库瀚科技参编2023年信通院《数据库发展研究报告》
2023-07-12 11:21:23
自贡自流井:开展“文明实践 携手前行”结对共建活动
2023-07-12 11:00:10
汽车上ims是什么意思 ims是什么意思
2023-07-12 10:17:56
宁河区深入实施乡村振兴全面推进行动 发展“五大种业” 打造“种业硅谷”
2023-07-12 10:10:31
温州重推楼市新政背后:去化周期20个月,开发商拿地积极性不高
2023-07-12 09:38:48
政策加力拉动需求 6月金融数据明显回升
2023-07-12 09:11:56
【环湖日记】环湖赛的魅力说不尽
2023-07-12 08:25:32
华友钴业(603799):7月11日北向资金增持245.42万股
2023-07-12 07:41:35
7月11日基金净值:银华中证5G通信主题ETF联接A最新净值0.8442,涨2.56%
2023-07-12 06:42:26
上海百亿抢地大战开锣,保利落子内环,招商蛇口报名11幅地块
2023-07-12 05:17:43
下电影软件 下电影
2023-07-12 01:29:23
因热射病死亡,保险公司不愿赔偿,法院判决:赔付90万元!
2023-07-11 22:56:46