本版图片 图 IC
本报记者 郜阳
伴随着年初DeepSeek的出圈,大模型技术正以惊人的速度改变着人们的生活和工作方式。
不过,你是否一看到“Transformer架构”“模型蒸馏”就头大?当身边人在讨论“Scaling Law”“数据飞轮”时只能假装喝水?好比互联网时代需要理解“宽带”“服务器”一样,步入大模型时代,掌握“行业黑话”亦是一门数字生存技能。
新一期科技前沿,记者将拆解大模型领域的20个常见术语,解析“大模型密码本”。
基础概念篇 来份大模型“出厂说明书”
1.大语言模型
你是否曾经看到LLM后觉得“深不可测”?其实,它就是Large Language Models的缩写。这是一种基于海量文本数据训练的深度学习模型,大家耳熟能详的GPT系列就是大语言模型的代表,它能够理解和生成自然语言文本,能够完成复杂对话、文本创作等任务。我们可以将其理解为数字世界的“通才”,因为它的“大脑”(参数)足够大。
2.参数
可以理解成大模型的“脑细胞网络”。参数是模型内部可调节的变量数量,决定模型复杂度和学习能力——参数越多,模型的学习能力就越强,但同时也需要更多的计算资源和数据来训练。最常见的是7B参数、175B参数和671B参数这几个级别。举例来说,Deepseek-R1671B参数,对比人类大脑就可想象成在人脑中植入6710亿个神经元。
3.Token
文本的离散化表示,类似于人类语言中的“词汇片段”,其粒度由分词算法决定——例如“人工智能”可能被分词为“人工”和“智能”或保留为单一Token。Token是大语言模型处理文本的最小语义单位,它将原始文本转化为模型能够识别的数字编码,是语言理解与生成的基础。若将它放在物理世界里作比较的话,Token就是大模型世界里的“原子”。
4.算力
简单而言,算力就是大语言模型的“思考速度”和“处理能力”——它决定了模型能够多快地理解和生成语言,以及能够处理多复杂的任务。打个比方来说,算力就像是一场AI的“氪金游戏”,训练千亿级模型大概需要3000块以上的A100显卡、足够点亮一座小镇的电力以及6—12个月的训练时间。
5.开源VS闭源
这就像是AI世界的“武林秘籍之争”。大模型的开源是指将其源代码、模型权重、训练数据和相关工具公开,供全球的研究人员、开发者以及公众免费使用、学习、修改和分发。打比方来说,你可以将开源模型改成“四川火锅特供版”,而闭源模型的话只能用官方“标准锅底”;而从商业风险来看,开源模型有被竞争对手免费抄袭的风险,闭源模型技术壁垒高但生态封闭。总的来说,大模型的开源趋势不可逆转,未来将会有更多更强大的开源模型出现,为人工智能的发展注入新的活力。
技术进阶篇 让人工智能“轻装上阵”
6.Transform er架构
一种广泛应用于自然语言处理任务的神经网络架构,因其自注意力机制而能够高效处理序列数据中的长距离依赖关系,成为自然语言处理领域的主流架构。Transformer最初由谷歌在2017年的一篇论文中提出,我们可以把它认为是一位“超级翻译官”,它能够同时处理输入序列中的所有单词,并根据上下文关系进行理解和生成。其架构的核心组件“自注意力机制”,能够根据输入序列中不同位置的关系,计算出每个位置的“注意力权重”,从而更好地理解上下文信息。
7.MoE
这又是一个听上去“高大上”的词,中文叫作“混合专家模型”。它的核心思想并不复杂,我们可以把它想象成一种“团队合作”的方式,通过不同领域的“专家”协同工作,来解决复杂的问题。在MoE的工作原理中很重要的一点是“门控机制”,它就像是一位“项目经理”,能根据问题的性质,决定由哪些“专家”来参与项目。MoE特别适合于处理大规模数据,在计算效率和性能平衡方面表现出色。
8.Scaling Law
最简单的解释是“越大越好”——当AI模型的规模(参数数量、数据量、计算资源等)不断增加时,其性能会按照一定的规律持续提升。类比一下,你参加举重比赛,你训练得越努力,力量越大,你能举起的重量就越大。需要指出的是,Scaling Law也面临着计算成本、数据需求和模型复杂性的挑战。
9.预训练
是大型语言模型通过自监督学习在大规模无标注文本数据上训练的过程,其核心目标是让模型学习通用的语言表征能力。预训练就像小孩上学前读百科全书——首先是输入海量信息,不“挑食”什么都看;其次自编练习题;第三步练就“通用脑回路”,不当专家,而是建立基础认知。因此,预训练就如同给模型来次“通识教育马拉松”,使其从杂乱数据中提炼通用规则,成为“知识通才”。
10.微调
基于预训练模型,使用特定领域或任务的标注数据进一步调整参数,使其适配下游任务的过程。微调的本质是迁移学习,即利用预训练阶段习得的通用知识(如语言结构、常识),通过少量目标数据(如医疗报告、法律文书)的针对性训练,快速提升模型在特定场景下的性能。打比方来说,微调类似于摄影师从“全能拍”到“人像专精”。
11.模型蒸馏
让千亿参数的教授(大模型)把知识浓缩成十亿参数的“考前重点”(小模型),虽然细节少了,但核心考点都在。这种技术不仅限于大小模型之间的转换,也可以用于模型间的知识迁移。从应用角度举例来说,一款通用大模型“蒸馏”成医学模型,通用大模型月费10万元以上,能和你“谈天说地”,但回答挂号流程需要5秒;而医学模型1秒响应,月费不到1万元。
12.模型量化
将模型的参数和激活值映射到较低的位数,以减少模型的存储需求和计算复杂度,这有助于降低内存占用并加速推理过程。通俗来说,把模型从“高清无损格式”(32位)压缩成“手机预览版”(8位),虽然有些模糊,但运行速度翻倍。
能力进化篇 AI的“形态跃迁”
13.涌现能力
当大模型的规模达到一定程度时,突然展现出一些在较小规模模型中未曾出现过的、令人惊讶的新能力。这些能力并不是通过专门训练得到的,而是随着模型规模的扩大和复杂度的增加,自然而然地“涌现”出来的。借用科学史上的经典,就是量变引发质变的AI“尤里卡时刻”。
14.多模态大模型
是能同时处理文字、图像、声音的“六边形战士”。曾经,传统的大语言模型输入只能是文字,输出是文章;而多模态大模型可以输入文字+图片+视频+音频,输出也能是写诗+画图+编曲+做PPT。多模态大模型具有信息互补、增强理解能力、提升交互体验和拓展应用场景等优势,但也面临着数据获取、模型复杂度、模态融合和伦理安全等方面的挑战。
15.智能体
还记得前不久爆火的Manus吗,这就是智能体(AI Agent)。OpenAI将智能体定义为“以大语言模型为大脑驱动的系统,具备自主理解、感知、规划、记忆和使用工具的能力,能够自动化执行完成复杂任务的系统”。那智能体和大语言模型是什么关系呢?我们可以把智能体与大语言模型形象地比作生物体与其大脑,智能体有手有脚,可以自己干活自己执行,而大语言模型呢,就是它的大脑。
风险挑战篇 少不了“成长的烦恼”
16.AI幻觉
大模型也会“一本正经地胡说八道”,还特别“理直气壮”,就好像考场上瞎蒙答案,还非常自信地写了解题步骤。AI产生幻觉的原因大致分几种情况:训练数据的局限性、概率生成机制以及缺乏真实世界的理解。此前吵得沸沸扬扬的AI幻觉事件,便是大模型无法正确判断9.11和9.8哪个更大。
17.数据偏见
如果训练数据存在偏见(如性别歧视、地域歧视),AI会完美复刻这些偏见,就像学生会模仿老师的口头禅。最常见的案例是,要求“生成医生形象图片”,大模型往往给出男性医生。要纠正AI的“坏习惯模仿秀”,可以通过数据清洗,来剔除带有偏见的文本;也可以加强公平性训练,强制模型平等对待不同群体,好比给AI上“大思政课”。
18.对齐问题
指的是如何让AI的行为和目标与人类的价值观、期望和需求保持一致,我们可以把它想象成“训练AI成为人们想要的样子”。毕竟,大模型是通过大量数据训练出来的,但这些数据并不总是反映人类正确的价值观和期望。
趋势篇 未来是星辰大海
19.数据飞轮
一个描述AI系统中数据、模型和用户之间相互作用和循环的概念。它就像是一个“良性循环”,当越多人使用,模型就越聪明,会使得更多人使用模型,来推动AI不断改进和成长。
20.AGI(通用人工智能)
可以说是科技界的“终极目标”了,AGI是科学家梦想中的全能型AI,能像人类一样解决任何问题。但现在,它仍然处于小学一年级水平——AGI需要学习人类数千年积累的知识,而当前大模型更像“应试教育学霸”;更重要的是伦理难题,如果AGI真的比人类聪明,谁来决定它该做什么呢?
理解“大模型黑话”不是要成为技术专家,而是为了在AI重塑社会的进程中把握主动权。“大模型黑话”背后,是人类正在书写的智能时代新语法——当我们知道AI Agent可以提升工作效率,明白“对齐问题”关乎技术伦理时,就能更好地参与这场数字变革。