大语言模型和大模型的区别和联系

前言

有时候我们经常说行业大模型,医疗大模型,开源大模型,甚至用「产品+大模型」的固定结构去称呼一个模型。

例如百度的文心一言大模型,但是文心一言其实是大语言模型,大模型和大语言模型,差别就两个字,但是他们的关系却是主从关系。

大模型是什么?

首先,大模型这个词是建立在神经网络模型上的。

神经网络是一种基于生物学神经系统结构和功能的计算模型,旨在模仿人脑的学习和决策过程该模型由多个神经元组成,这些神经元通过权重连接形成层次结构,通常分为输入层、隐藏层和输出层。输入层接收原始数据,输出层产生最终的输出,而隐藏层在这两者之间进行中间处理。

神经网络通过学习调整连接权重,从而能够识别模式、进行分类、回归等任务。训练神经网络通常包括提供输入数据和相应的期望输出,然后通过反向传播算法来调整权重,使得网络的输出逼近期望的输出。这个过程反复进行,直到网络能够准确地进行任务。

不妨把神经网络想象成一个初生的婴儿,每当婴儿看到一个新东西,比如苹果,我们就告诉他:“这是一个苹果。”这就相当于在神经网络中调整连接的权重,让大脑建立起“苹果”的概念。这个过程就是在训练神经网络,随着时间的推移,婴儿逐渐长大,它就能够分清不同的事物,并依靠计算机强大的计算能力完成许多更复杂的任务。

大模型的模型参数量达到了亿的级别,近期的研究成果基本在百亿到千亿的范围。当然这不会是终点,大模型的神经元数量和相关参数量必定会朝着远超人类大脑神经元数量的方向发展。

大模型的分类

模型的发展最初是伴随着自然语言处理技术的不断发展的,这是由于文本数据的数据量更大且更容易获取。

所以目前大模型最大的分类还是大语言模型,近两年衍生出一些语言与其他形式融合的大模型,例如:

  • 文字生成音乐(MusicLM)
  • 文字生成图像(DALL-E2,Midjourney)
  • 文字图像生成机器人动作(RT-1)等。

大模型包括但不限于以下几类:

  • 大语言模型(LLM):专注于处理自然语言,能够理解、生成和处理大规模文本数据。大语言模型在机器翻译、文本生成、对话系统等任务上取得显著成果。OpenAI的GPT系列是其中的代表,包括最新的GPT-4、文心一言、通义千问。开源大模型中有meta 开源的 LLaMA、ChatGLM – 6B、Yi-34B-Chat。你可能会发现了国内的开源模型中,如果名字命名存在chat这个单词的,大概率是大语言模型
  • 视觉大模型:专注于计算机视觉任务,例如图像分类、目标检测、图像生成等。它们能够从图像中提取有关对象、场景和结构的信息。例如Vision Transformer(ViT)就是一种基于自注意力机制的视觉大模型,用于图像分类任务。
  • 多模态大模型:能够处理多种不同类型的数据,如文本、图像、音频等,并在这些数据之间建立关联。多模态大模型在处理涉及多种感知输入的任务上表现出色,如文图融合、图像描述生成等。多模态是大模型接下来发展的一大趋势。国内的华为盘古大模型就是一个多模态大模型,能够同时理解文本和图像,用于任务如图像分类和自然语言推理,国外的谷歌Gemini也是一个多模态大模型
  • 决策大模型:专注于进行决策和规划,通常应用于强化学习等领域。它们能够在面对不确定性和复杂环境时做出智能决策。深度强化学习中的模型,如AlphaGo和AlphaZero,是决策大模型的代表,能够在围棋等游戏中取得超人类水平的表现。
  • 行业垂直大模型:专门设计用于特定行业或领域的任务,如医学、环境、教育等。它们通常在处理特定领域的数据和问题时表现出色。在医疗领域有DoctorGPT、华佗GPT,大规模的医学图像处理模型用于诊断和分析。在金融领域,模型可能用于风险评估和交易策略。携程的问道是旅游行业的大模型等等

大语言模型和大模型区别

大语言模型只是大模型的一个分类,我们有时候简称大模型倒也没有什么问题。

不过要注意提交大家一点,大语言模型和行业垂直大模型是有非常明显的区别的,他们的训练数据侧重点不一样,

大语言模型更多是理解我们的话里话外的意思,主要负责和人类沟通对话的能力,行业大模型更多是基于语言大模型的基础上再进一步对某些行业的专业知识进行更加深层级的训练。因此你会发现你在用chatGPT类似ai工具的时候,当问到一些专业知识的时候,经常会出现AI幻觉。

举个简单的例子是,开源的LLaMA大模型是一个大语言模型,很多行业大模型都是从这个大语言模型的基础性调教出来的,它就像一个正在读医的大学生。DoctorGPT这个产品就像是一个从业多年的医科教授。因此你问一些专业的医科问题的时候,肯定是医科教授回答更加精准,一些简单的问题可能大学生也能回答

大模型与AIGC的区别与联系

大模型和AIGC是人工智能领域中的两个重要概念,概念性的东西,前面都有详细的介绍,大家还是不是很理解的话,可以往前面的知识点再翻阅一下。我下面再简单总结一下:

  • 大模型是指具有大量参数的机器学习模型,通常指深度学习模型。
  • AIGC(生成式人工智能)是指基于生成对抗网络、大型预训练模型等人工智能的技术方法,通过已有数据的学习和识别,以适当的泛化能力生成相关内容的技术。

联系

从一定意义上说,大模型是AIGC的一种表现形式,或者说,大模型是AIGC的基石。

AIGC代表的是人工智能从1.0时代到2.0时代的跃迁,其技术核心是利用人工智能算法生成具有一定创意和质量的内容。

而大模型,如GPT-3,可以通过对大量数据的训练,习得如何生成自然流畅的文本内容,这是AIGC的一个重要应用。

区别

大模型和AIGC分别代表了人工智能的深度学习和生成式智能这两个不同的方向,其中AIGC更强调生成内容的能力。

通俗点理解,我认为AIGC代表的是一种技术实现,大模型是技术实现其中的某一个环节。

国内大模型的排名情况

国内 AI 大模型已近80个,哪个最有前途呢?其实国内的大模型发展在国际表现上一直发挥不错,「百模大战」有点像春秋战国时期「百家争鸣」的镜像,下面看看SuperCLUE排行榜国内模型的表现情况。

图片[1]-大语言模型和大模型的区别和联系-不念博客
图片[2]-大语言模型和大模型的区别和联系-不念博客
图片[3]-大语言模型和大模型的区别和联系-不念博客
图片[4]-大语言模型和大模型的区别和联系-不念博客
© 版权声明
THE END