分享好友 最新动态首页 最新动态分类 切换频道
一文入门生成式AI(理解ChatGPT的原理)
2024-12-26 16:03

以ChatGPT为代表的生成式AI,是对已有的数据和知识进行向量化的归纳,总结出数据的联合概率。从而在生成内容时,根据用户需求,结合关联字词的概率生成新的内容

可以这么联想,ChatGPT就是一个词语接龙的机器,他会根据你给出的关键词,自动生成关键词的下一个最有可能衔接的词语。比如你说,“世界上最高的山”,ChatGPT就会回答“喜马拉雅山”。

大模型需要:算力、数据/存力、算法这三大要素。

算力:即需要GPU、NPU这些硬件进行训练。

数据/存力:生成式AI需要处理和存储大量的数据。以GPT-3为例,光是训练参数就达到了1750亿个训练数据达到45TB,每天会产生45亿字内容。

算法:生成式AI的主要算法是深度学习。从仿生学的角度,人类希望AI能够模仿人脑的运行机制,对知识进行思考推理——这就是通常所说的深度学习。

为了实现深度学习,学者们提出了大量的神经网络架构

先看三个经典的

  • 深度神经网络(DNN)是最普遍的神经网络架构,但是随着数据对于网路架构的要求越来越复杂,这种方法逐渐有些吃力。
  • 卷积神经网络(CNN)是一种专门为处理图像数据而设计的神经网络架构,能够有效地处理图像数据,但是需要对输入数据进行复杂的预处理。
  • 循环神经网络(RNN)架构成为处理序列数据的常用方法。

由于RNN在处理长序列时容易遇到梯度消失和模型退化问题,著名的Transformer算法被提出。

Transformer架构:是目前文本生成领域的主流架构,GPT、llama等LLM(大语言模型)都是基于Transformer实现了卓越的性能。

Transformer架构:主要由输入部分(输入输出嵌入与位置编码)、多层编码器、多层解码器以及输出部分(输出线性层与Softmax)四大部分组成。

  • (1)输入部分

  • 源文本嵌入层将源文本中的词汇数字表示转换为向量表示,捕捉词汇间的关系。

  • 位置编码器为输入序列的每个位置生成位置向量,以便模型能够理解序列中的位置信息。

  • 目标文本嵌入层(在解码器中使用:将目标文本中的词汇数字表示转换为向量表示。

  • (2)编码器部分

  • 由N个编码器层堆叠而成。

  • 每个编码器层由两个子层连接结构组成:第一个子层是一个多头自注意力子层,第二个子层是一个前馈全连接子层。每个子层后都接有一个规范化层和一个残差连接。

  • (3)解码器部分

  • 由N个解码器层堆叠而成。

  • 每个解码器层由三个子层连接结构组成:第一个子层是一个带掩码的多头自注意力子层,第二个子层是一个多头注意力子层(编码器到解码器,第三个子层是一个前馈全连接子层。每个子层后都接有一个规范化层和一个残差连接。

  • (4)输出部分

  • 线性层将解码器输出的向量转换为最终的输出维度。

  • Softmax层将线性层的输出转换为概率分布,以便进行最终的预测。

目前有两种训练方式:预训练和SFT(有监督微调

  • 预训练:是指将一个大型、通用的数据集作为知识喂给AI进行初步学习。经过预训练的模型叫作“基础模型”,它对每个领域都有所了解,但是无法成为某个领域的专家。
  • SFT(有监督微调:SFT是指在预训练之后,将一个特定任务的数据集喂给AI,进一步训练模型。例如,在已经预训练的语言模型基础上,用专门的医学文本来微调模型,使其更擅长处理医学相关的问答或文本生成任务。

语义的最小单位,是TOKEN,可以翻译成“词元”,它是语言类模型中用数字来表示单词的最小语义单位。

比如下图中这句话“This is a input text.” 首先被 Tokenizer 转化成最小词元,其中[CLS][SEP]为一句话的起始与结束符号(CLS:classification 告知系统这是句子级别的分类的开始、SEP:separator 告知系统结束本句或分割下一句,然后再通过 Embedding 的方式转化为向量。

比如猴子和香蕉,这两个语义关系紧密。原子能和香蕉,差距就比较远。

Transformer中,编码器和解码器中的“码”指的是什么

以下是ChatGPT-4o-mini给出的答案

编码器中的“码”

  • 输入表示:编码器接收输入序列(如文本,并将其转换成一个高维的向量表示。这些向量捕捉了输入序列中单词之间的关系和上下文信息。
  • 特征提取:编码器通过多层自注意力机制和前馈神经网络提取特征,使得每个输入的表示包含了其在上下文中的重要性。

解码器中的“码”

  • 生成输出:解码器使用编码器生成的表示以及之前生成的单词,逐步生成目标序列(如翻译后的文本)。这里的“码”指的是解码器对已生成内容的处理和对未来内容的预测。
  • 上下文结合:解码器同样使用自注意力机制来考虑已生成的单词与当前生成位置的关系。

总结来说,“码”在这里代表了对输入和输出数据的数学表示方式,帮助模型理解和生成语言。

总的来说,编码器负责理解和处理输入,而解码器则负责生成输出,二者协同工作以实现有效的序列转换。

参考

最新文章
2023百度蜘蛛池出租,解锁高效SEO策略的新途径,百度蜘蛛池包月
2023年,百度蜘蛛池出租成为解锁高效SEO策略的新途径。通过租用蜘蛛池,网站可以获得更多的百度蜘蛛访问,提高网站权重和排名。百度蜘蛛池包月服务更是让网站主可以长期稳定地获得蜘蛛访问,提升网站流量和曝光率。这种新型SEO策略不仅提高
2022年国外十大网站排行榜 2022全球十大热门网站排名
  2022年国外知名网站排行前十  1.Google  谷歌是人们所熟知的搜索引擎公司,这个成立于1998年的网站的操作方式类似于百度,虽然与2010年关闭了中国大陆的搜索服务,但谷歌已就业是排名第一位的全球最具价值品牌100强之一。  2.You
DSP解析及适合独立站卖家的优质DSP平台推荐——收藏必备!
引流对于独立站至关重要,因为只有成功引入流量,独立站才有机会实现转化并获取订单。但随着流量成本的逐渐攀升以及推广平台的多样化,独立站的推广任务变得越来越复杂。选择哪个推广平台、如何降低成本,成为了独立站卖家面临的一大难题。
8个好用的网盘搜索引擎
如今,网盘已成为我们在网络中必备的资源分享和储存工具。市场上各大网盘平台拥有庞大的用户群体和丰富的资源库,可见其在市场上的占有率越来越大。然而,尽管资源再丰富,但大多数网盘平台并不允许用户在库中搜索资源并直接下载,而是需要
AI绘画中的城市叫什么
AI绘画中的城市叫什么AI绘画中的城市没有统一的名称。AI绘画是指利用人工智能技术进行绘画创作,通过计算机算法模拟人类艺术创作的过程,以生成具有艺术价值的图像作品。城市作为主题之一,可以被AI绘画创作所表达和展现。AI绘画中的城市创
2025计算器可以带进考研考场吗
作为即将迎来2025年考研的研究生,计算器是考试中不可或缺的工具之一。合理使用计算器可以帮助你提高答题效率,减少出错概率。下面分享一些关于2025考研计算器的使用方法,希望对大家有所帮助。在考试中,计算器的基本功能包括加减乘除、开
AIGC数字人克隆:科技与艺术的创新融合
**AIGC数字人克隆:科技与艺术的创新融合**在科技日新月异的今天,数字技术的飞速发展正在以前所未有的方式改变着我们的生活。其中,AIGC(Artificial Intelligence Generated Content,人工智能生成内容)数字人克隆技术作为科技与艺术融
AI辅助撰写全方位产品介绍文案攻略:解决用户搜索的所有相关问题
1. 欢迎体验【智能助手 Pro】,一款颠覆传统的智能设备助您轻松管理日常生活。2. 【核心功能】自动识别并分析客户需求,提供个性化服务,让生活更便捷。3. 【强大性能】采用,快速响应,精准实行,让操作更流畅。4. 【外观设计】简约时,轻
2024新奥资料免费公开,实地验证数据设计方案_交互版 18.414
2024年,新奥资料免费公开项目正式启动,旨在为全球科研工作者和数据爱好者提供一个开放、透明、可访问的资料共享平台。随着互联网技术的飞速发展,数据共享和信息交流变得越来越重要。新奥资料免费公开项目正是基于这一理念,通过提供高质
3. 清理浏览器缓存和cookies
现在很多设备和平台会出现“禁止观看视频”的设置,导致我们在观看视频时遇到无法播放的情况。这种情况通常发生在视频播放限制或者浏览器设置的过程中。若遇到这种情况,用户通常希望找到解除限制的方法。本文将详细介绍如何解除“禁止观看
相关文章
推荐文章
发表评论
0评