深度学习作为人工智能核心领域的关键部分,已在图像、语音和语言处理等多个领域实现重大突破。探究任何学科,须从其历史根源起步,洞悉历史脉络,方能掌握当下,洞察未来。
前排提示,文末有大模型AGI-CSDN独家资料包哦!
深度学习的发展历程是怎样的呢?接下来,我们一同探究深度学习的历史足迹。
1940-1950年代:神经网络初始理念
1943年,Warren McCulloch与Walter Pitts在论文《神经活动中内在思想的逻辑演算》中提出MCP模型,标志着神经网络与数学模型的诞生,为这两大领域奠定了基础。
MCP旨在利用计算机复制人类神经元的反应机制,将神经元简化为三个核心步骤:输入信号线性加权,信号求和,以及非线性激活(采用阈值法)。具体过程如以下图表所示。
图:1949年,Hebb提出Hebbian学习规则,揭示神经元A接收B输入并持续输出时,两者连接强度增强。此规则与条件反射机理相符,神经细胞学说已证实。Hebbian学习规则为神经元连接强度学习机制奠定理论基础。1950s-1960s:Rosenblatt于1958年提出感知器,由两层神经元构成,用于二分类多维数据,并自动学习更新权值。Minsky和Papert在1969年指出感知器为线性模型,仅能处理线性分类,如XOR问题。
图示:无任何直线能区分绿色与红色点–异或问题
1980s-1990s:多层感知机与反向传播技术崛起。Hinton等人在1985年提出受限玻尔兹曼机(RBM),一种用于无监督学习的随机神经网络,擅长特征提取和降维。1986年,Hinton发明了针对多层感知器(MLP)的BP算法,引入Sigmoid非线性映射,有效攻克了非线性分类与训练难题,掀起了神经网络热潮。1989年,LeCun等应用BP算法训练卷积神经网络(CNN)识别手写数字,标志着其在图像识别领域的突破。
图:CNN模型
1990s-2000s:深度学习奠基与发展
- 1990年,Elman提出Elman Networks,即RNN的基础。
- 1991年,Hochreiter揭示梯度消失问题,影响RNN和深度网络。
- 1993年,Hinton研究自编码器,概念早于该年。
- 1997年,Hochreiter和Schmidhuber提出LSTM,解决RNN梯度消失。
- 1998年,LeCun等改进CNN,发布LeNet-5,手写数字识别先驱。
2000s:深度学习复兴
- 2006年,Hinton等提出深度信念网络和深度自编码器,引入逐层预训练。
- 同年,NVIDIA的CUDA框架加速深度学习。
2010s:深度学习突破与普及
- 2012年,AlexNet在ILSVRC中胜出,引入ReLU激活,CNN技术普及。
- 2013年,DQN结合深度学习与强化学习,在Atari游戏超越人类。
- 同年,Kingma和Welling提出VAE,结合贝叶斯与深度学习。
- 2014年,Goodfellow等提出GAN,推动生成模型发展。
图:GAN模型
2014年6月24日,Google DeepMind推出《Recurrent Models of Visual Attention》,引发了对注意力机制的广泛关注。该研究运用RNN模型,融入注意力机制于图像分类,率先将注意力机制引入深度学习领域。
2014年9月,Bahdanau、Cho与Bengio发布《Neural Machine Translation by Jointly Learning to Align and Translate》,引入注意力机制革新了机器翻译,强化了对长序列的处理。这一突破成为机器翻译史上的里程碑。2015年5月,Ronneberger等提出U-Net,以其对称U形架构和跳跃连接融合特征,实现了精准的生物医学图像分割。U-Net的设计巧妙解决了小样本挑战,广泛用于医学和遥感图像处理,对图像分割领域贡献巨大。
图:U-Net
2015年12月10日,何凯明团队发表《Deep Residual Learning for Image Recognition》,提出ResNet(残差网络),通过残差连接攻克深层神经网络训练难题。ResNet在ILSVRC 2015夺冠,大幅提升深度学习模型性能和可训练性。其创新架构支持构建更深网络,推动计算机视觉如图像识别、目标检测发展,是深度学习的关键支柱。
图:ResNet
2015至2016年间,Google和Facebook推出TensorFlow、PyTorch与Keras,极大推动了深度学习领域的研究与应用,显著简化了复杂神经网络模型的开发与训练流程。
2016年,Google DeepMind的AlphaGo战胜围棋冠军李世石,彰显了深度强化学习的巨大潜能。
2017年,Google Brain推出《Attention is All You Need》,引入Transformer,摒弃了RNN和CNN,全面采用注意力机制进行机器翻译。此创新如彗星划空,迅速震撼NLP学界,深刻重塑了自然语言处理领域,对BERT、GPT等后续模型影响深远。
图:Transformer
2018年6月,OpenAI推出革命性模型GPT,标志着大规模预训练的里程碑。同年10月11日,Google AI推出BERT,引入自回归与自编码预训练方法,与GPT并驾齐驱。GPT与BERT成为后续大规模预训练模型的基石。
图:BERT
2020s:深度学习拓展新篇章
2020年10月22日,Google团队推出《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》,提出Vision Transformer(ViT),该模型以简洁高效、可扩展性强(规模越大性能越佳)的特点,在CV领域引领变革,开启了Transformer应用新纪元。2021年2月26日,OpenAI发布《Learning Transferable Visual Models From Natural Language Supervision》,推出CLIP模型,实现图像与文本的对比学习,奠定多模态AI研究基础,加速图像生成、理解和交互领域发展。同年7月,Google DeepMind在《Nature》上连续发表AlphaFold相关论文,发布AlphaFold 2,在蛋白质结构预测竞赛中展现惊人准确度,对生物医学研究、药物设计等领域产生深远影响。2022年12月20日,Stability AI发布Stable Diffusion,一种基于扩散模型的图像生成技术,成为AI绘画领域的关键模型,支持文本到图像(txt2img)和图像到图像(img2img)等多种生成任务。
图:Diffusion Model
2022年7月,David Holz推出Midjourney AI,运用GANs与深度学习技术,依文本生成高品质图像。11月,OpenAI发布GPT-3.5,ChatGPT成为全球抢手货,掀起大语言模型风潮。ChatGPT等大语言模型展现惊人实力,各类多模态预训练模型如春笋般涌现。
图:Albert Gu与Tri Dao于2023年12月1日发表的论文《Mamba:基于选择性状态空间的线性时间序列建模》展示了Mamba,一种新颖的神经网络架构,区别于Transformer,擅长处理长序列数据,兼顾效率与性能。该技术对于自然语言处理、语音识别及生物信息学等处理海量数据的应用场景极具实用价值。
图:Mamba
2024年2月18日,OpenAI推出SORA模型,该文本转视频技术融合了顶尖的Transformer与GAN架构,深度应用CLIP技术,显著提升文本生成视频的质量。
图:SORA生成的视频
2024年5月8日,DeepMind发布论文《AlphaFold 3精准预测生物分子交互结构》,推出AlphaFold 3,以革命性的精确度预测了所有生物分子的结构及互动。相比现有技术,AlphaFold 3在蛋白质与其他分子间交互的预测上提升达一倍以上。
图:AlphaFold 3预测的蛋白质三维结构
本文深入梳理了深度学习自1940年代以来的演进,包括早期神经网络、感知器、多层感知机、反向传播、循环神经网络、自编码器、深度信念网络、生成对抗网络和Transformer等关键阶段。尽管如此,文章亦存在局限,如将反向传播算法的功劳归于Geoffrey Hinton,而实际上,Seppo Linnainmaa才是其早期研究者。同时,文章未能全面反映深度学习在各行业和新兴领域的最新融合进展。期待未来有更多研究和探讨,以深化我们对这一领域的理解。
读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!
👉AI大模型学习路线汇总👈
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉大模型实战案例👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
👉大模型视频和PDF合集👈
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。