分享好友 最新动态首页 最新动态分类 切换频道
机器/深度学习中的参数优化原理初探
2024-12-27 12:00

维纳的个人履历实在令人望而生畏,他真的将各种领域的知识融合在了一起。同时,他创造了自动控制理论,深刻地影响了机器/深度学习的发展历程。神经元模型以及GD梯度下降的发明也是基于自动控制理论基础上创立的。

机器/深度学习中的参数优化原理初探

笔者思考:
自动负反馈控制理论,从另一个角度讨论了一个信息处理系统如何达到稳态(即找到最优参数)。
笔者任务其核心思想是:比起一次接受所有历史状态信息,通过最小二乘估计得到最优参数。信息系统其实可以将时间序列切片,通过只获取一个有限时间段内的信息,对通过滤波器后的信息误差进行评估,进而对系统本身进行负反馈调节,这种方式最终可以让系统趋向于稳态。
这也是GD(梯度下降)思想的核心之一,当然,GD本身还解决了对高维多元随机变量求极值的计算复杂度问题,GD本身是易于通过计算机实现的。

数字滤波器是数字信号处理中使用得罪广泛的一种线性系统环节,是数字信号处理的重要基础。

数字滤波器的本质是将一组输入的数字序列通过一定的运算后转变为另一组输出的数字序列。

实现滤波处理的运算电路、或设备称为滤波器。

对输入信号通过一定的处理得到输出信号,这个处理通常是滤除输入信号的某些频率成分;保留信号中某些频率范围内的有用信号成分。所以把这种处理的过程称为滤波。

笔者思考:CNN卷积网络的训练过程体现了非常明显的滤波过程,CNN网络在训练样本数据的过程中,会自动地保留样本数据中和target有关的“关键性像素区域”,例如小猫识别任务中,CNN会保留图像样本中各种姿势的猫,而对背景这些“冗余信息”会逐渐通过权重调整过滤掉,从某种程度上来说,这就是一种滤波过程。

几乎所以的机器学习算法的参数优化(训练)过程都包含负反馈,算法通过在训练中不断根据本轮迭代的预测结果和目标结果之间的差距来动态调整自己的负反馈,从而逐渐将权值参数调整到”尽量完美“的状态(即拟合)。

作为对刺激的相应,系统产生一个输出 y(i) 作为相应。因此,次系统的外部行为由下述数据集描述:

从数字信号的时空特性角度来看,刺激向量 x(i) 能够以两种根本不同的方式出现,一种是空间的,另一种是空间的:

我们现在面对的问题是如何通过建立一个简单线性神经元来设计未知动态系统的一个多输入-单输出模型(即滤波器模型)。

这个神经元模型是在一个算法的影响下运行的,此算法控制对神经元的突触权值的必要调整,同时记住以下要点:

这样描述的神经元模型称为“自适应滤波器(adaptive filter)”,而其中负责进行调整的算法理论就是LMS(最小均方算法),LMS我们放到下一个章节来展开讨论,我们这里先关注滤波器系统本身。

虽然是在作为系统辨识(system identification)的任务背景下给出的描述,但自适应滤波器的特征还是有很广泛的应用。

下图是一个自适应滤波器的示意图,它的运行由两个连续过程组成:

这两个共同运作过程的组合构成了一个围绕神经元运作的反馈环(feedback loop)

上述的这两个连续过程的产生原理如下:

误差信号 e(i) 用来对神经元突触权值的调整进行控制的方式,是由用于导出自适应滤波算法的代价函数决定的。

这个问题与无约束最优化问题密切相关,无约束最优化不仅可以用在线性自适应滤波器上,还可以应用在一般的神经网络上。

为了下一章节讨论LMS作准备,我们这里先讨论下自适应滤波算法中的无约束最优化问题。

这样,代价函数就成功地将一个学习问题转换为了最优化问题。

也就是说,需要解决一个无约束的最优化问题,即:

最优性的必要条件(注意不是充要条件)是:

一类特别适合自适应滤波器设计的无约束最优化算法是以局部迭代下降(iterative descent)思想为基础的:

下面我们来讨论几种以迭代下降思想的基本形式或变种形式的无约束最优化方法。

具体来说,就是利用代价函数在点 w(n) 周围的二次泰勒级数展开式,我们得到:

一般来说,牛顿法收敛得很快,而且不会出现最速下降法有时会出现的锯齿形情况。但是,应用牛顿法时, Hessian矩阵必须对每个 n 都是正定矩阵。

遗憾的是,一般不能保证在算法的每次迭代中 H(n) 都是正定矩阵。

假如 Hessian矩阵 H(n) 不正定,对牛顿法进行修正就有必要。在很多时候,牛顿法的最主要局限在于其计算复杂度。

J(n) 是 e(n) 的 n x m  Jacobi 矩阵:

综合上式,可得:

上式描述了 Gauss-Newton方法的纯粹形式。

注意:梯度下降是最速下降在欧式范数下的特殊情况

Relevant Link:

 

我们从最小二乘估计器引入最小二乘滤波器,这样可以很自然地进入对LMS的讨论中。最小二乘滤波器和最小二乘估计器虽然只有几字之差,但是其整个优化运算过程是不一样的。最小二乘滤波器引入了自适应反馈的思想。

我们在前面的章节中讨论了最小二乘估计器,它利用极小化(求导极值)的传统放来从环境的观测模型中找到最小二乘解。

从这个小节开始,我们将最小二乘估计器放到一个维纳滤波器的框架中进行讨论,我们称之为最小二乘滤波器(least-squares filter)。我们接下来利用 Gauss-Newton法来重新推导这个滤波器公式。

我们定义如下误差向量:

因此,上式可写为:

读者注意!!

这个公式和我们在文章之前推导的最小二乘的几何意义得到的公式是一致的。通俗地说:

Gauss-Newton(以及其他迭代算法)的每一次迭代,本质上就是在这个 n 的时域内,进行最小二乘估计,并根据得到的本次最优解对权值向量进行更新

这个公式表示了下面所陈述的一个简便途径:

我们已经知道了,LMS算法在一次迭代中(时间 n 时域区间),本质上是在进行最小二乘估计。接下来继续思考,如果这个过程无限进行下去会得到什么呢?即 n 趋近于无穷。

基于公式

得到:

现在假设输入向量 x(i) 和相应的期望响应 d(i) 来自于联合遍历。我们可以用时间均值来代替总体均值。

输入向量 x(i) 的相关矩阵(correlation matrix)的总体平均形式是:

并且,相应地,输入向量 x(i) 和期望响应 d(i) 之间的互相关系(cross-correlation vector)的总体平均形式是:

综上,可将式:

因此,我们可以做以下的陈述:对一个遍历过程,当观察样本数趋于无穷时,线性最小二乘滤波器渐进趋于维纳滤波器

虽然,当样本量趋近于无穷时,线性最小二乘滤波器趋近于维纳滤波器,但是设计维纳滤波器需要二阶统计量的知识:

但是,在实际的情况下,这些信息都是未知的,所以维纳滤波器只是一个理论上的最优滤波器。

在实际工程实践中,我们可以利用线性自适应滤波器(linear adaptive filter)来处理未知的环境,自适应在这里的含义就是滤波器能够调整自己的自由参数来响应环境的统计变化。在连续的时间基础上做这类调整的一个流行的算法就是最小均方算法(LMS)。

接下来,我们进入对LMS的讨论。

LMS最小均方算法是第一个解决如预测和信道均等化等问题的线性自适应滤波算法。

值得注意的是,LSM算法自身不仅可以作为自适应滤波应用机器,它还可以作为其他自适应滤波算法的评价准则,这里面的原因包括:

对工程来说,上述性能都是非常重要的。之所以强调说工程,是因为其实LMS并不是理论上最优的算法,但是却是最实际工程有效的。

因为在实际情况中,我们很难获得全局最优解,甚至说都无法完整按照最速下降的思想进行最优方向的梯度下降,原因大致如下:

但是LMS拥有计算简单、鲁棒性等优点,使得LMS在之后的深度学习/BP理论的发展中被不断继承和发扬光大。

最小均方(least mean square,LMS)算法的建立是基于极小化代价函数的瞬时值。注意!是瞬时值。

代价函数为:

这里 e(n) 是 n 时刻的瞬时误差信号。

因此,

综上公式得:

最后,将上式梯度的瞬时估计公式,带入最速下降法作为最速下降法的梯度向量,可以得到LMS的算法公式:

这里值得注意的是:

利用最速下降法可以得到一个权值向量,而LMS算法产生该权值向量的一个瞬时估计。所以,利用LMS算法时我们牺牲掉最速下降法的一个明显特征。

一个重要的事实是,与最速下降法不同,LMS算法不需要知道环境的统计特征。从实际的角度来看,LMS的这一特征是非常重要的。

我们可以把LMS算法中的权值向量演变过程表示如下:

这里,I 是单位矩阵。通过运用LMS算法,我们认识到:

我们利用信号流图来表示LMS算法,这图揭示了LMS算法是随机反馈系统的一个实例。反馈的出现对LMS算法的收敛行为有重要影响。

为了给LMS算法提供一种统计分析,我们利用下式定义的权值误差向量(weight-error vector)更加方便。

2. 在时间 n 上状态的演化被内部所产生的噪音 f(n) 所扰动,这一噪声扮演者”驱动力“的角色。

和上面的原始形式相比,这个图中用紧凑形式重点强调了LMS算法中的反馈过程。

需要注意的是!

最新文章
色蜂视频如何提升用户体验-它的互动功能和内容创作模式有何优势
色蜂视频,作为近年来兴起的一种视频分享平台,逐渐在网络中积累了大量的用户。它不仅提供了丰富的视频内容,而且还给用户提供了一个互动性强的社交空间,受到不少用户的喜爱。对于广大视频爱好者来说,色蜂视频无疑是一个值得关注的选择。
星推联盟最新版 v1.1.31
星推联盟是一款专门为创作者提供服务的推文软件,界面友好、操作简单,能够有效提升内容质量和创作效率。该软件特别适合零基础的创作者,提供保姆级实操教学和海量变现任务,帮助用户快速变现。软件还支持短视频制作、拍摄、剪辑等功能,适
看过来!世界著名抗体公司汇总全在这里_老铁SEO
Santa是世界上最大的抗体生产厂家,目前可提供的抗体种类多达两万多种,几乎覆盖了目前生命科学研究的各个最新领域,其每种抗体又有多个克隆可以选择,还提供一些对应蛋白标准品及相关产品,如ABC试剂盒,各种标记二抗,Western试剂盒,蛋
除百度谷歌以外,还有哪些靠谱的网站统计平台?盘点五个好用网站统计平台工具对比推荐,你的网站统计用哪个?
网站运营需安装统计工具分析访问量、用户体验及搜索数据。百度统计适合中文网站,Google统计适用于非中文网站但可能影响速度。易分析、51LA和友盟也是优秀的统计工具,但可能需付费。选择最适合自己需求的工具是关键。 1、百度
情侣飞行棋小程序搭建流程,一起来看看吧
本文将详细介绍情侣飞行棋小程序搭建流程,以及其中的一些重要细节和知识。如果你是一位开发者或者对小程序开发感兴趣的用户,相信这篇文章会给你带来帮助。我们需要明确小程序是一种运行在微信客户端的应用程序,它可以为用户提供丰富的功
品牌网站设计与打造方案全攻略
摘要:本设计方案旨在打造品牌网站,以提升品牌形象和知名度,吸引更多潜在客户。设计将注重用户体验和视觉效果的融合,以简洁明了的界面展示品牌特色。方案将考虑网站的响应速度和兼容性,确保用户在不同设备上都能顺畅浏览。通过精心策划
更持久才更好用,年货节手机怎么选?7款长续航手机选购推荐。
很显然,在能耗表现上,骁龙8gen3就是当前最强的处理器,明显好于自家上一代的8gen2,联发科的天玑9300因为现在长续航的手机选择不多,所以暂时还看不出端倪。一加12年货节期间最高免息分期24期,并且有加赠Enco Air 2i 活动。同样的229g,
【阿里翁●神马商城】~FDA新品~Stabilize heart 安心片
高血压的主要症状头晕、头痛 头晕是高血压最多见的症状,有些是一次性的,在突然站起来或蹲下时出现;有些是持续性的。头痛也是高血压的常见症状,多为搏动性的胀痛或持续性的钝痛,严重者甚至有炸裂性的剧痛。常在早晨睡醒时发生,起床下
零售数据分析之操作篇11:销售占比分析
各位数据的朋友,大家好,我是老周道数据,和你一起,用常人思维+数据分析,通过数据讲故事。上期内容和作业上一讲讲了排名与TOP的场景,排名是以排序为基础,从1开始标识其排名的序号;而TOP则是以排序为基础,仅显示N行或N%行记录。上一
试试长亭科技吧,阿里云子公司
❶让你和+2老板汇报nbsp;如果是好事,就是给你露脸的机会,展示他带出来的人能力还不错;如果是坏事,就是让你主动去背锅,展示他不知情且还有管理空间nbsp;知彼解己,抓住每次和+2或大老板们汇报的机会,提前做充分准备nbsp;❷让你去做统
相关文章
推荐文章
发表评论
0评