memba 网络 - 物流网资讯

memba 网络

2024-12-26 22:55

时间动作提议的生成是一项具有挑战性和前途的任务，旨在在现实世界的视频中定位可能发生动作或事件的时间区域。当前的自下而上的提案生成方法可以生成具有精确边界的提案，但不能有效地生成用于检索提案的足够可靠的置信度得分。为了解决这些困难，我们引入了边界匹配（BM）机制来评估密集分布的提案的置信度得分，该机制将提案表示为匹配的开始和结束边界对，并将所有密集分布的BM对组合到BM置信度图中。基于BM机制，我们提出了一种有效，高效且端到端的提案生成方法，称为边界匹配网络（BMN），该方法可以同时生成具有精确时间边界和可靠置信度得分的提案。 BMN的两个分支在统一框架中接受联合培训。我们在两个具有挑战性的数据集上进行了实验：THUMOS-14和ActivityNet-1.3，其中BMN表现出了显着的性能改进，并具有显着的效率和通用性。此外，结合现有的动作分类器，BMN可以实现最新的时间动作检测性能。

随着互联网中视频数量的快速增长，视频内容分析方法引起了学术界和行业的广泛关注。时间动作检测是视频内容分析领域的一项重要任务，其目的是在具有动作类别和时间边界的未修剪的长视频中定位动作实例。类似于对象检测，时间动作检测方法可以分为两个阶段：时间动作建议生成和动作分类。尽管可以通过动作识别方法达到令人信服的分类精度，但在主流基准测试中检测性能仍然很低[15，5]。因此，许多最近的方法致力于提高临时行动建议的质量。除了用于时间动作检测任务中，时间建议生成方法还在视频推荐，视频重点检测和智能监视建议等许多领域中具有广泛的应用。除了用于时间动作检测任务，时间建议生成方法还广泛应用于视频推荐，视频重点检测和智能监控等许多领域。
为了获得高质量的建议，建议生成方法应（1）生成具有灵活期限和精确边界的临时建议书，以准确而详尽地涵盖地面行动实例；（2）生成可靠的置信度分数，以便可以正确检索提案。
现有的proposal生成方法（[3, 4, 8, 24] ）大多采用“自顶向下”的方式，以规则的时间间隔生成多尺度的时间滑动窗口。缺点在于，对时长不同的动作实例，生成的建议（候选时段）通常无法准确覆盖真实的动作时段，不够精确和灵活。
Boundary-Sensitive Network (BSN) [18] 采用“自下而上”的方式分两个阶段生成提案：（1）定位时间边界并将边界合并为proposals，（2）使用构造的proposal特征评估每个proposal的置信度得分。通过利用本地线索，BSN可以生成比现有的自上而下方法更精确的边界和更灵活的持续时间的提议。但仍有三个缺点：（1）对每个提案分别进行提案特征构建和置信度评估程序，导致效率低下；（2）BSN中构造的提议特征太简单，无法捕获足够的时间上下文；（3）BSN是多阶段的，但不是统一的框架。
我们能否在丰富的背景下同时评估所有提案的置信度？自上而下的方法[19，2]可以通过anchor机制轻松实现这一点，其中proposals被预先定义为非连续分布的anchors。但是，由于建议的边界和持续时间要灵活得多，因此锚机制不适合自下而上的方法（例如BSN）。为了解决这些困难，我们提出了一种边界匹配（BM）机制来对密集分布的提案进行置信度评估。
在BM机制中，提案被表示为其开始和结束边界的匹配对，然后将所有BM对组合为二维BM置信图，以表示具有连续的开始边界和时间持续时间的密集分布的提案。
因此，我们可以通过BM置信度图同时为所有提案生成置信度分数。提出了一个BM层来从时间特征序列中生成BM特征图，并且可以使用一系列的conv层从BM特征图获得BM置信度图。 BM特征图包含每个提议的丰富特征和时间上下文，并提供了利用相邻提议的上下文的潜力。
总而言之，我们的工作有三个主要贡献：
1.我们引入了边界匹配机制来评估密集分布的提案的置信度得分，可以轻松地将其嵌入网络中。
2.我们提出了一种高效，有效且端到端的时间动作提议生成方法边界匹配网络（BMN）。在BMN的两个分支中同时生成时间边界概率序列和BM置信图，将它们作为一个统一的框架进行联合训练。
3.广泛的实验表明，与其他最新方法相比，BMN可以显着提高提案生成性能，并且效率高，通用性强并且在时间动作检测任务上具有出色的性能。

Action Recognition

动作识别是视频理解领域的一项基本而重要的任务。手工功能（例如HOG，HOF和MBH）已广泛用于早期作品中，例如改进的密集弹道（iDT）[29，30]。最近，深度学习模型在动作识别任务中取得了显着的性能提升。主流网络分为两类：双流网络[9、25、32]分别利用RGB图像和堆叠光流的外观和运动线索；3D网络[27，22]直接从原始视频量中获取外观和运动线索。在我们的工作中，按照惯例，我们采用动作识别模型来提取未修剪视频的视觉特征序列。

Correlation Matching

相关匹配算法广泛用于许多计算机视觉任务，例如图像配准，动作识别和立体匹配。具体而言，立体匹配旨在从立体图像中找到相应的像素。对于矫正图像对的左图像中的每个像素，立体匹配方法需要沿着水平方向在右图像中找到对应的像素，或者可以说以最小的成本找到右像素。因此，所有左像素的成本最小化可以表示为成本量（cost volume），其将每个左右像素对表示为volume中的点。基于成本量，许多近期的著作[26、21、17]通过使用相关层[21]或特征级联[6]直接组合两个特征图来生成成本量，从而实现了端到端网络。受成本量的启发，我们提出的BM置信度图包含成对的时间起点和终点边界作为建议，因此可以使用卷积层直接为所有建议生成置信度分数。我们提出BM层，以通过在每个提议的开始和结束边界之间同时采样特征来有效地生成BM特征图。

Temporal Action Proposal Generation

如上所述，时间动作检测任务的目标是检测具有时间边界和动作类别的未修剪视频中的动作实例，可以将其分为时间建议生成和动作分类阶段。
在大多数检测方法中，这两个阶段是分开的[24、36、35]，在某些方法中，这两个阶段是一起作为单个模型[19、2、14]。对于提案生成任务，大多数以前的工作[3、4、8、12、24]采用自上而下的方式来生成具有预定持续时间和间隔的提案，其主要缺点是缺乏边界精度和持续时间灵活性。还有一些方法[36，18]采用自下而上的方式。 TAG [36]使用时间分水岭算法生成提案，但缺乏用于检索的置信度得分。最近，BSN [18]通过本地定位时间边界并全局评估置信度分数来生成提案，并且比以前的提案生成方法取得了显着的性能提升。在这项工作中，我们提出了一种用于提案置信度评估的边界匹配机制，该机制可以大大简化BSN的流程，并在效率和有效性方面带来显着的提升。

3.1 Problem Formulation

我们可以将未修剪的视频X表示为具有lv帧的帧序列X = …，其中xn是视频X的第n个RGB帧。X的时间注释集由一组时间动作实例组成 Ψg = …，其中Ng是真实动作实例的数量，ts,n是动作实例ϕn的开始时间，te, n是结束时间。与时间动作检测任务不同，提案生成任务中不考虑动作实例的类别。在推断（inference）过程中，提案生成方法生成的提案集Ψp，应该准确并详尽地涵盖 Ψg 。

3.2 Feature Encoding

根据最近的提案生成方法[3、8、12、18]，我们根据从原始视频中提取的视觉特征序列构建BMN模型。在这项工作中，我们采用双流网络[25]进行特征编码，因为它具有很高的动作识别精度，并广泛用于许多视频分析方法[11、19、36]。结合双流网络中顶层fc层的输出分数，我们可以得到围绕帧xtn的编码视觉特征ftn∈RC，其中C是特征的维数。因此，给定长度为lv的未修剪视频X，我们可以提取长度为lf的视觉特征序列F =…。为了降低计算成本，我们以规则的帧间隔σ提取特征，因此lf = lv /σ

3.3 Boundary-Matching Mechanism

在本节中，我们介绍了边界匹配（BM）机制来为密集分布的提案生成置信度得分。首先，我们将时间提议ϕ表示为其开始边界ts和结束边界te的匹配对。然后，如图2所示，BM机制的目标是生成二维BM置信图MC，该图由具有不同起始边界和时间持续时间的BM对构成。在BM置信度图中，点MC（i，j）的值表示为提案ϕi，j的置信度得分，起始边界ts = tj，持续时间d = ti，结束边界te = tj + ti。因此，我们可以通过生成BM置信度图来生成密集分布提案的置信度分数。

Boundary-Matching Layer

我们如何从时间特征序列中生成二维BM置信图？在BM机制中，我们引入BM层从时间特征序列SF∈R(C×T)生成BM特征图MF∈R(C×N×D×T)，然后使用MF通过一系列卷积层生成BM置信图MC∈R(D×T)，其中D是预定义的最大建议持续时间。 BM层的目标是对每个提案ϕi，j的开始边界ts和结束边界te之间的SF中均匀采样N个点，并获得具有丰富上下文的提案特征mf i，j∈RC×N。通过同时针对所有提案执行此采样过程，我们可以生成BM特征图MF。
实现此特征采样过程存在两个困难：（1）如何在非整数点中对特征进行采样；（2）如何同时为所有建议的特征进行采样。如图3所示，我们通过时间特征序列SF∈R(C×T)与采样掩码权重W∈R(N×T×D×T)之间在时间维度上的点积实现此目标。详细地，首先，对于每个建议，我们通过在扩展的时间区域[ts − 0.25d，te + 0.25d]之间均匀采样N个点来构造权项wi，j∈R(N×T)。对于非整数采样点tn，我们将其对应的采样掩码wi，j，n∈R(T)定义为…。其中dec和floor是分别为小数和整数小数的函数。因此，对于建议ϕi，j，我们可以得到权重项wi，j∈R(N×T)。第二，我们在SF和wi，j之间的时间维度上进行点积
…
通过将BM置信图中所有提议的wi，j∈R(N×T)扩展为W∈R(N×T×D×T)，我们可以使用点积生成BM特征图MF∈R(C×N×D×T)。由于采样掩模权重W对于不同的视频是相同的并且可以被预先生成，因此BM层的推断速度非常快。 BM特征图包含每个提议的丰富特征和时间上下文，并提供了利用相邻提议的上下文的潜力

Boundary-Matching Label

在训练过程中，我们将BM标签图表示为GC∈R(D×T)，形状与BM置信图MC相同，其中gi，j c∈[0，1]表示建议ϕi，j与所有真实行动实例之间的最大IoU。通常，在BM机制中，我们使用BM层从时间特征序列SF高效地生成BM特征图MF，然后使用一系列卷积层生成BM置信图MC，在BM标签图GC的监督下对其进行训练。

3.4 Boundary-Matching Network

与BSN的多阶段框架[18]不同，BMN同时生成局部边界概率序列和全局提议置信度图，而整个模型在统一框架中训练。如图4所示，BMN模型包含三个模块：基本模块处理输入特征序列，输出以下两个模块共享的特征序列；时间评估模块评估视频中每个位置的开始和结束概率，以生成边界概率序列；提案评估模块包含BM层以将特征序列转换为BM特征图，并包含一系列3D和2D卷积层以生成BM置信图。

Base Module

基本模块的目标是处理输入特征序列，扩展接受域并充当网络的骨干，为TEM和PEM提供共享的特征序列。由于未修剪的视频具有不确定的时间长度，因此我们采用长度为lω的长观察窗来截断长度为lf的未修剪特征序列。我们将观察窗口表示为ω= {tω,s，tω,e，Ψω，Fω}，其中tω,s和tω,e分别是ω的开始和结束时间，Ψω和Fω分别是窗口的注解和特征序列。窗口长度lω=tω,e-tω,s取决于数据集。基本模块的详细信息如表1所示，包括两个时间卷积层

Temporal Evaluation Module (TEM)

TEM的目标是评估未修剪视频中所有时间位置的开始和结束概率。这些边界概率序列用于在后处理期间生成建议。 TEM的详细信息如表1所示，其中带有两个S型激活滤波器的conv1d4层分别输出观察窗ω的起始概率序列PS，ω= ps tn lnω= 1和终止概率序列PE，ω= pe tn lnω= 1 。

Proposal Evaluation Module (PEM)

PEM的目标是生成边界匹配（BM）置信度图，其中包含密集分布的提案的置信度分数。为此，PEM包含BM层以及一系列3d和2d卷积层。
如3.3节所述，BM层通过S与采样掩码权重W在时序维度的矩阵点积将时间特征序列S转换为BM特征图MF。在BM层中，采样点数N设置为32，最大建议持续时间D取决于数据集。生成BM特征图MF之后，首先在样本维上进行conv3d1层处理，以将维长度从N减少到1，并将隐藏单元从128增加到512。然后，在conv2d1层中使用1×1内核进行处理，以减少隐藏单元，和具有3×3内核的conv2d2层来捕获相邻提议的上下文。最后，我们生成了两种具有S型激活函数的BM置信图MCC，MCR∈RD×T，分别使用二进制分类和回归损失函数训练。

3.5.Training of BMN

在BMN中，TEM学习局部边界上下文和PEM模式全局提议上下文。为了共同学习局部模式和全局模式，利用统一的多任务框架进行优化。本节介绍BMN的训练细节。

Training Data Construction

给定未修剪的视频X，我们可以提取长度为lf的特征序列F。然后，我们使用长度为lω的观察窗口来截断具有50％重叠的特征序列，并保留至少包含一个真实动作实例的窗口进行训练。因此，训练集合Ω= {ωn} …用Nω个观察窗构成。

Label Assignment

对于TEM，我们需要生成时间边界标签序列GS，GE∈RT。根据BSN [18]，对于注释集Ψω中持续时间为dg = te-ts的地面真实实例 ϕg=（ts，te），我们将其开始和结束区域表示为rS = [ts-dg / 10，ts + dg / 10]和rE ＝ [te -dg / 10，te + dg / 10]。然后，对于Fω内的时间位置tn，我们将其局部区域表示为rtn = [tn-df / 2，tn + df / 2]，其中df = tn-tn-1是两个位置之间的时间间隔。然后我们分别计算rtn与rS和rE的重叠率IoR，并将最大IoR分别表示为gtsn和gten，其中IoR定义为与真实时间成比例的重叠率。因此，我们可以生成GS,ω= …和GE,ω=…作为TEM的标记。
对于PEM，我们需要生成BM标签图GC∈RD×T。对于建议ϕi，j =（ts = tj，te = tj + ti），我们计算在它和 Ψω中所有ϕg的交并比（IoU），并将最大IoU表示为g…。因此，我们可以生成GC = …作为PEM的标记。

Loss of TEM

利用生成的边界概率序列PS,ω，PE,ω和边界标记序列GS,ω，GE,ω，我们可以将TEM的损失函数构造为开始和结束损失之和
LTEM = Lbl（PS，GS）+ Lbl（PE，GE）。（3）
根据BSN [18]，我们对起始损失和结束损失均采用加权二进制逻辑回归损失函数Lbl，其中Lbl（P，G）表示为：…，（4）其中bi = sign（gi-θ）是一个二值函数，用于将gi从[0，1]转换为{ 0，1}基于重叠阈值θ= 0.5。 l + = …和l- =…，加权项为α+ =…和α-= …。

Loss of PEM

利用生成的BM置信图MCC，MCR和BM标签图GC，我们可以构建PEM的损失函数，即二元分类损失和回归损失的总和:
LPEM = LC（MCC，GC）+λ·LR（MCR ， GC）。（5）
其中，对于分类损失LC采用Lbl，对于回归损失LR采用L2损失，并设置权重项λ= 10。
为了平衡LR中正样本与负样本之间的比率，我们将gi，j c> 0.6的所有点都设为正，将gi，j c <0.2的样本随机作为负值，并确保正负点之间的比例接近1：1。

Training Objective

我们以多任务损失函数的形式训练BMN，包括TEM损失，PEM损失和L2正则化项：
L = LTEM +λ1·LP EM +λ2·L2（Θ），（6）
其中权重项λ1和λ2为分别设置为1和0.0001以确保对不同的模块进行均匀训练

3.6. Inference of BMN

在推理过程中，我们使用BMN生成边界概率序列GS，GE和BM置信图MCC，MCR。为了获得最终结果，我们需要（1）使用边界概率生成候选建议，（2）融合边界概率和置信度分数以生成最终置信度分数，（3）并基于最终置信度分数抑制多余的建议。

Candidate Proposals Generation

根据BSN [18]，我们通过结合时间位置和高边界概率来生成候选建议。首先，为了定位高起始概率位置，我们记录所有时间位置tn，其中起始ps tn（1）大于0.5·max（p）或（2）是一个概率峰值，其中max（ps）是这个视频的最大起始概率。这些候选起始位置分组为BS =…。我们可以用相同的方式生成结束位置集BE。
然后，如果持续时间小于预定义的最大持续时间D，则我们将BS中的每个开始位置ts与BE中的结束位置te匹配为提案。生成的提案denoted表示为ts =（ts，te，ps ts， pe te，pcc，pcr），其中ps ts，pe te分别是ts和te中的开始和结束概率，而pcc，pcr分别是来自BM置信度图 MCC和MCR的[te-ts，ts]点的分类置信度和回归置信度。因此，我们可以获得候选提案集Ψ=…，其中Np是候选提案的数量。

Score Fusion

为了生成更可靠的置信度分数，对于每个提案ϕ，我们通过相乘融合其边界概率和置信度分数，以生成最终置信度分数pf：
pf = ps ts·pe te·√pcc·pcr。（7）
因此，我们可以获得候选提案集Ψp= {ϕi =（ts，te，pf）} …，其中pf用于在冗余提案抑制期间检索提案。

Redundant Proposals Suppression

生成候选投标书后，我们需要删除多余的投标书，以较少的投标书实现更高的查全率，为此，非最大抑制（NMS）算法被广泛使用。在BMN中，我们主要采用Soft-NMS算法[1]，因为它已在提案生成任务中证明了其有效性[18]。 Soft-NMS算法通过降低冗余结果的置信度来抑制冗余结果。
Soft-NMS生成抑制的最终建议集Ψ’p =…，其中Np’是最终建议数。在实验过程中，我们也尝试使用普通的GreedyNMS进行公平比较。

4.1 Dataset and Setup

Dataset

我们在两个具有挑战性的数据集上进行了实验：THUMOS-14 [15]数据集包含413个具有时间注释的未修剪视频，共20个动作类别； ActivityNet-1.3 [5]是一个大规模的动作理解数据集，包含动作识别，时间检测，提案生成和密集字幕任务。
ActivityNet-1.3数据集包含具有19994个时间批注的未修剪视频，共 200个动作类别，分为2：1：1的训练集，验证集和测试集

Implementation Details

对于特征编码，按照先前的工作[18，12]，我们采用在ActivityNet-1.3训练集上预先训练的两流网络[33]，其中时空子网络分别采用ResNet和BN-Inception网络。帧间隔σ在THUMOS-14和ActivityNet-1.3上分别设置为5和16。
在THUMOS-14上，我们将观察窗的长度lω设置为128，最大持续时间D设置为64，这可以覆盖98％动作实例的长度。在ActivityNet上，根据[18，20]，我们使用线性插值将每个特征序列重新缩放为观察窗口的长度lω= 100，并将相应注释的持续时间范围调整为[0,1]。最大持续时间长度D设置为100，可以覆盖所有动作实例的长度。
为了从头开始训练BMN，我们将两个数据集的学习率均设置为0.001，批量大小设置为16，epoch数量设置为10

4.2 Temporal Action Proposal Generation

提案生成任务的目标是生成高质量的提案，以高召回率和高时间重叠性的覆盖动作实例。为了评估提案质量，计算了多个IoU阈值下的平均召回率（AR）。遵循约定，IoU阈值[0.5：0.05：0.95]和[0.5：0.05：1.0]分别用于ActivityNet-1.3和THUMOS-14。我们在不同的平均投标数（AN）下计算AR，记为AR @ AN，并在ActivityNet-1.3上计算AR与AN曲线下的面积（AUC）作为度量，其中AN在0到100之间变化。

Comparison with State-of-the-art Methods

表2展示了在ActivityNet-1.3的验证和测试集上的提案生成性能比较，其中我们的方法明显优于其他提案生成方法。尤其是，我们的方法将验证集的AUC从66.17％显着提高到67.10％，提高了0.93％，这表明我们的方法可以实现整体性能提升。
表3展示了在THUMOS-14测试台上提案生成性能的比较。由于不同的特征编码方法和冗余提议抑制方法会极大地影响性能，因此，遵循BSN [18]，我们采用C3D和两流特征（常规Greedy-NMS和Soft-NMS）进行公平比较。实验结果表明：（1）基于C3D或两流特征，当提案数量在10到1000之间变化时，我们的方法明显优于其他方法；（2）无论采用Greedy-NMS还是Soft-NMS，我们的方法明显优于其他方法；（3）Soft-NMS可以提高平均召回性能，特别是在提案数量较少的情况下，这对于时序动作提案生成任务很有帮助。这些结果共同表明了我们方法的有效性，并且它的有效性主要归功于其自身的体系结构。定性结果如图6所示。

Ablation Comparison with BSN

为了确认BM机制的效果，我们进行了更详细的消融研究，并比较了BSN [18]和BMN的有效性和效率。为此，我们在多种消融配置下评估BSN和BMN的提议质量和速度。实验结果如表4和图5所示：1.在相似的网络架构和训练目标下，BSN和BMN的TEM达到了相似的建议质量和推断速度，提供了可靠的比较基准； 2. 加入了单独训练的的PEM，使BSN和BMN均获得了显着的绩效提升，这表明PEM在“局部到全局”提案生成框架中发挥着重要作用； 3.与单独训练的BMN相比，联合训练的BMN具有更高的召回率和更快的速度，这表明整体优化的有效性和效率； 4.添加独立训练的PEM，BMN的速度比BSN快得多，这是因为BM机制可以直接同时为所有提案生成置信度分数，而不是分别在BSN中一一生成。因此，基于BM机制的PEM比原始PEM更有效。结合使用TEM和PEM可以进一步提高效率。
因此，这些消融比较实验表明我们提出的边界匹配机制和统一的BMN网络的有效性和效率，它们可以同时为所有提议快速生成可靠的置信度得分。

Generalizability of Proposals

作为提案生成方法，重要的特性是能够针对看不见的动作类别生成高质量的提案。为了评估此属性，遵循BSN [18]，分别选择ActivityNet-1.3的两个不重叠的动作子集：“运动，锻炼和娱乐”和“社交，放松和休闲”，作为可见和不可见的子集。两个子集分别有87个和38个动作类别，4455个和1903个训练视频，2198个和896个验证视频。并且我们采用在Sports-1M数据集[16]上预先训练的C3D网络[28]进行特征提取，以保证实验的有效性。我们分别用可见和不可见训练视频训练BMN，并分别对可见和不可见验证视频评估两种BMN模型。表5中的结果表明，在看不见的类别中，性能下降非常小，这表明BMN有很好的普适性，能为未见到的动作生成高质量的建议，并且可以学习到一个动作何时可能发生的一般概念。

4.3 Action Detection with Our Proposals

评估提议质量的另一个重要方面是将提议放入时间动作检测框架并评估其检测性能。采用平均平均精度（mAP）作为时间动作检测任务的评估指标，在此我们分别计算每个动作类别的平均精度（AP）。在ActivityNet-1.3上使用具有IoU阈值{0.5、0.75、0.95}的mAP和具有IoU阈值[0.5：0.05：0.95]的平均mAP，而在IoU阈值{0.3、0.4、0.5、0.6、0.7}上使用mAP THUMOS-14。
为此，我们采用两阶段“通过对提案进行分类检测”的时间动作检测框架，将BMN提案与最新的动作分类器结合在一起。遵循BSN [18]，在ActivityNet-1.3上，我们采用方法[37]生成的top-1视频级别分类结果，并使用BMN提议的置信度得分检索检测结果。在THUMOS-14上，我们既使用UntrimmedNet [31]生成的top-2视频级分类结果，又使用提案级SCNN分类器为每个提案生成分类结果。对于ActivityNet-1.3和THUMOS-14数据集，我们每个视频分别使用前100个和200个临时提议。
在表6中显示了ActivityNet-1.3上的实验结果，这些结果表明基于BMN提议的检测框架显着优于其他最新的时间动作检测方法。表7显示了在THUMOS-14上的实验结果，该结果表明：（1）无论使用视频级还是提议级动作分类器，我们的方法均比其他最新提议生成方法具有更好的检测性能。 2）使用BMN提议，视频级分类器[31]比提议级分类器[24]的性能要好得多，这表明BMN可以生成足够可靠的置信度分数来检索结果。

在本文中，我们引入了边界匹配机制来评估密集分布的提案的置信度得分，该机制将BM对作为提案，并将所有提案组合为BM置信图来实现的。同时，我们提出了一种边界匹配网络（BMN），用于有效且高效的时序动作提案生成，其中BMN通过结合高概率边界生成具有精确边界和灵活时长的提案，并同时基于BM机制为所有提案生成可靠的置信度得分。大量的实验表明，在提案生成和时间动作检测任务方面，BMN均优于其他最新的提案生成方法，并且效率和普适性都很高。

目录