更新时间:2020年09月14日15时23分 来源:传智播客 浏览次数:
1 前言:
多目标跟踪领域是当前目标跟踪领域的研究热点,在CVPR2020发表一篇题为《GNN3DMOT: Graph Neural Network for 3D Multi-Object Tracking with Multi-Feature Learning》论文,将卷积神经网络应用到最具有落地价值的正规皇家线上中,接下来我们对该论文进行解读。
2 创新点
该算法创新点:
1.使用GNN网络替代之前的特征交互机制,将目标的特征在多个目标之间进行交互,使不同的目标之间区分度更大,减小相似目标之间的差距,从而使目标更具有判别性
2.同时获取2D和3D的特征,并将其进行融合,实现不同维度特征的互补。
算法流程如下图所示:
之前的目标跟踪方法是将对前后帧图像分别提取特征(2D或3D),然后利用仿射变换和匈牙利算法对各个目标进行匹配,完成目标跟踪任务。在该论文中改进是在提取特征时,提取2D和3D两种特征,并在不同帧之间进行交互融合后,在进行目标匹配,完成目标跟踪。
3 网络架构
网络模型架构如图所示:
其中(a)表示3D表观和运动特征提取器,使用PointNet提取3D表观特征,(b)表示2D表观和运动特征提取器,使用ResNet34提取2D表观特征,并使用两层LSTM提取轨迹的运动特征,使用两层MLP提取观测框的运动特征。(c)图神经网络:融合四个分支的目标特征作为节点特征来构建图。在GNN的每一层中,使用节点特征聚合来迭代更新节点特征,并通过边回归模块计算相似度矩阵。
4 算法细节
4.1 特征提取
在这里提取图像的2D和3D特征,并进行融合。为了平衡运动和外观特征的贡献,强制最终运动和外观特征向量具有相同的维数。为了达到多特征学习的目的,避免一个分支影响其它分支,在网络训练过程中随机关闭分支。
为了避免2D检测和3D检测的对应问题,仅使用3D对象检测器获得3D检测,然后根据给定的相机投影矩阵从3D检测中投影2D检测。
4.2 图神经网络
1. 构建图:
融合2D和3D特征的四个分支为节点特征。由于是相邻帧匹配,将轨迹和检测视为两个邻域,只连接在彼此距离在小范围内的两个点,构建稀疏图,在改图网络中完整目标跟踪
2. 边回归
采用两层MLP,将两个节点特征的差作为输入,计算相似度矩阵:
3. 特征聚合
该文本作者对四种节点聚合规则进行了实验,采用了第四种。
其中σ都是线性层,聚合是节点本身特征加上与邻居的特征差,并以相似度作为权重。
4.3 损失函数
损失函数由两部分组成: Batch Triplet Loss和Affinity损失,如下式所示:
其中Batch Triplet Loss的损失计算如下所示:
该损失是衡量图卷积网络的节点特征的。
Affinity损失是衡量相似度矩阵的,由两部分组成,一部分是衡量预测结果的二分类交叉熵损失:
和另一部分交叉熵损失:
我们将这些损失求和后就得到网络整体的损失结果。
4.4 跟踪策略
在视频的第一帧将跟踪对象集合初始化一个空集合,并添加一个控制目标出现和消失的跟踪管理模块,从而减小目标的虚警和误报。还要对每个目标进行计数,如果找到新的目标可以匹配到跟踪目标链中,则更新目标链,若不可匹配则将其添加到目标链中。如果跟踪链中的某个目标没有匹配到,则将其中跟踪链中删除。
5 实验结果
利用该模型在KITTI数据集上的跟踪结果如下所示:
从下图中可以看出Drop的比例,正规皇家线上的层数和特征融合的数量都会对网络准确度产生影响。
与其他的目标跟踪方法相比,该论文方法效果有所提升。
6 总结
该论文最大的创新点是利用图神经网络实现特征交互,使得目标之间的区分度更高,该文作者的实验很丰富,在KITTI和nuScenes数据集效果很好。
猜你喜欢: