水下目标检测与基于图的跟踪方法
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2 目标检测技术的研究现状

当下许多成熟的视觉技术并不适用于水下环境,这是由于水下环境比陆地环境更加复杂、多变,拍摄环境恶劣,光线的散射及水体对光线的吸收,导致视频模糊不清,甚至难以分辨,使目标检测任务变得更加困难。如何对水下动目标视频进行目标检测,是目前图像识别研究领域的热点问题之一[10,11]

在图像目标匹配方面,李鹏等人[12]针对声呐图像中目标匹配较难的问题,提出采用SURF算法结合恒虚警算法,来提取目标区域的特征点对,通过环状域检测来进一步寻找最优匹配点对,最后计算最优特征点对之间的几何关系,来确定尺度变换、旋转变换的大小,对待匹配图像进行旋转校正后,可以更精确地匹配目标区域。傅卫平等人[13]利用SIFT算法检测目标特征点对,结合仿射变换求出目标的形心位置,但是形心位置的计算需要准确提取目标边缘轮廓,该方法易受声呐图像复杂背景噪声的影响。廉蔺等人[14]提出利用加窗灰度差直方图来计算外围区域灰度差,以弥补哈尔(Haar)描述符特征点周围信息的缺失,但是该方法会使特征矢量维度降低,响应的辨识力也降低。Dekel等人[15]提出利用最好兄弟相似性(Best-Buddies Similarity,BBS)准则进行图像的模板匹配,但是在目标存在剧烈形变或背景占有较大比例时,匹配的准确度大大降低。

在目标检测方面,张明华等人[16]利用计算机视觉技术对水下鱼类目标进行快速目标检测,提出了一种基于背景去除的水下视频目标检测方法,将帧的RGB格式转换为HSI格式,并进行中值滤波器去噪预处理,利用GMG背景去除过程,提取基于局部二值模式(LBP)纹理和灰度系数的重要特征,最后将所提取的特征,利用PLS分类器,实现了分别对白天和夜晚环境中水下鱼类目标的检测,解决了应用背景去除技术所产生的视觉源质量差或低质量而产生的帧内噪声,以及前景物体作为移动物体投影的阴影区域问题。该方法在高清光学图像上取得了较好的目标检测效果,但是否适用于声呐图像尚不得而知。李荣等人[17]对比了几种经典边缘检测方法在无噪声和有噪声声呐图像中的处理效果及各自的特点,将其应用于猎雷声呐图像处理,认为分数阶傅里叶变换可以有效用于对猎雷声呐图像中目标特征的提取。马硕等人[18]将图像间隙度纹理特征分析方法运用于海底目标检测研究,利用海底背景、阴影区和海底目标在声呐图像中间隙度纹理特征值分布的特点,通过定量估算图像不同区域的间隙度,标识出目标所在的图像区域,以实现目标检测。陈强等人[19]采用灰度共生矩阵描述合成孔径声呐图像纹理方面的特征,通过计算灰度共生矩阵在方位向和距离向的能量、相关性、对比度和熵值,并构造特征向量,对合成孔径声呐图像中的目标进行准确检测。从实验结果可以看出,基于纹理信息可以准确实现合成孔径声呐图像目标检测,但是该算法实验SAS图像中的目标均为人工布放,并从中选取具有代表性的目标图像进行研究,因此还需要对海底实测声呐图像数据做进一步研究。

机器学习方法通过提取鱼类特征,再将特征输入支持向量机(Support Vector Machine,SVM)[12]等分类器进行检测分类。Sherin等人[20]采用语言信号在不同频率范围的分布特征,对每帧特征向量利用K-means算法进行聚类,构造声呐图像纹理特征,作为支持向量机(SVM)的训练集来训练二分类模型,泛化误差为9%。Rova等人[21]提出了一种基于模板匹配的可变形提取技术用于鱼类检测。Dalal和Triggs[22]提出了方向梯度直方图(Histogram of Oriented Gradients,HOG)特征,具有较好的分类特性。上述方法提取到的鱼类特征通常只适用于光照充足、清晰度高、背景环境对比度高的情景,在水下较难产生作用。

在深度神经网络之前,早期的传统声呐图像目标检测方法耗时且精度不高,随着深度学习基于区域的卷积神经网络[23](R-CNN)方法提出后,目标检测的性能有了一个质的飞跃。在目标检测领域,主要有两类方法:一类是以R-CNN为代表的二阶段(Two-stage)检测算法,它使用区域候选网络(RPN)产生候选区域,然后通过神经网络对候选区域进行分类和定位,这种方法的准确度较高,但检测速度稍慢;另一类是以YOLO(You Only Look Once)[24]为代表的单阶段(Onestage)检测算法,该算法直接回归得出目标区域,再通过神经网络进行分类。One-stage检测算法不需要RPN阶段,所以检测速度较快,但检测精度较低。

2016年,Joseph Redmon等人提出了基于回归的目标检测算法YOLO[25],同时回归目标的类别和边框于同年对网络进行了改进,提出了YOLO v2[26],在VOC2007数据集上检测速度达到了67fps,同时平均准确率达到了76.8%,使得目标检测任务在真正意义上达到了实时的速度。但用来预测边框和类别的最后一层特征图(Feature Map)的空间信息有限,YOLO v2在小目标检测任务上表现较差。刘青山等人[27]提出了一种基于类加权YOLO网络的水下目标检测方法,在深度网络YOLO的基础上,构造类加权损失函数,平衡样本难易程度,以获得更好的效果,并引入目标框自适应维度聚类方法,进一步提升检测性能。该算法可以检测出大部分目标物体,但由于经过目标框自适应维度聚类,因此对于个别目标框形状特殊的目标物体,并不能很好地召回。

无论是传统的模式识别和图像检测算法,还是基于YOLO等深度学习的目标检测算法,对于背景模糊复杂、紧凑密集且高度重叠目标的检测性能通常都较差。基于深度学习的水下目标检测算法,虽然在精度和速度上具有一定的优越性,但面对复杂的水下图像也有很多不可忽略的局限性。由于水下目标形状尺度的多样性,因此基于锚点框的深度学习算法很难获得较高的召回率。此外,水下目标形态差异较大,不同类型样本的特征学习难度差异较大,也会影响目标检测效果,增加模型的不稳定性。