● 摘要
视频中的文本是视频的重要内容之一。文本对象含有丰富的语义信息,能够描述视频的内容,如新闻中的标题、电视剧的字幕、体育节目中的比分等等。通过对视频文本的检测、提取和识别能够获得描述视频内容的关键字,从而达到视频检索的目的。因此对视频文本检测的研究具有广泛的应用价值和重要的学术意义。本文在总结前人对视频文本检测研究的基础上,实现了一种基于分类的视频文本检测和定位算法。论文的主要工作如下。文本特征提取和分类器设计是视频文本检测的关键。本文采用了一种梯度方向直方图和局部二值模式相融合的复合特征。该特征提取了文本区域的梯度密度信息以及文字的笔画结构特征,有效地表征了文字特性,同时对噪声、字体变化等具有良好的鲁棒性。在分类器设计方面,本文采用了多项式神经网络作为分类器,并通过对输入层节点的非线性扩展,提高了分类器的泛化能力。为了进一步提高了分类精度,本文采用了Bootstrap策略对分类器进行训练。实验结果表明,本文采用的基于复合特征和多项式神经网络分类器的方法能够自动、精确的完成视频中文本目标的检测和定位,而且运算速度快,能够满足实时处理的要求。最后,本文在文本检测的基础上加入了字符识别模块,建立了一个集检测和识别于一体的完整软件系统,为后续的研究提供了良好的平台。