当前位置:问答库>论文摘要

题目:化学结构式图像识别研究

关键词:光学图像识别;图像矢量化;化学结构式

  摘要


在科学文献和网络中存在大量化学结构式,这些化学结构式以图片格式存储,丢失了所有可被计算机识别的化学含义,需要研究从图片中恢复化学结构式含义的方法。当前从图片中识别化学结构式的方法存在的问题有粘连化学符号的识别效果不佳、特殊化学键的识别未作特殊处理或识别效果有待提升、总体识别效果还有提升空间。

化学结构式图片中可能存在与化学键相连的化学符号,通过对图像矢量化,将图像由直线段拟合,根据直线段长度阈值区分化学键与带曲线的化学符号。对剩余的非曲线化学符号,将矢量化结果中存在交点的直线段进行不同组合,对每种组合都进行识别,将能识别出有意义符号的组合作为化学符号。化学结构式中除了单键、双键和三键外,还存在实楔形键和虚楔形键。计算所有相距一定阈值的小尺寸连通域的中心点的线性相关性,如果相关性大于一定阈值则判断这组连通域为虚楔形键。对每个化学键截断头尾,然后计算截断后的化学键上等距点上的化学键宽度,计算这些宽度的方差,然后将这些宽度转变成二维点坐标,计算这些点的线性相关性。如果方差在一定范围且线性相关性大于一定阈值,则判断该化学键是实楔形键。

基于上述两个问题的解决方法,本文提出了一个新的化学结构式图像识别流程。首先对图像进行预处理,然后将分离的化学符号和虚楔形键识别后去除。对剩余图像矢量化,从矢量化结果中识别粘连化学符号和其余化学键。最后对错误识别结果进行修复,重组化学符号和化学键后展示在化学结构式编辑器中。

本文首先对课题的背景和意义进行了介绍,分析了国内外研究现状。然后对本课题研究过程中涉及到的相关理论与技术研究进行了介绍。再对本文提出的化学结构式识别流程进行了详细阐述,与OSRA的识别效果进行了对比分析,实验证明本文的识别率高于OSRA。