● 摘要
随着信息技术的迅猛发展,如何从一大批看起来杂乱无章的数据中把有用信息集中、萃取和提炼出来,以找出所研究对象的内在规律,并根据其预测未来发展趋势成为当今理论应用研究的热点。然而,在环境监测、人口普查、考古及生物医学研究等大型资料分析中,经常会出现数据直接丢失或成功采集的数据不能利用的情况,给数据分析与应用带来很多困难。因此衡量一种数据分析方法的优劣性时,其在数据缺失情况下依然能够保持分析结果的稳定性就显得极其重要。
本文以心率变异性信号为主要研究对象,它在采集过程中受设备操作复杂、采集数据的导线和电极繁多,监测过程较长,电极接触不良和脱落以及被监测者体位变动等诸多因素的干扰,都可能导致数据缺失现象的发生。数据一旦缺失,一般又无法进行二次采集。因此要评判一种数据分析算法的合理性与实用性,首先应该考虑这种算法是否对数据缺失比较敏感,并确定其是否可以在数据缺失情况下依然保持分析结果的稳定性和有效性。如果过分敏感,必然给探测和捕捉实际信号中的有用信息造成很大阻碍,影响分析结果的准确性。
基于这一思路,我们进行了一系列的探索研究,主要研究工作及创新点如下:
(1)为了模拟普遍的数据缺失情况,我们设计了一种通过构造对比数列从而随机去除数据的算法。与直接人为地删除一些数据的方法相比,这种方法更具随机性与普适性,并且通过设定的三个参数:去除数据比例p、去除数据片段的长度均值u;去除数据片段的长度L服从的分布函数P(L),能更准确地分析与描述数据缺失对序列复杂性的影响程度。
(2)以理论上的混沌系统—Logistic映射作为验证对象,基于两种不同分布对其做不同比例p、不同均值u的数据去除,然后用基本尺度熵算法对完整的Logistic映射序列以及存在数据缺失的Logistic映射序列进行对比分析。结果显示:在一定比例数据丢失后,基本尺度熵算法依然能够捕捉到并且量化序列动力学复杂性的改变。另外,去除数据的比例p以及去除数据片段的均值u这两个关键性参数都会引起基本尺度熵的改变,而缺失数据片段的长度值L服从一个怎样的分布,几乎不影响其分析结果。
(3)以实际的HRV信号作为验证对象,基于两种不同分布对其做不同比例p、不同均值u的数据去除,并分别运用两种熵测度—基本尺度熵和近似熵对完整的以及存在数据缺失的HRV信号进行对比分析。结果显示:近似熵对数据缺失具有较强的敏感性,这种较强的敏感性往往会误导对病人生理病理状态的判断,不适用于分析存在数据缺失的HRV信号。相比之下,基本尺度熵算法在这方面有其独特的优越性,计算结果具有较好的稳定性,并且在一定程度的数据缺失情况下,依然能够有效地区分不同的生理病理信号。
相关内容
相关标签