● 摘要
科学计算作为数学与计算机实现其在高科技领域应用的必不可少的纽带和工具在近年来得到了飞速的发展,而数据作为基础在科学计算中起到了至关重要的作用然而在科学数据的采集、传输、存储等过程中所产生的数据质量问题可能会影响最终的科学结果,甚至产生错误的结论。而传感器设备作为科学数据的来源对数据质量的保证具有不可逆转的作用,当前廉价的硬件、软件的错误、环境的影响和资源的枯竭却往往使得传感器节点变得脆弱不堪,使得感知数据异常或缺失,为传感器数据的质量保证带来了极大的困难。因此,在对科学数据的特点进行分析的基础上,给出相应科学数据的质量模型和相关的评估方法,及科学数据的质量保障方法成为了极具挑战的工作。
针对上述问题,本文重点研究了科学计算环境下传感器设备,作为数据源所涉及的数据质量问题,并针对科学计算环境的特点给出数据质量模型中相关维度的概念和评价方式,并重点研究了围绕这些维度的质量保障问题。主要研究成果如下:
(1)提出一个面向科学计算环境下数据源的数据质量模型及数据质量模型评估机制
现有的数据质量模型领域针对性强,并不完全适合于科学计算环境下的数据源,需要为质量维度赋予新的含义。针对这个问题,本文分析了科学数据和数据源的特点,提出了面向科学计算的数据质量模型,该模型为数据质量维度重新赋予了新的含义,并分析了影响数据质量的内在外在因素,同时针对所提出的数据质量模型建立了各因素与质量维度之间的关系。最后基于本文所提出的的传感器观测数据质量模型,结合主观和客观的质量评估方法设计了一种数据质量模型评估体系用于对传感数据进行质量评估,为科学应用提供质量较高的观测数据。
(2)提出一种传感器网络中的异常数据的检测技术,对数据源数据质量进行初步评判
传感器观测数据流中存在着一定量的噪声数据和事件异常数据,前者影响观测数据质量,后则则为重要的观测数据,如何在资源受限的传感器网络中区分检测出两类异常数据具有重要的意义。针对这一问题,本文对传统时空关联检测算法进行扩充,在时间检测中通过窗口间距离确定当前时间窗口的偏离程度,以避免窗口内全部数据均为非正常数据,通过窗口内的距离确定窗口内的非正常数据的位置;在空间检测中引入一种弹性时间相似度概念以规避因抖动、延迟等原因而造成的数据不匹配的现象,减少数据误判。实验表明该方法能够以较少的能量、准确的发现非正常数据及其分类,有效的完成了对传感器数据源的数据清洗。
(3)提出一种面向数据质量的高效节能的传感器部署调度机制
作为数据源,传感器设备的部署调度对观测数据的完整性具有重大的影响,因此,合理的部署调度机制是保障观测数据的数据质量的有效机制,然而当前的部署调度机制往往没有考虑到科学计算环境的特点,没有结合环境本身模型和地形等特点。因此,本文针对科学应用环境监测中非异常事件发生时,观测数据波动范围小而异常区域分布不均匀的特点,提出能量有效的动态双层次无线传感器网络部署方法,对正常感知和发生异常事件时两种情况下进行动态调度部署,从而满足科学应用数据质量需求的基础上降低能量的消耗。实验表明,该算法不仅能够满足科学应用的监测需求,并且能够在数据准确性和数据完整性上保证观测数据的数据质量,同时延长了传感器观测网络的寿命。
(4)提出一种基于数据一致性的数据预测机制
由于各类内在、外在的因素,造成传感器观测数据的异常或缺失,为传感器数据的质量保证带来了困难,因此如何处理这些缺失数据,成为研究提升数据质量的热点问题。针对这一问题,基于科学计算应用的需求特点,本文提出了一种基于K-means算法的预测机制。该机制通过引入传感器节点的时空一致性,有效的对传感器关联关系进行分簇,并在分簇过程中对传感器数据的属性进行权值分配,改进K-均值算法的聚类性能,保证节点簇的分离性,同时通过对所引入一致性时间和一致性距离的判定有效缩减了再分簇的次数和保证传感器时空关联关系的时效性;同时通过基站与节点之间的互反馈,保证了节点和基站之间的预测数据的同步性,使得该算法同时适用于离线和在线两种预测机制。实验证明该算法有效提高了数据的预测准确度,并缩短了预测时间,延长了网络寿命。
相关内容
相关标签