● 摘要
科学领域的应用程序如高能物理、大气分析、数据挖掘等,这些应用动态地产生海量数据。这些数据必须被分布在世界各个地区的工作者们所共享和分析。数据网格技术就成为解决复杂海量科学数据的访问和管理的一种有效技术。由此可知在数据密集型应用中,将海量的数据分发到分布式的节点上达到资源共享的目的是数据网格中非常重要的前提。 资源共享问题要求我们提供更为安全高效的传输协议来交换数据,同时提供更方便和有效的资源分发服务,控制资源在共享者之间的流动。在网格中数据分发技术通常要解决把N个数据源的数据发送到M个消费者这样的问题,即所谓的N-to-M数据分发问题。目前针对N-to-M数据分发问题的解决办法中还存在如下问题:没有提供更直观更方便的描述方式定义具体的数据分发任务;针对以数据为中心的应用,没有以数据为中心对数据分发任务进行检查、优化等;在数据密集型应用中,当数据请求数过多时没有提供合理的办法减轻该数据节点的负载。 针对这三个问题本文提出基于有向图的网格数据分发方法,实现了一个面向数据网格的第三方传输控制系统TransportControler。该方法将N-to-M的数据分发问题描述为有向图,并以XML语言描述有向图,称为作业。作业提交给第三方控制服务,由该服务检查作业并解释执行,实现多个节点之间的资源共享和交换。同时该方法中提出了传输依赖检查,冗余消除,传输优化和传输重定向四个关键算法应用于TransportControler中。 本文设计的基于有向图的网格数据分发机制主要用于数据密集型的网格环境下N-to-M的数据分发。它具有如下特点:1) 以图的形式描述一个数据分发作业;2)能够保证作业的合法性,并进行静态优化;3)多传输作业并发控制;4)传输失败后可以采用重传、重定向机制,减少人工干预;5)可以绑定到不同的底层传输协议,实现第三方控制。
相关内容
相关标签