|
基于结构化P2P的分布式数据流系统的查询处理模型
|
|
【计算机网络专业论文】摘要:分析了基于结构化覆盖网的分布式查询处理模型,支持大量数据流的分布式存储,连续查询间、查询内的并行处理操作,能够在很大程度上消除资源约束问题(主要是内存),提高了查询性能、服务质量,并且该查询模型具有很好的扩展性。 关键词:分布式数据流管理系统; 结构化覆盖网; 分布式散列表; 滑动窗口 近年来,数据流查询处理是数据库研究领域的一个热点方向。数据流的特征可概括为无限性、瞬时性、流速不定性、语义不定性(数据模式随时可能改变)等。针对数据流的以上特征,不考虑将数据流存储在传统的关系数据库中,数据流上的查询是近似查询、连续查询(continuous query)。 目前,数据流管理系统中所采用的近似查询的方法主要有以下几种:随机抽样(random sampling)、数据写生(sketching)、直方图(histograms)、小波变换(wavelets)、窗口(windows)等。如何保证查询的服务质量成为上述各种近似查询方法必须考虑的问题。数据流上的查询处理给人们提出了一个很大的难题——对处理器、内存等系统资源非常苛刻的需求。到目前已经出现了许多数据流的原型系统:单节点(单CPU)上的数据流管理系统,如Stanford 大学的Stream[1] 系统、布朗大学的Aurora[2,3] 系统等;有分布式数据流处理系统,如MIT的Medusa[4,5] 项目,Brandeis、Brown、MIT 的合作项目Borealis[6,7]等。这些项目在数据流处理的查询语言、近似查询算法、保证服务质量的策略,以及系统的负载均衡等方面做了大量的工作,但同时也揭示出在分布式数据流处理系统中更多值得研究的问题。本文将对基于structured overlay network的分布式数据流系统的近似、自适应查询处理进行研究,给出查询处理模型。 1集中式数据流查询处理及分布式散列表、Chord路由协议的相关说明 1.1数据流查询处理相关的概念定义以及假设说明 集中式数据流查询处理的体系结构由两部分构成,即查询计划生
|
|
|