数据世系(Data Provenance)包含了不同数据源间的数据演化过程和相同数据源内部数据的演化过程。数据世系一般有两类基本方法,非注解的方法和基于注解的方法。前者采用模式映射方式使用数据处理函数和其相对应的反向函数,但在更复杂的例子中可能并不存在集合之间的可逆函数﹐必须使用注解描述世系。事实上基于注解的方法的应用范围要远远高于非注解的方法。数据世系可针对多种数据类型,包括关系型数据、XML数据和不确定数据等。自20 世纪90年代以来﹐数据世系的研究取得很大的进展﹐并且应用到了多个领域之中。面对网络大数据﹐数据世系管理的研究工作需关注以下几个方面:(1)传统的数据管理下的数据世系的管理还有很多的工作亟待考虑﹐其中考察数据的起源和演化过程将是一个大的挑战:(2)在网络环境下不确定性数据广泛存在,并且具有多种多样的表现形式。数据的演化过程同时也伴随着数据不确定性的演化,可以利用数据的世系追踪数据不确定性的来源和演化过程:(3)如何解决异构世系标准的融合问题。大数据应用将涵盖更多的原本可能相互隔离的数据集合﹐如何将适用不同标准的数据世系信息整合在一起是一个关键间题。
目前的主流查询索引技术是以Google 公司的BigTable为代表的列簇式NoSQL数据库。BigTable提出了一种介于关系模型和Key-Value对模型之间的新数据模型:Ordered Table。 Ordered Table模型提供了稀疏的、分布式的、持久存储的、基于主键排序的映射﹐数据由行、列和时间戳表示。BigTable中表的Scheme非常灵活﹐可以在运行时修改。Ordered Table模型可以对基于主键的区间查询提供有力的支持,对于涉及多个字段数据的多维区间查询主要采用二级索引技术,但这引起了性能问题。。为避免大量随机读﹐另一种思路是使用聚簇索引,即同时按索引顺序存储全部数据。为保证多个查询列均有很好的性能﹐需要按多个索引列聚簇,但这将导致存储开销成倍增长。此外还面临着因统计信息的缺失带来的新的挑战。关系数据库领域处理多个维度的查询优化时,关键是根据表的统计信息估算子查询的代价,比如通过记录数量、数据分布的直方图等估算结果集大小﹑需要读取的数据块数量等。互补式聚簇索引(CCIndex ),利用多副本为每个索引列各创建一张互为补充的聚簇索引表﹐使得索引列上的区间查询对应聚簇索引表的连续扫描。解决了NoSQL数据库的二级索引技术因无法保持连续扫描特性而处理效率低下的问题。同时,结合查询结果集估算方法﹐以挑选最优查询计划。通过禁用底层存储系统的副本机制来避免引入额外的存储开销﹐并提供增量式的快速数据恢复机制。目前,CCIndex技术已应用在淘宝的数据魔方中。
Google 公司提出的GFS、MapReduce, BigTable等技术是分布式数据处理技术的具体实现﹐是Google搜索引擎系统三大核心技术。此后﹐Apache软件基金会推出了开放源码 Hadoop和 HBase 系统﹐实现了MapReduce编程模型、分布式文件系统和分布式列簇数据库。Hadoop系统在 Yahoo ! 、IBM、百度、Facebook等公司得到了大量应用和快速的发展。但作为一个新兴的技术体系﹐分布式数据处理技术在支持大规模网络信息处理及应用等大数据计算应用方面还存在着很多不足。行存储(Row-Store)和列存储(Column-Store)是两种典型的数据库物理存储策略。行存储方式较为传统﹐它在磁盘中依次保存每条记录,比较适合事务操作;列存储方式垂直划分关系表,以列为单位存储数据﹐列存储还具有数据压缩(Compression)、延期物化(Late Materialization)、块循环( Blocklteration)等特性。由于数据分析任务往往仅使用较少字段,因此列存储方式的效率更高。数据分析任务在大数据应用中更为常见,因此许多系统尽管无法完全实现列存储的所有特性,但也或多或少地借鉴了相关概念,包括Big Table、HBase等。提出了行列混合式数据存储结构(RCFile)以解决海量数据快速加载﹑缩短查询响应时间﹑磁盘空间高效利用等问题(如图所示)。RCFile融合了行存储和列存储的优点,通过行组划分降低数据加载开销,通过列数据压缩提高存储空间利用率.国际上应用最广泛的两大分布式数据分析系统Hive和Pig均集成了RCFile技术。RCFile已经成为分布式离线数据分析系统中数据存储结构的事实标准。RCFile数据存储结构示例分布式数据存储是网络大数据应用的一个重环节。但目前的研究工作仍存在一些局限性。针对量数据存储和处理所面临的数据总量超大规模、少理速度要求高和数据类型异质多样等难题,需要)发支持高可扩展、深度处理的PB级以上分布式多据存储框架﹐同时需要研究适应数据布局分布的i储结构优化方法,以提高网络大数据存储和处理率﹐降低系统建设成本﹐从而实现高效﹑高可用的F络大数据分布式存储。
对网络数据的建模和表达理论方面的研究,主要集中在网络中的文本信息方面。对文本信息进行表示和建模其目的是让计算机能够正确理解人类的语言﹐能够分析和表达出其中的语义信息。文本信息的表达经历了从浅层词语表达方式到深层语义表达方式这样一个历程,其中代表性的工作包括了向量空间表示(VSM)、隐语义索引(LSI)和概率话题模型(如图所示)等。随着研究不断深入﹐话题模型被广泛地应用在各个领域,进一步有人提出了改进的话题模型,以增强已有话题模型的学习能力,解决其跨领域的问题等等﹐从而使其能更好地应用于文本数据的表达。概率话题模型尽管对数据表达的研究历经了很长的时间,但是对于网络大数据的建模和表达还面临着很多新的挑战。例如﹐对于海量文本数据的建模﹐我们需要模型能够对更大规模的参数空间进行有效地学习,需要能够有效地建模并解决数据的稀疏性所带来的问题﹐需要能够对动态演化的网络大数据进行合理的表达。此外,对于图片和多媒体数据﹐我们也需要进一步探索其建模与表达方式,以便能够更加有效地表达其内在的语义信息。
由于现实世界数据的多源性。异质性以及采集数据时的一些人工错误,导致网络数据是含有噪音、冗余和缺失的。如何有效地衡量数据的质量是一个重要的研究方向。衡量数据质量的4个指标:一致性、正确性,完整性和最小性。数据工程中数据质量的需求分析和模型,认为存在很多候选的数据质量衡量指标,用户应根据应用的需求选择其中一部分。数据的清洗建立在数据质量标准之上,为了得到高质量的数据,清洗与提炼过程必须满足几个条件:检测并除去数据中所有明显的错误和不一致;尽可能地减小人工干预和用户的编程工作量,而且要容易扩展到其它数据源﹔应该和数据转化相结合﹔要有相应的插述语言来指定数据转化和数据清洗操作,所有这些操作应该在一个统一的框架下完成。对于数据清洗﹐工业界已经开发了很多数据抽取﹑转化和装载工具(ETL tool)。一些研究人员研究相似重复记录的识别和剔除,还有一些研究包括数据的变换和集成。
对网络空间中多源数据进行质量评估,一方面需要建立数据模型或提出适当的采样方法;另一方面,需要提出对采样数据的评价与检验方法。网络数据采样是将数据从Web数据库提取出来的过程。传统的数据库采样是随机从数据库中选取数据记录以获得数据库的统计信息的过程,典型方法可参考文献。但是要获取Web数据库中的数据只能通过向查询接口提交查询﹐不能自由地从Web数据库获取记录﹐故而传统方法不能实现对Web数据库的采样。针对Web数据库采样。HIDDEN-DB-SAM-PLER是第一项工作,它给出了对范围属性和分类属性的处理方法﹐而对查询接口中设计的必填的可任意取值的关键词属性未作处理。提出基于图模型的增量式Web数据库采样方法WDB-Sampler,通过查询接口从Web数据库中以增量的方式获取近似随机的样本。但是该方法是针对样本中每条数据作为顶点来建立图模型,每一轮查询后都要将查询结果扩充到图模型中用于产生下一轮查询词,这样做的代价比较高。
按照网络空间中数据的蕴藏深度,整个网络空间可以划分为Sur face Web和 Deep web,或称作Hidden WebR77。Surface web是指web中通过超链接可被传统搜索引擎爬取到的静态页面﹐而Deep Web 则由Web中可在线访问的数据库组成。Deep Web的数据隐藏在Web数据库提供的查询接口后面,只有通过向查询接口提交查询才能获得。与Surface Web相比,Deep Web所包含的信息更丰富。同时,Deep Web具有规模大、实时动态变化、异构性、分布性以及访问方式特殊等特点。为了充分利用 Deep web中的数据资源,需要充分获取Deepweb中高质量的数据并予以集成,整个集成过程可以分为数据获取,数据抽取和数据整合3个环节。
涌现性是网络数据有别于其它数据的关键特性。涌现性在度量、研判与预测上的困难使得网络数据难以被驾驭。网络数据的涌现性主要表现为模式的涌现性、行为的涌现性和智慧的涌现性。(1)模式的涌现性。在多尺度、异质关系的网络数据中,由于不同的数据在属性、功能等方面既存在差异又相互关联,因此使网络大数据在结构、功能等方面涌现出了局部结构所不具备的特定模式特征。在结构方面,数据之间不同的关联程度使得数据构成的网络涌现出模块结构。在功能方面,网络在演化过程中会自发地形成相互分离的连通小块。这一涌现性结果对于研究更多的社会网络模型和理解网络瓦解失效的发生有着重要意义(2)行为的涌现性。随着数据采集技术的不断发展,人们得到的很多数据都具有时序性,而社会网络中个体行为的涌现性则是基于数据时序分布的统计结果。在社会网络中有较大相似性的个体之间容易建立社会关系。通过研究Schelling给出的个体社会关系网络模型发现,网络在演化过程中会自发地形成相互分离的连通块,这一个体行为涌现的结果不依赖于初始网络的拓扑结构,对于研究更多的社会网络 模 型 和 理 解 行 为 涌 现 的 规 律 具 有 重 要 意义。著名网络科学家Barabasi研究发现,人们发邮件的数量在一天的某些时刻会出现“爆发”现象并发现每个人连发两封邮件之间的时间间隔涌现出幂率分布特征。此外,自然界和社会中个体之间不同的竞争模式会导致不同的同步状态的涌现性。(3)智慧的涌现性。网络数据在没有全局控制和预先定义的情况下,通过对来自大量自发个体的语义进行互相融合和连接而形成语义,整个过程随着数据的变化而持续演进,从而形成网络数据的涌现语义,也可以称之为智慧涌现。作为一种特殊的智慧涌现形式,众包正在通过互联网和社会网络快速发展,成为一种新的商业模式、新的数据产生模式和新的数据处理协作模式。 总体而言,尽管与网络大数据研究密切相关的数据库、数据挖掘、机器学习和知识工程等领域近些年来都有很大的进展,甚至在许多不同的领域得到了深入的应用,但由于网络大数据规模海量、关系复杂等根本特性,使得相关领域的研究成果难以被直接借鉴于网络大数据的研究。因此,网络大数据的研究需要一套全新的理论和方法来进 行 方向性的指导。但到目前为止,甚至连大数据的精确定义还缺乏一个统一的标准。网络大数据科学与技术这门学科的内涵和外延还缺乏严格的限定和详实的论证;在大数据的环境下,传统“假设、模型、检验”的科学方法受到质疑,从“数据”到“数据”的第四范式还没有建立,需要一个完备的新的理论体系来指导该学科的发展和研究。
QQ客服
扫描二维码添加QQ
微信客服
扫描二维码添加微信
公司电话
17316289114