用户登录

还没有账号?立即注册

注册免费试用

忘记密码

修改密码

网络大数据的复杂性

发布时间:2021-04-15

复杂性造成网络大数据存储,分析,挖掘等多个环节的困难。网络大数据的复杂性主要包括数据类型的复杂性﹑数据结构的复杂性和数据内在模式的复杂性。

(1)数据类型复杂性。信息技术的发展使得数据产生的途径不断增加﹐数据类型持续增多。相应地,则需要开发新的数据采集﹑存储与处理技术。例如社交网络的兴起﹐使得微博、SNS个人状态信息等短文本数据逐渐成为互联网上的主要信息传播媒介。与传统的长文本不同,短文本由于长度短﹐上下文信息和统计信息很少,给传统的文本挖掘(如检索、主题发现、语义和情感分析等)带来很大的困难。相关的研究包括利用外部数据源(如Wikipedia、搜索结果等)扩充文档,或者利用内部相似文档信息来扩充短文本的表达。然而,无论是利用外部数据,还是利用内部数据,都可能引入更多的噪声。另一方面,不同数据类型的有机融合给传统的数据处理方法带来了新的挑战。例如在社交媒体的研究当中地域信息与内容的融合、时空信息与内容信息的结合等等。

(2)数据结构的复杂性。传统上处理的数据对象都是有结构的,能够存储到关系数据库中。但随着数据生成方式的多样化,如社交网络,移动计算和传感器等技术,非结构化数据成为大数据的主流形式。非结构化数据具有许多格式,包括文本,文档、图形、视频等等。非结构化数据当中蕴含着丰富的知识,但其异构和可变的性质也给数据分析与挖掘工作带来了更大的挑战。与结构化的数据相比,非结构化数据相对组织凌乱,包含更多的无用信息,给数据的存储与分析带来很大的困难。目前相关的研究热点,包括开发非关系型数据库(如Google 的 BigTable,开源的HBase等)来存储非结构化数据。 Google提出了MapReduce计算框架﹐Yahoo ! ,Facebook 等公司在此基础上实现了Hadoop 。 Hive之类的分布式架构,对非结构化数据做基本的分析工作。国内各大公司和科研单位也启动了用于支撑非结构化处理的基础设施研发,如百度的云计算平台﹑中国科学院计算技术研究所的凌云(LingCloud)系统等。

(3)数据模式的复杂性。随着数据规模的增大﹐描述和刻画数据的特征必然随之增大﹐而由其组成的数据内在模式将会以指数形式增长。首先,数据类型的多样化决定了数据模式的多样化。不仅需要熟悉各种类型的数据模式,同时也要善于把握它们之间的相互作用。这种面向多模式学习的研究需要综合利用各个方面的知识(如文本挖掘、图像处理﹑信息网络﹑甚至社会学等等)。为此,Sun提出用网络来描述异质数据间的关系﹐同时提出了“元路径( Meta-Path)”的概率来刻画目标数据模式。这样,通过定义合适的元路径,便可在数据网络中挖掘有价值的模式。其次﹐非结构化的数据通常比结构化数据蕴含更多的无用信息和噪声,网络数据需要高效鲁棒的方法来实现去粗存精﹐去冗存真。搜索引擎就是从无结构化数据中检索出有用信息的一种工具,尽管搜索技术在工业上已经取得极大的成功,但仍然存在很多不足(如对一些长尾词的查询,对二义性查询词的理解等),都有待进一步提高。另外,网络大数据通常是高维的,往往会带来数据高度稀疏与维度灾难等问题。在这种情况下,由于数据模式统计显著性较弱﹐以往的统计学习方法多针对高频数据挖掘模式,因此难以产生令人满意的效果。近年来,受实际应用驱动,高维稀疏问题成为了统计学习领域的热点问题。相关理论研究发现﹐基于稀疏表达的学习方法(如 LAsSO等),在获得较好学习效果的同时,还具有更高的效率和鲁棒性。


QQ客服

扫描二维码添加QQ

微信客服

扫描二维码添加微信

公司电话

公司电话

17316289114