网络大数据对于系统,不管是存储系统﹑传输系统还是计算系统都提出了很多苛刻的要求,现有的数据中心技术很难满足网络大数据的需求。因此,需要考虑对整个IT架构进行革命性的重构。而存储能力的增长远远赶不上数据的增长,因此设计最合理的分层存储架构,不仅满足scale-up式的可扩展性﹐而且还能满足scale-out式的可扩展性,已成为IT系统的关键。在大数据时代,IT系统需要从数据围着处理器转改变为处理能力围着数据转,将计算推送给数据,而不是将数据推送给计算。此外,网络大数据平台(包括计算平台、传输平台﹑存储平台等)是网络大数据技术链条中的瓶颈,特别是网络大数据的高速传输,需要革命性的新技术。
网络大数据的诸多突出特性使得传统的数据分析﹑数据挖掘﹑数据处理的方式方法都不再适用。因此﹐面对网络大数据,我们需要有数据密集型计算的基本模式和新型的计算范式﹐需要提出数据计算的效率评估方法等基本理论。由于数据体量太大﹐甚至有的数据本身就以分布式的形式存在,难以集中起来处理,因此对于网络大数据的计算需要从中心化的、自顶向下的模式转为去中心化的、自底向上、自组织的计算模式。而且,网络大数据来自于数量众多的网络用户。由于人为因素的随机性,网络大数据常常具有很高的噪声,同时也富含着冗余数据,甚至是垃圾数据。因此,面对网络大数据﹐去芜存精﹑化繁为简可能是必要的处理范式之一。另外,面对网络大数据将形成基于数据的智能﹐我们可能需要寻找类似“数据的体量+简单的逻辑”的方法去解决复杂问题。
网络大数据使人们处理计算问题时获得了前所未有的大规模样本﹐但同时网络大数据也呈现出前所未有的复杂特征,不得不面对更加复杂的数据对象﹐其典型的特性是类型和模式多样,关联关系繁杂、质量良莠不齐。网络大数据内在的复杂性使得数据的感知、表达、理解和计算等多个环节面临着巨大的挑战,导致了传统全量数据计算模式下时空维度上计算复杂度的激增,很多传统的数据分析与挖掘任务如检索﹑主题发现、语义和情感分析等变得异常困难。然而目前﹐人们对网络大数据复杂性及其背后的物理意义缺乏理解﹐对网络大数据的分布与协作关联等规律认识不足,对大数据的复杂性和计算复杂性的内在联系缺乏深刻理解﹐加上缺少面向领域的大数据处理知识,极大地制约了人们对大数据高效计算模型和方法的设计能力。有鉴于此,如何量化定义大数据复杂性的本质特征及其外在度量指标,进而研究网络数据复杂性的内在机理是个重要的研究问题。
网络大数据平台在舆情监控﹑模式和关键字搜索﹑数据工程﹑情报分析、市场营销、医药卫生等领域具有重要的应用。举例来说﹐大数据平台的出现在搜索引擎中的应用是使得搜索引擎对数据的深入加工和处理变成现实,能够更好地理解用户的搜索意图。用户可以不用自己去筛选信息,而是由搜索引擎根据其搜索历史及个人偏好将有价值的信息呈现给用户。又如,网络大数据平台催生了很多面向程序员与数据科学家的工具(如Karmasphere和 Datameer ) ,使得程序员将数据而非业务逻辑作为程序的主要实体﹐编写出更简短的程序,更清晰地表达对数据所做的处理。可以预见,大数据平台正在以一种前所未有的方式改变着各行各业,对大数据平台的应用能够更好地帮助人们获取信息并对信息进行更高效地处理和应用。
一个优秀的综合大数据处理平台不但可以为企业的决策和个人的生活提供服务﹐甚至还可以为国家政策的制定提供支持。首先﹐依托大数据平台﹐国家可以分析各实体和产业之间的关联关系﹐从而了解行业发展的趋势﹐找到影响产业发展的关键性因素﹐统筹规划资金、人才、技术的良性流动与优化配置。其次﹐大数据平台可以为企业提供巨大的商业价值。企业分析人员可以分析多种多样的内容。譬如﹐分析顾客偏好及顾客群体﹐对群体进行细分并量体裁衣般地采取独特的行动;分析具有代表性的客户群体﹐采取有针对性的营销策略,进行病毒式营销和模式推广;运用大数据模拟实境,发掘新的需求和提高投入的回报率,进行商业模式,产品和服务的创新等。再次﹐大数据平台还可以为个人的日常生活带来诸多便利。建立在大数据平台下的互联网产业﹐将深加工的信息和数据主动推送给目标用户,便于用户结合自身喜好选择感兴趣的模式、产品和搭配方式。除此之外,用户还可以从大数据平台中获取更有价值的知识。通过本体知识平台﹐用户可以分析知识的来源﹑演化过程﹑分析知识间的因果关系,知识本身的歧义性和模糊性﹐更好地理解和关联知识。
构建网络大数据平台就是要将不同渠道﹑不同来源﹑不同结构的数据进行有机的整合。与传统数据平台不同的是﹐网络大数据海量的规模、多样的类型,快速的流动和动态的体系以及巨大的价值是大数据平台构建需要重点考虑的几个因素。除此之外﹐数据的分类存储﹑数据平台的开放性﹑数据的智能处理以及数据平台与用户的交互都为网络大数据平台的建设带来前所未有的挑战。网络大数据平台处理的数据类型是多种多样的。根据数据类型的不同﹐网络大数据平台可以分为不同的类型﹐比如本体数据平台﹑企业日常事务数据平台﹑流数据平台,电子商务数据平台等等。目前这些平台的搭建已经具有了一些有代表性的工作。如Google 公司的Frecbase、微软公司的Probase、国内著名的中文信息结构库—知网( Hownet)等。在商用数据平台方面﹐IBM公司的 Infosphere 大数据分析平台、天睿公司的Teradata统一数据环境以及由国内天猫、阿里云、万网联合推出的国内首个电商云工作平台聚石塔是3个典型的数据平台。
社会网络是以社会媒体中的用户为节点﹐用户间的关系为连边而构建的网络。它既是用户间社会关系的反映,也是用户之间进行信息交互的载体。具有关系的异质性﹑结构的多尺度性以及网络的动态演化性3方面特性。社会网络中个体因血缘关系或兴趣爱好等因素而形成了连接紧密的圈子,这种内部关系紧密而对外关系相对稀疏的结构被称为社区。社区结构是社会网络所普遍具有的结构特征﹐社区结构的存在对于网络的高效搜索﹑网络演化﹑信息扩散等具有重要意义。针对社区结构的研究可分为社区发现。社区结构演化等方面。社区发现旨在识别出网络固有的社区结构,按照节点间的连边关系把节点划分成若干节点组﹐使得节点内部的连边相对稠密﹐不同节点之间的连边相对稀疏。 Girvan和Newman提出分裂式层次聚类方法﹐是一种自顶向下的社区分割过程﹔文献[63]提出模块度概念,采用一种被假定没有社区结构的网络作为参照网络﹐对于一个给定的网络划分,通过对比原有网络和参照网络中处于该划分的各个分量内部边的比例,给出一种度量网络划分质量的方法;对于重叠社区结构的研究﹐Palla等人提出了一种基于完全子图渗流的社区发现方法﹐已应用到生物﹑信息﹑社会等网络中﹔进一步定义新的网络模块度,采用聚合式层次聚类的方式,提出了能够同时揭示网络层次重叠社区结构(如图所示)的社区发现方法。层次重叠社区结构示意图 社区演化是网络自身结构与在其上频繁发生的交互过程相互作用的结果。社区演化分析主要研究社区随时间变化的情况,并分析导致这些变化的机制和原因﹐包括社区的形成﹑生长,缩减﹑合并、分裂和消亡等.在动态演化过程网络建模研究方面﹐Barabasi 和 Albert提出了著名的BA网络生成模型﹐建立了网络微观机制和宏观拓扑结构特征的关联规律。文献基于完全子图渗流社区发现方法研究社区演化,得出了小社区稳定性是保证其存在的前提而大社区的动态性是存在的基础的结论。随着含时间数据的积累,关于社区演化的研究将会是一个热点。
语言是社会媒体最重要的表现形式,文本是社会媒体中用户表达信息的最重要的方式。基于内容信息的数据挖掘包括网络搜索技术与实体关联分析等主要研究内容。社会媒体的出现为互联网信息搜索提出了新的挑战﹐研究的热点从传统的海量数据抓取﹑索引结构优化和用户查询分析等转移到了排序学习算法,专注于提高检索质量。排序学习模型将文档表示为特征向量,以损失函数为优化目标,寻找在检索领域中常用的评价准则下最好的排序函数﹐常见的排序学习算法可以分为逐点(Pointwis,如McRank)、逐对(Pairwise,如RankBoost、 RankNet)和逐列(Listwise,如 ListNet 、AdaRank、SVM-MAP ,3类方法。现有模型在处理用户需求相关性、多样性和重要性等不同目标排序方面仍有不足。此外,社会媒体中需要关注数据的短文本特征、对简短关键词表达的深入理解和分析﹐掌握用户真实的查询意图。命名实体是现实世界中的具体或者抽象但具有特定意义的实体﹐从海量信息中获取其蕴含的内在知识,需要研究对命名实体﹑实体关系的挖掘。社会媒体生成的海量网络数据中,实体类型越来越多﹐力度越来越细,关系越来越繁杂。对于实体关系的挖掘﹐研究人员提出了基于规则和基于机器学习的方法。2007年,Getoor等提出统计关系学习是里程碑式的技术,突破了传统统计模型对于研究对象同类型﹑不相关的两个假设,可以更全面地表达领域知识。目前﹐实体和关系的挖掘仍是网络数据挖掘领域关注的研究问题,存在很多亟待解决的问题﹐例如对新涌现出的实体的抽取与识别﹐挖掘结果的可用性和可理解性,大规模高效知识库﹑本体库语义网络的构建等。
QQ客服
扫描二维码添加QQ
微信客服
扫描二维码添加微信
公司电话
17316289114