不确定性使得网络数据难以被建模和学习,从而难以有效利用其价值。网络数据的不确定性包括数据本身的不确定性,模型的不确定性和学习的不确定性。
(1)数据的不确定性。原始数据的不准确以及数据采集处理粒度、应用需求与数据集成和展示等因素使得数据在不同维度、不同尺度上都有不同程度的不确定性。传统侧重于准确性数据的处理方法﹐难以应对海量,高维、多类型的不确定性数据。具体而言,在数据的采集,存储,建模,查询、检索﹑挖掘等方面都需要有新的方法来应对不确定性的挑战[14]。近年来,概率统计的方法被逐步应用于不确定性数据的处理中。一方面,数据的不确定性要求我们使用不确定的方法加以应对;另一方面,计算机硬件的发展也为这类方法提供了效率、效能上的可能。目前,该领域研究尚浅,在学术界和产业界尚有大量问题亟待解决。
(2)模型的不确定性.数据的不确定性要求对数据的处理方式能够提出新的模型方法,并能够把握模型的表达能力与复杂程度之间的平衡。在对不确定数据的建模和系统设计上,最常用且朴素的观点是“可能世界模型”。该观点认为﹐在一定的结构规范下,应将数据的每一种状态都加以刻画。但该种模型过于复杂,难以用一种通用的模型结构来适应具体的应用需求。在实际应用中,我们往往采取简化的模型刻画不确定性数据的特性,如独立性假设、同分布假设等等。尤其值得注意的是,概率图模型由于具有很强的表达能力而且可对数据相关性进行建模,因此已被广泛应用在不确定数据的建模领域。另外,在数据的管理和挖掘上面﹐不确定性模型的构建应当考虑到数据的查询﹑检索﹑传输﹑展示等方面的影响。
(3)学习的不确定性。数据模型通常都需要对模型参数进行学习。然而,在很多情况下找到模型的最优解是NP问题﹐甚至找到一个局部最优解都很困难。因此很多学习问题都采用近似的﹑不确定的方法来寻找一个相对不错的解。但在大数据的背景下,传统近似的,不确定的学习方法需要面对规模和时效的挑战。随着多核CPU/GPU的普及以及并行计算框架的研究,分而治之的方法被普遍认为是解决网络大数据问题一条必由之路。如何将近似的﹑不确定的学习方法拓展到这种框架上成为当前研究的重点。近年来,不少高校和研究机构,在该领域做出了探索。如在矩阵分解运算中对数据进行分块的计算方法能够利用多台机器并行计算﹐从而提高数据的处理速度。此外,除了学习模型参数值的不确定外,模型的复杂性和参数个数也受到不同领域、不同数据类型和应用需求的影响而不能提前确定。近年来,在统计学习领域,非参模型方法的提出为自动学习出模型复杂度和参数个数提供了一种思路。但该类模型计算上较为复杂,如何分布式地,并行地应用到网络大数据的处理上,还是一个开放问题。
QQ客服
扫描二维码添加QQ
微信客服
扫描二维码添加微信
公司电话
17316289114