语言是社会媒体最重要的表现形式,文本是社会媒体中用户表达信息的最重要的方式。基于内容信息的数据挖掘包括网络搜索技术与实体关联分析等主要研究内容。
社会媒体的出现为互联网信息搜索提出了新的挑战﹐研究的热点从传统的海量数据抓取﹑索引结构优化和用户查询分析等转移到了排序学习算法,专注于提高检索质量。排序学习模型将文档表示为特征向量,以损失函数为优化目标,寻找在检索领域中常用的评价准则下最好的排序函数﹐常见的排序学习算法可以分为逐点(Pointwis,如McRank)、逐对(Pairwise,如RankBoost、 RankNet)和逐列(Listwise,如 ListNet 、AdaRank、SVM-MAP ,3类方法。现有模型在处理用户需求相关性、多样性和重要性等不同目标排序方面仍有不足。此外,社会媒体中需要关注数据的短文本特征、对简短关键词表达的深入理解和分析﹐掌握用户真实的查询意图。
命名实体是现实世界中的具体或者抽象但具有特定意义的实体﹐从海量信息中获取其蕴含的内在知识,需要研究对命名实体﹑实体关系的挖掘。社会媒体生成的海量网络数据中,实体类型越来越多﹐力度越来越细,关系越来越繁杂。对于实体关系的挖掘﹐研究人员提出了基于规则和基于机器学习的方法。2007年,Getoor等提出统计关系学习是里程碑式的技术,突破了传统统计模型对于研究对象同类型﹑不相关的两个假设,可以更全面地表达领域知识。目前﹐实体和关系的挖掘仍是网络数据挖掘领域关注的研究问题,存在很多亟待解决的问题﹐例如对新涌现出的实体的抽取与识别﹐挖掘结果的可用性和可理解性,大规模高效知识库﹑本体库语义网络的构建等。
QQ客服
扫描二维码添加QQ
微信客服
扫描二维码添加微信
公司电话
17316289114