摘要: 充分利用用户自定义标签信息,是理解Web资源语义,提高Web应用智能程度的重要途径。针对资源标签分派中大量存在的信息不完整、不一致的现象,建立基于用户标记行为特征的概率主题模型,利用概率主题模型实现对标记信息不完整资源的标签预测。根据每个资源所对应的标签的统计特征,可产生不同形式的标签文档,通过分析标签文档所生成主题的性能,确定适合于特定数据集的标签文档形式;利用同一主题内词汇间的高度相关性,设计合理的预测标签排序方法,从而实现对标记信息不完整资源的标签预测以及标签语义不一致现象的检测。在数据集DeliciousT 140和Wikilo+上的测试表明,所提方法能有效实现标签预测,并可提高信息检索的性能。
No related articles found! |
|