栏目文章

Select

1. 基于领域本体的文本分割方法研究

刘耀,帅远华,龚幸伟,黄毅

计算机科学 2018, 45 (1): 128-132. DOI: 10.11896/j.issn.1002-137X.2018.01.021

摘要（500）

PDF（pc）（1030KB）（606）

文本分割在信息检索、摘要生成、问答系统、信息抽取等领域发挥着重要作用。在总结现有的国内外文本分割方法的基础上,提出了一种基于领域本体对文本进行线性分割的方法。该方法利用初始概念自动获取结构化语义概念集合,并根据获取的概念、属性及属性词在文本中出现的频次、位置和关系等因素为段落赋予语义标签,挖掘文本的子主题信息,将拥有相同语义标注信息的段落划分为相同语义段落,实现了文本不同子主题之间的分割。实验结果表明,该方法对于特定领域的文本分割的准确率、召回率以及F值分别达到了85%,90%和88%,分割效果能够满足实际应用需求,并优于现有的无需训练语料的文本分割方法。

参考文献 | 相关文章 | 多维度评价

Select

2. 加权模糊粗糙约简

范星奇,李雪峰,赵素云,陈红,李翠平

计算机科学 2018, 45 (1): 133-139. DOI: 10.11896/j.issn.1002-137X.2018.01.022

摘要（384）

PDF（pc）（3298KB）（683）

基于模糊粗糙集的传统约简算法的时间代价较高,在处理大规模数据时耗时过长,且在许多实际大规模数据集上存在有限时间内无法收敛等问题。因此将权重引入属性约简的定义中,其中属性权重是属性重要度的数值指标。通过构建优化问题来求解属性权重,证明了属性依赖度即是属性权重的最优解。因此,提出了基于属性权重排序的约简算法,从而大大提升了约简的速度,使得约简算法可以应用于大规模数据集,特别是高维数据集中。

参考文献 | 相关文章 | 多维度评价

Select

3. 双人博弈问题中的蒙特卡洛树搜索算法的改进

季辉,丁泽军

计算机科学 2018, 45 (1): 140-143. DOI: 10.11896/j.issn.1002-137X.2018.01.023

摘要（774）

PDF（pc）（7598KB）（2163）

蒙特卡洛树搜索(MCTS)是一种针对决策类博弈游戏,运用蒙特卡洛模拟方法进行评估博弈策略的启发式搜索算法。但是,在面对计算机围棋这种复杂的决策过程时,简单的蒙特卡洛树搜索过程往往由于计算量大,收敛速度非常慢。由于双人博弈游戏中的蒙特卡洛树搜索不能收敛于双人博弈的最佳决策策略,因此提出蒙特卡洛树搜索结合极大极小值算法的改进算法,使得搜索结果不会因为蒙特卡洛方法的随机性而失真。为了进一步提高复杂双人博弈游戏中搜索算法的计算效率,还结合了几种常见的剪枝策略。实验结果说明,所提算法显著改进了蒙特卡洛树搜索的准确性和效率。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于分类的中文文本摘要方法

庞超,尹传环

计算机科学 2018, 45 (1): 144-147. DOI: 10.11896/j.issn.1002-137X.2018.01.024

摘要（516）

PDF（pc）（5192KB）（795）

自动文本摘要是自然语言处理领域中一项重要的研究内容,根据实现方式的不同其分为摘录式和理解式,其中理解式文摘是基于不同的形式对原始文档的中心内容和概念的重新表示,生成的文摘中的词语无需与原始文档相同。提出了一种基于分类的理解式文摘模型。该模型将基于递归神经网络的编码-解码结构与分类结构相结合,并充分利用监督信息,从而获得更多的摘要特性；通过在编码-解码结构中使用注意力机制,模型能更精确地获取原文的中心内容。模型的两部分可以同时在大数据集下进行训练优化,训练过程简单且有效。所提模型表现出了优异的自动摘要性能。

参考文献 | 相关文章 | 多维度评价

Select

5. 带偏好度量的直觉模糊序决策信息系统的部分一致约简

林冰雁,徐伟华,杨倩

计算机科学 2018, 45 (1): 148-151. DOI: 10.11896/j.issn.1002-137X.2018.01.025

摘要（309）

PDF（pc）（967KB）（617）

现实生活中,不同的需求导致许多信息系统的属性值是基于直觉模糊数的。针对这一现象,在加权得分函数的基础上建立了一种直觉模糊序关系,并给出了不协调带偏好度量的直觉模糊序决策信息系统。进一步,在该复杂系统中引入了部分一致函数,并通过部分一致可辨识矩阵研究求解部分一致约简的方法。最后,通过案例分析验证了该方法的可行性与有效性。

参考文献 | 相关文章 | 多维度评价

Select

6. 基于集成卷积神经网络的人脸年龄分类算法研究

马文娟,董红斌

计算机科学 2018, 45 (1): 152-156. DOI: 10.11896/j.issn.1002-137X.2018.01.026

摘要（336）

PDF（pc）（3308KB）（655）

人脸年龄估计由于在人机交互和安全控制等领域有潜在应用,因此得到了广泛关注。文中主要进行人脸年龄分组的研究,针对人脸年龄分类问题提出了一种基于集成卷积神经网络的年龄分类算法。首先,训练两个以人脸图像为输入的卷积神经网络,当用卷积神经网络直接提取人脸图像的特征时,主要对深度的全局特征进行提取。为了补充人脸图像的局部特征,尤其是纹理信息,将提取的LBP(Local Binary Pattern)特征作为另一个网络的输入。最后,为了结合人脸的全局特征和局部特征,将这3个网络进行集成。该算法在广泛使用的年龄分类数据集Group上取得了不错的效果。

参考文献 | 相关文章 | 多维度评价

Select

7. 一种用于构建用户画像的二级融合算法框架

李恒超,林鸿飞,杨亮,徐博,魏晓聪,张绍武,古丽孜热·艾尼外

计算机科学 2018, 45 (1): 157-161. DOI: 10.11896/j.issn.1002-137X.2018.01.027

摘要（438）

PDF（pc）（7280KB）（785）

用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。构建用户画像的核心工作是给用户贴“标签”。基于用户的查询词历史记录,提出一种用于预测用户多维标签的二级融合算法框架。在第一级模型中,分别在各个标签预测子任务上建立多种模型,使用传统机器学习方法与Trigram特征相结合来抽取用户用词习惯的差异,使用doc2vec浅层神经网络模型来抽取查询词的语义关联信息,使用卷积神经网络模型来抽取查询词之间的深层语义关联信息。实验表明,doc2vec在处理用户查询这样的短文本相关任务时有着相对较好的预测准确性。在第二级模型中,针对用户画像这样的多标签预测任务,使用XGBTree模型及Stacking多模型相融合的方法提取出用户各标签属性之间的关联信息,使得平均预测准确率进一步提高了2%左右。在2016年中国计算机学会(CCF)组织的大数据竞赛《大数据精准营销中搜狗用户画像挖掘》中,所提二级融合算法框架在894支队伍中夺得了冠军。

参考文献 | 相关文章 | 多维度评价

Select

8. 多输入卷积神经网络肺结节检测方法研究

赵鹏飞,赵涓涓,强彦,王峰智,赵文婷

计算机科学 2018, 45 (1): 162-166. DOI: 10.11896/j.issn.1002-137X.2018.01.028

摘要（383）

PDF（pc）（3676KB）（751）

针对传统计算机辅助诊断系统中肺部结节检出过程复杂,检出结果依赖于分类前期每个步骤的性能,以及存在假阳性率高的问题,提出了一种基于卷积神经网络的端到端的肺结节检测方法。该方法首先使用大量带标签的肺结节数据对构建的多输入卷积神经网络进行训练,实现从原始数据到语义标签的有监督学习。然后采用快速边缘检测方法和二维高斯概率密度函数构建候选区域模板,从待检测CT序列中获取候选区域并将其作为多输入卷积神经网络的输入数据。最后采用判定阈值实现疑似肺结节区域标注,同时在相邻的CT影像中进行重点检测。在LIDC-IDRI数据集上的大量实验结果表明,所提方法在肺部CT影像中对微、小结节的检出率较高；同时,重点检测模板能够小幅降低微、小结节检测的假阳率。

参考文献 | 相关文章 | 多维度评价

Select

9. 基于多分类器加权投票法的越南语组合歧义消歧

李佳,郭剑毅,刘艳超,余正涛,线岩团,阮氏青娥

计算机科学 2018, 45 (1): 167-172. DOI: 10.11896/j.issn.1002-137X.2018.01.029

摘要（436）

PDF（pc）（3634KB）（710）

组合歧义消解是分词中的关键问题之一,直接影响到分词的准确率。为了解决越南语组合歧义对分词的影响问题,结合越南语组合型词的特点,提出了一种基于集成学习的越南语组合歧义消解方法。该方法首先通过人工选取越南语组合歧义词,构建出越南语组合歧义字段库,对越南语语料与越南语组合词词典进行匹配,抽取出越南语组合歧义字段；其次,采用三类分类器引入越南语词频特征和上下文信息,构建三类分类器消解模型,得到三类分类器消解结果；最后,计算出各分类器权值,通过阈值对越南语组合歧义进行最终分类。实验表明,所提方法的正确率达到了83.32%,与消歧结果最好的单个分类器相比准确率提高了5.81%。

参考文献 | 相关文章 | 多维度评价

Select

10. 一种基于邻域粗糙集的多标记专属特征选择方法

孙林,潘俊方,张霄雨,王伟,徐久成

计算机科学 2018, 45 (1): 173-178. DOI: 10.11896/j.issn.1002-137X.2018.01.030

摘要（275）

PDF（pc）（974KB）（672）

在多标记学习中,数据降维是一项重要且具有挑战性的任务,而特征选择又是一种高效的数据降维技术。在邻域粗糙集理论的基础上提出一种多标记专属特征选择方法,该方法从理论上确保了所得到的专属特征与相应标记具有较强的相关性,进而改善了约简效果。首先,该方法运用粗糙集理论的约简算法来减少冗余属性,在保持分类能力不变的情况下获得标记的专属特征；然后,在邻域精确度和邻域粗糙度概念的基础上,重新定义了基于邻域粗糙集的依赖度与重要度的计算方法,探讨了该模型的相关性质；最后,构建了一种基于邻域粗糙集的多标记专属特征选择模型,实现了多标记分类任务的特征选择算法。在多个公开的数据集上进行仿真实验,结果表明了该算法是有效的。

参考文献 | 相关文章 | 多维度评价

Select

11. 一种用于构建用户画像的多视角融合框架

费鹏,林鸿飞,杨亮,徐博,古丽孜热·艾尼外

计算机科学 2018, 45 (1): 179-182. DOI: 10.11896/j.issn.1002-137X.2018.01.031

摘要（376）

PDF（pc）（5618KB）（1122）

电网公司的电费敏感客户往往对由用电引发的电量、电价、电费、缴费、欠费等电力服务具有强烈反应。快速定位电费敏感客户,对降低客户投诉率、提升客户满意度、树立供电企业良好的服务形象具有重要的作用。基于电网用户数据,提出了一种用于构建用户画像的多视角融合框架,该框架能够快速、准确地识别出电费敏感客户。首先,对电网用户进行了分析研究,利用双通道对不同特性的用户分别建模预测；其次,提出了多种特征萃取方法,用于构建用户多源特征体系；最后,为了充分利用多源特征,进一步提出了基于双层Xgboost的多视角融合模型。该框架在2016CCF大数据与计算智能大赛“客户画像”竞赛中获得了F1值为0.90379(第一名)的成绩,其有效性得到了验证。

参考文献 | 相关文章 | 多维度评价