1974年1月创刊(月刊)
主管/主办:重庆西南信息有限公司
ISSN 1002-137X
CN 50-1075/TP
CODEN JKIEBK
编辑中心
当期目录
2019年第10期, 刊出日期:2019-10-15
  
大数据与数据科学*
加入标签迁移的跨领域项目推荐算法
葛梦凡, 刘真, 王娜娜, 田靖玉
计算机科学. 2019, 46 (10): 1-6.  doi:10.11896/jsjkx.180901792
摘要 ( 1114 )   PDF(2096KB) ( 1702 )   
参考文献 | 相关文章 | 多维度评价
大多数推荐算法常采用基于迁移学习的跨领域推荐技术,借助辅助领域的丰富数据信息来解决传统单域推荐中普遍存在的数据稀疏等问题。但若迁移的知识比较单一,没有结合用户行为,则往往会在目标领域导致负迁移、推荐结果不佳等问题。因此,考虑结合其他知识来辅助完成目标领域的学习任务。利用用户异构行为改善推荐结果,正是近年来的新兴研究热点之一。在用户数据中,标签与用户的真实偏好相关,通常能够反映用户或项目的部分隐式特征。通过结合迁移学习及用户标签数据,文中提出了基于标签迁移的跨领域项目推荐算法ITTCF(Item-based Tag Transfer Collaborative Filtering)。该算法摒弃了在跨领域迁移推荐中仅对评分模式进行挖掘迁移的单一辅助方式,将用户行为反馈与数字评分相结合,融合了评分模式和标签这两种异构用户行为。在多个数据集中的实验结果均表明,ITTCF具有更好的RMSEMAE值,较传统算法分别提升了1.61%~6.67%和1.97%~8.83%。
基于堆栈降噪自编码网络的个人信用风险评估方法
杨德杰, 章宁, 袁戟, 白璐
计算机科学. 2019, 46 (10): 7-13.  doi:10.11896/jsjkx.181102216
摘要 ( 587 )   PDF(1972KB) ( 1339 )   
参考文献 | 相关文章 | 多维度评价
个人信用历来是银行衡量个人履约风险最重要的因素。近年来,随着我国借贷需求与日俱增,仅依据信用卡信息的传统个人信用评估方式,已不能完全满足银行业的发展需求。因此,为了构建更加丰富的用户信用画像,文中基于银行大数据提取信用风险评估特征。为了解决金融大数据带来的维度灾难和噪声问题,充分考虑了数据特征之间的相关性,对堆栈降噪自编码神经网络模型进行了改进,引入了截断的Karhunen-Loève展开作为噪声传入项,并在某商业银行的大数据平台上进行了一系列数据实验。实验结果显示:相比仅使用信用卡信息,利用银行大数据能使衡量正负样本分离度的指标——K-S值提升约11%;改进的堆栈降噪自编码神经网络方法具有更好的风险评估效果,准确率相比原模型提高了3%左右,验证了在银行大数据环境下进行信用风险评估的有效性。
面向评论文本数据的旭日图可视化
易小群, 李天瑞, 陈超
计算机科学. 2019, 46 (10): 14-18.  doi:10.11896/jsjkx.190100087
摘要 ( 743 )   PDF(1919KB) ( 1141 )   
参考文献 | 相关文章 | 多维度评价
旭日图是一种现代饼图,它超越传统的饼图和环图,不仅能表达数据的占比问题,更能表达清晰的层级和归属关系,以父子层次结构来显示数据的构成情况。使用传统的旭日图对文本数据进行可视化时,不能全面地展示实体关系和情感偏向,而且旭日图层数越多,信息的可读性就越低。针对以上问题,对传统的旭日图进行了改进。首先,设计同级相邻圆弧的交叠,展示文本中实体的关系。然后,将旭日图与柱形图相结合,展示评论文本的感情偏向,柱形图体现为圆弧的涂色宽度,表示对于某方面评论的满意度。最后,对数据进行优化重排,包括:1)基于整体的考虑,将凸出部分放在邻接位置以节省空间;2)对局部的数据优化进行重排,使得最外层的节点尽可能高低错落,以提高稀疏性,便于观察。实验结果表明:改进的旭日图能够更全面、清晰地对评论文本进行可视化,为用户提供更灵活、个性化的可视化展示。
基于关键词和关键句抽取的用户评论情感分析
喻影, 陈珂, 寿黎但, 陈刚, 吴晓凡
计算机科学. 2019, 46 (10): 19-26.  doi:10.11896/jsjkx.191000531C
摘要 ( 645 )   PDF(1829KB) ( 2420 )   
参考文献 | 相关文章 | 多维度评价
情感分析的一项主要研究任务是根据文档内容对其情感极性(即正类和负类)进行判断。在判断文档的情感极性时,不同的词语和句子具有不同的情感贡献度,因此如何从整个文档中准确地提取与情感分类更相关的词语和句子,从而提升分类性能,成为了一个重要问题。在有监督实验中,基于依存句法关系分析句子的逻辑结构,提取出了与表达情感更相关的词语进行加权,提高了分类性能。在半监督实验中,使用基于中文评论的关键句抽取和分类器融合算法,对整篇文档中包含更多情感词和总结意味的关键句进行了抽取,充分考虑了句子的情感词属性、位置属性、标点符号属性和关键词属性,并且使用分类器融合算法,让置信度最高的子分类器决定分类效果。在大众点评网和头条新闻的数据集上将所提算法与已有的经典算法进行对比,发现所提方法的性能更高,从而证明了基于依存句法分析的关键词抽取和基于特征的中文关键句抽取算法的有效性。
一种基于领域信任及不信任的奇异值分解推荐算法
张琦, 柳玲, 文俊浩
计算机科学. 2019, 46 (10): 27-31.  doi:10.11896/jsjkx.190300388
摘要 ( 475 )   PDF(1434KB) ( 855 )   
参考文献 | 相关文章 | 多维度评价
传统协同过滤算法存在数据稀疏与冷启动问题,社会化推荐算法虽然能在一定程度上缓解这些问题,但大多数的算法都只从单一的角度来衡量信任关系的影响。为了更准确地度量社交关系对推荐预测的影响,提出了一种基于领域信任及不信任的社会化奇异值分解(Field Trust and Distrust based Singular Value Decomposition,FTDSVD)推荐算法。该算法在SVD推荐算法的基础上加入了用户的信任关系与不信任关系,利用不信任关系对社交关系进行修正,并且充分考虑用户的信任领域相关性和全局影响力。在Epinions 数据集上将FTDSVD算法与相关算法进行了对比,结果证实了该算法在提高推荐质量和缓解冷启动问题上效果显著。
基于嵌入学习的用户动态偏好预测
温雯, 林泽钿, 蔡瑞初, 郝志峰, 王丽娟
计算机科学. 2019, 46 (10): 32-38.  doi:10.11896/jsjkx.180901801
摘要 ( 371 )   PDF(1282KB) ( 1487 )   
参考文献 | 相关文章 | 多维度评价
传统的刻画用户偏好的方法主要着眼于用户的长期兴趣,然而在现实应用中,用户兴趣随着时间迁移而不断变化,如何挖掘用户在时序上的动态偏好仍然面临挑战。为此,文中提出了一种基于嵌入学习的动态行为预测方法。首先,利用改进的词嵌入模型从用户的点击行为序列中学习获得每一个点击项的低维向量表示;然后,基于所学习的向量表示,结合用户近期点击行为推断用户的动态偏好,进而预测其下一步的点击行为。在两个真实数据集上将提出的方法与近年出现的其他基准方法进行比较,结果表明,所提方法在预测准确率上具有明显的优势。
基于拓扑结构的密度峰值重叠社区发现算法
封云飞, 陈红梅
计算机科学. 2019, 46 (10): 39-48.  doi:10.11896/jsjkx.180901644
摘要 ( 533 )   PDF(3661KB) ( 1014 )   
参考文献 | 相关文章 | 多维度评价
现代网络科学的不断发展,为人们的生活提供了极大的便利。对复杂网络的研究是推动现代网络科学发展的重要动力,而社区是研究复杂网络的重要结构。已有的社区发现方法大多是高度复杂的,这不利于有效挖掘复杂网络。为了研究更高效的社区发现算法,文中将近年来被提出的密度峰值聚类算法应用于社区发现中,对密度峰值算法进行改进,提出了一种高效的社区发现算法。将密度峰值算法应用于社区发现存在一些问题,由于复杂网络数据结构具有特殊性,其数据大多以拓扑图或邻接矩阵的形式存储,因此将密度峰值聚类算法应用到社区发现中的核心问题是如何有效地计算网络中各节点间的距离、节点局部密度和选择中心节点。针对该问题,文中通过网络拓扑图中各节点及其邻居节点的度来计算每一个节点的局部密度,通过节点间的相似度来度量节点间的距离,并对距离进行离散化处理,以便选取社区中心节点;定义了核心跳变值来更精确地选取社区中心,防止大社区吞并小社区;基于LFR人工网络和真实网络数据集,将所提算法与已有算法进行比较,并采用扩展的模块度、调整兰德系数以及归一化互信息对实验结果进行评估。真实网络中的实验结果表明了所提算法具有不错的效果,且在一些真实场景中具有明显优势;在人工网络中,所提算法同样具有优势,同时其相比其他算法更加稳定。
基于哈希算法的异构多模态数据检索研究
陈凤, 蒙祖强
计算机科学. 2019, 46 (10): 49-54.  doi:10.11896/jsjkx.190100139
摘要 ( 704 )   PDF(2090KB) ( 1151 )   
参考文献 | 相关文章 | 多维度评价
随着大数据时代的发展,网络上的文本、图像、视频、音频等异构多模态数据呈指数级增长。在海量数据中进行异构多模态数据的检索,成为了热门的研究方向。但是,异构多模态数据检索面临两大挑战:1)数据存在“语义鸿沟”,即如何表达异构多模态数据之间的相似性;2)在海量数据中,如何进行准确高效的检索。针对哈希检索算法忽略了异构多模态数据之间语义一致性的问题,文中提出了一种基于CCA(典型相关性分析)语义一致性的哈希检索算法(CCA-SCH)。该算法为了保持模态内的语义一致性,分别生成文本和图像数据的语义模型;为了保持模态间的语义一致性,通过CCA算法融合文本和图像语义,生成最大相关矩阵;同时引入2,ρ范式来减少原始数据集的噪声和冗余信息,使哈希函数具有更好的鲁棒性。实验结果表明,CCA-SCH算法在实验数据集上的均值平均准确率(Map)相较于基准算法提升了10%以上,体现了该算法更好的检索性能。
基于深度矩阵分解网络的矩阵填充方法
邝神芬, 黄业文, 宋杰, 李洽
计算机科学. 2019, 46 (10): 55-62.  doi:10.11896/jsjkx.190300390
摘要 ( 510 )   PDF(1503KB) ( 1596 )   
参考文献 | 相关文章 | 多维度评价
矩阵分解是矩阵填充中的流行方法,但现有的方法大多是基于浅层的线性模型,当数据矩阵变大且观测数据很少时,容易导致过拟合,性能也随之显著下降。针对这些问题,提出了一种基于深度矩阵分解网络(DMFN)的矩阵填充方法,该方法不仅能弥补传统矩阵分解的缺点,而且能处理复杂的非线性数据。首先,将输入矩阵的观测值对应的行和列向量作为输入,对其进行投影,得到其行(列)的潜在特征向量;然后,分别对行(列)的潜在特征向量构建多层感知器网络;最后,通过构建双线性池化层,将行和列的输出向量进行融合。在推荐系统数据集MovieLens及Netflix上进行测试,实验结果表明,在相同参数设置下,与主流的填充算法相比,所提方法填充预测的均方误差(RMSE)及绝对值误差(MAE)都有明显提高。
基于可视块的多记录型复杂网页信息提取算法
王卫红, 梁朝凯, 闵勇
计算机科学. 2019, 46 (10): 63-70.  doi:10.11896/jsjkx.190200346
摘要 ( 600 )   PDF(2582KB) ( 1213 )   
参考文献 | 相关文章 | 多维度评价
网页具有丰富的内容和复杂多变的结构,现有的网页信息提取技术解决了单记录型简单页面的信息提取问题,但是对于多记录型复杂页面的信息提取效果往往不佳。文中提出了一种全新的基于可视块的复杂网页信息自动化提取算法(Visual Block Based Information Extraction,VBIE),通过启发式规则构建可视块与可视块树,然后通过区域聚焦、噪声过滤及可视块筛选,实现了对复杂网页中数据记录的提取。该方法摒弃了以往算法对网页结构的特定假设,无需对HTML文档进行任何人工标记,保留了网页的原始结构,且能够在单页面上实现无监督的信息提取。实验结果表明,VBIE的网页信息提取精确度最高可达100%,在主流搜索引擎的结果页面和社区论坛的帖子页面上的F1均值分别为98.5%和96.1%。相比目前方法中在复杂网页上提取效果较好的CMDR方法,VBIE的F1值提高了近16.3%,证明了该方法能够有效解决复杂网页的信息提取问题。
基于时间戳和垂直格式的关联规则挖掘算法
王斌, 马俊杰, 房新秀, 魏天佑
计算机科学. 2019, 46 (10): 71-76.  doi:10.11896/jsjkx.190100223
摘要 ( 427 )   PDF(1356KB) ( 734 )   
参考文献 | 相关文章 | 多维度评价
基于时间戳的关联规则挖掘算法(SLMCM)主要用于解决新增项的问题,但效率较低,难以适应大数据挖掘。针对这个问题,文中提出了改进算法E-SLMCM和DE-SLMCM。E-SLMCM算法采用垂直结构,仅需遍历数据库两次,在将数据库转化为垂直格式时,可直接记录各项的时间戳,且不需要将每条事务的各项按时间戳进行排序;另外,提出了新的求项集时间戳的方法,在求更高项集的时间戳时不用多次遍历数据库。E-SLMCM算法适合应用于稀疏数据库,为了提高在密集数据库上的运行效率,在E-SLMCM算法的基础上采用差集思想提出了DE-SLMCM算法。所列举的4个基于公共数据集的仿真实验中,在不同最小支持度条件下,E-SLMCM和DE-SLMCM分别在稀疏和密集数据集上运行的时间效率是SLMCM的10~1 000倍。
融合多因素的兴趣点协同推荐方法研究
陈炯, 张虎, 曹付元
计算机科学. 2019, 46 (10): 77-83.  doi:10.11896/jsjkx.180901757
摘要 ( 519 )   PDF(1875KB) ( 872 )   
参考文献 | 相关文章 | 多维度评价
兴趣点(Point-of-Interest,POI)推荐是为用户推荐可能感兴趣的地理位置的一项任务,是基于位置社交网络(Location-Based Social Networks,LBSN)服务中的重要研究内容。针对目前POI推荐准确率较低、推荐结果缺乏个性化、情感倾向因素融入差等问题,在综合分析兴趣点的地理位置、分类偏好、流行度、社交与情感倾向等相关影响因素的基础上,提出了融合多因素的兴趣点协同推荐模型(GCSR)。首先,根据POI地理位置数据计算地理相关分数;其次,根据用户的类别偏好,结合POI流行度定义分类偏好分数;然后,根据社交关系计算用户之间的社交关系强度,通过挖掘评论文本计算用户的情感倾向分数,并将二者与协同过滤推荐技术有效结合,从而得到社交情感分数;最后,将地理相关分数、分类偏好分数与社交情感分数有效融合,向用户推荐Top-N兴趣点。在Foursquare真实签到数据集上进行的多组对比实验显示,与基线模型中最好的JRA相比,GCSR模型能够获得更好的推荐效果,准确率和召回率平均提高了1.7%和0.6%。
基于深度双向LSTM的股票推荐系统
曾安, 聂文俊
计算机科学. 2019, 46 (10): 84-89.  doi:10.11896/jsjkx.180901771
摘要 ( 961 )   PDF(1824KB) ( 2148 )   
参考文献 | 相关文章 | 多维度评价
面对越来越复杂的数据环境,以经典统计学模型为主的股票预测模型在一定程度上已无法满足人们对预测准确性的要求。深度学习因具有较强的学习能力和抗干扰能力,已逐渐被应用于股票推荐中。但传统的股票推荐模型要么从未考虑时间因素,要么仅考虑时间上的单向关系。因此,文中提出了一种基于深度双向LSTM的神经网络预测模型。该模型充分利用了时间序列上向前、向后两个时间方向的上下文关系,解决了长时间序列上的梯度消失和梯度爆炸问题,能够学习到对时间有长期依赖性的信息。同时,该模型引入了Dropout策略,在一定程度上解决了深层网络模型带来的训练难、收敛速度慢和过拟合等问题。在S&P500数据集上的实验表明,基于深度双向LSTM的神经网络预测模型比现有预测模型在误差上降低了2%~5%,使决定系数(r2)提高了10%。
网络与通信
基于启发式算法的卫星反应式调度
张铭, 卫波, 王晋东
计算机科学. 2019, 46 (10): 90-96.  doi:10.11896/jsjkx.180901806
摘要 ( 695 )   PDF(1564KB) ( 947 )   
参考文献 | 相关文章 | 多维度评价
面对地震、火灾等突发性事件,需要对卫星调度方案进行动态调整。文中考虑了卫星资源失效和应急任务加入等动态不确定性因素,综合任务约束、时间约束、卫星能量和存储约束条件,设计了基于触发规则的事件驱动策略,构建了以最大化调度收益和最小化扰动测度为目标函数的反应式调度多目标优化模型,提出了基于任务迫切度的选择策略、基于时间和角度的合成策略、基于冲突程度的替换策略,最后采用了一种考虑任务合并、插入、移位、替换的启发式算法。仿真结果表明,相比事件驱动和周期驱动策略,文中所设计的基于触发规则的事件驱动策略能够兼顾触发次数、任务完成率和响应时间,是一种有效的反应式驱动策略,MISR-HA(Heuristic Algorithm for Merging,Inserting,Shifting and Replcing)算法相比其他3种算法在调度收益上平均提高了14.78%,在扰动测度上平均降低了41.91%,在运行时间上平均缩短了14.63%,从而有效地证明了该算法的有效性。
逼近高斯信道容量的M-APSK调制与解调方法
蒋炫佑, 魏以民, 王雷, 刘灵君, 彭磊
计算机科学. 2019, 46 (10): 97-102.  doi:10.11896/jsjkx.180901777
摘要 ( 508 )   PDF(2226KB) ( 1634 )   
参考文献 | 相关文章 | 多维度评价
在数字通信系统中,均匀星座分布的离散信号经过功率受限、噪声功率谱密度一定的AWGN信道传输后,最大信息速率无法达到高斯信道容量。为了更好地提高传输速率使其逼近信道容量,信号星座的非均匀分布设计是非常必要的。为此,提出了一种基于Box-Muller变换,在星座点数趋近无穷时满足高斯分布的M-APSK信号星座构建方法,并通过仿真对其信道容量可实现性进行了验证。实验结果表明,与矩形M-QAM信号相比,该信号在调制阶数较高时星座容量指标得到了可观的提升。在此基础上,根据该星座分布的特点,设计了基于格雷编码和简化Max-Log LLR算法的调制解调方案,明显降低了系统复杂度。通过对系统复杂度、误比特率进行Matlab仿真,验证了所提方案的相关性能。
欠定条件下基于主成分的亚采样信号重构
王鹏飞, 张杭
计算机科学. 2019, 46 (10): 103-108.  doi:10.11896/jsjkx.190700195
摘要 ( 396 )   PDF(2054KB) ( 965 )   
参考文献 | 相关文章 | 多维度评价
传统的信息采集还原方式的资源消耗高,对信息数据的利用效率和处理效率较低,难以适应瞬息万变的战场信息感知环境,而且复杂的电磁对抗环境会造成测量通道维度的动态变化,进一步加剧了信息采集还原的难度。在大规模多输入多输出无线通信系统场景下,利用信息数据在变换域空间中的稀疏特性,提出了一种基于压缩感知理论的亚采样重构方案。该方案利用主成分基变换的方式实现信息数据的稀疏化,采用子空间追踪的方式实现信号的亚采样还原,对测量通道维度的动态变化具有较强的鲁棒性。同时,采用分块思想避免了高阶矩阵参与处理过程中的迭代运算,使得算法具有更好的求解精度和效率,实现了欠定条件下信息数据的高效重构。
异构网络中基于吞吐量优化的资源分配机制
张绘娟, 张达敏, 闫威, 陈忠云, 辛梓芸
计算机科学. 2019, 46 (10): 109-115.  doi:10.11896/jsjkx.180901787
摘要 ( 313 )   PDF(1945KB) ( 772 )   
参考文献 | 相关文章 | 多维度评价
针对异构蜂窝网络中D2D(Device-to-Device)通信用户复用蜂窝用户上行信道产生的干扰问题和频谱资源分配优化问题,提出一种基于改进粒子群算法的D2D通信资源分配算法,并将该算法与改进的闭环功率控制算法相结合进行资源管理。此方案通过设置信干噪比(Signal-to-Interference Noise Ratio,SINR)门限值来保证用户的通信服务质量(Quality of Service,QoS),使用改进粒子群算法为D2D用户进行资源分配后,再通过基于接收信干噪比的闭环功率控制算法动态调整用户的发射功率,以减少干扰。仿真结果表明,该方案能够有效抑制异构通信系统中由于引入D2D用户导致的干扰问题,并提高频谱资源的利用率和系统的吞吐量。
一种基于通联数据的信息扩散路径推测算法
项英倬, 魏强, 游凌
计算机科学. 2019, 46 (10): 116-121.  doi:10.11896/jsjkx.180901759
摘要 ( 323 )   PDF(1926KB) ( 950 )   
参考文献 | 相关文章 | 多维度评价
信息的传播和扩散对于研究市场营销、病毒木马的传播等具有重要意义。但是,在许多场景下仅能获取网络中用户的通联数据,难以获取用户间通信的内容。针对该问题,文中提出了一个基于概率的信息传播模型来对网络中的通联数据进行建模,以此估计网络中用户通信内容的相关性,进而推测网络中信息的扩散路径。文中证明了求解该模型的复杂度为NP-hard,并提出了PathMine算法来获取模型的一个近似最优解。实验表明,所提PathMine算法能够高效地挖掘网络中信息的传播模式,优于已知的其他方法。
基于Whittle索引的RFID多阅读器信道资源分配算法
石静, 郑嘉利, 袁源, 王哲, 李丽
计算机科学. 2019, 46 (10): 122-127.  doi:10.11896/jsjkx.180801602
摘要 ( 436 )   PDF(1909KB) ( 781 )   
参考文献 | 相关文章 | 多维度评价
针对无线射频识别(RFID)系统中多标签-多阅读器环境下标签与信道资源的分配问题,提出了一种基于Whittle索引的多阅读器信道资源分配算法。在RFID多阅读器信道分配问题中建立无休止多臂赌博机(RMAB)模型,并采用Whittle索引算法进行求解。该算法依据信道前期的忙、闲状态,将信道空闲概率作为信任值赋予每个信道,并根据信道当前的信任值计算其Whittle索引值。标签选择索引值最大的信道作为可能感知接入的信道,随后根据每个时隙数据发送成功与否来动态更新信道信任值。对信道分配过程中可能出现的标签碰撞问题,采用等待一个时隙后再根据识别反馈信息重新选择接入信道的方式来解决。将文中所提算法从两个方面与典型的DiCa算法和Gentle算法进行比较:一是在阅读器数量固定的前提下,其系统吞吐量随待识别标签数量的变化情况;二是在待识别标签数量固定的前提下,其系统吞吐量随阅读器数量的变化情况。仿真结果表明,所提算法在上述两种情况下的系统吞吐量均优于DiCa算法和Gentle算法,其吞吐量在阅读器数量固定的前提下分别平均提高了150.34%和23.98%,在待识别标签数量固定的前提下分别平均提高了205.01%和43.37%。随着阅读器和待识别标签数量的增多,所提算法在系统吞吐量方面的优势更加明显。因此,采用提出的算法可以对有限的信道资源进行合理的动态分配,有效提高RFID多阅读器系统的识别效率。
云环境下基于优先级的多QoS约束工作流调度
杜艳明, 肖建华
计算机科学. 2019, 46 (10): 128-134.  doi:10.11896/jsjkx.180801591
摘要 ( 564 )   PDF(3841KB) ( 1115 )   
参考文献 | 相关文章 | 多维度评价
为了实现云计算环境中工作流调度的执行时间与代价的均衡优化,提出了一种截止时间与预算双QoS约束条件下的工作流均衡调度算法。该算法将最优调度方案的求解过程划分为两个阶段:资源分级调度阶段和任务分级调度阶段。资源分级调度阶段中,算法通过任务升秩值定义任务优先级,并将任务按升秩值排序后为任务选择满足双QoS约束的适合资源集;进一步,在任务分级调度阶段,算法定义了4条满足时间/代价均衡的最优资源选择规则,进而得到最优工作流调度方案。通过设计算例,详细阐述了新算法的思想。最后,通过现实科学工作流的仿真测试,将所提算法与同类算法进行了性能比较。结果表明,在不同紧密程度的约束条件下,所提算法在调度代价、调度时间和调度成功率等指标上均表现出更优的性能,可以有效实现均衡调度。
信息安全
基于NFV的防范SDN控制器中UDP控制分组冗余的机制
薛昊, 陈鸣, 钱红燕
计算机科学. 2019, 46 (10): 135-140.  doi:10.11896/jsjkx.180901659
摘要 ( 543 )   PDF(1705KB) ( 714 )   
参考文献 | 相关文章 | 多维度评价
尽管软件定义网络(Software Defined Networking,SDN)的安全性得到了极大的关注,但SDN控制器受大流UDP冗余分组威胁的问题并没有得到有效解决。对此,基于SDN和网络功能虚拟化(Network Function Virtualization,NFV)技术的特点,结合SDN控制器处理UDP和TCP两种数据流时的负载状况,首先提出了一种新型的基于NFV的防范SDN控制器中UDP冗余分组的机制,前置于OpenFlow交换机口的检测中间盒能够有效地检测并滤除UDP流冗余分组;其次,提出了一种经济有效的基于NFV的检测中间盒的实现方法,使用Linux容器实现检测中间盒,在SDN控制器下发流表之前只允许UDP流首分组通过中间盒,保证后续UDP流分组在到达OpenFlow交换机时已经有相关的流表项存在;最后,在Linux服务器中实现了基于该机制的原型系统并进行实验。结果表明,当非首分组的时延t大于或等于控制器处理单个分组的时间时,该方法能够有效地解除UDP冗余分组的威胁。
基于后缀树的二进制可执行代码的克隆检测算法
张凌浩, 桂盛霖, 穆逢君, 王胜
计算机科学. 2019, 46 (10): 141-147.  doi:10.11896/jsjkx.180801573
摘要 ( 547 )   PDF(1550KB) ( 1005 )   
参考文献 | 相关文章 | 多维度评价
如何发现代码克隆,是软件维护和软件侵权纠纷案件中的一个关键问题。由于商业保密等原因,在商业软件的侵权纠纷案中往往无法使用基于源代码比对的克隆检测技术。因此,针对这类无法获得源代码进行代码克隆检测的场景,文中提出一种针对二进制可执行文件分析的代码克隆检测方法。首先,通过反编译与指令类型抽象得到二进制可执行目标文件的指令类型序列;然后,对指令类型序列构建后缀树,利用后缀树的性质获取函数级的指令序列间的克隆信息,并通过消除沙砾指令进一步提高检测性能;最后,基于MIPS32指令集,使用Linux 内核和经过混淆处理的代码分别作为克隆级别0-级别2与级别1-级别4的二进制可执行文件代码克隆测试样本,并与源代码检测工具进行对比测试。结果表明,所提算法在缺少源代码的场景下同样能进行细粒度的克隆分析,且对各级代码克隆均具有较好的检测性能。
面向大数据的隐私发布暴露检测方法
柯昌博, 黄志球, 吴嘉余
计算机科学. 2019, 46 (10): 148-153.  doi:10.11896/jsjkx.190100050
摘要 ( 322 )   PDF(1479KB) ( 705 )   
参考文献 | 相关文章 | 多维度评价
为了防止云服务非法获取用户的个人敏感隐私信息,提出一种面向大数据的隐私信息发布检测与保护方法。首先,对用户的隐私数据进行分类,分别对隐私数据的相似度和暴露代价进行度量;其次,根据相似度和暴露代价检测云服务所要求用户提供的隐私数据中是否包含暴露链和关键隐私数据;再次,对连续隐私数据集(包含暴露链和关键隐私数据的数据集)进行离散化,同时防止离散的隐私数据集(不包含暴露链和关键隐私数据的数据集)连续化;最后,通过实验对离散的隐私数据集与没有离散的数据集进行隐私数据链的发现,从查准率和查全率上看,Exact过滤器的查准率低于未被离散的数据集57%,而查全率低于未被离散的数据集17%。因此,所提方法达到了保护用户敏感隐私信息的目的。
基于聚类的社交网络隐私保护方法
周艺华, 张冰, 杨宇光, 侍伟敏
计算机科学. 2019, 46 (10): 154-160.  doi:10.11896/jsjkx.180901749
摘要 ( 432 )   PDF(1712KB) ( 1098 )   
参考文献 | 相关文章 | 多维度评价
随着社交网络的迅速发展,社交网络积累了大量的数据,它们在一定程度上反映了社会规律。针对如何在保证隐私安全的前提下挖掘出有效知识的问题,提出了基于聚类的社交网络隐私保护方法,该方法具有隐私保护力度自适应、匿名模型安全性和有效性高的特点。该方法基于用户信息和社交关系进行聚类,将社交网络中的所有节点根据节点间的距离聚类为至少包含k个节点的超点,并对超点进行匿名化处理。匿名后的超点能够有效地防范以节点属性隐私、子图结构等为背景知识的各类隐私攻击,使攻击者无法以大于1/k的概率来识别用户。根据聚类算法和社交网络的特点优化聚类过程中初始节点的选取算法和节点间距的计算方法;同时通过结合自适应思想,优化隐私保护力度的选取方法,有效地减少了信息损失,提高了数据有效性。在Matlab上使用不同的数据集进行实验验证,结果表明所提算法在信息损失和运行时间上均优于其他相关方法,进一步证明了它的有效性和安全性。
基于NAWL-ILSTM的网络安全态势预测方法
朱江, 陈森
计算机科学. 2019, 46 (10): 161-166.  doi:10.11896/jsjkx.180901820
摘要 ( 642 )   PDF(1818KB) ( 1074 )   
参考文献 | 相关文章 | 多维度评价
安全态势是网络安全预警的前提。各种复杂网络环境中的网络攻击行为给网络带来了意想不到的挑战,导致网络负载增加和网络故障等突发网络安全事件随时都会发生。因此,针对网络安全态势时间序列的不确定性、非线性等特点,为了提高网络安全态势预测的精度,提出了基于改进Nadam和改进长短期记忆网络(NAWL-ILSTM)的网络安全态势预测方法。首先,利用一种在线更新机制改进长短期记忆网络(LSTM)以建立态势时间序列预测模型,它可以实时地对接收到的在线观测数据进行参数更新,使代价函数最小化,从而解决了传统LSTM网络模型不能合理地利用网络系统在线传送数据的问题,在优化参数更新的同时也大大提高了LSTM模型的预测精度;然后,针对神经网络训练过程中收敛速度较慢和训练成本较高的问题,采用Look-ahead方法对Nesterov加速梯度的自适应估计动量算法(Nadam)的更新公式进行改进,以加快模型的收敛速度,从而加快了ILSTM预测模型的训练速度,减少了训练的时间和成本。基于Python在tensorflow环境下进行仿真实验,结果验证了所提的基于在线更新机制的LSTM预测模型的合理性,通过收敛性分析和算法对比得出了NAWL算法具有更快的收敛速度的结论。最后,与其他预测模型的对比结果表明了NAWL-ILSTM预测模型在态势时间序列分析中具有更强的适用性和更高的准确性。
社交感知的D2D内容安全缓存算法
张灿, 史鑫, 王萌
计算机科学. 2019, 46 (10): 167-172.  doi:10.11896/jsjkx.180901776
摘要 ( 383 )   PDF(1640KB) ( 662 )   
参考文献 | 相关文章 | 多维度评价
Device-to-Device(D2D)内容共享技术在使用户能够更加便捷、高效地获取内容的同时,也面临着更为严峻的安全挑战。针对窃听用户存在的D2D内容共享场景,通过设计基于最大距离可分(Maximum Distance Separable,MDS)码的D2D内容安全缓存机制,在提高缓存性能的同时实现内容共享的信息安全。首先,为了避开窃听用户并选择能够带来更好传输性能的内容提供者,提出了基于用户距离和社交信任度的内容提供者选择方案,以明确进行预缓存的用户。在此基础上,为了保证内容在D2D链路上的传输性能,并促使内容更多地缓存在用户更信任的内容提供者中,基于社交信任度和能效提出了社交相关能效的性能度量指标。然后,以最大化社交相关能效为目的,设计缓存内容布设方案,其核心优势在于:利用MDS编码特性提出安全缓存条件,从而在优化社交相关能效的基础上确保窃听用户无法获取足以恢复出原内容的编码块。最后,提出社交感知的基于MDS编码的D2D内容安全缓存算法。仿真分析表明,相比内容提供者随机选择的D2D内容安全缓存算法,所提算法的最优性能提升了15%;相比没有安全缓存条件的D2D内容缓存算法,所提算法虽然需要以42%的性能损失来确保信息安全,但其能够在内容提供者的缓存容量相对更小时实现性能最优。
基于深度卷积神经网络的入侵检测研究
丁红卫, 万良, 周康, 龙廷艳, 辛壮
计算机科学. 2019, 46 (10): 173-179.  doi:10.11896/jsjkx.180801429
摘要 ( 767 )   PDF(2224KB) ( 1958 )   
参考文献 | 相关文章 | 多维度评价
当今网络数据呈现出更为庞大、复杂和多维的特性。传统的基于机器学习的方法在面临高维数据特征时需要手动提取大量特征,特征提取过程复杂且计算量大,达不到入侵检测的准确性和实时性的要求。深度学习在处理复杂数据方面具有较好的优势,可以自动从数据中提取更好的表示特征。为此,文中创新性地提出了一种基于深度卷积神经网络的入侵检测方法。首先,提出了一种将网络数据转换为图像的方法;然后,针对转换之后的图像设计了一个深度卷积神经网络模型,该模型使用两层的卷积层和池化层对图像进行降维处理,并引入了Relu函数作为新的非线性激活来代替传统的神经网络中常用的Sigmoid或Tanh函数,以加快网络的收敛速度,且该模型引入了Dropout方法来防止网络模型发生过度拟合的现象;最后,通过构建完成的深度卷积神经网络模型对转换之后的图像进行训练和识别。实验结果表明,与已有方法相比,所提方法具有更好的检测准确率、更低的误报率和更快的检测速率。
应用色彩纹理特征的人脸防欺骗算法
包晓安, 林晓东, 张娜, 徐璐, 吴彪
计算机科学. 2019, 46 (10): 180-185.  doi:10.11896/jsjkx.180901688
摘要 ( 725 )   PDF(2273KB) ( 1199 )   
参考文献 | 相关文章 | 多维度评价
针对目前人脸识别系统中存在易被人脸照片、人脸视频等方式攻击的问题,提出了一种应用融合色彩纹理特征的人脸防欺骗检测算法。目前,主要的人脸防欺骗检测算法分为用户配合式检测与静默式检测。针对如今火热的在线认证系统,静默式活体检测因具有良好的用户体验性以及分类结果的精确性,成为了该领域的热门研究方向。不同于当前静默式活体检测算法中较为流行的基于亮度特征以及图像质量分析的活体检测方法,文中在验证了色彩特征信息对区分活体人脸与虚假人脸的有效性的基础上,充分地研究了局部纹理特征的特性,并提出了一种结合亮度特征、色彩特征以及局部纹理特征的特征提取融合算法。首先,通过seetaFace人脸检测算法定位人脸及人眼坐标,并利用人眼坐标信息提取仅包含人脸的图像,以减少周围背景图像的干扰;其次,通过转换色彩空间的方式分离图像中的色彩信息和亮度信息,利用色道分离的方式有效地提取纹理特征;最后,采用融合局部纹理特征的提取方法在不同色道上提取特征,并将各通道提取的特征向量联合为一个特征向量,运用支持向量机(Support Vector Machine,SVM)训练分类器。将所提算法在MSU,CASIA,OULU标准人脸活体检测数据集中进行实验,实验结果表明,算法的性能良好,在分类准确率上取得了良好的效果。
软件与数据库技术
面向局域检索的时变图数据存储与查询模型
赵萍, 寿黎但, 陈珂, 陈刚, 吴晓凡
计算机科学. 2019, 46 (10): 186-194.  doi:10.11896/jsjkx.19100530C
摘要 ( 434 )   PDF(1876KB) ( 847 )   
参考文献 | 相关文章 | 多维度评价
时变图数据是实体间相互关联、实体属性和实体间关系会发生频繁变化的图结构数据,适用于电子商务的商品与用户关系表示、包含时间维度的知识图谱构建、企业组织架构管理等场景。针对建立时变图数据通用存储检索方案的挑战,文中提出了一种面向局域检索的模型方案,基于图数据库高效的关系检索能力以及分布式键值数据库在存储与查询方面的优势,实现了通用的可提供丰富表达能力的图数据历史存储检索系统。实验证明,所提方案在历史属性存储上具备显著的优势。
基于冲突依赖消除的网络表格外键检测算法
王佳敏, 王宁
计算机科学. 2019, 46 (10): 195-201.  doi:10.11896/jsjkx.180901748
摘要 ( 469 )   PDF(1590KB) ( 716 )   
参考文献 | 相关文章 | 多维度评价
作为数据库中最重要的约束之一,外键关系对数据分析与集成有着重要的意义。大量的网络表格缺乏显式指定的外键,但外键关系对于理解和利用网络表格至关重要。目前的研究工作主要集中于对属性间包含依赖的查找,一些传统关系表格上的外键关系检测方法无法解决网络表格的异构性而产生的大量冲突外键。综合考虑网络表格间的冲突依赖,提出了一种基于冲突依赖消除的网络表格外键检测算法。首先提出冲突依赖的概念,据此对候选外键关系建立包含依赖图;然后构建包含依赖图的层结构,并给出候选外键关系的强度定义;最后在逐层消除冲突依赖的基础上,筛选出真正的外键关系。为验证算法的有效性,实验数据集分别选择了具有完整模式规范的WIKI数据集,以及缺少模式信息的DWTC数据集和WDC数据集。基于以上数据集,将提出的算法与其他两种外键检测方法进行精确率、召回率以及F值的对比。实验结果表明,提出的算法在WIKI数据集和DWTC数据集上的精确率、召回率和F值均高于现有算法;在最新的大型网络表格数据集WDC中,所提算法的精确率、召回率和F值高达0.89,0.88和0.89,且大大优于其他算法。因此,与现有的方法相比,所提算法更适用于网络表格,同时具备更高的精确率、召回率以及F值。
云存储系统中最小开销的数据副本布局转换策略
吴修国, 刘翠
计算机科学. 2019, 46 (10): 202-208.  doi:10.11896/jsjkx.180901623
摘要 ( 386 )   PDF(2045KB) ( 716 )   
参考文献 | 相关文章 | 多维度评价
副本技术是提高云存储系统中数据可靠性访问和系统容错性的常用策略。依据用户需求以及环境变化,及时对数据副本布局进行动态调整,是目前副本管理研究的重要内容之一。然而,现有研究大都以副本布局转换是自动完成的为前提,仅关注于数据副本数目与位置等副本布局方案设计,较少涉及副本布局转换的任务调度问题。事实上,副本布局转换是有关多数据中心数据副本迁移与删除操作的复杂任务调度问题,不同的任务调度策略占用的空间、时间不同,由此导致成本、效率等存在较大差异。基于此,首先给出云存储系统中面向多数据中心的数据副本布局转换任务调度模型,以及该问题的可行性分析。然后,从降低成本的角度给出最小开销的数据副本布局转换任务调度问题的定义,并基于0-1背包问题证明其是NP完全的。在此基础上,给出随机(Random)、最小传输开销优先(MTCF)、最大机会成本优先(MOCF)以及同数据最小传输成本优先(MTCFSD)等副本布局转换任务调度策略。最后,以CloudSim为仿真平台进行了模拟实验,结果表明,最小开销的数据副本布局转换策略与同类算法相比,在传输次数上减少了约60%,相对开销降低了约50%,证明了转换策略的可靠性与有效性,从而进一步提升了云存储系统的性能。
带有区间信息的软件质量评价模型
岳川, 彭小红
计算机科学. 2019, 46 (10): 209-214.  doi:10.11896/jsjkx.180801554
摘要 ( 272 )   PDF(1775KB) ( 714 )   
参考文献 | 相关文章 | 多维度评价
针对传统评价方法存在的缺陷,提出了一种新的软件质量评价模型。首先,针对已有投影模型存在的缺陷,给出了一个新的标准化的投影模型。在群决策环境下,使用区间数作为决策信息,借助所建的投影模型和TOPSIS (Technique for Order Preference by Similarity to Ideal Solution)技术,建立了一种软件质量的评价模型,并给出了详细的评价程序。评价模型包括评价矩阵、加权评价矩阵、正负理想决策、加权评价矩阵到理想决策的投影测度以及它们的相关系数,评价信息来源于问卷调查。通过一个实例和实验分析,验证了该方法的可行性和有效性。实验结果表明,该评价模型具有较强的实用性、较好的鲁棒性和容易操作的特性。
人工智能
基于多角度注意力机制的单一事实知识库问答方法
罗达, 苏锦钿, 李鹏飞
计算机科学. 2019, 46 (10): 215-221.  doi:10.11896/jsjkx.190400071
摘要 ( 361 )   PDF(1677KB) ( 953 )   
参考文献 | 相关文章 | 多维度评价
近年来,基于知识库的问答受到了广泛的关注,成为了一个重要的自然语言处理任务。在基于知识库的问答任务中,简单问题是指能够通过知识库的单一事实进行回答的问题。针对简单问题的回答,现有的解决方法主要是将问题和知识库事实映射到同一向量空间中,然后通过计算问题和事实之间的相似度来得到答案,但这种方法会损失原始单词的部分语义交互信息。针对该问题,文中提出了一种基于多角度注意力机制的关系检测模型,从多个角度对问题和知识库关系的相关性进行了建模,从而保留了更多的原始交互信息,并提高了模型的准确率。此外,为了减小噪音的影响并提高实体识别的准确率,在实体链接过程中提出结合基于语言模型的动态词向量和单词的词性特征对问题进行表征。实验结果表明,所提方法在基于FB2M和FB5M的SimpleQuestions数据集上分别获得了78.9%和78.3%的准确率,能够很好地反映问题与知识库关系之间的语义相关性,并提升了单一事实知识库问答的准确率。
基于败者组与混合编码策略的NSGA-II改进算法
刘鑫平, 顾春华, 罗飞, 丁炜超
计算机科学. 2019, 46 (10): 222-228.  doi:10.11896/jsjkx.181001852
摘要 ( 407 )   PDF(2284KB) ( 840 )   
参考文献 | 相关文章 | 多维度评价
在精英选择中NSGA-II的拥挤系数算子对局部拥挤区域的分布性优化效果不佳,并且会使某些更接近Pareto最优解集的个体被淘汰。针对拥挤系数算子存在优秀个体不被保留的缺陷,提出了一种基于败者组与混合编码策略的改进算法(LGHC-NSGA-II)。参照棋类比赛中的双败淘汰制,构建了败者组外部归档集,在迭代结束后将归档集与末代父代种群合并,并采用循环拥挤系数排序策略优化分布性。同时,针对传统编码方式在全局或局部空间上搜索能力较差的缺陷,提出了一种混合编码策略,有效地提高了算法的收敛性。基于ZDT系列问题上的测试结果表明,改进算法与8种多目标进化算法相比,在算法的收敛性、分布性与鲁棒性上均具有较高的优越性。
基于指数加权的区间直觉模糊熵及其应用
张毛银, 郑婷婷, 郑婉容
计算机科学. 2019, 46 (10): 229-235.  doi:10.11896/jsjkx.180901738
摘要 ( 558 )   PDF(1253KB) ( 712 )   
参考文献 | 相关文章 | 多维度评价
熵是刻画模糊集不确定性程度的一个重要手段。为刻画区间直觉模糊集的不确定性,首先基于区间数的Hukuhara差(简称H-差)提出区间直觉模糊集的核区间的概念,其能够有效反映区间直觉模糊集中隶属度与非隶属度的力量对比所产生的模糊性。考虑到区间直觉模糊集的不确定性由模糊性和犹豫性共同决定,提出了更符合人们直觉的区间直觉模糊集不确定度量的基本准则,由于区间直觉模糊集的模糊程度和犹豫程度所占比重并不能完全确定,因此为更好地描述两者对区间直觉模糊集不确定性程度的影响,利用指数函数加权的方法构造出一种新的区间直觉模糊熵。通过性质讨论和不同方法下区间直觉模糊熵的对比实例分析可知,在犹豫度区间长度相同的情况下,区间直觉模糊熵随着核区间的左右区间数的增大而减小;在核区间相同的情况下,区间直觉模糊熵随着犹豫度区间的左右区间数的增大而增大,符合其不确定性度量的基本准则。所提方法能充分反映不确定性随模糊性和犹豫性的增加而增加,这符合人们的直觉。其次,分析并验证了当区间直觉模糊集退化为直觉模糊集时,该方法构造的直觉模糊熵也能够有效度量直觉模糊集的不确定性程度。最后,将新的熵公式有效地应用到属性权重完全未知的多属性决策分析中,并通过实例验证了其合理性,为解决多属性决策问题提供了一种新的思路。
一致决策信息系统规则提取的形式向量方法
延安, 闫心怡, 陈泽华
计算机科学. 2019, 46 (10): 236-241.  doi:10.11896/jsjkx.190200270
摘要 ( 501 )   PDF(2039KB) ( 710 )   
参考文献 | 相关文章 | 多维度评价
知识表示与获取是人工智能领域的关键问题之一,规则提取是其中的一项重要研究内容。形式概念分析是针对大数据和不确定性知识的有效处理方法,被广泛应用于知识表示和数据挖掘等领域。形式概念分析可以实现决策信息系统的规则提取,首先将决策信息系统转化为形式背景生成概念,进而通过概念运算获取规则。然而,概念的生成是一项复杂的运算过程,且生成的规则往往存在冗余属性。在形式背景的基础上,定义并讨论了形式向量及其性质,构建了形式向量树形拓扑图,提出了一种基于形式向量的决策信息系统最简规则快速提取算法。引入粒度的思想,由粗到细求取不同粒度空间下的形式向量,通过条件形式向量和决策形式向量的关系提取规则。基于树形拓扑图实现了规则提取过程的可视化,并且通过剪枝操作极大地减少了规则提取过程的实际时间开销。通过数学证明与实例分析验证了算法的正确性和有效性,通过对比实验证明了算法不仅具备更好的时效性而且具备较高的识别率。
基于多特定类的序决策表下近似约简
于天佑, 张楠, 岳晓冬, 童向荣, 孔贺庆
计算机科学. 2019, 46 (10): 242-251.  doi:10.11896/jsjkx.180901781
摘要 ( 336 )   PDF(2273KB) ( 689 )   
参考文献 | 相关文章 | 多维度评价
属性约简是粗糙集理论研究的重要内容之一,通过属性约简可以获取给定信息系统的最小特征子集。经典的序决策表属性约简是关于决策属性中的所有决策类的约简,但在实际应用中,由于决策者的偏好或者部分决策类数据的缺失,往往仅需要获得特定决策类的属性约简。基于这种考虑,文中回顾了序决策表的优势关系与下近似约简,定义了基于序决策表的单特定类与多特定类下近似约简,构造了相应的差别矩阵,提出了基于多特定类的序决策表下近似属性约简算法。基于多特定类的序决策表下近似约简可以较好地退化为基于单特定类的序决策表下近似约简或基于经典全决策类的序决策表下近似约简,是一种更加广泛的约简框架。实验采用了6组UCI数据集,分别在每个数据集上计算了3个单特定类和3组多特定类的约简,并将约简结果和约简效率与经典全类下近似约简、上近似约简及最大分布约简3个算法的约简结果和约简效率进行了比较。实验结果表明,在选定的特定类的数量相对全部决策类的数量较少时,约简的结果可能会更短,约简的效率也会有不同程度的提升。
基于多层次注意力机制的远程监督关系抽取模型
李浩, 刘永坚, 解庆, 唐伶俐
计算机科学. 2019, 46 (10): 252-257.  doi:10.11896/jsjkx.180901780
摘要 ( 679 )   PDF(1655KB) ( 1357 )   
参考文献 | 相关文章 | 多维度评价
实体关系抽取作为信息抽取的主要任务之一,其目的在于确定无结构文本中两个实体的关系类别。目前准确率较高的有监督方法由于需要大量的人工标注语料而受到了限制,而远程监督方法则通过知识库与文本集进行启发式对齐来获取大量关系三元组,这是解决大规模关系抽取任务的主要途径。针对目前远程监督关系抽取的研究未能充分利用句子上下文词语的高层语义,以及未考虑关系之间的依赖包含关系的问题,文中提出了一种基于多层次注意力机制的远程监督关系抽取模型。该模型首先通过双向GRU(Gate Recurrent Unit)神经网络对句子词向量进行编码来获取句子高维语义;其次通过引入词语层注意力来计算两个实体与上下文词语的相关程度,从而充分捕捉句子中实体上下文的语义信息;然后在多个实例上构建句子层的注意力来减少标签错误标注的问题;最后通过关系层的注意力自动学习不同关系之间的依赖包含关系。在FreeBase+NYT公共数据集上的实验结果表明,在双向GRU模型的基础上引入词语层、句子层和关系层注意力机制对提高远程监督关系抽取的效果都起到了促进作用;将三层注意力机制进行融合得到的多层次注意力机制关系抽取模型的准确率和召回率相较于现有的主流方法提高了4%左右,更好地实现了关系抽取,从而为进一步构建知识图谱、智能问答等应用奠定了理论基础。
基于词嵌入辅助机制的情感分析
韩旭丽, 曾碧卿, 曾锋, 张敏, 商齐
计算机科学. 2019, 46 (10): 258-264.  doi:10.11896/jsjkx.180901687
摘要 ( 740 )   PDF(1285KB) ( 1128 )   
参考文献 | 相关文章 | 多维度评价
文本情感分析是自然语言处理研究领域中一个重要的研究方向,如何分析出长文本的情感极性是一个研究难点。目前,大部分研究工作倾向于将词嵌入应用在神经网络模型中进行情感分析,虽然这种方法的词特征表示能力较好,但是对于长文本来说有待优化,过长的文本会给模型带来沉重的负担,使模型在训练过程中耗费更多的时间和计算资源。针对此问题,文中提出了一种基于词嵌入辅助机制的注意力神经网络模型(Word Embedding Auxiliary Mechanism Based Attentional Neural Network Model,WEAN),并将其应用于长文本的情感分析任务。该模型使用词嵌入辅助机制解决了长文本在神经网络模型中的训练负担问题,利用双向循环神经网络获取序列中的上下文信息,同时应用注意力机制来捕获序列中不同重要程度的信息,提高了情感分类的性能。在IMDB,Yelp 2013和Yelp 2014数据集上的实验结果表明,与NSC+LA模型相比,所提模型的情感分析准确率分别提高了1.1%,2.0%和2.6%。
一种基于生成对抗网络的强化学习算法
陈建平, 邹锋, 刘全, 吴宏杰, 胡伏原, 傅启明
计算机科学. 2019, 46 (10): 265-272.  doi:10.11896/jsjkx.180901655
摘要 ( 611 )   PDF(1721KB) ( 1296 )   
参考文献 | 相关文章 | 多维度评价
针对强化学习方法在训练初期由于缺少经验样本所导致的学习速度慢的问题,提出了一种基于生成对抗网络的强化学习算法。在训练初期,该算法通过随机策略收集经验样本以构成真实样本池,并利用所收集的经验样本来训练生成对抗网络,然后利用生成对抗网络生成新的样本以构成虚拟样本池,再结合真实样本池和虚拟样本池来批量选择训练样本,以此来提高学习速度。同时,该算法引入了关系修正单元,结合深度神经网络,训练了真实样本池中样本的状态、动作与后续状态、奖赏之间的内部联系,结合相对熵优化生成对抗网络,提高生成样本的质量。最后,将所提出的算法与DQN算法应用于OpenAI Gym中的CartPole问题和MountainCar问题。实验结果表明,与DQN算法相比,所提算法可以有效地加快训练初期的学习速度,且收敛时间缩短了15%。
基于梯形规划曲线的智能车速度规划算法研究
曹波, 李永乐, 朱英杰, 贾斌, 徐友春
计算机科学. 2019, 46 (10): 273-278.  doi:10.11896/jsjkx.190400147
摘要 ( 434 )   PDF(2210KB) ( 1846 )   
参考文献 | 相关文章 | 多维度评价
针对QP(Quadratic Programming)算法应用于智能车速度规划时,存在停车过程减速较晚而导致减速距离短、平稳性差的问题,文中提出了基于梯形规划曲线的智能车速度规划算法。首先建立速度规划的QP模型并求解;然后分析不同初速度下基于梯形规划曲线的停车过程,将其结果作为非线性约束来实例化QP模型并再次求解;最后通过仿真实验和实车实验对比分析QP算法和所提算法的实验结果。仿真实验中,分别以39.8 km/h,31.5 km/h,20.6 km/h的初速度进入停车过程,速度变化曲线表明所提算法能够将减速开始时间提前,初步表明该算法具有优化效果;实车实验中,较QP算法而言,所提算法将3种初速度下的停车过程分别提前5.9 s,5.0 s,3.7 s,平均加速度绝对值分别减少0.5 m/s2,0.5 m/s2,0.4 m/s2,最大加速度绝对值分别减少0.16 m/s2,0.33m/s2,0.35 m/s2。仿真实验和实车实验表明,所提算法的改进效果明显,具有显著的优化作用。
基于M-3WD的多阶段区域转化策略研究
郭豆豆, 姜春茂
计算机科学. 2019, 46 (10): 279-285.  doi:10.11896/jsjkx.180801609
摘要 ( 301 )   PDF(1332KB) ( 732 )   
参考文献 | 相关文章 | 多维度评价
三支决策的基本思想是三分而治。三支决策的提出者加拿大学者姚一豫教授在2018年基于分治模型(Trisecting-and-acting),进一步提出第三个要素——效(Outcome),从而形成了分治效结合的三支决策TAO模型。分、治(施加的策略)、效构成了三支决策的3个基本要素。在基于移动的三支决策模型中,对象在“治”的作用下在3个区域间移动,从而形成3个新区域,形成这3个新区域的过程被称为区域转化。在“治”这一步上,考虑“治”可以是一次性的,也可以是多次性的,具有多次可重入性,从而导致三分区域的转化可以是一次性的转化,也可以是多次性的转化。在这一过程中,涉及到成本或者收益等代价问题,从而需要从经济性的角度进一步考虑“治”。鉴于此,文中从广义三支决策的视角出发,提出了一个带有多阶段区域转化的三支决策模型,通过“治”后效果的度量来寻找最优的“治”。文中研究了最优转化策略,即一次性转化和多次性转化的费用优化问题。在带有多阶段区域转化的三支决策模型中,分析区域转化的费用,并按照区域转化次数划分阶段数,设计多阶段区域转化“治略”的动态规划算法,寻找最优的转化治略,进而给出在收益最大化的情况下的最优的转化治略。最后通过一个实例分析了区域一次性和多次性转化的费用,进一步得到多阶段区域转化的最佳转化次数以及最优转化费用,实现了转化治略的费用最优,说明了算法的有效性和实用性。
图形图像与模式识别
一种深度图像帧内编码单元快速划分算法
朱威, 易瑶, 王图强, 郑雅羽
计算机科学. 2019, 46 (10): 286-294.  doi:10.11896/jsjkx.180701337
摘要 ( 357 )   PDF(2752KB) ( 964 )   
参考文献 | 相关文章 | 多维度评价
新一代的三维视频编码标准——3D-HEVC (3D High Efficient Video Coding)为了显著减少视点个数,增加了包含视频场景几何信息的深度图像,但深度图像编码的计算复杂度非常高,其编码时间是彩色图像的4倍左右。为了降低深度图像编码的计算复杂度,文中提出了一种基于纹理特征分析的深度图像帧内编码单元(CU)快速划分算法。首先,对深度图像的编码树单元(CTU)进行初级纹理特征分析,根据深度图像的纹理变化特征,在大津法的基础上对全局灰度进行分级,再通过判断CTU内采样点的纹理复杂度以及纹理方向标识来确定当前CTU的划分趋势。然后,对纹理复杂度高的CTU进行CU级别的精细纹理特征分析,利用CU内部像素分布的统计特征,自底向上计算不同尺寸的CU的纹理划分标识。最后,根据CTU的纹理复杂度、纹理方向标识以及CU的纹理划分标识预测当前CTU的划分深度范围,并判断是否提前终止CU划分。实验结果表明,与3D-HEVC参考模型中的原始算法相比,所提算法在平均增加0.8%左右码率的同时,能够降低45%左右的编码时间,同时保持了良好的编码率失真性能;与现有的3种快速算法相比,所提算法在整体序列上分别降低了约12%,3%,4%的编码时间,而在大分辨率序列上则分别降低了14%,11%,10%的编码时间,并具有相近的编码率失真性能。
基于余弦测度的Web指纹识别算法的研究与改进
汤文亮, 汤树芳, 张平
计算机科学. 2019, 46 (10): 295-398.  doi:10.11896/jsjkx.180801473
摘要 ( 385 )   PDF(1276KB) ( 1002 )   
参考文献 | 相关文章 | 多维度评价
为了在Web指纹数据库中实现对Web指纹的准确识别,需要对Web指纹识别算法进行研究。采用当前识别算法对Web指纹数据库中的Web指纹进行识别时,识别的结果与实际结果之间存在误差、识别所用的时间较长,因此存在识别准确率低和识别效率低的问题。在余弦测度的基础上提出了一种Web指纹识别算法,在结构特征、静态文件、Cookie设计和关键字4个方面采用源码审计方法完成了对Web指纹的选取,建立了Web指纹数据库。首先提取Web指纹数据库中数据的特征,根据特征提取结果剔除Web指纹数据库中存在的异常数据;然后将余弦距离函数当作相似性度量函数,采用K-means算法对Web指纹数据库中的Web指纹进行聚类;最后根据聚类结果完成对Web指纹的识别。实验结果表明,所提方法可在较短的时间内准确地完成对Web指纹数据库中Web指纹的识别,具有识别准确率高和识别效率高的优点。
基于行为关键语句特征的停车场异常行为识别方法
汪鸿年, 苏菡, 龙刚, 王雁飞, 尹宽
计算机科学. 2019, 46 (10): 299-306.  doi:10.11896/jsjkx.180901750
摘要 ( 662 )   PDF(4057KB) ( 879 )   
参考文献 | 相关文章 | 多维度评价
随着技术的发展和摄像头的普及,人们对智能视频监控的需求越来越高,其中异常行为识别是智能监控系统的关键部分,对维护社会安全有着重要的作用。针对视频数据的时空特性,文中提出了将行为表示为具有时间序列性的关键语句的方法,并将这些关键语句称为行为关键语句。通过对行为关键语句的学习,实现了对停车场场景的异常行为识别。首先,对行为图像序列进行分割,提取前景目标并计算前景目标的运动周期曲线;然后,依据运动周期曲线采用动态时间规整(Dynamic Time Warping,DTW)的方法提取行为关键帧;最后,基于自然语言处理领域中的语义理解的方法,将行为关键帧表征为一系列行为关键语句进行识别。针对关键语句的时序性,采用擅长处理时序数据的长短时记忆神经网络(Long Short-Term Memory Network,LSTM)对行为关键语句进行分类。此外,为解决现有的数据不平衡问题,采用生成对抗网络(Generative Adversarial Networks,GAN)等方法扩充训练集,以增大样本空间,平衡不同类别数据量的差异。在中国科学院CASIA行为数据库和自建行为数据库上的验证结果表明,所提方法对异常行为的平均识别率达到了97%,相比于以前的方法有了明显的提升,证明了行为关键语句能更好地表征行为信息且LSTM模型更适用于学习时序数据背后的模式,因此该方法在停车场场景的异常行为识别任务上具有有效性。
基于自适应加权子模式判别邻域投影的人脸识别方法
杨柳, 陈丽敏, 易玉根
计算机科学. 2019, 46 (10): 307-310.  doi:10.11896/jsjkx.190300061
摘要 ( 312 )   PDF(1899KB) ( 658 )   
参考文献 | 相关文章 | 多维度评价
人脸识别是图像处理和模式识别中的研究热点问题之一,对此,文中提出了一种基于自适应加权子模式判别邻域投影的人脸识别方法。该方法首先将人脸图像划分成较小的人脸图像块,并将相同位置的子图像构建成子模式集;其次,为了提高低维特征的判别能力,同时考虑数据的局部结构信息和类别标签信息,对于每个子模式集,构建一个局部判别邻域图;最后,考虑不同子模式集对人脸图像识别的贡献,引入一个非负权值向量结合所有子模式集的局部散度矩阵,以找出同幅人脸图像的不同子图像之间的互补信息。实验结果表明,相比于其他方法,所提方法的性能更优。
交叉与前沿
基于通信时滞和噪音的群集运动
王世丽, 金英花, 吴晨
计算机科学. 2019, 46 (10): 311-315.  doi:10.11896/jsjkx.180901706
摘要 ( 270 )   PDF(1860KB) ( 644 )   
参考文献 | 相关文章 | 多维度评价
现实生活中,群集运动是一种很常见的现象。然而在群集系统中,由于有限的速度以及拥挤的交通,通常智能体间的传播和沟通存在时间延迟,因此考虑时间延迟很有必要。此外,在现实环境中,由于外界环境的各种不确定因素,智能体也很容易受到噪音的影响,因此噪音也是必须考虑的。基于以上两点,文中对具有通信时滞和噪音的多智能体系统的群集运动进行了研究。具体考虑了具有通信时滞和噪音的Cucker-Smale模型,主要利用二次函数的性质证明智能体间的通信时滞和噪音强度在满足一定的条件下,多智能体系统依然可以达到群集运动。最后通过Matlab进行数值仿真,并给出仿真后的例子,结果表明了该理论的正确性。
基于LBSN用户生成短文本的细粒度位置推测技术
邓尧, 冀汶莉, 李勇军, 高兴
计算机科学. 2019, 46 (10): 316-321.  doi:10.11896/jsjkx.180901624
摘要 ( 328 )   PDF(1853KB) ( 652 )   
参考文献 | 相关文章 | 多维度评价
利用用户生成短文本(User Generated Short Text,UGST)推测用户的细粒度位置对基于位置服务的应用有重要的意义。现有的细粒度位置推测方法较少引入UGST中的语义信息,且未考虑UGST中语义实体的权重,因此性能较低。针对这些问题,提出了一种基于位置社交网络(Location-based Social Network,LBSN)的UGST细粒度位置推测方法。该方法包括如下3个过程:1)使用Foursquare中的UGST构建实体和位置之间的关联模型,以解决位置标记稀疏问题;2)判断待推测位置的UGST中是否含有位置信息,过滤不包含任何位置语义信息的UGST,以消除噪声短文本的干扰;3)根据UGST内容推测可能的候选位置,并对每个候选位置进行排名,选择排名最靠前的位置作为推测位置。实验结果验证了所提方法的有效性。
基于业务能力的可配置业务流程模型变化域分析
应丽, 方贤文, 王丽丽, 刘祥伟
计算机科学. 2019, 46 (10): 322-328.  doi:10.11896/jsjkx.180901692
摘要 ( 358 )   PDF(1733KB) ( 615 )   
参考文献 | 相关文章 | 多维度评价
为了满足用户的多样化需求,需要根据用户的实际需求对流程模型进行相应的配置。但是,在流程模型配置的过程中,易出现配置不合理或变化域等问题。为此,提出了一种基于业务能力的可配置业务流程模型变化域分析的方法。首先根据业务能力的类别和属性,将两个可配置源模型进行配置和合并;然后分析得到的业务能力注释可配置模型之间连接器类型的差异,发现可配置流程模型的变化域;其次通过流程模型间的映射关系发现可配置源模型的精确变化域;最后通过相关的实例分析,验证了该方法的有效性。
基于贝叶斯网络的航班离港时间动态估计
邢志伟, 朱慧, 李彪, 罗谦
计算机科学. 2019, 46 (10): 329-335.  doi:10.11896/jsjkx.181102039
摘要 ( 533 )   PDF(2194KB) ( 964 )   
参考文献 | 相关文章 | 多维度评价
为了准确地感知航班离港流程和估计航班离港的时间,设计了一种基于动态贝叶斯网络的航班离港时间估计方法。首先,基于航班的不同属性分析影响航班离港流程的因素,根据影响因素对数据进行分类处理,在历史数据分类的基础上,结合蒙特卡洛模拟方法获取各环节的联合分布和先验分布,并由柯尔莫哥洛夫检验确定各环节的联合分布模型,从而获得动态贝叶斯网络模型的参数;其次,根据贝叶斯网络架构和条件概率推理动态估计离港时间及各环节的完成时间;最后,选取国内中部某机场的单航班离港运行数据进行仿真验证。研究结果表明:随着流程的推进,其传播误差会增大,但离港时间的估计精度达到了80%以上,动态估计结果的稳定性较好,能够充分地反映航班离港流程中各关键节点的实际情况。