智能数据治理技术与系统

Select

1. 面向推荐应用的差分隐私方案综述

董晓梅, 王蕊, 邹欣开

计算机科学 2021, 48 (9): 21-35. DOI: 10.11896/jsjkx.201100083

摘要（896）

PDF（pc）（3571KB）（2046）

大数据时代背景下,各行各业希望能基于用户行为数据来训练推荐模型,为用户提供精准推荐,所用数据的共性特点为总量庞大、携带敏感信息、易于获取。推荐系统在带来精准推荐和市场盈利的同时也正在实时分享着用户的隐私数据,差分隐私保护技术作为一门隐私保护技术,能够巧妙地解决推荐应用中存在的隐私泄露问题,其优势在于不需要考虑攻击方所具备的任何相关的背景知识、严格地对隐私保护进行了定义、提供了量化评估方法来保证数据集(在不同参数条件下)所提供的隐私保护水平具有可比较性。首先简述了差分隐私的概念和主流推荐算法的近期研究成果,其次重点分析了差分隐私与推荐算法相结合的应用情况,涉及的推荐算法有矩阵分解、深度学习推荐、协同过滤等,并对基于差分隐私保护的推荐算法的准确性进行了对比实验;然后讨论了与每种推荐算法结合的使用场景以及目前仍存在的问题,最后对基于差分隐私的推荐算法的未来发展方向提出了有效建议。

参考文献 | 相关文章 | 多维度评价

Select

2. 人工智能治理理论及系统的现状与趋势

朝乐门, 尹显龙

计算机科学 2021, 48 (9): 1-8. DOI: 10.11896/jsjkx.210600034

摘要（846）

PDF（pc）（1734KB）（1822）

人工智能(Artificial Intelligence,AI)治理是解决AI挑战的主要手段。AI治理的主要目的是充分发挥人工智能带来的优势和有效降低人工智能导致的风险,并通过整合技术、法律、政策、标准、伦理、道德、安全、经济、社会等多个方面的影响因素,最终建设负责任的人工智能(Responsible Artificial Intelligence,RAI)。AI治理可以从智能个体治理、智能群体治理以及人机合作与共生系统的治理等3个方面,分技术层、伦理层、社会及法律层等3个层面进行。AI治理的主要关键技术有4种:可理解性人工智能、防御对抗性攻击技术、建模及仿真技术和实时审计技术。从谷歌、IBM和微软等公司的AI治理实践来看,产业界主要关注的是RAI研发,在AI系统的可解释性、隐私保护和公平性检查等方面已出现一些专用组件工具。目前,AI治理需要研究的科学问题有:软件定义的AI治理、AI治理关键技术、大规模机器学习中的AI治理评价、基于联邦学习的AI治理、AI治理的标准制定、增强人工智能与人在回路型AI训练等。

参考文献 | 相关文章 | 多维度评价

Select

3. 面向跨模态隐私保护的AI治理法律技术化框架

雷羽潇, 段玉聪

计算机科学 2021, 48 (9): 9-20. DOI: 10.11896/jsjkx.201000011

摘要（594）

PDF（pc）（1659KB）（3025）

随着虚拟社区在网络用户中的普及,虚拟社区群已经成为一个小型社会,可通过用户浏览所留下的“虚拟痕迹”和发布的用户生成内容提炼出与用户相关的隐私类型资源。根据隐私类型资源自身的特性,可将其分类为数据资源、信息资源和知识资源,三者构成了用户的数据信息知识与智慧图谱(DIKW图谱)。虚拟社区中的隐私类型资源有4个流通过程,即隐私资源的感知、存储、传输和处理;4个过程分别由3个参与方(用户、AI系统和访问者)单独或合作完成,3个参与方所拥有的隐私权包括知情权、参与权、遗忘权和监督权。通过明确3个参与方在4个流通过程中的隐私权范围,结合隐私价值保护,设计了匿名保护机制/风险评估机制和监督机制,用于构建一个虚拟社区隐私保护的AI治理法律框架。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于Spark的舆情情感大数据分析集成方法

戴宏亮, 钟国金, 游志铭, 戴宏明

计算机科学 2021, 48 (9): 118-124. DOI: 10.11896/jsjkx.210400280

摘要（553）

PDF（pc）（2038KB）（961）

随着移动互联技术的不断发展,社交媒体成为了公众分享观点和抒发情感的主要平台,在重大社会事件下对社交媒体文本进行情感分析能够有效监控舆情。针对现有中文社交媒体情感分析算法的准确性能和运行效率较低的问题,提出了一种基于Spark分布式系统的集成情感大数据分析方法(Spark Feature Weighted Stacking,S-FWS)。该方法首先基于Jieba库预分词和PMI关联度完成新词发现;然后考虑词语重要度混合提取文本特征,并使用Lasso进行特征选择;最后改进传统Stacking框架忽略特征重要度的缺点,使用初级学习器的准确率信息对类概率特征进行加权处理并构造多项式特征,进而训练次级学习器。分别在单机模式和Spark平台下引入多种算法进行对比实验,实验结果证明所提S-FWS方法的准确性能和耗时性能具备一定优势,并且分布式系统能够大幅提高算法的运行效率,同时随着集群工作节点的增加,算法耗时逐渐降低。

参考文献 | 相关文章 | 多维度评价

Select

5. 面向大数据分析的智能交互向导系统

余乐章, 夏天宇, 荆一楠, 何震瀛, 王晓阳

计算机科学 2021, 48 (9): 110-117. DOI: 10.11896/jsjkx.200900083

摘要（528）

PDF（pc）（3234KB）（1098）

传统的大数据工具一般为专业数据分析人员打造,具有难以上手、操作交互性差以及不够智能化等特点。而智能交互向导系统是针对大数据交互式分析系统目前存在的问题而研制的一套大数据分析辅助工具。系统既研发了用户意图理解、数据抽样及列推荐、可视化推荐、分析方法推荐等核心关键技术,也拥有良好的图形化界面与人性化的智能交互体验。在满足用户多种交互式分析需求的同时,还具有极高的响应速度。不仅可以随时回溯到分析流程任意一步重新选择方法的执行流程,还可以通过接口与各种分析应用快速集成以部署应用于不同场景。经过实验测试,系统的平均交互时间均在3 s以内,且与传统分析方法相比系统交互的执行时效加快了3倍左右。通过用户用例测试,系统的满意度相比传统工具更加优秀。智能交互向导系统通过在易用性、时效性、可交互性和智能性等方面的探索,让不同基础的用户群体都可以使用此系统完成所需的大数据分析目标。

参考文献 | 相关文章 | 多维度评价

Select

6. 基于代价敏感卷积神经网络的非平衡问题混合方法

黄颖琦, 陈红梅

计算机科学 2021, 48 (9): 77-85. DOI: 10.11896/jsjkx.200900013

摘要（505）

PDF（pc）（2590KB）（788）

非平衡问题是数据挖掘领域中普遍存在的一个问题,数据的偏态分布会使得分类器的分类效果不理想。卷积神经网络作为一种高效的数据挖掘工具,被广泛应用于分类任务,但其训练过程若受到数据非平衡的不利影响,则将导致少数类的分类准确率下降。针对二分类非平衡数据分类问题,文中提出了一种基于代价敏感卷积神经网络的非平衡问题混合方法。首先将密度峰值聚类算法与SMOTE相结合,通过过采样对数据进行预处理,降低原始数据集的不平衡程度;然后利用代价敏感思想对非平衡数据中的不同类别给予不同权重,并考虑预测值与标签值之间的欧氏距离,对非平衡数据中多数类和少数类赋予不同的代价损失,构建代价敏感卷积神经网络模型,以提高卷积神经网络对少数类的识别率。选取6个不同的数据集,用于验证所提方法的有效性。实验结果表明,所提方法可以提高卷积神经网络模型对非平衡数据的分类性能。

参考文献 | 相关文章 | 多维度评价

Select

7. 时间感知的兴趣点推荐方法

王营丽, 姜聪聪, 冯小年, 钱铁云

计算机科学 2021, 48 (9): 43-49. DOI: 10.11896/jsjkx.210400130

摘要（500）

PDF（pc）（1964KB）（844）

在基于位置的社交网络(Location-based Social Networks,LBSN)中,用户共享位置和与位置信息相关的内容。兴趣点推荐是LBSN的重要应用,根据用户历史访问签到记录推荐其可能感兴趣的位置。与其他推荐问题(如产品推荐或电影推荐)相比,用户对兴趣点的偏好在时间感知特征上尤为凸显。文中探索了时间感知特征对兴趣点推荐任务的影响,提出了时间感知的兴趣点推荐方法TAPR(Time Aware POI Recommendation)。该算法基于不同的时间尺度构建不同的关系矩阵,并且利用张量分解将构建出的多个关系矩阵分解从而得到用户与兴趣点的表示。最后,该算法利用余弦相似性计算用户与未访问POIs的相似性得分,并结合用户偏好建模的算法得到最终推荐分数。在两个公开数据集上的实验结果表明,TAPR算法比其他基于兴趣点推荐算法表现更好。

参考文献 | 相关文章 | 多维度评价

Select

8. 基于多模态多层级数据融合方法的城市功能识别研究

周新民, 胡宜桂, 刘文洁, 孙荣俊

计算机科学 2021, 48 (9): 50-58. DOI: 10.11896/jsjkx.210500220

摘要（460）

PDF（pc）（3639KB）（1411）

城市功能区的划分与识别对分析城市功能区的分布现状和了解城市内部空间结构具有重要意义。这激发了多源地理空间数据融合的需求,特别是城市遥感数据与社会感知数据的融合。然而,如何有效实现城市遥感数据与社会感知数据的融合是一个技术难题。为了实现城市遥感数据与社会感知数据的融合,提高城市功能识别精度,以遥感图像和社会感知数据为例,引入多模态数据融合机制,提出了一种联合深度学习与集成学习的模型来推断城市区域功能。该模型分别利用DenseNet和DPN网络,从多源地理空间数据中提取城市遥感图像特征和社会感知特征,并进行特征级融合、决策级融合以及混合融合的多层级数据融合,对城市功能进行识别。所提模型在URFC数据集上得到了验证,其混合融合总体分类准确度、Kappa系数和平均F1值3个评价指标值分别为74.29%,0.67,71.92%。相比单模态数据的最佳分类方法,所提融合模型的3个评价指标值分别提高了18.83%,0.24,35.46%。实验结果表明,该数据融合模型具有更好的分类性能,能有效融合遥感图像数据和社会感知数据,实现城市区域功能的精准识别。

参考文献 | 相关文章 | 多维度评价

Select

9. 基于历史行车轨迹集的车辆行为可视分析方法

罗月童, 汪涛, 杨梦男, 张延孔

计算机科学 2021, 48 (9): 86-94. DOI: 10.11896/jsjkx.200900040

摘要（408）

PDF（pc）（4512KB）（1159）

随着智慧城市的不断发展,基于交通卡口自动获取车辆行车轨迹,为基于轨迹的车辆行为分析奠定了基础。但是,因为卡口的位置固定,车辆轨迹表示为卡口序列,所以文中首先将卡口和轨迹分别映射为单词和句子,应用语句的语义相似性方法计算轨迹相似性;然后在轨迹相似性的基础上提出轨迹熵,用轨迹熵度量某个车辆所有轨迹的规律性;最后基于轨迹熵分析车辆的行为特征,如轨迹熵低的车辆意味着行车特别有规律,很可能是通勤车。为便于用户进行深入分析,文中进一步提供了包含多联动视图的可视分析系统,允许用户观察和比较车辆轨迹和轨迹熵,结合聚类分析和相关交互,帮助用户发现有意义的车辆行为,如上下班的通勤车的轨迹熵较低、游街模式的出租车轨迹熵很高。对昆明市2019年2月份的卡口数据集进行了分析,结果表明所提方法能有效发现不同轨迹熵区间内的车辆出行行为及其特点,证明了所提方法的有效性。

参考文献 | 相关文章 | 多维度评价

Select

10. 基于关联分析的铁路旅客同行预测方法

李思颖, 徐杨, 王欣, 赵若成

计算机科学 2021, 48 (9): 95-102. DOI: 10.11896/jsjkx.200700097

摘要（369）

PDF（pc）（2875KB）（687）

随着运输技术的快速发展,铁路已成为人们出差、度假、探亲时选择的主要出行方式之一。与此同时,旅客共同出行(以下简称同行)的行为特征也越来越普遍。依据旅客间的同行关系,可以构建同行关系网络;而对该网络中潜在的链接进行预测,将有助于提供个性化的服务和产品。为此,文中提出一种原创的方法,用于在旅客同行关系网络中发现潜在的同行关系。首先对传统的图模式关联规则进行扩展,提出了两类“同行图模式关联规则”,用于预测新的同行关系和未来的同行频次。然后,将上述规则挖掘计算的问题分解为频繁同行模式挖掘、规则生成以及关联分析3个子问题,并设计了有效的分布式和集中式的算法。通过在大规模真实数据集上的测试,证明了所提方法能够高效且准确地预测旅客同行关系网络中潜在的同行关系,且两类规则的预测准确率均高于50%,远高于传统方法(如Jaccard的预测准确率为24%)。

参考文献 | 相关文章 | 多维度评价

Select

11. 面向科技前瞻预测的大数据治理研究

王俊, 王修来, 庞威, 赵鸿飞

计算机科学 2021, 48 (9): 36-42. DOI: 10.11896/jsjkx.210500207

摘要（367）

PDF（pc）（4195KB）（1357）

从模仿到创新、从跟随到引领,不仅是现阶段我国科学技术发展需要完成的重大转变,更是国家发展的重大战略需求。近年来,国内外相关学者陆续开展了科技发展趋势分析和热点跟踪等方面的研究,但由于缺乏系统的大数据采集与治理体系,其数据分析与挖掘范围往往局限于科技文献这一单一数据样本。文中面向科技发展前瞻预测这一目标,全面分析了影响科学技术发展过程的各类科技文献、学者动态、论坛热点和社交评论等海量异构数据,通过构建数据驱动的大数据治理体系,解决科技大数据在探测发现、精准采集、清洗聚合、融合处理、模型构建、预测计算过程中的数据整治难题。同时,在大数据整治基础上采用LDA模型实现技术趋势预测与分析,研究成果为系统解决海量科技大数据中隐含信息发现和关系推理提供了技术支撑。关键词:大数据;大数据治理;前瞻预测;体系研究;LDA模型;数据清洗

参考文献 | 相关文章 | 多维度评价

Select

12. 融合不完整多视图的异质信息网络嵌入方法

郑苏苏, 关东海, 袁伟伟

计算机科学 2021, 48 (9): 68-76. DOI: 10.11896/jsjkx.210500203

摘要（362）

PDF（pc）（3412KB）（916）

异质信息网络(Heterogeneous Information Network,HIN)嵌入将复杂的异质信息映射到低维稠密的向量空间,有利于网络数据的计算和存储。现有的基于多视图的HIN嵌入方法考虑了节点之间的多种语义关系,但忽略了视图的不完整性。大多数视图存在数据缺失,直接融合多个不完整的视图会导致嵌入效果不佳。为此,文中提出了一种融合不完整多视图的HIN嵌入方法(Incomplete Multi-view Fusion Based HIN Embedding,IMHE)。IMHE的关键思想是聚合其他视图的邻居以重建不完整的视图。由于不同的单视图描述的是同一个网络,因此其他视图中的邻居可以一定程度上恢复不完整视图的结构信息。IMHE首先在不同视图中生成节点序列,并利用多头注意力方法学习单视图嵌入。对于每个不完整视图,IMHE在其他视图中找到缺失节点的k阶邻居,然后将不完整视图中邻居的单视图嵌入聚合在一起,为缺失节点生成新的嵌入。最后使用多视图典型相关性分析方法获得节点的统一嵌入,同时提取多个视图的隐藏语义关系。在3个真实数据集上的实验结果表明,相比现有研究,该方法的嵌入性能有显著提升。

参考文献 | 相关文章 | 多维度评价

Select

13. 融合偏置深度学习的距离分解Top-N推荐算法

钱梦薇, 过弋

计算机科学 2021, 48 (9): 103-109. DOI: 10.11896/jsjkx.200800129

摘要（344）

PDF（pc）（1816KB）（803）

针对传统矩阵分解算法大多是浅层的线性模型,难以学习到深层次的用户和物品的隐特征向量,且在数据稀疏的情况下容易产生过拟合的问题,文中提出一种融合偏置深度学习的矩阵分解算法,在解决数据稀疏问题的同时,还能学习到表征能力更强的距离特征向量。首先,通过用户与物品的显式和隐式数据构建用户与物品的交互矩阵,并将交互矩阵转化为相应的距离矩阵;其次,将距离矩阵分别按行和按列输入加入偏置层的深度神经网络,学习得到具有非线性特征的用户和物品的距离特征向量;最后,根据用户和物品的距离特征向量计算用户和物品之间的距离,用距离值对物品按升序排列,生成Top-N的推荐列表。在4个真实数据集上进行实验,采用Precision,Recall,MAP,MRR和NDCG指标进行评估,结果表明所提算法在上述指标方面相比其他主流推荐算法有明显提升。

参考文献 | 相关文章 | 多维度评价

Select

14. 基于频繁航路模式的航迹类型识别

宋嘉庚, 张扶桑, 金蓓弘, 窦竹梅

计算机科学 2021, 48 (9): 59-67. DOI: 10.11896/jsjkx.210100014

摘要（295）

PDF（pc）（3566KB）（1565）

随着全球定位系统和雷达技术的发展,越来越多的轨迹数据可以被收集到,其中,飞机、轮船、候鸟等对象产生的轨迹复杂多变,自由度较大。为了帮助识别飞行对象的行为和意图,航迹类型识别具有重要作用。文中提出了一种基于频繁航路模式的航迹分类方法。该方法包含一个频繁航路提取算法和一个卷积神经网络模型。算法首先对轨迹进行压缩,获得关键点;接着通过寻找轨迹自相交点提取闭合航路,然后寻找闭合航路中的频繁航路模式作为模型的分类依据;最后通过图像处理完成航迹类型的识别。文中利用FlightRadar24网站公开的真实航迹数据和模拟数据进行了大量的实验,结果表明,所提方法能有效识别复杂轨迹类型,与不经过轨迹提取的LeNet-5 CNN分类模型相比,所提方法性能更优,在轨迹分类上实现了95%以上的平均准确率。

参考文献 | 相关文章 | 多维度评价