栏目文章

Select

1. 时态的粒度刻画及演算问题研究

左亚尧,汤庸,舒忠梅,李磊,刘海

计算机科学 2010, 37 (12): 114-119.

摘要（113）

PDF（pc）（511KB）（497）

时态的建模及演算是时态信息处理中的逻辑基本问题，从粒度思想出发，根据时态的粒度划分，研究了时态粒度的语义与性质。并基于时态粒度对时态原语进行刻画，进而基于代数系统分析了时态的粒度转换算子及不同粒度下的时态关系，构建了时态粒度关系的演算系统。

相关文章 | 多维度评价

Select

2. 一种基于XML文档关键字检索的结构索引

娄颖,李战怀,郭文琪,陈群,韩萌

计算机科学 2010, 37 (12): 120-124.

摘要（141）

PDF（pc）（442KB）（421）

XML数据索引对其检索效率有较大的影响。在深入分析现有XMI、结构索引之后，结合XML文档特点，提出了一种基于关键字检索的结构索引--LSS(Level Structure Summary) . LSS采用了把具有相同标签路径的结点进行合并的策略，具有高效判断结点之间同构异构关系的能力。实现了LSS索引生成算法CSCAN，并在LSS索引的基础上设计了XML关键字检索算法LSSearch。该算法依据LSS索引，将各个关键字的原始倒排表集合分拆成不同类型的子集合，最后在所有子集合上进行查询。实验结果表明，LSS可以帮助减少XML文档中关键字倒排表的规模，提高检索效率。

相关文章 | 多维度评价

Select

3. 基于直方图的空间查询选择率估计研究

朱焰炉,程昌秀,陈荣国,颜勋

计算机科学 2010, 37 (12): 125-129.

摘要（310）

PDF（pc）（544KB）（482）

空间查询优化是空间数据库中的关键问题之一，以查询代价估算为基础的查询优化技术是提高查询效率的一种重要方法，而估算代价的主要问题是估算查询结果(选择率)的大小。针对空间数据库中最常用的两种查询—空间选择和空间连接，阐述了几种主要用于查询选择率佑计的直方图算法，并对各算法的优缺点做了分析，最后对空间查询选择率估计的研究方向进行了展望。

相关文章 | 多维度评价

Select

4. 实现数据库细粒度访问控制的一种动态查询修改算法

时杰,朱虹,冯玉才

计算机科学 2010, 37 (12): 130-133.

摘要（150）

PDF（pc）（409KB）（496）

由于隐私保护和基于W cb的安全需求的驱动，数据库细粒度访问控制引起了研究者的广泛关注。细粒度访问控制主要通过查询改写方法实现。然而，在以往的查询改写算法中，没有考虑用户提交的SQL语句的特性和细粒度访问控制策略的特性，从而导致最终执行的SQL中存在大量的冗余，影响了SQL语句执行的性能。在考虑SQL语句和细粒度访问控制策略的特性的前提下，分析了两类冗余，并给出了相应的移除方法。最终提出了一种用于细粒度访问控制实现的查询改写算法。实验证实该算法具有更好的性能。

相关文章 | 多维度评价

Select

5. 基于本体的关系数据集成的查询处理

王进鹏,张亚非,苗壮

计算机科学 2010, 37 (12): 134-137.

摘要（137）

PDF（pc）（474KB）（584）

为实现异构关系数据库的语义集成，针对传统集成技术存在的问题，在对语义网等相关技术进行分析的基础上，研究基于本体的关系数据集成系统中的查询处理问题，提出了一种基于本体的关系数据库集成框架。设计了基于本体的关系数据的描述方法，使用本体作为集成的全局模式来描述关系模式的语义。设计了查询重写算法，该算法可以将基于全局模式的SPARQL查询重写为针对具体关系数据库的查询，从而实现对异构关系数据库的集成。实验表明，该算法具有良好的可扩展性。

相关文章 | 多维度评价

Select

6. 一种类Spreadsheet结构的信息汇聚方法

魏永山,韩燕波,孙忠林,张峰,陈欣

计算机科学 2010, 37 (5): 134-138.

摘要（210）

PDF（pc）（431KB）（445）

Spreadsheet样式的数据操作具有很好的可用性，但在Spreadsheet结构中如何表示并操纵XML数据以及如何使用复制、粘贴、移动等简单操作表示复杂的XQuery查询是两个难点问题。提出一种基于XML模式的操作表示方法，将复杂的XQuery查询语句分解为XML模式上的粘贴节点、移动节点等操作，从而可以表示XQuery语言的核心语句FLOWR。在Spreadsheet结构中将XML模式显示为嵌套表格，用户在嵌套表格上的操作转换为XML模式上的操作。使用该方法可以构造多数据源的XQuery查询，并实现了概念验证的原型系统。与当前流行的XQuery查询构造工具相比较，原型系统更适合于无编程经验的最终用户构造XQuery查询。

相关文章 | 多维度评价

Select

7. 面向移动终端的微博信息推荐方法

宋双永，李秋丹

计算机科学 2011, 38 (11): 137-139.

摘要（123）

PDF（pc）（376KB）（414）

微型博客(简称“微博'')以其简洁方便的交互方式，受到越来越多手机用户的喜爱。然而，微博数据量大、更新速度快以及手机屏幕小、登录网络服务速度较慢等原因，使得用户很难通过移动终端快速了解到近期内微博流行内容。提出一种基于相关主题模型(correlated topic model)的移动微博信息推荐方法，并基于此方法设计了一个可视化移动信息推荐系统。通过‘用户一主题一词语’三维关联矩阵的建立，帮助用户快速了解最近一段时间内的热点主题，并查找与其感兴趣主题相关的其他用户作为备选好友，同时计算主题之间的关联关系，进行主题扩展。在微博代表性网站—Fricndfccd数据集上进行的实验表明了该方法在移动微博信息推荐中的简洁性和有效性。

相关文章 | 多维度评价

Select

8. 基于C4. 5和NB混合模型的数据流分类算法

李燕,张玉红,胡学钢

计算机科学 2010, 37 (12): 138-142.

摘要（126）

PDF（pc）（459KB）（599）

具有概念漂移的含噪数据流的分类问题成为数据流挖掘领域研究的热点之一。提出了一种基于C4. 5和Naive I3ayes混合模型的数据流分类算法CDSMM。它以C4.5作为基分类器，采用朴素贝叶斯分类器过滤噪音，同时引入假设检验中的u检验方法检测概念漂移，动态更新模型。实验结果表明，CDSMM算法在处理带有噪音的概念漂移数据流时具有比同类算法更好的分类正确率。

相关文章 | 多维度评价

Select

9. 属性粒度数据质量模型及其评价指标研究

陈卫东,张维明

计算机科学 2010, 37 (5): 139-142.

摘要（106）

PDF（pc）（336KB）（435）

在研究属性粒度关系代数传递影响的基础上，进一步从数据质量正确性和完整性两方面加以总结，提出一个数据质量评价模型，以区分J种元组质量类型，定义正确性和完整性指标同时包含数据项和元组两个方面带来的影响。通过分析空值，即不正确也不完整，建立正确性和完整性指标的相互联系，进而引入属性量化前后错误(空值)率，进一步量化定义评价指标。

相关文章 | 多维度评价

Select

10. 分布式仿真多分辨率建模方法及一致性维护

袁凌，张晓芳，李国徽，庞永杰

计算机科学 2011, 38 (11): 140-143.

摘要（159）

PDF（pc）（448KB）（725）

在分布式仿真中，同一实体的多个分辨率模型并发以及不同实体的各个分辫率模型之间的交互会导致数据表现不一致的问题。在分析现有多分辨率建模方法的基础上，提出了适应分布式仿真环境的不同分辨率模型的树状结构建模方法，其主要由聚合级实体模型和平台级实体模型组成。为解决树状结构建模方法中不同分辫率模型的数据表现不一致问题，将不同分辨率模型间的交互看成分布式数据库中的事务，由此提出了一个嵌套两段式提交协议算法来有效解决不同分辨率模型的一致性维护问题。

相关文章 | 多维度评价

Select

11. 基于蚁群优化算法的云数据库动态路径规划

史恒亮,白光一,唐振民,刘传领

计算机科学 2010, 37 (5): 143-145.

摘要（119）

PDF（pc）（343KB）（532）

云计算是下一代计算网络模型的发展趋势。云中的存储资源如何快速地路由，更是研究的难点。蚁群算法是基于群体的仿生优化算法，具有智能搜索、全局优化、鲁棒性、分布式计算和容易与其他算法相结合等优点。根据这两种事物的特点，提出了合理的结合算法，该算法能够在云中快速、合理地找到所需访问的数据库，减少云数据库数路由的动态负荷，从而很大程度上提高云计算的效率。

相关文章 | 多维度评价

Select

12. 基于统计的无阻塞连接算法

陈刚,顾进广,李思川

计算机科学 2010, 37 (12): 143-144.

摘要（114）

PDF（pc）（285KB）（397）

数据流上的关系查询处理技术是数据库研究领域的一大热点。优化无阻塞连接算法的关键在于提高内存连接阶段的效率。当内存空间满时，需要将内存数据刷新到外存相应分区，良好的刷新策略对于改进算法的性能至关重要。利用数据分布的特征，对关系连接的输出流，使用基于统计的方法，查找使用频率最低的元组，将使用频率较低的元组刷新到外存，以提高内存数据的效率。基于统计分析策略提高了刷新策略的准确性和效率及算法的适用范围。

相关文章 | 多维度评价

Select

13. 复杂网络中初始节点对传染病传播的影响分析

苏长明，陈端兵，傅彦

计算机科学 2011, 38 (11): 144-147.

摘要（119）

PDF（pc）（323KB）（485）

长期以来，传染病对人类造成持续不断的威胁。研究工作者在传染病传播上投入了大量的精力进行研究，比如:传播模型、传播阂值以及影响传播的因素等方面。主要研究复杂网络中初始染病节点如何影响传染病的传播，对5种初始染病节点选择方法进行了深入分析并在两个大规模无向网络上进行了仿真实验。结果表明，传播速度以及传染病影响规模不仅与初始染病节点的选择有关，而且与网络结构有关。本研究成果对传染病控制可提供有价值的借鉴与参考作用。

相关文章 | 多维度评价

Select

14. 一种结合散列与位表挖掘频繁项目集算法

任永功,宋奎勇,寇香霞

计算机科学 2010, 37 (12): 145-148.

摘要（123）

PDF（pc）（334KB）（438）

在频繁项集的挖掘中，很多算法都是基于Apriori的。这些算法有两个共同的问题:一是把整个数据库装入内存，占用大量的空间;二是在产生候选项集和计算支持度时花费了大量的时间。为了提高效率，提出了一种基于位表挖掘频繁项目集的算法Hash-BFI。按照水平和垂直的方向把数据库压缩到位表内，以大大节省内存空间。引入散列函数计算频繁二项集，完全通过AND, OR运算得到候选项集和计算候选项集支持度，并进行剪枝，从而提高了算法效率。

相关文章 | 多维度评价

Select

15. On-Demand数据广播环境下实时有序查询处理

王洪亚,刘晓强,何浩源,宋晖,肖迎元,乐嘉锦

计算机科学 2010, 37 (5): 146-150.

摘要（103）

PDF（pc）（517KB）（365）

在On-Demand数据广播环境下，广播服务器基于用户发送的数据请求等信息进行调度决策来满足用户的数据访问需求。在很多实际应用中，用户的数据请求需要在一定时间段内得到满足，即数据请求是有截止期的。现有研究只考虑了具有截止期约束的单个数据请求的调度问题，而实时查询处理即用户以查询为单位依次发送多个数据请求的研究尚未得到足够的关注。本文重点研究了On-Demand数据广播环境下如何有效地处理实时有序查询这一问题。基于对该问题的分析，定义了一类新的调度问题ROBS并证明了ROBS的Off-Line版本是NP-Hard的;提出了一种新的考虑查询语义的On-Line调度算法OL-ROBS，该算法通过综合考虑数据请求个数、查询截止期和查询剩余数据请求个数来确定待广播数据项的优先级;为提高OL-ROBS的执行效率，设计了一种裁减算法，用以减少调度决策的搜索空间。模拟实验将OL-ROBS与目前最为有效的实时数据请求调度算法Sin-8进行了比较，结果显示OL-ROBS具有更低的错过截止期比率。

相关文章 | 多维度评价

Select

16. 一种改进的基于后缀树模型搜索结果聚类算法

刘德山

计算机科学 2011, 38 (11): 148-152.

摘要（126）

PDF（pc）（445KB）（453）

针对现有搜索结果分类算法在聚类标签筛选、聚类质量评估及控制重叠聚类方面的缺陷，提出了一种改进的基于向量空间模型与后缀树模型的检索结果聚类算法，从而完善了LINGO算法的聚类及聚类标签打分函数，增加了基本类合并过程，改善了对中文的处理效果。最后对算法的分类效果及产生标签的质量进了实验分析，基于carrot2框架，建立了Wcb搜索结果聚类推荐平台。验证了CQIG算法分类的准确性和聚类标签的区分性和可读性。

相关文章 | 多维度评价

Select

17. 一种基于LexRank算法的改进的自动文摘系统

纪文倩,李舟军,巢文涵,陈小明

计算机科学 2010, 37 (5): 151-154.

摘要（260）

PDF（pc）（449KB）（727）

自动文摘是计算机语言学领域的一个研究重点，其研究和应用受到了计算机科学、语言学、情报信息学等相关学科的广泛关注。首先介绍了基于LexRank算法的自动文摘方法。针对该方法的不足，从句子相似度计算方法、句子权重计算方法以及冗余处理等方面对它进行了改进，从而可以根据输入文本内容动态地调整相关影响因子。实现的文摘系统，可以对中文和英文的单文本或多文本进行自动文摘。在哈工大和DUC的测评语料上进行了实验，结果表明该系统在一定程度上改进了文摘的质量，在多文本文摘中的杭噪声方面也有一定的优越性。最后讨论了自动摘要研究存在的问题，并指出了自动文摘的研究趋势。

相关文章 | 多维度评价

Select

18. 数据立方体选择的改进遗传算法

董红斌,陈佳

计算机科学 2010, 37 (11): 152-155.

摘要（133）

PDF（pc）（370KB）（509）

数据立方体选择问题是一个NP完全问题。研究了利用遗传算法来解决立方体选择问题，提出了一个结合局部搜索机制的遗传算法。这一算法的核心思想在于，首先运用一个基于单位空间最大收益值的预处理算法来生成初始解，然后该初始解经结合了局部搜索机制的遗传算法进行提高。实验结果表明，该算法在寻优性能上优于启发式算法和经典遗传算法。

相关文章 | 多维度评价

Select

19. 基于函数的时间序列分段线性表示方法

谢福鼎，王赫楠，张永，孙岩

计算机科学 2011, 38 (11): 153-155.

摘要（119）

PDF（pc）（321KB）（755）

考虑到时间序列的时间特性对不同区段的影响以及时间序列数据动态增长的实际情况，在RPAA ( Reversed Piecewise Aggregate Approximation)和PAA(Piecewise Aggregate Approximation)方法的基础上，提出了一种新的时间序列分段线性表示方法FPAA(Founction Piecewise Aggregate Approximation)。FPAA方法通过定义函数影响因子，克服了RPAA和PAA方法的不足。该方法具有线性时间复杂度，满足下界定理，并且支持时间序列的在线划分。实验表明，与PAA方法和RPAA方法相比，所提出的方法可以较有效地进行时间序列的在线查询。

相关文章 | 多维度评价

Select

20. 高维数据的相似性度量研究

贺玲,蔡益朝,杨征

计算机科学 2010, 37 (5): 155-156.

摘要（151）

PDF（pc）（249KB）（442）

数据间的相似性度量是进一步分析数据集整体特性的一个重要基础。针对高维数据的相似性度量问题，提出了一种基于子空间的相似性度量方法。该方法先将高维空间进行基于网格的划分，然后在划分后的子空间内计算数据间的相似性。理论分析表明，在合理选定网格划分参数的前提下，该方法可有效减小“维度灾难”对高维数据相似性度量的影响。

相关文章 | 多维度评价

Select

21. 社会网络数据的k-匿名发布

兰丽辉，鞠时光，金华

计算机科学 2011, 38 (11): 156-160.

摘要（319）

PDF（pc）（439KB）（565）

由于科学研究和数据共享等需要，应该发布社会网络数据。但直接发布社会网络数据会侵害个体隐私，在发布数据的同时要进行隐私保护。针对将邻域信息作为背景知识的攻击者进行目标节点识别攻击的场景提出了基于k-匿名发布的隐私保护方案。根据个体的隐私保护要求设立不同的隐私保护级别，以最大程度地共享数据，提高数据的有效性。设计实现了匿名发布的KNP算法，并在数据集上进行了验证，实验结果表明该算法能够有效抵御部域攻击。

相关文章 | 多维度评价

Select

22. 一种模糊XML模型的概念设计方法

严丽，刘健

计算机科学 2011, 38 (12): 156-161.

摘要（129）

PDF（pc）（492KB）（386）

XML(Extensible Markup Language)已经成为Web上数据表示与交换的标准，而信息的不精确性和不确定性又广泛存在于现实世界应用中。虽然模糊信息在关系数据库框架下已经被广泛讨论，但是传统的关系数据库模型及其模糊扩展形式不能满足表示和处理Web上复杂模糊对象的需要。基于可能性分布，研究在XML模型和IFO数据模型—一种概念数据模型中进行模糊信息建模，给出把模糊IFO数据模型映射成模糊XML DTD模型的形式化方法。

相关文章 | 多维度评价

Select

23. 一种基于LDA的在线主题演化挖掘模型

崔凯,周斌,贾焰,梁政

计算机科学 2010, 37 (11): 156-159.

摘要（159）

PDF（pc）（465KB）（845）

基于文本内容的隐含语义分析建立在线主题演化计算模型，通过追踪不同时间片内主题的变化趋势进行主题演化分析。将Latent Dirichlet Allocation(LDA)模型扩展到在线文本流，建立并实现了在线LDA模型；利用前一时间片的后验概率影响当前时间片的先验概率来维持主题间的连续性;根据改进的增量Gibbs算法进行推理，获取主题一词和文档一主题的概率分布，利用KullbackLeibler(KL)相对嫡来衡量主题之间的相似度，从而发现主题演化中的“主题遗传”和“主题变异”。实验结果表明，该模型能从互联网语料中找出主题的演化趋势，具有良好的效果。

相关文章 | 多维度评价

Select

24. 基于衰减模型的混合属性数据流离群检测

苏晓坷,兰洋,秦玉明,程耀东

计算机科学 2010, 37 (5): 157-162.

摘要（130）

PDF（pc）（411KB）（396）

数据流离群检测因内存容量限制和实时检测需求而成为离群检测的一个难点。介绍了一种快速混合属性数据流离群检测算法。在衰减模型下增量聚类数据流，生成代表数据分布的聚类特征集合，半径值动态变化;当接收到检测请求时，计算满足条件的每个簇的离群因子，具有高离群因子的簇作为结果输出。同时提出了一种可有效区分离群簇与数据进化初始阶段的方法。算法的时间与空间复杂度同数据流规模近似成线性关系，在真实数据集上的实验结果显示，该算法可有效检测混合属性数据流中的离群点。

相关文章 | 多维度评价

Select

25. 基于小波概要的区间差分skyline研究

程文聪,邹鹏,贾焰

计算机科学 2010, 37 (11): 160-165.

摘要（137）

PDF（pc）（587KB）（465）

在很多应用中需要分析大量的时序数据，而相对于其它数据具有支配优势的时序数据片段往往会引起特别的关注。基于量值度量，现有的区间skyline查询可以返回给定时间区间内所有没有被其他数据支配的时序数据，这种查询有时不能满足应用的需求，且可能存在“淹没”现象。为此提出了区间差分skyline的概念，针对数据增长率属性进行分析，以解决现有区间量值skyline的不足。目前很多时序数据呈现为数据流的形式，由于资源的限制往往只会维护一个反映数据概况的概要结构，在此背景下提出了基于常用的小波概要支持不同粒度区间差分sk沙nc查询的基本算法，继而在保证准确性的基础上提出了改进后的快速算法。在真实股票价格数据集上的实验验证了所提方法的有效性。

相关文章 | 多维度评价

Select

26. 基于双授权链集合的访问控制模型

涂金德,秦小麟,戴华

计算机科学 2010, 37 (7): 160-164.

摘要（106）

信息技术的迅速发展使数据库面临的安全问题更加复杂和多样，数据库作为信息系统重要数据的存储和处理核心，往往成为最吸引攻击者的目标。访问控制技术是数据库安全领域的一个重要研究方向，传统的访问控制技术已越来越不能满足现代数据库的安全需求。在传统的自主访问控制机制研究的基础上，提出了一种基于双授权链集合的访问控制模型(DACS)。该模型具有常规授权管理和阻断授权管理功能，支持8种授权和收权操作，同时具备阻断授权机制和独立收权机制。

相关文章 | 多维度评价

Select

27. 基于博弈论的隐私保护分布式数据挖掘

葛新景，朱建明

计算机科学 2011, 38 (11): 161-166.

摘要（134）

PDF（pc）（542KB）（640）

隐私保护的分布式数据挖掘问题是数据挖掘领域的一个研究热点，而基于经济视角，利用博弈论的方法对隐私保护分布式数据挖掘进行研究只是处于初始阶段。基于收益最大化，研究了完全信息静态博弈下分布式数据挖掘中参与者(两方或多方)的策略决策问题，得出了如下结论:数据挖掘在满足一定的条件下，参与者(两方或多方)的准诚信攻击策略是一个帕累托最优的纳什均衡策略;在准诚信攻击的假设下，参与者(多方)的非共谋策略并不是一个纳什均衡策略。同时给出了该博弈的混合战略纳什均衡，它对隐私保护分布式数据挖掘中参与者的决策具有一定的理论和指导意义。

相关文章 | 多维度评价

Select

28. 基于汉字字段的关系数据库数字水印研究

王堂，曹宝香，芦效峰，杨义先，钮心忻

计算机科学 2011, 38 (12): 162-166.

摘要（147）

PDF（pc）（537KB）（556）

提出了一种实用的基于汉字字段的关系数据库数字水印新方案。通过主键、用户密钥集合和水印嵌入间距确定目标属性值。根据定义的规则，计算比较属性值和水印的特征值并将不同位作为水印嵌入位。通过语义分析给出属性域中某个最相关的非上下结构的汉字，嵌入水印的过程就是编辑(插入/删除)该汉字。嵌入的水印具有不可见性，并且不影响数据库的可用性，可实现盲提取。该方案对插入、删除、修改数据库记录以及删除数据库字段等常见数据库更新具有较好的鲁棒性。

相关文章 | 多维度评价

Select

29. 数据仓库与OLAP技术在高考志愿数据分析中的应用

殷员分,张自力,蔡海敏,曾铮

计算机科学 2010, 37 (5): 163-164.

摘要（129）

PDF（pc）（392KB）（545）

如何填报高考志愿，增加考生被自己心仪院校录取的几率，是每一位高考考生和家长密切关注的问题。以某省近9年积累的高考历史数据建立数据仓库，利用OLAP技术对这些数据进行多维分析，得到了一些广大考生可资借鉴的结果。重点介绍了考生志愿多维数据集的建立与分析的整个过程，以及涉及到的一些技术难点。

相关文章 | 多维度评价

Select

30. 一种基于加权领域本体的语义检索方法

张亮,屈振新,丁菘,唐胜群

计算机科学 2010, 37 (7): 165-168.

摘要（117）

PDF（pc）（334KB）（463）

提出了新方法WOSR，以对已经被本体概念标注的领域信息资源进行语义检索。WOSR方法首先建立领域本体，再采用均等概率分布方法为概念赋权，然后通过概念的权重求出概念相似度，最后计算用户检索请求和信息资源之间的语义相似度，并根据相似度的大小排序输出检索结果。实验结果表明，WOSR方法比其他经典方法的检索效果更好。

相关文章 | 多维度评价