1974年1月创刊(月刊)
主管/主办:重庆西南信息有限公司
ISSN 1002-137X
CN 50-1075/TP
CODEN JKIEBK
编辑中心
    数据存储与挖掘 栏目所有文章列表
    (按年度、期号倒序)
        一年内发表的文章 |  两年内 |  三年内 |  全部
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 基于语义信息的存储能效的研究
    尤红桃,张延园,林奕,刘胜
    计算机科学    2013, 40 (Z6): 112-114.  
    摘要126)      PDF(pc) (358KB)(494)    收藏
    随着数字化信息爆炸性的增长,存储技术成为IT业发展的新动力。存储系统规模的不断扩大,使能效问题越来越突出,主要表现为增加了系统运行维护和冷却的成本、降低了系统的可靠性和扩展性、加剧了存储系统周围环境的污染,因此研究存储能效问题具有较大的经济价值和实用意义。阐述了存储系统中磁盘能效的研究进展和现状,并从语义信息出发,设计与实现了基于语义信息的驱动程序。实验表明该驱动程序有效地降低了磁盘能耗,提高了存储系统I/O性能,优化了存储能效。
    参考文献 | 相关文章 | 多维度评价
    2. 基于语义的业务架构需求冲突验证研究
    朱岭,郭树行
    计算机科学    2013, 40 (Z6): 115-119.  
    摘要136)      PDF(pc) (447KB)(464)    收藏
    为了解决企业信息化过程中经常出现的需求冲突问题,提出了一种基于语义的业务架构需求冲突验证方法。首先引入了企业架构和业务架构的概念,论述了企业业务架构需求冲突的定义与影响;其次基于传统的、业务架构视角下的语义模型,提出了信息化需求冲突的一种验证方法,并进行了案例研究,以验证方法的可行性;最后对TOGAF架构需求及其冲突验证方法进行了研究。
    参考文献 | 相关文章 | 多维度评价
    3. 面向大规模地形的瓦片调度与实时绘制算法
    刘浩,曹巍,赵文吉,宁方馨,潘李亮
    计算机科学    2013, 40 (Z6): 120-124.  
    摘要161)      PDF(pc) (1399KB)(446)    收藏
    随着图形硬件性能的提升,大规模地形绘制的主要瓶颈已从绘制能力不足转变为大数据的传输,针对这一问题提出一种支持大规模地形的瓦片调度与实时绘制算法。将超大地形数据以瓦片金字塔形式存储于硬盘,绘制每一帧时只调度当前场景所需的少量瓦片进入显存。首先利用GPU实时计算地形网格点的地理坐标并传回CPU分析可见范围,然后采取瓦片四叉剖分、规则化处理和瓦片合并等一系列操作在所有LOD层中拣选最优瓦片集合并调入内存,在内存中利用一块固定大小的缓存进行管理与更新,并最终以单张纹理的形式传入显存进行采样和绘制。实验表明,该算法节约了大量的显存带宽,有效提升了系统在数据传输方面的执行效率,在大规模地形调度与绘制中取得了较好的效果。
    参考文献 | 相关文章 | 多维度评价
    4. 基于相容粗糙集的改进的基因特征选择方法
    焦娜
    计算机科学    2013, 40 (Z6): 125-128.  
    摘要127)      PDF(pc) (370KB)(369)    收藏
    在基因表达数据中,有效的基因选择方法是癌症基因数据研究的重要内容。粗糙集是一个去掉冗余特征的有效工具。由于基因表达数据的连续性,为了避免运用粗糙集方法所必须的离散化过程带来的信息丢失,将相容粗糙集应用于基因的特征选择,提出基于相容粗糙集的基因特征选择方法,并在此方法基础上进一步对粗糙集的边界域进行研究,提出了基于相容粗糙集的改进的基因特征选择方法。在两个标准的基因表达数据上进行实验,结果表明与传统的基因特征选择方法相比,所提方法能够有效提高分类精度。
    参考文献 | 相关文章 | 多维度评价
    5. 基于主题树的BBS论坛用户互动行为分析
    胡雪娇,李慧,马国栋
    计算机科学    2013, 40 (Z6): 129-132.  
    摘要148)      PDF(pc) (826KB)(417)    收藏
    用户之间的互动对研究BBS论坛有着重要意义。为准确描述BBS树状论坛用户之间的互动过程,引入了主题树的概念,并根据自主定义的主题广度系数W和主题综合深度系数D等统计指标,对主题中用户的互动情况进行了详细描述。研究结果表明:主题总帖数的大小并不能全面描述主题中用户的互动情况,用户互动频繁的主题帖不一定具有较高的主题总帖数。因此,根据主题广度系数W和主题综合深度系数D对用户的互动行为进行划分,得到5种分类结果。
    参考文献 | 相关文章 | 多维度评价
    6. 基于粒计算的离散化算法及其应用
    史志才,夏永祥,周金祖
    计算机科学    2013, 40 (Z6): 133-135.  
    摘要129)      PDF(pc) (277KB)(632)    收藏
    连续数值属性的离散化是粒计算理论应用的重要步骤。首先对目前的离散化算法进行了分类讨论,提出了区间粒的概念,融合熵理论定义了区间粒的粒度,进而提出了基于粒计算的连续数值属性的离散化算法,并将该算法应用于入侵检测过程;实验结果表明该算法简洁高效,能够确保入侵检测系统的检测效果。
    参考文献 | 相关文章 | 多维度评价
    7. 基于PageRank的社交网络影响最大化传播模型与算法研究
    宫秀文,张佩云
    计算机科学    2013, 40 (Z6): 136-140.  
    摘要195)      PDF(pc) (440KB)(1279)    收藏
    社交网络中影响最大化问题是指找出最具有影响力的k个节点,使得最终社交网络中被影响的节点最多,信息传播范围最大。针对影响最大化问题,目前已存在一些基本传播模型,但是这些模型没有考虑网络中节点的相关性和重要性,而网络中节点的相关性和重要性是衡量其影响力的一个重要指标,因此,提出了一种基于网页排名算法的信息传播模型(PageRank-based Propagation Model,PRP),然后利用贪心算法来近似求解影响最大化问题。实验结果表明,基于PageRank的传播模型解决影响最大化问题的效果比传统的线性阈值模型、加权级联模型和独立级联模型的效果更好,影响力范围更大。
    参考文献 | 相关文章 | 多维度评价
    8. 基于标签路径的Web结构化数据自动抽取
    李贵,陈成,李征宇,韩子扬,孙平,孙焕 良
    计算机科学    2013, 40 (Z6): 141-144.  
    摘要121)      PDF(pc) (662KB)(535)    收藏
    提出了一种基于标签路径的Web结构化数据自动抽取方法。该方法通过对网页DOM树的解析获取完整标签路径集合,并依据路径相似度测量方法来聚类标签路径,实现目标数据区域的定位,然后通过标签节点坐标位置的特性来分离各个数据项,过滤冗余数据,最终完成数据抽取。实验结果表明,与MDR方法相比,该方法在处理拥有结构化数据的网页时,有更高的查全率和查准率。
    参考文献 | 相关文章 | 多维度评价
    9. 复杂网络性质探讨及在垃圾邮件过滤中的运用
    李渊,廖闻剑,彭艳兵,程光
    计算机科学    2013, 40 (Z6): 145-148.  
    摘要111)      PDF(pc) (329KB)(351)    收藏
    基于描述社会网络中幂律分布和小世界效应的网络理论,社会计算能够定量分析社会行为的规律。首先通过幂律分布特征从统计意义上区分了网络中两类度数有差异的节点,这样的方法可以用于垃圾邮件过滤。考虑小世界效应后得到网络平均距离变化缓慢的动态性质,该性质指出了一种平均距离相对固定的网络模型构造思路。最后以邮件数据为实验对象,验证了节点分类的方法对垃圾邮件过滤的有效性。
    参考文献 | 相关文章 | 多维度评价
    10. 基于切片的OLAP动态推理控制研究
    周彩霞,陈启买
    计算机科学    2013, 40 (Z6): 149-152.  
    摘要118)      PDF(pc) (337KB)(412)    收藏
    针对OLAP系统存在的数据仓库敏感信息泄漏的问题,及已有的推理研究都是以数据立方体为粒度,细粒度的切片推理仍然存在的问题,提出了以切片为推理单元的推理控制方法。该方法将推理粒度细化到切片,使每次查询生成对应的切片格,根据格的依赖关系判定是否存在推理通道,实现动态地防止单切片的推理,提高了敏感信息的保护力度。
    参考文献 | 相关文章 | 多维度评价
    11. 谱聚类的算子理论研究进展
    管涛,王杰
    计算机科学    2013, 40 (Z6): 153-156.  
    摘要117)      PDF(pc) (362KB)(484)    收藏
    谱聚类来源于算子理论研究成果,在大数据降维和分类中发挥着重要的作用,但是目前国内的研究多注重应用算法设计,很少见到谱聚类理论方面的研究。为弥补这方面的一些不足,较为系统地总结了这些理论,侧重于阐述与谱聚类的算子理论紧密相关的最新理论研究成果,并简要介绍了一些具体的谱聚类算法、原理及其性能。从积分算子、图谱理论、流形学习出发,评述和分析了谱聚类的最新理论原理、收敛性结论、发展现状以及与流形学习的内在联系,最后指出了理论研究的一些方向。
    参考文献 | 相关文章 | 多维度评价
    12. 面向领域的Web数据抽取与集成
    李贵,李征宇,陈韶刚,韩子扬,孙平,孙焕良
    计算机科学    2013, 40 (Z6): 157-159.  
    摘要108)      PDF(pc) (585KB)(348)    收藏
    面向领域的Web数据挖掘包括领域Web数据抽取和领域Web数据集成。针对领域数据抽取,提出了Web结构数据模型和Web表模式,给出了Web表定位和数据记录抽取的算法,针对领域Web数据集成,提出了基于领域模型的数据集成算法。结合行业领域的实际需求,验证了模型和算法的有效性。
    参考文献 | 相关文章 | 多维度评价
    13. 基于ERP的电力企业数据集成研究
    张德刚,罗学礼,盛俊,徐树振,田雷
    计算机科学    2013, 40 (Z6): 160-162.  
    摘要112)      PDF(pc) (395KB)(442)    收藏
    整合异构数据源是电力企业提升信息化水平的必由之路,介绍了一个以ERP为核心,以XML和Web Ser-vice为基础的电力企业数据交换和共享平台模型,通过该平台实现了电力企业新开发的ERP系统和遗留系统异构数据源之间跨平台的数据交换和共享。应用案例表明,该平台实现了企业ERP与异构数据源数据共享与交换,为企业信息化打下了坚实的基础。
    参考文献 | 相关文章 | 多维度评价
    14. 中文微博的Hashtag话题相关性分析
    胡长龙,唐晋韬,王挺
    计算机科学    2013, 40 (Z11): 235-237.  
    摘要301)      PDF(pc) (346KB)(2255)    收藏
    Hashtag(微博话题词)是发布者为微博信息创建的话题标签,能帮助用户在海量微博数据中高效发现热点话题。Hashtag由用户创建的特性使得不同的Hashtag可能代表着同一个话题,挖掘Hashtag之间的话题相关性将有助于热点话题发现和聚合展示。研究了Hashtag之间相关性分析问题,抽取了Hashtag文本特征、微博内容、Hashtag的出现次数-时间分布以及Hashtag共现等一系列特征,以分析Hashtag之间的话题相关性。在新浪微博数据上的实验结果显示,这一系列特征组合能较好地帮助Hashtag相关性分析。
    参考文献 | 相关文章 | 多维度评价
    15. 一种根据决策树结合信息论的经典算法复杂度可能下界分析
    周毅敏,李光耀
    计算机科学    2013, 40 (Z11): 238-241.  
    摘要122)      PDF(pc) (290KB)(627)    收藏
    计算机算法是电子计算机诞生时同时出现的产物。有时甚至认为算法比现代计算机出现得更早。为解决具体问题,出现了各种各样的算法。算法的时间复杂度是算法实现中最关心的问题之一。然而,面对一个问题,是否存在一个算法复杂度不可逾越的界限以及如何确定这个界限却不常作为一个值得研究的问题受到重视。针对这个问题,提出了一个基于决策树和信息论的分析方法来对一些经典算法建模并分析这些算法的时间复杂度可能达到的下界是什么,以及如何计算这个下界等。所提计算方法是真实可行的,对列出的一些经典算法是有效的,并能够应用到其它一些文中未列出的算法中。
    参考文献 | 相关文章 | 多维度评价
    16. 基于开放获取理念的我国高校机构知识库建设探究
    陈依玲,吕扬建
    计算机科学    2013, 40 (Z11): 242-245.  
    摘要111)      PDF(pc) (340KB)(376)    收藏
    通过对18所高校机构知识库进行调查,分析了资源收录数量、资源类型、浏览方式、语种分布、软件平台及征缴政策等现状,针对资金匮乏、资源不足、存在知识产权阻力、缺乏统一标准等问题,提出了相应的解决措施。
    参考文献 | 相关文章 | 多维度评价
    17. 基于段落-句子互增强的自动文摘算法
    谢浩,孙伟
    计算机科学    2013, 40 (Z11): 246-250.  
    摘要121)      PDF(pc) (371KB)(348)    收藏
    句子排序问题是文本自动摘要的核心问题,基于互增强关系(MRP)的基本思想,提出一种新的句子排序模型——段落-句子互增强模型。利用段落关系,通过段落句子的互增强,迭代计算出句子的显著度,抽取出文摘句。分析了模型中的内、外影响因子对算法效果的影响并对冗余处理进行了讨论。实验表明,将其运用在单文本自动摘要中,能取得高质量的文摘。
    参考文献 | 相关文章 | 多维度评价
    18. 多粒度时间文本数据的周期模式挖掘算法
    孟志青,楼婷渊,胡强
    计算机科学    2013, 40 (Z11): 251-254.  
    摘要110)      PDF(pc) (395KB)(663)    收藏
    大规模文本数据挖掘是大数据分析的重要分支,也是近年来的一个研究热点。研究了多粒度时间文本数据周期模式挖掘算法,首先提出了时间粒度转换、多粒度时间间隔等概念,然后建立了文本数据的周期模型,给出了一个多粒度时间文本下的周期模式挖掘算法,最后对大量病毒文本文献数据进行了实验,表明了提出的算法可以挖掘一些有效的周期模式,讨论了周期宽松度对支持度和置信度的影响。该研究为大文本数据分析提供了一种新的方法。
    参考文献 | 相关文章 | 多维度评价
    19. 面向TRIZ理论使用者的多标签专利分类
    袁力,陈阳,赵勇
    计算机科学    2013, 40 (Z11): 255-258.  
    摘要117)      PDF(pc) (408KB)(654)    收藏
    专利是创新的结果,更是再创造的知识源泉,对专利技术知识依据创新需求的分类可有效帮助设计者进行创新设计。依据TRIZ理论对产品专利进行自动分类,以辅助利用专利蕴含的技术冲突进行产品创新设计。TRIZ原始的发明原理过于抽象以及有些原理之间有重叠,文中对40个原始的发明原理进行重组,形成20个新的类别。专利自动分类是一类典型的多标签分类问题,文中从Pro_Techniques和CREAX两个软件中收集了针对发明原理进行具体解释的专利数据,并依据此数据集对问题转换和自适应算法两类多标签分类算法进行对比分析。采用海明损失、测度等评估特性评估了上述算法的性能和质量。结果表明,在使用TRIZ专利数据集时,问题转换方法分类性能要明显优于自适应算法。
    参考文献 | 相关文章 | 多维度评价
    20. 基于词间依存的汉语基本块依存关系识别
    李丽,赵文娟,樊孝忠
    计算机科学    2013, 40 (Z11): 259-262.  
    摘要110)      PDF(pc) (317KB)(548)    收藏
    基本块的分析是句法分析中的重要技术,根据依存理论,提出了一种分析基本块之间的依存关系的方法。首先使用BIO标记来识别基本块,然后根据词之间的依存关系判别基本块之间的依存关系。实验表明,基本块识别的正确率和召回率分别为82.3%和78%,基本块之间依存关系识别的正确率和召回率分别为89%和90.5%。
    参考文献 | 相关文章 | 多维度评价
    21. 基于MapReduce的分布式ETL多维数据模型研究
    宋杰,郝文宁,陈刚,靳大尉,赵成
    计算机科学    2013, 40 (Z11): 263-266.  
    摘要105)      PDF(pc) (583KB)(389)    收藏
    针对MapReduce缺少对ETL上层数据模型的具体描述,提出了一种集成的基于MapReduce的分布式ETL(MapReduce Distributed ETL,简称MDETL)多维数据模型处理方法其,把对数据的处理分解成对数据属性(维和事实)的处理,解决了ETL上层具体数据模型的构建问题。用真实的数据集评估了它的性能,实验结果表明MDETL具有很好的可扩展性。
    参考文献 | 相关文章 | 多维度评价
    22. 语义分析与TF-IDF方法相结合的新闻推荐技术
    周由,戴牡红
    计算机科学    2013, 40 (Z11): 267-269.  
    摘要129)      PDF(pc) (318KB)(784)    收藏
    在新闻项目的推荐系统中,通常使用TF-IDF权重技术结合余弦相似性度量方法,然而这种技术没有考虑到文字本身的实际语义,因此,提出了基于内容和语义分析相结合的一种新方法。此方法将同义词集合的逆文档频率及语义相似性相结合,采用WordNet同义词集合做相似性计算。构建用户配置文件进行实验测试,验证了该方法的有效性。实验结果表明,提出的语义方法性能优于TF-IDF方法。
    参考文献 | 相关文章 | 多维度评价
    23. 一种应用于大规模存储系统的数据分布算法
    郑胜,李通
    计算机科学    2013, 40 (Z11): 270-273.  
    摘要115)      PDF(pc) (304KB)(393)    收藏
    随着大数据时代的到来,PB级、EB级甚至ZB级数据集出现,存储系统的建设需要根据业务的发展,逐渐进行扩展。不同性能存储设备的加入、旧设备的退出以及多设备同时失效等问题的出现对传统存储系统数据分布算法提出严峻挑战。设计了一种新的hash映射算法,该算法引入节点权重和多副本,并考虑节点失效和节点过载情况,能够适应存储系统扩容、节点失效、节点过载的动态环境。该算法能从概率上保证系统伸缩时,数据对象及其副本分布在不同的节点上,以及在节点间保持概率上分布的均衡性和迁移数据量最优;针对系统运行过程中节点失效和节点过载,该算法也进行了有效处理,提高了系统的可用性和性能。通过数学分析和实验验证了该分布算法自动适应存储系统的伸缩变化,保证了数据分布均匀性和对节点失效和过载的有效处理。
    参考文献 | 相关文章 | 多维度评价
    24. 基于RS-SVM的网络商品评论情感分析研究
    王刚,杨善林
    计算机科学    2013, 40 (Z11): 274-277.  
    摘要107)      PDF(pc) (335KB)(543)    收藏
    网络商品评论情感分析对网络购物用户的决策有着重要的帮助,因此,分类准确性的提高一直是网络商品评论情感分析研究关注的重点问题之一。近些年,集成学习理论是提高分类精度的一种有效途径,并已有研究将Bagging、Boosting引入网络商品评论的情感分析领域,但对于Random Subspace集成学习方法关注相对较少。为此,本研究根据网络商品评论情感分析问题的高维度数据特征,提出一个新的网络商品评论情感分析方法RS-SVM。该方法以集成学习中的Random Subspace为基础,选取目前在情感分析领域广泛应用的SVM作为基学习器,通过集成Random Subspace较强的学习能力,进一步提高网络用户评论情感分析的准确程度。最后,在网络商品评论情感分析经典数据库Movie Reviews上进行了实验,结果表明RS-SVM取得了比其它分类器都好的实验结果。
    参考文献 | 相关文章 | 多维度评价
    25. 用遗传算法改进的BP神经网络剪枝算法来优化决策树模型
    武彤,程辉
    计算机科学    2013, 40 (Z11): 278-280.  
    摘要194)      PDF(pc) (310KB)(559)    收藏
    决策树是一种有效的分类方法,但在构建决策树模型的过程中,常常会出现模型过度拟合的现象。利用基于BP神经网络的决策树剪枝算法(BP-Pruning)进行软剪枝处理,然后根据BP-Pruning的一些不足,提出一种改进算法,简称GBP-Pruning算法。该算法通过引入遗传算法来训练BP-Pruning算法模型中的权值和阈值,从而克服了BP-Pruning算法上的不足,最后验证了GBP-Pruning算法的可行性。
    参考文献 | 相关文章 | 多维度评价
    26. 基于地市级数据集市的结构与模块设计
    张世红,秦浩
    计算机科学    2013, 40 (Z11): 281-283.  
    摘要121)      PDF(pc) (308KB)(384)    收藏
    根据地市级移动通信的实际需求,需要设计数据集市的层次结构,其结构由面向综合查询的数据层和面向明细查询的数据层构成,重点是对账户主题、业务量主题、竞争主题、用户主题、新业务主题、大客户主题等模块进行总体设计和主表设计。
    参考文献 | 相关文章 | 多维度评价
    27. 基于模糊逻辑的数据分级存储模型研究
    施光源,张宇
    计算机科学    2013, 40 (Z11): 284-287.  
    摘要117)      PDF(pc) (432KB)(440)    收藏
    数据分级存储是智能数据管理的重要途径,利用分级存储能够有效地平衡存储资源与不同数据之间的存取关系,最大程度地提高存储系统的整体性能。但是,在数据分级过程中对于数据特征的发现以及热点数据的判断一直是数据分级存储的瓶颈。提出一种基于模糊逻辑的数据分级存储特征模型FLM,该模型将反映数据冷热程度的关键特征作为输入量,利用模糊逻辑对热度特征量进行推理获得输出量,从而平滑热点数据与非热点数据的边界,避免尖锐边界问题,以利于数据迁移的平顺性,降低数据管理中出现的抖动问题。
    参考文献 | 相关文章 | 多维度评价
    首页 | 前页| 后页 | 尾页 第1页 共1页 共27条记录