摘要: 提出了一种错误抑制的多策略算法对齐汉维语句子。针对长度对齐算法无法避免错误蔓延的特点,提出了一种新的错误蔓延抑制策略:利用双语语料的词汇共现信息,自动抽取汉维语词汇搭配,结合句子长度特征,寻找1:1模式的句对作为锚点,将错误蔓延抑制在锚点内;在锚点之间,利用标点符号和长度混合方法进行句子对齐。算法实验结果验证了该多策略算法寻找的锚点的精度高,有效抑制了对齐错误的蔓延;采用的混合对齐算法,避免了基于词汇对齐算法的高时间复杂度的弱点,比传统的对齐算法性能有了较大提高,对齐准确率由95. 0%提高到97. 6%
田生伟,吐尔根·依布拉音,禹龙,加米拉·吾守尔,杨飞宇. 多策略汉维句子对齐[J]. 计算机科学, 2010, 37(4): 215-. https://doi.org/
TIAN Sheng-wei,TURGUN Ibrahim,YU Long,JAMILA Wushouer,YANG Fei-yu. Chinese-Uyhur Sentence Alignment Based on Hybrid Strategy[J]. Computer Science, 2010, 37(4): 215-. https://doi.org/