计算机科学 ›› 2009, Vol. 36 ›› Issue (10): 222-224.
张仰森
ZHANG Yang-sen
摘要: 统计语言模型的参数训练是语言建模的关键,选择多大的训练样本就能够达到建模的参数估计误差要求,是语言建模理论关心的问题之一。应用数理统计理论对汉语统计语言模型的训练语料样本容量进行了定量化描述,给出了汉语n-gram模型训练样本容量下界的估算方法及量化估算公式,可根据模型参数估计的误差要求计算出模型训练所需的样本容量。
No related articles found! |
|