专利详情

专利名称	一种网络可比语料的挖掘方法及装置
申请号	CN201310382010.1	专利类型	发明专利
公开（公告）号	CN103473280A	公开（授权）日	2013.12.25
申请（专利权）人	中国科学院合肥物质科学研究院	发明（设计）人	李淼;朱泽德;张健;曾新华;陈雷;曾伟辉;郑守国;高会议;胡泽林;杨振新;陈晟;李华龙;董瀚琳;吴娜;卞程飞;翁士状
主分类号	G06F17/30(2006.01)I	IPC主分类号	G06F17/30(2006.01)I;G06F17/27(2006.01)I
专利有效期	一种网络可比语料的挖掘方法及装置至一种网络可比语料的挖掘方法及装置	法律状态	实质审查的生效
说明书摘要	本发明涉及网络可比语料的挖掘方法，包括：利用网络爬虫获取源语言网页，经预处理后形成源语言文档；分析源语言文档的跨语言主题的概率，产生对应的目标语言查询词；将目标语言查询词提交搜索引擎，选取前N的文档构成目标语言候选相似文档集；计算源语言文档和目标语言候选相似文档的相似度，筛选出相似度较高的文档构建可比语料库。本发明还公开了一种实施网络可比语料的挖掘方法的装置。本发明避免词汇翻译产生歧义或消耗大量时间；源语言文档源自于网络爬虫获取的特定网站内容，目标语言文档来自于整个互联网，有效提高对源语言文档的利用率；源语言和目标语言相似文档匹配通过主题分布的相似性实现，提高了语料库建设的准确度。