100字范文,内容丰富有趣,生活中的好帮手!
100字范文 > 《自然语言处理实战入门》---- 文本样本扩展小技巧:使用回译技术进行样本增强

《自然语言处理实战入门》---- 文本样本扩展小技巧:使用回译技术进行样本增强

时间:2020-06-28 12:26:02

相关推荐

《自然语言处理实战入门》---- 文本样本扩展小技巧:使用回译技术进行样本增强

文章大纲

回译技术其他样本增强技术 使用百度翻译进行回译文本增强的脚本扩展后的结果参考文献

回译技术

所谓回译,就是将一种语言的语料翻译为另一种语言,然后再翻译回来的方法。对回译回来的文本,检查其是否与源文档相同,完全相同的话可以抛弃,否则留用。

这种方法在增强文本相似数据集时很有用,尤其是从无到有的构建文本相似数据集。

优点:回译之后的文本在语法结构、选词用词等方面进行了丰富的变换,目前的翻译技术比较成熟,可以提供较高质量的增强数据。

回译,又称为“还原翻译”或“反向翻译”,英文叫Back Translation。意思就是把A语言翻译成B语言,然后在脱离A语言影响的基础上,再把B语言“往回”翻译成A语言,一般用于校对和检查。举个例子便于理解:

源语言: The patient is a senior in local high school.

目标语言: 患者是一名本地高中的高四学生。

回译: The patient is in his fourth year of local high school.

这里通过对比回译和源语言,发现目标语言的“高四”显然不适合国内语境,因为中国的三年高中学制和北美的四年是不一样的,进而可以

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。