肖桐:多语言机器翻译技术、应用与挑战

多语言机器翻译技术、应用与挑战7GM每天发布大量与生活相关的资讯平台

2023年1月10日7GM每天发布大量与生活相关的资讯平台

小牛翻译CEO东北大学教授、博士生导师肖桐7GM每天发布大量与生活相关的资讯平台

各位尊敬的领导、嘉宾,很高兴在今天这个场合分享一些我们小牛翻译包括东北大学自然语言处理团队关于机器翻译方面的工作。机器翻译发展到今天,从人工智能技术来讲已经经历了若干代的技术,从早期的规则包括写模板的方式已经到了现在完全自动的基于深层神经网络发展的状态。但实际上机器翻译所面临的语言翻译这个问题本身还是很复杂的,其中一点体现在语种多样性上。今天我们希望把企业的信息在“一带一路”所有沿线国家传递出去,这个时候会面临非常多的语言挑战,包括我本人,英语还能看懂一些,但日语、韩语相对大一些的语种都无法去阅读,更何况全世界存在六千种不同的语言。7GM每天发布大量与生活相关的资讯平台

7GM每天发布大量与生活相关的资讯平台

肖桐在语言服务与企业国际传播能力建设专题论坛上作主旨发言7GM每天发布大量与生活相关的资讯平台

ATMA(国际机器翻译协会北美分会)2022年报告指出目前机器翻译覆盖的语言方向达到了125075个,这个数字我看到的时候也感到非常惊讶。实际上,机器翻译发展到今天已经不是单单某几个语种、某几个类型的翻译任务去完成的了,它有很多的语言、很多的任务,需要更多、更复杂、更多样的机器翻译系统来去做。7GM每天发布大量与生活相关的资讯平台

在这样的变化下,我个人觉得有三方面的特点。7GM每天发布大量与生活相关的资讯平台

第一个特点是从少量语种的实验性验证到多语种通用模型,在全世界范围内,很多国家的语言我们现在很难去接触,包括我们自己的翻译团队,半夜时候接到翻译缅甸语文件的任务,这些语言对于即便是语言专家来讲也是极度稀缺的语言,如何构建能覆盖全世界所有语言包括这些低资源的语言进行机器翻译,这是非常大的挑战。7GM每天发布大量与生活相关的资讯平台

7GM每天发布大量与生活相关的资讯平台

这个图是微软当时用通用模型去做的87种语言的翻译,这个图的文字有点小,但颜色很有意思,红色代表两种语言之间的翻译效果不好,绿色代表相对好一点,大家可以看到红色的区域非常多,证明有一些语言由于数据量缺乏,语言知识、语言专家的数量比较少,造成这些语言的自动翻译效果不是太好,包括右侧这些语言,比如刚果的一些语言,我本人都没有听说过,也不会去使用它。当然,在这方面实际有很多的企业,特别是国际化的企业去做了很多尝试,小牛翻译今年做到了388种语言,背后蕴含着多语言机器翻译模型的蓬勃发展。短短过去5年时间,全球自动翻译语种数量翻了将近10倍的规模。7GM每天发布大量与生活相关的资讯平台

7GM每天发布大量与生活相关的资讯平台

第二是从单一的正规文本到多场景复杂环境下的机器翻译。早期做科研的时候还是做很正规新闻的机器翻译任务,比如新华社发表的社论的翻译,但现在很多场景是对音视频的翻译。现在抖音很火,我们怎么对口语化很严重的场景进行翻译,包括对电影字幕的翻译,包括做语音翻译的时候,里面存在大量的噪声,我本人带有东北口音,语音识别是有一定影响的,怎么去做,给机器翻译提出一些新的要求。更重要的是,我们在做语言能力建设的时候面临的问题是用户所使用的场景不一样,比如我们可能是做通用的新闻领域翻译可以,但要遇到法律、医药、工程类的,涉及各种各样的场景,这个图对比了很多不同类型的系统,看到不同场景翻译质量不一样,换句话说,语言专家即使能把医药相关内容翻译的很好,也不能保证在法律文献做的很好,对机器翻译也是同样的。7GM每天发布大量与生活相关的资讯平台

7GM每天发布大量与生活相关的资讯平台

第三是从无限计算资源假设到实际大规模部署。从现在的深度学习的范式去看,现在机器翻译的部署与应用成本还无法做到忽略不计,大家可以看一下左侧是受关注的大模型,在训练一侧模型的碳排放量,就是我们运行设备的碳排放量,是几百吨的数量。如果我有一个企业,要去建设这个能力,需要这么大的能源消耗,是成本非常高的一件事。当然百度这样的平台可以提供基础能力,但仍然回避不了这样的问题。右侧表示,我要训练这个需要一万多天,甚至还有更大量数据规模的使用,使得机器翻译或者比较大的人工智能技术方法落地也成为一些挑战。7GM每天发布大量与生活相关的资讯平台

小牛翻译在这方面也做了一点实践。我们一直希望把语言数量提升到一个能覆盖全世界所有语言,现在388种语言,“一带一路”所有沿线国家以及190个联合国成员国都能进行覆盖,但这样的语种数量远远不够,从技术上来讲我们又面临一个新的挑战,有300种语言是不是每两个语言之间要构建一个机器翻译系统,理论上是这样,但事实上我们不会这么做,原因是什么?300×299,这是很大的模型,很难保证模型在有限资源上运行。大家常用的技术是使用共享模型,一个模型做很多语言的翻译,大家可以把它简单理解成一位语言专家,具有英语、日语、韩语多语的能力,这是很理想的。这个语言专家很厉害,一次可以翻译一百种语言的能力,当然我们更希望这个语言专家能拥有一千甚至一万种语言的翻译能力。7GM每天发布大量与生活相关的资讯平台

我们发现,语言数量增大到一定程度之后,相似语言之间的联系就体现得非常明显,不同语言之间的差异也会体现得很明显,这会导致一个问题:我们可以把语言按语系进行简单划分,所有有语言基础的人都可以去做。用语系简单划分之后,考虑语系内部相关性的时候机器翻译可以更好地完成这个任务,比如欧洲语系之间的语言非常像,我们可以去做,但俄语语言非常特殊,要跟汉语进行混合去做,可能有些挑战。当然这里面还有其他的技术,通过一对多、多对多的模型完成这样的任务。7GM每天发布大量与生活相关的资讯平台

第二,我们也会针对不同语言资源的丰富程度进行进一步划分,比如,针对语言资源比较多、资源比较少、资源适中的情况构建最优策略达到最佳效能,包括跟语言专家、翻译专家一起探讨怎么改进它的方式。这里面遇到非常多的问题,比如我们用一套模型或者一套系统能不能解决所有领域的翻译问题?这个问题我曾经跟谷歌做类似事情的学者一起探讨过,大家的结论我觉得有点反常识,大家现在使用的策略都是一套模型做很多事情,他的想法是很简单,人的基础的语言和翻译能力是不受领域影响,就是我们主谓宾大多数情况成立,这种情况下我们仍然需要通用模型给我们提供通用的知识,而领域的知识更多的是让模型更好地适应一个具体的任务,而非推翻以前的基础知识,不是推翻重来,至少我个人觉得这个观点蛮有意思,从实验结果来看,现在也有这样一个趋势,用多领域的混合模型来做。7GM每天发布大量与生活相关的资讯平台

这里面我们配合领域词典技术以及TM(翻译记忆)技术进一步完成机器翻译系统构建。7GM每天发布大量与生活相关的资讯平台

转载来源:“语言服务与企业国际传播能力建设专题论坛” 译鉴堂7GM每天发布大量与生活相关的资讯平台

转载编辑:杨瑾7GM每天发布大量与生活相关的资讯平台

也许你还喜欢

ups不间断电源原理分析

当前在电源市场上,所销售的电源类型较多,不同类型的电源,相应的功能与作用有所不同。在超

空间背景音乐怎么添加图文教程分享

怎样免费添加QQ空间背景音乐其实步骤也不多,很简单,主要有以下几个步骤,详情如下

万能转换器破解版怎么用?具体操作方

万能格式转换器是一款功能强大的格式转换软件,音频、视频、图片、光驱设备都可以通过万

rmvb转mp4格式转换器图文教程

在我们日常娱乐和日常工作中,现在网络上一些高清的视频一般都是rmvb格式的,而一些播放设

支付宝网络系统异常怎么解决

支付宝支付出现网络系统异常是因为IE浏览器设置Internet选项不恰当而导致的,去重新设置

win10蓝牙驱动破解版安装图文教程

win10蓝牙驱动怎么安装?请看下面具体操作方法。

微孔抛光镜面加工计数详解

一般来说,对于小孔微孔进行抛光,传统的加工方法可能会导致孔洞磨损,或者加工效果不理想。

短视频内容管理助手有哪些?怎么好用

随着短视频的普及,越来越多的人开始将大量的时间和精力投入到短视频的制作和分享中。因

模具设计学习知识分享

今天,我想谈谈我在模具设计CAD方面的一些心得体会。作为一个从事这个行业多年的工程师,

seo优化排名软件详细介绍

1. SEMrush SEMrush,一款广受好评的SEO神器,被誉为业内最佳的SEO分析工具。功能包括全