依图科技声纹识别权威竞赛夺冠,智能语音再下一城

jIB每天发布大量与生活相关的资讯平台

全球权威声纹识别竞赛结果出炉,依图科技获得第一jIB每天发布大量与生活相关的资讯平台

作者:栗峰jIB每天发布大量与生活相关的资讯平台

编辑:唐里jIB每天发布大量与生活相关的资讯平台

在奥地利召开的机器语音国际顶会 InterSpeech 2019 上,国际声纹识别权威竞赛 VoxCeleb Speaker Recognition Challenge(VoxSRC)公布最新结果,依图科技大幅领先海内外多支强队获得冠军,再次展示了世界级人工智能算法实力。jIB每天发布大量与生活相关的资讯平台

不仅如此,依图团队使用小数据就取得了优于其他团队使用大数据得到的结果,充分表明中国声纹识别技术已达世界领先水平。jIB每天发布大量与生活相关的资讯平台

jIB每天发布大量与生活相关的资讯平台

依图团队(logicworld)在全球权威声纹识别竞赛 VoxSRC 2019夺冠,等错误率(EER)0.0098,大幅领先第二名。jIB每天发布大量与生活相关的资讯平台

声纹识别为什么难?jIB每天发布大量与生活相关的资讯平台

声纹识别是一种通过声音判别说话人身份的技术。如果说语音识别是让机器判断「说了什么」,那声纹识别就是判断「是谁说的」,用于解决生物身份的确认和识别。jIB每天发布大量与生活相关的资讯平台

2012 年以来,深度学习技术逐渐进入声纹识别主流,这种方法纯粹采用数据驱动的方式,通过海量数据样本和深度神经网络模型,让机器自动去发掘声学特征中说话人的信息差异,从而「学会」声学特征中的说话人信息表示。jIB每天发布大量与生活相关的资讯平台

很显然,使用基于端到端深度学习的方法做声纹识别,拥有大量声纹数据样本,就有了无可置疑的优势。jIB每天发布大量与生活相关的资讯平台

目前,声纹识别应用还处于探索阶段,但其应用前景十分广阔。最容易想到的,比如会议录音的音频转录,在结合了声纹识别技术后,就能自动标注出谁在什么时候说了什么,轻松完成多人会议纪录,大幅提高工作效率。jIB每天发布大量与生活相关的资讯平台

随着技术的不断成熟和融合,声纹识别技术将逐渐融入日常生活,根据不同应用场景的特点进行针对性开发,将产生巨大的应用价值。jIB每天发布大量与生活相关的资讯平台

VoxSRC:声纹识别界的 ImageNet 竞赛jIB每天发布大量与生活相关的资讯平台

VoxSRC 是由英国牛津大学、韩国互联网巨头 Naver、斯坦福国际研究院(SRI International)和 MIT 的研究者联合发起的全球声纹识别竞赛,可以说是「声纹识别界的 ImageNet 竞赛」。在很大程度上,VoxSRC 结果反映了全球声纹识别技术最高水平。jIB每天发布大量与生活相关的资讯平台

VoxSRC 基于开源数据集 VoxCeleb,由牛津大学团队于 2017 年发布,后来逐渐扩充,现在是声纹识别领域规模最大、标注最完备的开源数据集之一。jIB每天发布大量与生活相关的资讯平台

VoxCeleb 来自 YouTube 名人采访视频,包含了 7000 多个不同种族、性别、口音、职业和年龄的说话人,在不同场合下超过 100 万段的说话声(utterance),时长加起来总共超过 2000 小时(每段音频的长度从 3 秒到 20 秒不等)。jIB每天发布大量与生活相关的资讯平台

除了数据量大且来源多样化,VoxCeleb 的音视频基本都含有背景噪音、笑声、重叠的说话声和其他杂音,非常考验算法的实战水平。jIB每天发布大量与生活相关的资讯平台

jIB每天发布大量与生活相关的资讯平台

牛津大学发布并维护的VoxCeleb数据集是目前全球规模最大、标注最完备的开源声纹数据集之一,数据来源多样且都来自无约束场景,非常考验算法的实战水平。jIB每天发布大量与生活相关的资讯平台

此外,VoxSRC 的测试数据集是「盲的」(blind),即没有任何标注。这些数据无法用来训练或调整系统,确保了比赛结果的公正与准确(不会出现有团队过拟合数据的情况)。jIB每天发布大量与生活相关的资讯平台

今年的 VoxSRC 吸引了海内外多支队伍参与,有约翰霍普金斯大学、法国国家信息与自动化研究所、清华大学、中山大学等知名高校和研究机构,也有平安科技、NEC、君林科技等大企业。jIB每天发布大量与生活相关的资讯平台

竞赛的任务很明确,就是判断两段音频是出自同一个人,还是来自两个不同的人。算法的输出结果用等错误率(Equal Error Rate,EER)来衡量。jIB每天发布大量与生活相关的资讯平台

EER 是衡量声纹识别算法系统综合性能的重要指标,EER 值越小,系统的性能就越好。jIB每天发布大量与生活相关的资讯平台

什么是EER、FAR、FRR?jIB每天发布大量与生活相关的资讯平台

评估算法系统性能时常输出ROC 曲线,用于描述FAR(误识率)与FRR(拒识率)之间的关系。jIB每天发布大量与生活相关的资讯平台

简单说,在声纹识别中,误识率就是“把不应该匹配的声纹当成匹配声纹”的比例,拒识率则是“把应该匹配的声纹当成不匹配声纹”的比例。jIB每天发布大量与生活相关的资讯平台

在对安全要求非常高的应用场景,就会把FAR值设置得低一些,因为判断错一次的代价很大,但这样做的同时会导致FRR值上升,用户体验度下降。jIB每天发布大量与生活相关的资讯平台

jIB每天发布大量与生活相关的资讯平台

等错误率(EER)是系统的误识率(FAR)和拒识率(FRR)相等时的错误率,即ROC曲线与45度角直线相交的点,是衡量声纹识别算法系统综合性能的重要指标。EER数值越小,系统性能越好。jIB每天发布大量与生活相关的资讯平台

为了评估数据量(训练样本多少)对系统性能的影响,这次 VoxSRC 竞赛给定了两种情况,一是固定数据集,另一个是无约束数据集。jIB每天发布大量与生活相关的资讯平台

  • 固定数据集任务,参赛队伍使用的训练数据集是固定的,也即 VoxCeleb2,该数据集包含了来自 5994 个不同说话人超过 100 万段的说话声音频。
  • 无约束数据集任务,参赛队伍在训练模型时,可以使用除竞赛测试集以外的其他任何数据,包括未公开发布的数据。

依图团队以 0.0098 的 EER 值获得本届竞赛冠军,也是唯一将 EER 值降低到 0.01 以内的团队。jIB每天发布大量与生活相关的资讯平台

特别值得一提的是,这个结果比其他团队无约束数据集任务的结果更好(无约束数据集任务的冠军 EER 值为 0.0126)。jIB每天发布大量与生活相关的资讯平台

中国最好的就是全球最好的jIB每天发布大量与生活相关的资讯平台

依图已经不是第一次在国际人工智能公开比赛中获得第一。jIB每天发布大量与生活相关的资讯平台

成立 7 年来,依图在视觉感知、自然语言处理、语音识别、智能决策等多算法领域发展,并且都独占鳌头。这次在全球声纹识别权威竞赛 VoxSRC 中夺冠,是对中国自有 AI 技术能够引领世界的又一个绝佳证明。jIB每天发布大量与生活相关的资讯平台

今年 5 月,依图发布自研云端 AI 芯片求索(questcore™),旨在提升智能密度,结合世界领先人工智能算法和先进芯片设计理念,同等功耗下的视觉推理性能是 NVIDIA GPU 的 5 倍。jIB每天发布大量与生活相关的资讯平台

基于求索构建的智能视频分析系统,将原本需要 16 台机柜的方案压缩到 1 台,降低数据中心整体建设成本 50%,运维成本 80%,让 10 万路智能视频解析系统成标配,50 万路成现实,大幅提升基础设施智能水平,为人工智能应用落地和普及奠定了坚实的基础。jIB每天发布大量与生活相关的资讯平台

8 月 29 日,依图获得科技部正式授牌,承建视觉计算国家新一代人工智能开放创新平台,促进芯片设计与人工智能的融合,同时针对不同业务场景打造一系列定制化芯片,支持智能城市、智慧医疗和智慧金融等行业。jIB每天发布大量与生活相关的资讯平台

未来,依图将在多算法领域持续投入,多模态技术融合,软硬件协同开发,将世界优胜人工智能算法与行业场景深度结合,推动人工智能应用落地。jIB每天发布大量与生活相关的资讯平台

点击 阅读原文查看 安卓智能语音助手源代码jIB每天发布大量与生活相关的资讯平台

也许你还喜欢

ups不间断电源原理分析

当前在电源市场上,所销售的电源类型较多,不同类型的电源,相应的功能与作用有所不同。在超

空间背景音乐怎么添加图文教程分享

怎样免费添加QQ空间背景音乐其实步骤也不多,很简单,主要有以下几个步骤,详情如下

万能转换器破解版怎么用?具体操作方

万能格式转换器是一款功能强大的格式转换软件,音频、视频、图片、光驱设备都可以通过万

rmvb转mp4格式转换器图文教程

在我们日常娱乐和日常工作中,现在网络上一些高清的视频一般都是rmvb格式的,而一些播放设

支付宝网络系统异常怎么解决

支付宝支付出现网络系统异常是因为IE浏览器设置Internet选项不恰当而导致的,去重新设置

win10蓝牙驱动破解版安装图文教程

win10蓝牙驱动怎么安装?请看下面具体操作方法。

微孔抛光镜面加工计数详解

一般来说,对于小孔微孔进行抛光,传统的加工方法可能会导致孔洞磨损,或者加工效果不理想。

短视频内容管理助手有哪些?怎么好用

随着短视频的普及,越来越多的人开始将大量的时间和精力投入到短视频的制作和分享中。因

模具设计学习知识分享

今天,我想谈谈我在模具设计CAD方面的一些心得体会。作为一个从事这个行业多年的工程师,

seo优化排名软件详细介绍

1. SEMrush SEMrush,一款广受好评的SEO神器,被誉为业内最佳的SEO分析工具。功能包括全