互联网广告内容审核专题(二)——机器审核

导语:在上一篇文章《审核业务机制基本认知》中,作者为我们分析了审核维度主要分为准入环节的客户主体审核和推广环节的内容审核。在本篇文章中,作者将重点介绍推广内容的机器审核方式,不仅限于商业推广的内容,同样适用于流量内容审核。Gwm每天发布大量与生活相关的资讯平台

互联网上每日发布海量内容,单单微博的评论日均可达亿级以上。同时,随着时代发展,在传统的图文内容以上,音视频、直播、弹幕等内容形式的兴起,对于内容审核的挑战日益增大。Gwm每天发布大量与生活相关的资讯平台

很明显,在风险和用户体验双重重压之下,仅依赖人工审核是不现实的,使用机器审核并初步过滤风险内容才是最优的选择。Gwm每天发布大量与生活相关的资讯平台

机器审核是什么?Gwm每天发布大量与生活相关的资讯平台

简言之,机器审核是通过AI算法对劣质内容进行识别、过滤的一种审核模式,通过提取海量数据样本的特征,输入机器学习形成的机器算法。Gwm每天发布大量与生活相关的资讯平台

机器审核通常可以区分为机审规则和机审模型,机审规则是最简单的机器审核方式,仅支持识别文本类内容。机审模型则能力更加强大,可支持文本、图片、音视频的审核,一起来看看机器审核是如何识别风险内容的?Gwm每天发布大量与生活相关的资讯平台

一、机审规则 Gwm每天发布大量与生活相关的资讯平台

机审规则即风险词表,由海量的风险词和匹配规则构成,简单理解为根据匹配规则,识别待检测文本中是否存在风险词表中的词,下面来具体说说匹配规则:Gwm每天发布大量与生活相关的资讯平台

1. 场景1:针对单个风险词的匹配规则 Gwm每天发布大量与生活相关的资讯平台

精准包含匹配:待检测文本中精准包含风险词才能够命中机审规则。如风险词为【真人荷官】,待检测文本中内容为【真%人。荷/官】,词中间加入了特殊符号,即无法识别; 强过滤匹配:能够将(1)中的特殊符合自动过滤后进行匹配,即将【真%人。荷/官】转化为【真人荷官】,再进行识别; 拼音匹配:能够将【zhenrenheguan】、【真人heguan】转化为【真人荷官】进行识别; 字母大小写转换:如风险词为【coco】,可以将【COCO】、【Coco】转化为【coco】进行识别。 2. 场景2:针对多个风险词的匹配规则 多模匹配:通过识别固定词间距内是否同时出现了多个风险词(通常不超过3个),如同时出现即命中机审规则。举例:如机审规则中,风险词为【真人】和【荷官】,设置识别的固定词间距为60字。当待检测文本中出现【真人XXXX荷官】,且两个词间距不超过60字时,机审规则可以识别; 置换匹配:对于多模匹配,需要按顺序先出现【真人】,再出现【荷官】,才能识别;而置换匹配,可以将两个词倒序排布后识别,即可以识别【荷官XXXX真人】。 3. 场景3:豁免规则

为防止正常合规的词语被误杀,通常会人为添加豁免规则。Gwm每天发布大量与生活相关的资讯平台

举个例子:如机审规则中风险词为【人流】,豁免规则为【人流量】。那么当出现【人流量】时,即会命中豁免规则,允许该词语正常使用。Gwm每天发布大量与生活相关的资讯平台

除了上述基本的匹配规则外,在商业推广中通常还会增加【白名单机制】。白名单机制的出现,是基于品牌保护的目的,即白名单内的客户或账户允许使用词【coco】,其他客户不允许使用,来保证品牌主体的正当权益。Gwm每天发布大量与生活相关的资讯平台

大家可能有疑问,海量的风险词是怎么来的?如何判断一个词属于低俗风险?Gwm每天发布大量与生活相关的资讯平台

这些都是专业的审核人员或风控规则运营人员基于工作经验、审核case以及互联网的海量数据进行人工整理的。可想而知,工作量极大。Gwm每天发布大量与生活相关的资讯平台

随着机审能力的发展,目前也可以借助一些词扩展工具,通过一个基础词,基于繁体转换、拼音转换、同义转化等逻辑,自动扩展出变体词,辅助人工收集。Gwm每天发布大量与生活相关的资讯平台

二、机审模型 Gwm每天发布大量与生活相关的资讯平台

机审模型能够实现对文本、图片、音频、视频各种形态产品的识别,对于不同形态的产品如何识别呢?Gwm每天发布大量与生活相关的资讯平台

1. 文本识别 Gwm每天发布大量与生活相关的资讯平台

相较于机审规则,模型能够实现的识别场景更多。通过语义分析构建智能学习算法,结合场景对风险文本进行识别。Gwm每天发布大量与生活相关的资讯平台

以下面一段文本为例【韩国电影/迷人的保姆/男主经不住漂亮保姆诱惑】,这段话拆开每个词都不涉及敏感问题,但整体的场景描述下却是低俗导向,不适宜发布。Gwm每天发布大量与生活相关的资讯平台

对于这类情况,机审规则无法生效,只能靠模型来识别。通过样本输入和机器学习,让模型具备这类场景的识别能力。Gwm每天发布大量与生活相关的资讯平台

2. 图片识别 Gwm每天发布大量与生活相关的资讯平台

通常区分为图片中的文字和图像识别:Gwm每天发布大量与生活相关的资讯平台

文字识别采用ocr识别技术,即对图片进行扫描,将图片中的文本输出,再使用文本规则或模型进行风险识别;图像识别基于海量的图片数据,获取图片的信息并进行预处理,比如去噪、平滑、变换等,然后抽取图片特征进行分类处理存储至索引库,计算并存储图片的风险标签。Gwm每天发布大量与生活相关的资讯平台

那在面对一张新图片时,索引库中如有与之相似的特征,即可以进行识别判断。作者对于图像识别研究并不深入,不作更多妄论。Gwm每天发布大量与生活相关的资讯平台

3. 音频识别 Gwm每天发布大量与生活相关的资讯平台

asr语音识别技术,将音频转换为文字后进行识别。Gwm每天发布大量与生活相关的资讯平台

首先对音频进行预处理,提取音频的特征。特征提取出来后,建立索引库存放特征。在面对一段待识别的语音时,将其与索引库中特征进行匹配,输出识别的结果。Gwm每天发布大量与生活相关的资讯平台

音频识别与同为多媒体元素的图片识别,基本的原理是一样的,都是提取特征、建立索引库存储、特征匹配这三大过程。Gwm每天发布大量与生活相关的资讯平台

4. 视频识别 Gwm每天发布大量与生活相关的资讯平台

视频审核目前主要以视频切帧的方式,将视频切成一张张的图片,再按照图片识别的方式进行审核。Gwm每天发布大量与生活相关的资讯平台

三、总结 Gwm每天发布大量与生活相关的资讯平台

可以看到,相较于机审规则,模型的识别范围更加广泛,识别能力更加强大。但在实际机器审核中,通常是规则和模型组合拳的方式使用。Gwm每天发布大量与生活相关的资讯平台

原因在于,模型的研发需要更加海量的数据和极细粒度的标准,并经过严格的线上测试,准召率达标后才能够上线使用。而机审规则不需要研发,通常配置即可生效,是一种实时服务。Gwm每天发布大量与生活相关的资讯平台

对于紧急风险来说,最合适的办法是使用机审规则应急,同时进行模型研发,以最大程度降低风险影响。Gwm每天发布大量与生活相关的资讯平台

当然机器算法的识别能力也是有限的,除了准召率的问题外,对于某些场景几乎不适用。Gwm每天发布大量与生活相关的资讯平台

比如直播的审核,对时效性要求极高。如使用视频切帧、音频识别的方式,直播画面结束还没审核完成,远远达不到风险管控的目的。因此通常使用人工审核,盯在直播间前防止风险突发。Gwm每天发布大量与生活相关的资讯平台

本篇文章的内容就到这里,关于更多的审核模式、审核机制、审核业务管理方式等会在后续文章中继续和大家分享!欢迎大家一起探讨!Gwm每天发布大量与生活相关的资讯平台

本文由 @声生 原创发布于人人都是产品经理,未经许可,禁止转载Gwm每天发布大量与生活相关的资讯平台

题图来自 Unsplash,基于 CC0 协议Gwm每天发布大量与生活相关的资讯平台

也许你还喜欢

steam账号能改吗怎么改 steam找不

steam账号能改吗 steam账号不能改。但用户可以更改账号的昵称,即加好友时显示的账号

steam自我锁定解锁代码在哪 steam

steam自我锁定解锁代码在哪 1、打开Steam客户端,并登录您的账户。 2、点击右上角的

steam怎么离线登录图文详解 steam

steam怎么离线登录图文详解,steam怎么关闭离线状态,steam离线登录能玩游戏吗,steam离线模

电脑有网但steam进不去图文教程 有

电脑有网但steam进不去图文教程,有网steam打不开怎么办,怎么解决steam无法打开的问题,ste

steam账号被盗人工客服解决方法图

steam账号被盗人工客服解决方法图文详解,steam账号被盗了如何找回,steam账号怎么找回,ste

steam导入本地游戏图文详解 怎么添

steam导入本地游戏图文详解,怎么添加非steam的本地游戏,steam怎么备份和恢复游戏,steam打

steam无法下载游戏解决方法步骤详

steam无法下载游戏解决方法步骤详解,steam下载游戏为什么会失败,为什么我的steam下载不

steam老是错误代码解决方法图文教

steam老是错误代码解决方法图文教程,steam错误代码102怎么解决,Steam错误代码118最新解

steam钱包充值自定义金额图文介绍

steam钱包充值自定义金额图文介绍,steam钱包怎么充值,steam钱包充值码怎么获得,steam钱包

怎么提高steam磁盘使用量图文教程

怎么提高steam磁盘使用量图文教程,steam磁盘使用量低怎么办,steam下载游戏时出现磁盘写