干货 | 2019 Kaggle Freesound 音频标注挑战赛结果出炉,这是一份排名前 2 %的解决方案!

AI 科技评论按:日前,2019 年 Kaggle Freesound 音频标注挑战赛宣告完结,比赛结果也终于出炉。参赛者之一 Eric BOUTEILLON 是全球无缝支付解决方案提供商银捷尼科集团(Ingenico Group)的一位产品负责人,他提交的解决方案在本次比赛中进入前 2% 排名,取得了第 8 名的成绩,日前,他将解决方案分享在了 Github 上,详细地介绍了该方案的复现步骤。iBg每天发布大量与生活相关的资讯平台

https://www.kaggle.com/c/freesound-audio-tagging-2019/leaderboardiBg每天发布大量与生活相关的资讯平台

本开源库的出发点iBg每天发布大量与生活相关的资讯平台

本开源库提供了一个用于创建高效音频标注系统的半监督预热管道,以及面向作者命名为 SpecMix 的多标签音频标注的一种新的数据增强技术。iBg每天发布大量与生活相关的资讯平台

在提交给 2019 年 Kaggle freesound 音频标注挑战赛的音频标注系统中,我们应用了这些新技术。该挑战赛是声学场景和事件检测和分类挑战(DCASE 2019)的第二项任务挑战,目标包括使用在少量可靠、手动标注的数据以及拥有大规模词汇设置的多标签音频标注任务中的大量噪声网络音频数据上训练的机器学习技术,来为每一测试帧预测音频标签。iBg每天发布大量与生活相关的资讯平台

TL;DR – 给我代码!iBg每天发布大量与生活相关的资讯平台

在挑战赛的公共排行榜上,该解决方案通过 Jupyter notebooks 运行得到的 lwlrap 值为 0.738,也就是说在本次比赛中排名第 8。iBg每天发布大量与生活相关的资讯平台

训练 CNN 模型 1:iBg每天发布大量与生活相关的资讯平台

https://github.com/ebouteillon/freesound-audio-tagging-2019/blob/master/code/training-cnn-model1.ipynb)iBg每天发布大量与生活相关的资讯平台

训练 VGG16 模型:iBg每天发布大量与生活相关的资讯平台

https://github.com/ebouteillon/freesound-audio-tagging-2019/blob/master/code/training-vgg16.ipynbiBg每天发布大量与生活相关的资讯平台

推理内核:iBg每天发布大量与生活相关的资讯平台

https://github.com/ebouteillon/freesound-audio-tagging-2019/blob/master/code/inference-kernel.ipynbiBg每天发布大量与生活相关的资讯平台

你还可以在公开的 Kaggle 数据集中找到 CNN-model-1 和 VGG-16 训练的权重结果。需要注意的是,因为配额原因,作者没有使用 git-lfs 将这些权重结果存储下来。iBg每天发布大量与生活相关的资讯平台

安装iBg每天发布大量与生活相关的资讯平台

该挑战赛要求参赛者在 Kaggle 内核中执行推理而不改变其配置。因此,参赛者在比赛期间使用与 Kaggle 内核配置相同版本的 pytorch 和 fastai 来加载本地生成的 CNN 权重是非常重要的。因此,参赛者选择使用 pytorch 1.0.1 和 fastai 1.0.51 非常重要。iBg每天发布大量与生活相关的资讯平台

安装方法 1:使用原作者的方法iBg每天发布大量与生活相关的资讯平台

要获得与我的本地系统相同的配置,需在 GNU Linux Ubuntu 18.04.2 LTS 上测试以下步骤:iBg每天发布大量与生活相关的资讯平台

1、克隆这个开源库:iBg每天发布大量与生活相关的资讯平台

git clonehttps://github.com/ebouteillon/freesound-audio-tagging-2019.git

2、安装 anaconda3:iBg每天发布大量与生活相关的资讯平台

https://docs.anaconda.com/anaconda/install/iBg每天发布大量与生活相关的资讯平台

3、输入 linux 终端:iBg每天发布大量与生活相关的资讯平台

conda create--name freesound --file spec-file.txt

现在你已经准备好了!iBg每天发布大量与生活相关的资讯平台

注意:我的配置已经安装了 CUDA 10,所以你可能必须根据自己在 spec-file.txt 中的配置调整 pytorch 和 cudatoolkit 的版本。iBg每天发布大量与生活相关的资讯平台

安装方法 2 :使用 conda 推荐的软件包iBg每天发布大量与生活相关的资讯平台

这个方法不能保证获得与作者相同的配置,因为 conda 可能会更新安装包。iBg每天发布大量与生活相关的资讯平台

1、克隆这个开源库:iBg每天发布大量与生活相关的资讯平台

git clonehttps://github.com/ebouteillon/freesound-audio-tagging-2019.git

2、安装 anaconda3iBg每天发布大量与生活相关的资讯平台

3、输入 linux 终端:iBg每天发布大量与生活相关的资讯平台

conda updateconda conda create-n freesound python=3.7anaconda conda activatefreesound conda installnumpy pandas scipy scikit-learn matplotlib tqdm seaborn pytorch==1.0.1torchvision cudatoolkit=10.0fastai==1.0.51-c pytorch -c fastai conda uninstall--force jpeg libtiff -y conda install-c conda-forge libjpeg-turbo CC="cc -mavx2"pip install--no-cache-dir -U --force-reinstall --no-binary :all: --compile pillow-simd conda install-c conda-forge librosa
  • 我的配置已经安装了 CUDA 10,所以你可能需要根据自己的配置调整 pytorch 和 cudatoolkit 的版本
  • 你获得的提醒可能不一致,因为我们使用的是 libjpeg-turbo

硬件/软件iBg每天发布大量与生活相关的资讯平台

在挑战赛期间,我使用了如下硬件/软件配置:iBg每天发布大量与生活相关的资讯平台

  • 英特尔酷睿 i7 4790k
  • 英伟达 RTX 2080 ti
  • 24 GB RAM
  • Ubuntu 18.04.2 LTS
  • 安装的 python 软件包的详细列表,另外在 requirements.txt 和 spec-file.txt 中可以获取 conda(非常必要)。
  • 英伟达驱动程序 418.67, CUDA 10.1, CuDNN 7.3.1

复现结果iBg每天发布大量与生活相关的资讯平台

1、从 Kaggle 下载数据集:iBg每天发布大量与生活相关的资讯平台

https://www.kaggle.com/c/freesound-audio-tagging-2019/dataiBg每天发布大量与生活相关的资讯平台

2、(选择项)从 Kaggle 下载我的权重数据集:iBg每天发布大量与生活相关的资讯平台

https://www.kaggle.com/ebouteillon/freesoundaudiotagging2019ebouteillonsolutioniBg每天发布大量与生活相关的资讯平台

3、解压 input 文件夹解压数据集,使你的环境如下:iBg每天发布大量与生活相关的资讯平台

── code │ ├── inference-kernel.ipynb │ ├── training-cnn-model1.ipynb │ └── training-vgg16.ipynb ├── images │ ├── all_augmentations.png │ └── model-explained.png ├── input │ ├── test│ │ └── ... │ ├── train_curated │ │ └── ... │ ├── train_noisy │ │ └── ... │ ├── sample_submission.csv │ ├── train_curated.csv │ ├── train_noisy.csv │ └── keep.txt ├── LICENSE ├── README.md ├── requirements.txt ├── spec-file.txt └── weights ├── cnn-model-1 │ └── work │ ├── models │ │ └── keep.txt │ ├── stage-10_fold-0.pkl │ ├── ... │ └── stage-2_fold-9.pkl └── vgg16 └── work ├── models │ └── keep.txt ├── stage-10_fold-0.pkl ├── ... └── stage-2_fold-9.pkl

3、输入命令行:iBg每天发布大量与生活相关的资讯平台

condaactivate freesound jupyternotebook

打开网页浏览器,然后选择要执行的内容。推荐顺序如下:iBg每天发布大量与生活相关的资讯平台

  • training-cnn-model1.ipynb(https://github.com/ebouteillon/freesound-audio-tagging-2019/blob/master/code/training-cnn-model1.ipynb)
  • training-vgg16.ipynb(https://github.com/ebouteillon/freesound-audio-tagging-2019/blob/master/code/training-vgg16.ipynb)
  • inference-kernel.ipynb(https://github.com/ebouteillon/freesound-audio-tagging-2019/blob/master/code/inference-kernel.ipynb)
  • 首先运行 training-*.ipynb,训练其中一个模型。

也许你还喜欢

ups不间断电源原理分析

当前在电源市场上,所销售的电源类型较多,不同类型的电源,相应的功能与作用有所不同。在超

空间背景音乐怎么添加图文教程分享

怎样免费添加QQ空间背景音乐其实步骤也不多,很简单,主要有以下几个步骤,详情如下

万能转换器破解版怎么用?具体操作方

万能格式转换器是一款功能强大的格式转换软件,音频、视频、图片、光驱设备都可以通过万

rmvb转mp4格式转换器图文教程

在我们日常娱乐和日常工作中,现在网络上一些高清的视频一般都是rmvb格式的,而一些播放设

支付宝网络系统异常怎么解决

支付宝支付出现网络系统异常是因为IE浏览器设置Internet选项不恰当而导致的,去重新设置

win10蓝牙驱动破解版安装图文教程

win10蓝牙驱动怎么安装?请看下面具体操作方法。

微孔抛光镜面加工计数详解

一般来说,对于小孔微孔进行抛光,传统的加工方法可能会导致孔洞磨损,或者加工效果不理想。

短视频内容管理助手有哪些?怎么好用

随着短视频的普及,越来越多的人开始将大量的时间和精力投入到短视频的制作和分享中。因

模具设计学习知识分享

今天,我想谈谈我在模具设计CAD方面的一些心得体会。作为一个从事这个行业多年的工程师,

seo优化排名软件详细介绍

1. SEMrush SEMrush,一款广受好评的SEO神器,被誉为业内最佳的SEO分析工具。功能包括全