时间:2018-01-11 来源:

Facebook发布wav2letter工具包,用于端到端自动语音识别 ,,

Facebook发布wav2letter工具包<a href=网页外包接活,用于端到端自动语音识别" src="http://static.open-open.com/news/uploadImg/20180104/20180104203142_513.gif" />

日前,网页外包接活 Facebook 人工智能研究院发布 wav2letter 工具包,网页切图价格它是一个简单高效的端到端自动语音识别(ASR)系统,div+css制作实现了 Wav2Letter: an End-to-End ConvNet-based Speech Recognition System 和 Letter-Based Speech Recognition with Gated ConvNets 这两篇论文中提出的架构.如果大家想现在就开始使用这个工具进行语音识别,div+css报价Facebook 提供 Librispeech 数据集的预训练模型.

以下为对系统的要求,兼职手机网页制作以及这一工具的安装教程,html静态页面制作雷锋网(公众号:雷锋网) AI 科技评论整理如下:

安装要求:

系统:MacOS 或 Linux

Torch:接下来会介绍安装教程

在 CPU 上训练:Intel MKL

在 GPU 上训练:英伟达 CUDA 工具包 (cuDNN v5.1 for CUDA 8.0)

音频文件读取:Libsndfile

标准语音特征:FFTW

安装:

MKL

如果想在 CPU 上进行训练,web切图报价如果你想要进行系统级安装,html切图制作删掉代码中的 -DCMAKE_INSTALL_PREFIX=$HOME/usr 即可.

git clone https://github.com/torch/luajit-rocks.git

cd luajit-rocks

mkdir build; cd build

cmake .. -DCMAKE_INSTALL_PREFIX=$HOME/usr -DWITH_LUAJIT21=OFF

make -j 4

make install

cd ../..

接下来网页外包接活,我们假定 luarocks 和 luajit 被安装在 $PATH 下,网页外包接活如果你把它们安装在 $HOME/usr 下了web前端制作,需要安装 KenLM.

这里需要用到 Boost

# make sure boost is installed (with system/thread/test modules)

# actual command might vary depending on your system

sudo apt-get install libboost-dev libboost-system-dev libboost-thread-dev libboost-test-dev

Boost 安装之后就可以安装 KenLM 了:

wget https://kheafield.com/code/kenlm.tar.gz

tar xfvz kenlm.tar.gzcd kenlm

mkdir build && cd build

cmake .. -DCMAKE_INSTALL_PREFIX=$HOME/usr -DCMAKE_POSITION_INDEPENDENT_CODE=ON

make -j 4

make install

cp -a lib/* ~/usr/lib # libs are not installed by default :(cd ../..

OpenMPI 和 TorchMPI

如果计划用到多 CPU/GPU(或者多设备),需要安装 OpenMPI 和 TorchMPI

免责声明:我们非常鼓励大家重新编译 OpenMPI.标准发布版本中的 OpenMPI 二进制文件编译标记不一致,div前端切图想要成功编译和运行 TorchMPI,cuda --with-cuda=/public/apps/cuda/9.0

make -j 20 all

make install

注意:也可以执行 openmpi-3.0.0.tar.bz2,但需要删掉 --enable-mpi-thread-multiple.

接下来可以安装 TorchMPI 了:

MPI_CXX_COMPILER=$HOME/usr/bin/mpicxx ~/usr/bin/luarocks install torchmpi

Torch 和其他 Torch 包

luarocks install torch

luarocks install cudnn # for GPU supportluarocks install cunn # for GPU support

wav2letter 包

git clone https://github.com/facebookresearch/wav2letter.git

cd wav2letter

cd gtn && luarocks make rocks/gtn-scm-1.rockspec && cd ..

cd speech && luarocks make rocks/speech-scm-1.rockspec && cd ..

cd torchnet-optim && luarocks make rocks/torchnet-optim-scm-1.rockspec && cd ..

cd wav2letter && luarocks make rocks/wav2letter-scm-1.rockspec && cd ..

# Assuming here you got KenLM in $HOME/kenlm

# And only if you plan to use the decoder:

cd beamer && KENLM_INC=$HOME/kenlm luarocks make rocks/beamer-scm-1.rockspec && cd ..

训练 wav2letter 模型

数据预处理

数据文件夹中有预处理不同数据集的多个脚本,符合w3c标准现在我们只提供预处理 LibriSpeech 和 TIMIT 数据集的脚本.

下面是预处理 LibriSpeech ASR 数据集的案例:

wget http://www.openslr.org/resources/12/dev-clean.tar.gz

tar xfvz dev-clean.tar.gz

# repeat for train-clean-100, train-other-500, test-clean,需要做少量预处理.

首先创建一个字母词典web切图报价,其中包括在 wav2letter 中用到的特殊重复字母:

cat ~/librispeech-proc/letters.lst >> ~/librispeech-proc/letters-rep.lst && echo "1" >> ~/librispeech-proc/letters-rep.lst && echo "2" >> ~/librispeech-proc/letters-rep.lst

然后将得到一个语言模型,网站div+css并对这个模型进行预处理.这里符合w3c标准,我们将使用预先训练过的 LibriSpeech 语言模型,符合w3c标准大家也可以用 KenLM 训练自己的模型.然后网页外包接活,我们对模型进行预处理,网页外包接活脚本可能会对错误转录的单词给予警告web前端制作,这不是什么大问题,div+css制作因为这些词很少见.

wget http://www.openslr.org/resources/11/3-gram.pruned.3e-7.arpa.gz luajit

~/wav2letter/data/utils/convert-arpa.lua ~/3-gram.pruned.3e-7.arpa.gz ~/3-gram.pruned.3e-7.arpa ~/dict.lst -preprocess ~/wav2letter/data/librispeech/preprocess.lua -r 2 -letters letters-rep.lst

可选项:利用 KenLM 将模型转换成二进制格式承接网页制作,可以生成 emission.下面的脚本可以显示出字母错误率 (LER) 和单词错误率 (WER).

luajit ~/wav2letter/test.lua ~/experiments/hello_librispeech/001_model_dev-clean.bin -progress -show -test dev-clean -save

一旦存储好 emission,可以执行 decoder 来计算 WER:

luajit ~/wav2letter/decode.lua ~/experiments/hello_librispeech dev-clean -show -letters ~/librispeech-proc/letters-rep.lst  -words ~/dict.lst -lm ~/3-gram.pruned.3e-7.arpa -lmweight 3.1639 -beamsize 25000 -beamscore 40 -nthread 10 -smearing max -show

预训练好的模型:

我们提供训练充分的 LibriSpeech 模型:

wget https://s3.amazonaws.com/wav2letter/models/librispeech-glu-highdropout.bin

注意:该模型是在 Facebook 的框架下训练好的,web切图报价因此需要用稍微不同的参数来运行 test.lua

luajit ~/wav2letter/test.lua ~/librispeech-glu-highdropout.bin -progress -show -test dev-clean -save -datadir ~/librispeech-proc/ -dictdir ~/librispeech-proc/ -gfsai

大家可以加入 wav2letter 社群

Facebook:https://www.facebook.com/groups/717232008481207/

Google 社群:https://groups.google.com/forum/#!forum/wav2letter-users

来自: 雷锋网

扩展阅读

符合w3c标准,AI及VR将成两大支柱 href="/news/view/512125bf">Facebook 帝国:手握十年路线图,html切图制作AI及VR将成两大支柱
2016AI巨头开源IP盘点 50个最常用的深度学习库
分享海量 iOS 及 Mac 开源项目和学习资料

web前端制作,Facebook却说「是我们先做到的」 href="/news/view/bb7de">重磅|谷歌发表Nature封面论文破解围棋难题,web前端制作Facebook却说「是我们先做到的」

为您推荐

承接网页制作,以简化您的开发任务 href="/news/view/e74a57">10个最佳的HTML5代码段,div前端切图以简化您的开发任务
50个值得收藏的实用CSS代码片段
web切图报价,用于端到端自动语音识别 href="/news/view/6cb01556">Facebook发布wav2letter工具包,web切图报价用于端到端自动语音识别
5个实用的CSS代码开发片段
写给系统管理员的 25 个 PHP 安全实践

更多

Facebook
wav2letter
开源软件
点击次数:7606
作者:
web前端行业资讯
Web new NewsList
英特尔宣布与法拉利跨界合作欲将AI技术用于赛车运动 ,,2018年01月11日甲骨文服务器出漏洞:攻击者用漏洞挖矿获取加密货币 ,,2018年01月11日用深度学习设计图像视频压缩算法:更简洁、更强大 ,,2018年01月11日Ubuntu内核和NVIDIA更新:修复Meltdown和Spectre两处漏洞 ,,2018年01月11日AntDesign3.1.1发布,阿里企业级UI设计语言 ,,2018年01月11日微信「跳一跳」带火小游戏,开发者如何快速上手? ,,2018年01月11日谷歌公布最新安卓系统份额:你用上奥利奥了么? ,,2018年01月11日腾讯开发出“3D音效”算法:普通耳机实现3D实时语音效果 ,,2018年01月11日谷歌工程师点赞中国程序员实现Node.js启动超4倍提速 ,,2018年01月11日三星电子总裁兼CE部门负责人金炫奭:万物互联时代到来 ,,2018年01月11日NVIDIA和大众合作建立智能驾驶助手 ,,2018年01月11日GIMPS项目报告发现已知最大素数 ,,2018年01月11日微软与生物技术公司开展AI驱动的血液检测同时诊断数十种疾病 ,,2018年01月11日微软跨平台移动开发工具套件HockeyApp宣布免费 ,,2018年01月11日《硅谷》里神乎其神的压缩技术,AI正在一点点做出来 ,,2018年01月11日LinuxMint19代号敲定为“Tara”预计2018年5月至6月期间发布 ,,2018年01月11日Facebook发布wav2letter工具包,用于端到端自动语音识别 ,,2018年01月11日开源数据库ArangoDB正进行约1156万美元股权融资 ,,2018年01月11日IntelCPU漏洞闹大:腾讯云紧急升级 ,,2018年01月11日2018年1月全球数据库排名:Redis夺回第八 ,,2018年01月11日Lyft将联手无人驾驶公司于CES上展示无人驾驶汽车 ,,2018年01月11日京东X无人超市首家社会门店开业:刷脸进、微信自动结算 ,,2018年01月11日担心被AI取代是杞人忧天?高晓松跨年演讲说的有几分对 ,,2018年01月11日免费授权技术许可Intel宣布在未来CPU中集成雷电3 ,,2018年01月11日算法决定你在社交媒体上看到的信息 ,,2018年01月11日谷歌安全博客披露“英特尔内核漏洞”更多细节 ,,2018年01月04日Postgres10开发者新特性 ,,2017年12月28日阿里巴巴、狗尾草、苏大联合论文:基于对抗学习的众包标注用于中文命名实体识别 ,,2017年12月28日柯洁的2017:20岁,与AI斗与人类斗,其乐无穷 ,,2017年12月28日如果机器人拥有痛觉,这个世界会有哪些不一样? ,,2017年12月28日ThinkinJava(十四):容器深入研究【编程语言】2015年03月09日SSH框架之Struts(2)——Struts的运行流程之配置文件【互联网】2014年11月04日【剑指Offer学习】【面试题15:链表中倒数第k个结点】 【架构设计】2015年06月30日第三章基本粒子【综合】2015年03月30日各种汽车标志png图标2014年01月28日升级Macosx10.10+xcode6.1之后,Cocoapods出现问题的解决方案 【移动开发】2014年11月04日java中的clone:深复制和浅复制【移动开发】2014年11月11日PHP+Apache如何监控多个端口和配置多站点 【综合】2015年07月20日用MJExtension简化MVC 【编程语言】2015年07月01日【ACM】顺时针打印矩阵 【云计算】2015年06月18日冒泡排序及两种优化方式【编程语言】2015年08月24日PHP4与MySQL交互使用2014年01月29日每天一个JavaScript实例-canvas定时器动态的更新一个线条【数据库】2014年11月10日hdu4190简单二分 【Web前端】2014年11月18日CodeforcesRound#318【RussianCodeCupThanks-Round】(Div.1)B.BearandBlocksdp【编程语言】2015年08月30日网页侧滑菜单 【编程语言】2015年04月17日poj2135费用流 【编程语言】2015年05月20日unix环境高级编程——进程状态【研发管理】2015年06月25日快速排序(C语言) 【编程语言】2015年03月19日雷军:小米手机未来将兼容WP系统 ,,2016年06月23日求子数组的最大和 【编程语言】2015年02月09日YUI3.5.0PR4发布 ,,2016年06月23日mvntomcat7启动Eclipse 【编程语言】2015年02月15日ASP生成静态htm页面基本代码2014年01月29日新手用Fireworks一步步制作网页2014年01月28日jQuery常见学习网站与参考书2014年01月29日跨平台文本编辑器Atomv1.9.0-beta0发布 ,,2016年06月23日android开发基础教程—文件存储功能实现2014年01月30日hibernate关联对象的增删改查------增 【Web前端】2015年07月03日python正则表达式去掉数字中的逗号(python正则匹配逗号)2014年01月29日
我们保证
We guarantee
> psd效果文件手工切图,保证图片效果最好体积最小利于传输
> 100%手写的HTML(DIV+CSS)编码,绝对符合W3C标准
> 代码精简、css沉余量小、搜索引擎扫描迅速,网页打开快捷
> 应用Css Sprite能够减少HTTP请求数,提高网页性能
> 跨浏览器兼容(IE6、7、8、9,Firefox火狐,Chrome谷歌)