时间:2017-12-28 来源:

阿里巴巴、狗尾草、苏大联合论文:基于对抗学习的众包标注用于中文命名实体识别 ,,

国际知名的人工智能学术会议 AAAI 2018 即将于 2 月份在美国新奥尔良举办web切图报价,据机器之心了解,web切图报价阿里巴巴共有 11 篇论文被接收.机器之心 AAAI 2018 论文专栏,psd转html将会对其中的数篇论文进行介绍,html切图制作同时也欢迎读者推荐更多优质的 AAAI 2018 接收论文.

本文介绍了阿里巴巴业务平台事业部、深圳 Gowild(中文:狗尾草)智能科技有限公司、苏州大学联合发布的论文《Adversarial Learning for Chinese NER from Crowd Annotations》.该论文提出了一种在中文 NER 任务上,html切图利用众包标注结果来训练模型的方法.

1. 文章目的与思想

为了能用较低的成本获取新的标注数据,wap前端外包我们采用众包标注的方法来完成这个任务.众包标注的数据是没有经过专家标注员审核的web前端制作,所以它会包含一定的噪声.在这篇文章中,web前端制作我们提出一种在中文 NER 任务上承接网页制作,利用众包标注结果来训练模型的方法.受到对抗学习的启发,div前端切图我们在模型中使用了两个双向 LSTM 模块web切图报价,来分别学习众包标注数据中的公有信息和属于不同标注员的私有信息.对抗学习的思想体现在公有块的学习过程中,web切图报价以不同标注员作为分类目标进行对抗学习符合w3c标准,从而优化公有模块的学习质量,符合w3c标准使之收敛于真实数据(专家标注数据).我们认为这两个模块学习到的信息对于任务学习都有积极作用网页外包接活,并在最终使用 CRF 层完成 ne 标注.

模型如下:

阿里巴巴、狗尾草、苏大联合论文:基于对抗学习的众包标注用于中文命名实体识别

1. 数据使用:

我们在对话数据和电商数据上对模型的性能进行验证.

1)对话数据是由 gowild 公司提供的,jpg或psd转html我们让 43 位标注员在两万句语料上标注「人名」和「歌名」实体.我们认为这份数据非常适合我们的任务.

(1)若让一位专家标注员标注对话数据web前端制作,由于他的认知是有限的,web前端制作所以当他出现标注失误时对模型的影响是比较大的.在这种情况下承接网页制作,但并不是所有人都知道他的另一个称呼「小刚」.多人的知识面肯定要比一个人来的广.

(2)人机对话语料中包含一定比例的语法错误:

● 你怎么子我都看的手机死机了web切图报价,在弄自己开门进来干嘛都记得.

● 你说谢谢的诗意哥哥吗?

不同的标注员对于上述句子的语义理解可能是不同的,网站div+css我们也希望模型能学习到这些特征符合w3c标准,使模型能更好收敛到最真实的数据分布,符合w3c标准提高模型的泛化能力.

最终网页外包接活,我们的模型在对话数据上取得了近一个点的 F1 提升.

阿里巴巴、狗尾草、苏大联合论文:基于对抗学习的众包标注用于中文命名实体识别

2)电商数据是由阿里巴巴提供.首先我们让五位标注员对标题数据和用户请求数据进行标注,wap前端外包目标是标注出已定义好的五类实体:品牌、产品、型号、规格、原料web前端制作,每句标注任务随机分配给两位标注员.对于标注员的标注结果,div+css制作我们通过样本抽样承接网页制作,分析得到造成标注噪声(标注不一致)的主要原因是不同标注员对于标注规范和每一句标注样例的认识是不同的.特别是在标题数据集中,承接网页制作产品、型号实体的边界定义非常容易造成标注不一致.

在上述众包标注得到的数据集上训练我们论文中提出的模型web切图报价,可以得到一个点左右的提升:

阿里巴巴、狗尾草、苏大联合论文:基于对抗学习的众包标注用于中文命名实体识别

文章分块解析:

相关工作:

(1)序列标注:早期用来处理序列标注问题的模型都十分依赖人工设计的特征模板,web切图报价例如:HMM, MEMM 和 CRF 模型,html切图制作模型的性能很大程度上受限于特征模板的质量.神经网络热潮来临后网页外包接活,一个成熟的新模型被广泛应用:它使用双向 LSTM 来提取序列特征,wap前端外包并用 CRF 解码web前端制作,在序列任务上取得了显著成果,web前端制作这也是我们文章中的 baseline 模型.

(2)对抗训练:对抗网络最早被成功的应用在计算机视觉领域.近几年承接网页制作,「对抗」这一概念也被引入到 NLP 任务中,div前端切图分别在跨语言、跨领域和多任务学习中取得突破.在这些任务中使用「对抗学习」,目的就在于学习到训练语料中的「共有特征」.我们的工作也是以这一目的为出发点,web切图报价希望通过对抗学习的方式符合w3c标准,让模型能分辨出「众包」数据中的「标注噪声」.

(3)众包标注模式:为了能在短时间内以较低成本获取标准语料,符合w3c标准我们采用众包标注的模式网页外包接活,具体得到的数据情况见上面的「数据使用」.

Baseline

在文章的所有实验中,jpg或psd转html我们使用 BIOE 的标签集合.首先web前端制作,我们训练 CRF 作为传统 baseline 模型.随后,web前端制作尝试将序列特征映射到更高维度承接网页制作,也就是用 LSTM 模块提取特征.在中文任务中,承接网页制作输入单位为 char(字符),每个字符经过 lookup-table 映射成向量后,网站div+css经过双向的 LSTM 层提取特征:

阿里巴巴、狗尾草、苏大联合论文:基于对抗学习的众包标注用于中文命名实体识别

阿里巴巴、狗尾草、苏大联合论文:基于对抗学习的众包标注用于中文命名实体识别  

最终用 CRF 层进行解码符合w3c标准,使模型能更好得学习标签之间的依赖关系:

阿里巴巴、狗尾草、苏大联合论文:基于对抗学习的众包标注用于中文命名实体识别

这一部分的 loss 为:

阿里巴巴、狗尾草、苏大联合论文:基于对抗学习的众包标注用于中文命名实体识别

优化目标为最小化这个 loss 值.

对抗学习部分:Worker Adversarial

我们使用的是众包数据作为训练语料,符合w3c标准数据集中存在一定量的标注错误网页外包接活,即「噪声」.这些标注不当或标注错误都是由标注员带来的.不同标注员对于规范的理解和认识面是不同的,wap前端外包我们可以认为一位标注质量高的标注员的标注结果和专家标注员是非常相近的.对抗学习模块如下:

1. baseline 中的 BiLSTM 称为「private」,它的学习目标是拟合多为标注员的独立分布;再加入一个名为「common」的 BiLSTM 模块,div+css制作common 与 private 的输入相同承接网页制作,它的作用是学习标注结果之间的共有特征: 阿里巴巴、狗尾草、苏大联合论文:基于对抗学习的众包标注用于中文命名实体识别

2. 再引入一个新的 BiLSTM 模块,承接网页制作名为「label」,以当前训练样例的标注结果序列为输入.

阿里巴巴、狗尾草、苏大联合论文:基于对抗学习的众包标注用于中文命名实体识别

3. 分别将 common 和 private 模块的输出合并,web切图报价作为 ne 部分的输入:

阿里巴巴、狗尾草、苏大联合论文:基于对抗学习的众包标注用于中文命名实体识别

最后用 CRF 解码符合w3c标准,公式与 baseline 相同,html切图制作不再贴出.

4. label 和 common 的输出合并网页外包接活,再输入 CNN 进行特征提取,wap前端外包最终对标注员进行分类:

阿里巴巴、狗尾草、苏大联合论文:基于对抗学习的众包标注用于中文命名实体识别

阿里巴巴、狗尾草、苏大联合论文:基于对抗学习的众包标注用于中文命名实体识别

要注意的是web前端制作,我们希望标注员分类器最终失去判断能力,web前端制作所以它在优化时要反向更新:

阿里巴巴、狗尾草、苏大联合论文:基于对抗学习的众包标注用于中文命名实体识别

来自: https://www.jiqizhixin.com/articles/2017-12-28-2

为您推荐

一个阿里巴巴码农的六年回眸

web切图报价,表示要来拯救阿里的代码 href="/news/view/1f0da69">Facebook第一个华人员工已经回国,web切图报价表示要来拯救阿里的代码
2014年国人开发的最热门的开源软件TOP 100
符合w3c标准,Wayray到底做了什么? href="/news/view/669b4a0d">阿里巴巴领投1800万美元,符合w3c标准Wayray到底做了什么?

更多

众包
阿里巴巴
人工智能
IT业界
点击次数:3193
作者:
web前端行业资讯
Web new NewsList
Postgres10开发者新特性 ,,2017年12月28日阿里巴巴、狗尾草、苏大联合论文:基于对抗学习的众包标注用于中文命名实体识别 ,,2017年12月28日柯洁的2017:20岁,与AI斗与人类斗,其乐无穷 ,,2017年12月28日如果机器人拥有痛觉,这个世界会有哪些不一样? ,,2017年12月28日苹果经典电脑Lisa源代码修复完成将于2018年开源 ,,2017年12月28日腾讯浏览指数发布年终榜单2017年人们都关注哪些AI话题? ,,2017年12月28日除了发现开普勒90,NASA还靠AI做了什么? ,,2017年12月28日柯洁宣布:明年4月,将再次与围棋AI交锋 ,,2017年12月28日百度无人车美国首秀CES将发布Apollo2.0 ,,2017年12月28日这四种技术发展趋势将在2018年改变世界 ,,2017年12月28日2017:谷歌DeepMind团队的年度回顾 ,,2017年12月28日封杀这个公式,AI智商将为零 ,,2017年12月28日微软AI高管:要让所有人、所有机构都用上人工智能 ,,2017年12月28日为什么Linux桌面年一直未到来 ,,2017年12月28日AppleLisa操作系统将开源 ,,2017年12月28日2018年9大技术趋势预测 ,,2017年12月28日谷歌研究院发布NIMA:能评价图像有多美,还能让图像变得更美 ,,2017年12月28日苹果为2019年iPhone开发大容量电池新技术 ,,2017年12月28日谷歌发布Tacotron2:能更简单地训练AI学习演讲 ,,2017年12月21日TensorFlow漏洞爆发背后:关于AI安全我们的傻与天真 ,,2017年12月21日Android端Edge浏览器新版发布:常规性能优化和BUG修复 ,,2017年12月21日三星开发出全球最小的DRAM芯片技术领先优势扩大 ,,2017年12月21日腾讯绝艺AI下一步将学习AlphaGozero自对弈训练 ,,2017年12月21日Facebook社交VR应用Spaces扩大覆盖面:入驻HTCVive ,,2017年12月21日设计图曝光:三星双屏折叠手机原来是这样的 ,,2017年12月21日微信支付和支付宝已成为世界移动支付的"老师" ,,2017年12月21日新专利表明FaceID未来有望装备在iPad、MacBook和iMac等设备 ,,2017年12月21日首批九个建议加入EE4J的项目 ,,2017年12月21日这就是SurfacePhone?微软可折叠手机概念图曝光 ,,2017年12月21日继“Angel”开源后,腾讯又开放TDinsight机器学习平台 ,,2017年12月21日【Elasticsearch】全文搜索(四)-控制分析及相关度 【移动开发】2014年12月09日sql实现分组并排序 【编程语言】2015年01月21日javascriptStringBuilder类实现2014年01月29日HDU2767ProvingEquivalences 【编程语言】2015年05月12日使用Maven的插件测试 【综合】2015年07月31日韩国喜剧片麻婆岛Ⅱ免费下载2014年01月29日EffectiveC++条款6 【编程语言】2015年06月24日设计模式----策略模式(一) 【编程语言】2015年01月30日STDistance的使用及geometry和geography的区别 【编程语言】2015年05月27日java语言MySQL批处理 【编程语言】2014年11月18日巧用WPS表格快速编排录入学号2014年01月28日stixtaxii威胁情报分析2(工作模式) 【互联网】2015年06月18日javascript下利用for(in)语句获得所有事件名称的代码2014年01月29日RecyclerView实现瀑布流效果(图文详解+源码奉送) 【云计算】2015年08月31日Windows下获取Android源码方法的详解2014年01月30日web程序验证码刷不出来原因【系统运维】2015年08月29日androidjava.net.BindException:bindfailed:EADDRINUSE(Addressalreadyinuse) 【移动开发】2014年12月25日C++虚函数、静态联编和动态联编、抽象类【编程语言】2015年05月25日使用chrome浏览器的console调试前台页面【互联网】2014年11月26日Java线程关闭的3种方法2014年01月30日C#调用C接口字符参数编码的问题解决方法 【编程语言】2014年11月14日用注册表文件实现解开被锁定的.reg与inf文件2014年01月29日30本互联网相关的电子书 【编程语言】2015年04月24日亚马逊KindleFire平板源代码放出下载 ,,2016年06月23日从头到尾详解AndroidStudio【编程语言】2015年09月11日创建安全的个人Web服务器(winserver2003、sql2000)2014年01月30日MFCC可视化【编程语言】2014年11月18日hdu1029IgnatiusandthePrincessIV 【移动开发】2015年02月09日华容道开发02---角色类的设计与数据读取 【编程语言】2015年04月17日php下关于Cannotuseascalarvalueasanarray的解决办法2014年01月29日
我们保证
We guarantee
> psd效果文件手工切图,保证图片效果最好体积最小利于传输
> 100%手写的HTML(DIV+CSS)编码,绝对符合W3C标准
> 代码精简、css沉余量小、搜索引擎扫描迅速,网页打开快捷
> 应用Css Sprite能够减少HTTP请求数,提高网页性能
> 跨浏览器兼容(IE6、7、8、9,Firefox火狐,Chrome谷歌)