大阳城集团网站

随机数天生器

设置数字范围快速批量生成随机数,可选是否唯一。附带多种编

语义解析:人为神经汇集除表

如何合理地表示语言的内在意义?这是自然语言处理业界中长久以

飞机是怎么盲降的?为你揭秘

盲降一词即使对经常坐飞机的人来说也有些陌生,因为它是普通

清华大学PPT《基于直通梯度的

IEEE旗舰系列活动SLT2021 CSRC WORKSHOP(儿童语音识别竞赛研讨会)于

阅读推荐

您所在的位置首页商业伙伴合于畛域检测巩固的华文定名实体识别

合于畛域检测巩固的华文定名实体识别

作者:admin 发布时间:2021-09-25 浏览次数:194

  ty Recognition,NER)是自然语言处理领域的一个基础任务,是信息抽取等许多任务的子任务,旨在识别非结构化文本中属于预先定义的类别的命名实体,例如人名、组织、地点等。命名实体识别通常被视为一个序列标注任务。

  在 ACL-IJCNLP 2021 收录的论文中,共有30余篇论文与命名实体识别相关,其中4篇论文关注中文命名实体识别。本次推送将分享 ACL-IJCNLP 2021 中与中文命名实体识别相关的3篇论文。

  这篇文章研究了中文命名实体识别中的边界检测增强方法,探索从两个方面来增强实体边界信息:一是增加一个图注意力网络层来捕捉句子中词之间的依赖关系;二是将实体首尾词汇的预测看作是两个独立的二分类问题,作为辅助任务加入训练。实验证明,文章所提出的边界增强模型对于实体边界和实体类型的识别有提升,并且在书面与非书面文本上都有效果,在OntoNotes4、OntoNotes5等数据集上达到了SOTA效果。

  这篇文章对于融合文本和语音多模态的中文命名实体识别进行了探索。文章首先构建了一个大规模的中文多模态嵌套命名实体识别数据集CNERTA,并提出了一个多模态多任务的模型,通过引入一个speech-to-text对齐的辅助任务来利用语音模态中蕴含的停顿信息进而有助于分词。实验显示论文提出的模型在CNERTA上达到了SOTA效果。

  这篇论文主要研究了数据集中的数据偏差对于模型泛化能力的影响。文章通过分析五个基准中文NER数据集,确定了两种可能影响模型泛化能力的数据偏差,并提出一种实体重新平衡法来改进训练集,从而提升模型泛化能力。

  命名实体识别需要对实体在句子中的边界和实体类别进行识别。与英文相比,中文没有显性的词边界、实体边界以及时态信息,因此中文命名实体识别更具挑战性。目前中文命名实体识别的SOTA性能与英文差了将近10%的F1值。

  这篇文章试图从增强实体边界的识别的角度来更好地进行中文命名实体识别。考虑到Star-Transformer独特的星形拓扑结构能够减少冗余连接,同时保留近似模拟长程依赖关系的能力,因此使用Star-Transformer来构建一个轻量级的命名实体识别基线系统。

  在这个基线系统的基础上,文章从两个角度来增强实体的边界信息:一是添加了一个图注意力网络层来捕捉句子、短语、实体内部的依赖,从而隐式地区分边界;二是将实体首尾的预测作为辅助任务,从而显式地区分边界。

  这篇文章提出的模型将命名实体识别视作一个序列标注任务,模型整体架构如下图所示,包括Token embedding layer,Encoder和Decoder三个部分。模型Decoder为条件随机场。

  模型以中文词汇作为token单位。考虑到缺少明确的词边界信息,为了防止分词错误的传播,将词的表示与字符表示相结合。从预训练词向量中获得词汇和汉字的向量,然后将汉字向量的序列通过一个双向GRU层,获取双向GRU的输出作为汉字的表示。

  最终token的表示由词向量、字向量经过双向GRU的输出以及词性标注拼接而成。

  模型的Encoder主要由三个部分构成:作为基线的Star-Transformer、图注意力网络和基于两个GRU的实体首尾表示层。

  文章认为对于命名实体识别任务而言,实体是稀疏的,因此没必要总是关注所有token之间的关系。经典的Transformer的token之间实际上是全连接的,Star-Transformer通过引入一个中继节点,减少潜在的冗余连接,同时保留了近似模拟长程依赖关系的能力。

  Star-Transformer的拓扑结构由一个中继节点和多个卫星节点构成,第i个卫星节点的状态表示句子中第i个token,中继节点充当一个虚拟枢纽从所有的卫星节点收集信息并分发信息。对于NER这种序列标注任务,取卫星节点的状态作为Star-Transformer的序列输出。初始化时,每个卫星节点的状态都由对应token的表示初始化,中继节点被初始化为所有token的均值。各节点更新过程如下式所示。

  在更新的过程中,每个卫星节点状态的更新只与其有共边的节点的上轮状态以及该位置对应token的表示有关。中继节点的更新则取决于这一轮更新后的所有卫星节点状态,以及上一轮自身的状态。

  文章在卫星节点的更新过程中还加入了一个Highway Network,通过门控机制来缓解潜在的梯度问题,从而减轻star-transformer的深度和复杂性。

  此处 相当于一个门,对于卫星节点的上轮状态一部分进行仿射变换,剩余部分直接通过,再与star-transformer的多头注意力结果相加,作为卫星节点的最终更新结果。

  文章用于增强实体边界的第一个做法是使用图注意力网络来建模词之间的依赖关系,从而将句子、短语的结构信息纳入到表示中,也有助于捕捉实体内部词语之间的依赖关系,从而隐式地增强实体的边界信息。图注意力网络利用注意力计算,来为与某个节点有关联的所有节点分配不同的重要性。具体的多头图注意力网络计算过程如下式。

  文章用于增强实体边界的第二个做法是将实体边界的检测看作两个二分类任务,亦即词汇是否为实体之首、是否为实体之尾。使用两个独立的GRU层进行这两个辅助的二分类任务的预测,从而清晰、显式地直接提供实体的边界信息。

  而损失函数便是多任务的损失之和,包括实体标签序列分类预测的交叉熵损失和两个实体首尾分类预测的交叉熵损失。

  实验语料库包括三个常见的中文NER数据集:OntoNotes4、OntoNotes5和Weibo。对于两个增强边界信息的方法进行了消融实验,并将实体识别的错误分成了类型错误、未识别错误和边界错误这三类。

  考虑到OntoNotes的结构特性,它的实体都具有相似的组成,利用图注意力网络来建模实体内部的依赖将OntoNotes的Precision分别提高了3.93%和1.62%。而引入实体首尾预测的二分类辅助任务显著减少了OntoNotes上的边界错误数量。同时考虑两个增强方法的模型在OntoNotes的各种评价指标上基本都达到了最好的效果,也进一步减少了边界错误的数量。因此,所提出的边界增强模型对于实体边界和实体类型的识别都有所提升。

  对于Weibo的标准Named Entity数据集,也有与OnteNotes相似的表现。说明这个边界增强模型对于书面与非书面文本都有效果。

  大多数关于命名实体识别的研究只依靠文本来推断标签,当文本噪声多或是较短时,仅凭文本信息不足以准确定位和分类命名实体,因此可以考虑引入其他模态作为文本模态的补充。而目前已有的多模态命名实体识别多是在融合文本模态与视觉模态,且研究大多局限于英语。目前的中文命名实体识别研究都完全忽略了有价值的多模态信息。

  文章认为语音模态在中文命名实体识别中能够起到独特作用,特别是能提供精确的分词信息。因为语音模态所包含的线索有相邻词汇之间的停顿,从而可以帮助模型确定词边界。例如在“南京市长江大桥”这个句子中,传统中文NER模型可能打出地点“南京市”和地点“长江大桥”的标签,也可能打出地点“南京”和人名“江大桥”的标签;

  而这两种标签所对应的句子发音与停顿实际上是大有不同的,如果有对应的语音信息的辅助,模型便能够更好地确定分词信息,继而更好地确定实体边界。文章试图在训练过程中将文本和对应的语音进行对齐,找到每个汉字在语音中的位置,从而利用语音中的停顿等信息来辅助词边界的确定。

  由于以往没有融合语音信息的NER研究,也没有中文多模态NER研究,文章首先构建了一个大规模的中文语音多模态NER数据集CNERTA。CNERTA包含文本及其命名实体标注,以及文本对应的语音。CNERTA中标注了人名、地点和组织这三类命名实体,也对所有嵌套实体进行了标注。

  在语音嵌入方面,首先将语音信号进行特定的处理,包括预加重、分帧加窗、短时傅立叶变换STFT等,并计算filter banks等特征。然后经过两个在时间和频率上的卷积对语音特征进行下采样,并通过一个Transformer的Encoder来建模依赖,最后得到语音的特征序列。

  M3T使用了一个CMA模块(Cross-Modal Attention Module)来融合文本与语音的信息。将文本特征序列作为query,语音特征序列作为key和value计算多头注意力,从而得到经过语音特征增强的新的文本表示。具体计算如下式。

  其中LN为层归一化,FFN为全连接的前馈神经网络,由两个带有ReLU激活的线性变换组成。CMA的输出即可送入条件随机场进行解码推断NER标签。

  CMA虽然能够融合文本和语音模态,但并没有对文本和语音进行对齐。因此论文还引入了一个CTC(Connectionist Temporal Classification)层作为辅助任务,来帮助进行文本和语音的对齐,找到每个汉字在语音中的位置。

  在CTC层中,每一帧的语音先被映射到字典+空格的空间上,然后经过一个logit函数得到一个(V+1)*t维的矩阵G,其中V是字典规模,t为语音帧数,并将对应文本中没有出现过的字进行mask。

  CTC的解码过程取每帧上概率最大的字作为该帧上预测的输出,可能是汉字、标点也可能是空格。然后CTC将没有被空格隔开的相同的字合并,最后将空格移除得到预测的汉字序列,最终实现从语音到文本的对齐,进而纳入语音中的停顿等信息。

  这个masked G可以计算出CTC loss。整个模型使用的混合损失便由条件随机场损失和CTC损失组成,如下式,其中为超参数。

  引入语音模态可以显著提高基于字符的模型的性能,即使是使用简单的CMA也能在所有Flat NER和嵌套NER中带来超过1.6%的F1提升,而使用M3T则能够带来超过3%的提升;

  引入语音模态也可以提高词汇增强模型的性能,例如对于ZEN。使用CMA能够在Flat NER和嵌套NER中带来1.38%和1.73%的F1提升,而M3T模型能让它们的性能提升2.93%和3.19%。虽然提升没有基于字符的模型那么显著,但仍证明了语音模态可以提供一些大规模词典中未包含的信息;

  论文所提出的M3T模型能够在CNERTA数据集中实现SOTA效果,论文推测这些改进来源于CTC捕捉到的语音模态与文本模态之间的单调对齐关系,有了对齐信息,模型就可以利用语音中包含的显性词边界信息。

  文章也进一步分析了命名实体识别的错误来源,将错误分为类型错误和边界错误,类型错误指边界正确但预测类型错误,其余情况都被归为边界错误。

  通过分析五个常用的中文NER数据集,文章提出在中文NER数据集中广泛存在着两类数据偏差问题:

  中文NER验证集/测试集中50-70%的实体都在训练集中出现过,因而验证集/测试集实际上难以评估模型的真实泛化能力。论文定义了一个称为实体覆盖率的度量来量化验证集/测试集中可见实体的程度,

  其中是一个获取实体列表的函数。五个中文NER数据集中实体覆盖率情况如表所示,可见实体占了很大的比例。

  大多数NER数据集都由少数fat-head实体主导,即出现频率异常高的实体。例如在Cluener的组织类别中,曼联出现了59次,而法兰克福只出现了1次。这样可能鼓励模型单纯记住这些出现频率高的实体,而不是在训练过程中利用上下文学习该实体类别的模式。

  论文提到这是因为在给定相同实体和不同上下文的情况下,模型收敛最简单的方式是记住实体,而非从不同的上下文中提取模式。论文使用实体出现频率的峰度度量数据集的fat-head程度,如下表所示。数据集中绝大部分类别的峰度超过3,部分类别峰度极高乃至超过1000。总体来说,频率最高的前1%的实体贡献了21%的出现次数。fat-head实体的现象在中文NER数据集中很严重。

  文章首先通过从验证集和测试集中排除所有可见实体来改进验证集与测试集。然后提出了一种实体重新平衡方法,使同一类别内的实体均匀分布,从而避免该类别的实体模式被fat-head实体主导。

  论文提出实体重新平衡法主要是出于认为多数情况下同一类别内的不同实体在语义上可互换,使得实体均匀分布后将鼓励模型利用上下文信息,因为不再有来自分布不均匀的简单规律可利用。

  在实体重新平衡法中,首先对需要平衡的类别构建一个实体counter,然后将其转化为一个balanced counter,使得出现次数最多和最少的实体次数之间最大差值仅为1。随机替换fat-head实体,将该类别的原始实体分布转化为balanced counter中的均匀分布。具体步骤见下方伪代码。

  实验使用的统一模型架构为BERT+CRF。实验结果见下表,其中Baseline列使用原始训练数据,Proposed列使用实体重新平衡后的训练数据,它们都在排除所有可见实体的验证集和测试集上进行调参与测试。

  在五个数据集的大部分类别中,文章提出的实体平衡算法都能够提高模型识别不可见实体的能力。但也有例外,例如Cluener中的address,论文给出的解释是address类别可能包含特定的地缘政治实体,它们在语义上不可互换,因此算法会失效;在Resume数据集上效果也不佳,论文给出的解释是简历的结构串联性不强,可利用的上下文知识很少。

  因此,论文也总结了提出的实体平衡算法有效的条件:首先,同一类别的实体需要在语义上可以互换;其次,实体应当依赖上下文信息。

  文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

  Tenjin 与 GameAnalytics 携手发布 Growth FullStack

  首个为 iOS15 营销提供的全栈式开发工具和解决方案 2021 年 9 月 23 日,中国,北京 ....

  这篇和大家探讨一下关于电机轴承的数据集电机轴承的数据集目前较多采用的是CWRU(凯斯西储大学轴承数据中心)这是一个针对于...

  一、什么是自服务数据集? 自服务数据集可以通过简单的拖拽和可视化的操作,构建复杂的数据集,同时提供各....

  现代快节奏社会,效率就是金钱,企业如何快速提高效率,对企业来说就是如何做有价值的事情。比如很多020....

  前言时间还剩下10天,我们的时间很短,我们不得不改变策略策略,我们将跑的过程交给 &nb...

  什么是系统监控?对于数据分析来说,它的强大之处又体现在哪里呢?今天,我们使用永洪BI,带大家详细了解....

  在企业经营过程中,经常需要对数据上升或下降的原因进行分析。通常的做法是验证性数据分析,即对原因进....

  混合整数规划(MIP)是一类 NP 困难问题,来自 DeepMind、谷歌的一项研究表明,用神经网络....

  Open Images Extended合集中引入了更具包容性的人物注释MIAP数据集

  发布人:Google Research 软件工程师 Candice Schumann 和 Susan....

  导读 使用每个类的有效样本数量来重新为每个类的Loss分配权重,效果优于RetinaNet中的Foc....

  一、基于STM32+ESP8266+机智云的物联网demo1、在机智云上创建项目和数据集2、WIFI模块烧写固件3、移植到MCU上①、在...

  “AI+语音/图像”智能技术线日,由全球知名电子科技媒体电子发烧友主办的“AI+语音/图像”智能技术线上论坛圆满举行,本次....

  转自:最近一次新增:2020.02.11大家好,先给各位抱拳了!我是和鲸(科赛

  本期上海研强给大家分享的是工控机在语音呼叫系统中的应用,希望看完本篇文章您能对工控机有一个全新的认识....

  EpsAvlc: 这个事情的回答需要基于你的动机。 如果你想改进已有的算法以获得在数据集上的视觉里程....

  机器学习中一个常见问题是判定与数据交互的最佳方式。 在本文中,我们将提供一种高效方法,用于完成数据的....

  前言 缺陷检测是工业上非常重要的一个应用,由于缺陷多种多样,传统的机器视觉算法很难做到对缺陷特征完整....

  导读近日,全球三大计算机视觉顶级会议之一CVPR如期举行,深兰科技DeepBlueAI团队斩获Tin....

  导读 日前,计算机视觉和模式识别领域的三大顶级会议之一CVPR正在进行中,深兰DeepBlueAI团....

  嵌入(embedding)是机器学习中最迷人的想法之一。如果你曾经使用Siri、Google Ass....

  1、总述 事件检测旨在从给定的文本中识别事件触发词,并将其分类为事件类型。目前事件检测的大多数方法在....

  与同类研究相比优缺点:提供了两个实验数据集,一个基于公开数据集,一个自制数据集,使模型训练更具泛化性....

  论文标题:Learning Sentence Embeddings with Auxiliary T....

  今天给大家介绍一下FPGA上部署深度学习的算法模型的方法以及平台。希望通过介绍,算法工程师在FPGA....

  你还在为神经网络模型里的冗余信息烦恼吗? 或者手上只有CPU,对一些只能用昂贵的GPU建立的深度学习....

  NumPy是Python中用于数据分析、机器学习、科学计算的重要软件包。它极大地简化了向量和矩阵的操....

  接下来的重点,就是在目前深度学习中比较普及的“物件检测”应用,重点主要有以下三部分: 1. 简单说明....

  1.摘要 本数据集由哈尔滨工业大学社会计算与信息检索研究中心(哈工大SCIR)秦兵教授和刘铭教授主持....

  2020年初,新冠疫情席卷全球。除了“待在家,不乱跑”,我想还能从哪为抗击疫情出点微薄之力呢? 碰巧....

  发布人:Google Research 研究员 Aurko Roy 开放域长格式问答 (LFQA) ....

  背  景 表面缺陷检测在工业生产中起着非常重要的作用,基于机器视觉的表面缺陷检测可以极大的提升工业生....

  本文说的这个装置利用红外线来实现语音信息的无线传送,原理是在发射端用语音信号调制红外线,接收端...

  即使在不同的光照条件下,算法是否能够对不同年龄、性别和肤色的人一视同仁呢?Facebook的AI R....

  某种程度上,深度学习最大的优势就是自动创建没有人会想到的特性能力。 如今,深度学习在众多领域都有一席....

  概述:XF-S3011芯片是安徽中科大讯飞信息科技有限公司研发的一款中文语音合成芯片,将完整的语音合成系统完全集成到单一的处理...

  听话听音!OpenAI 践行了这一想法,几个小时前,OpenAI通过官方推特发布了两个崭新的网络,一....

  当去arxiv上查找机器学习相关的研究时,所有模型都在围绕基准测试展示自己模型的能力,例如Googl....

  对普通人而言轻轻松松的事情对于听障群体可能是很困难的,他们甚至还会因此遭到歧视。在很多场景下,他们无....

  当我们拿到一个信息抽取的任务,需要明确我们抽取的是什么,”今天天气真冷“,我们要抽的天气的状态天气-....

  一般的文本分类任务只提供句子或文档级别的情感标签,引入情感词典等先验情感知识可以给情感文本引入更细粒....

  知识图谱嵌入 knowledge graph embedding是将包含实体和关系的知识图谱三元组嵌....

  在CVPR 2021中,旷视研究院共入选论文22篇,其中Oral论文2篇,研究领域涵盖激活函数、神经....

  图像修复是计算机视觉领域中极具挑战性的硏究课题。近年来,深度学习技术的发展推动了图像修复性能的显著提....

  例如,房地产、零售和快消公司会在寻找新的选址和推出新产品时利用人口数据。财政部门希望通过宏观经济数据....

  实验中采用的图像均来自 MS-COCO 数据集 2017 版的验证集。除非另有说明,我们采用的所有模....

  人工智能(AI)开发者Jagadish K. Mahendran和他的团队设计了一款由人工智能驱动的....

  在设计智能音箱和其他语音功能的设备,例如可穿戴设备、可听觉设备时,开发者面临的首要挑战是如何让麦克风....

  当火灾事故产生时,假如不可以第一时间逃离,(智能疏散)那麼非常容易最终跟全部的受困工作人员聚场效应管....

  研究人员联合欧卡智舶公开了内陆水道中无人船的多传感器数据集USVInland

  然而,内陆河道中的无人船技术还非常有限,这是由于内陆水道比较狭窄,GPS信号会由于河岸植被、河道旁建....

  随着VLSI的集成度越来越高,设计也越趋复杂。传统的设计方法如原理图输入、HDL语言描述在进行复杂系....

  [MXNet逐梦之旅]练习三·使用MXNetFashionMNIST数据集分类手动实现...

热点文章

《 上一篇 幼功率单片开关电源FSD200的路理与行使 基于PowerSoC系列的数字电源处置计划 下一篇 》

友情链接:

公司:大阳城集团网站 地址:江苏省南通市灵寿县开发区

联系人:钱品开 手机:13376383743 电话:86-0411-85927653

网址:http://globalbsy.com

globalbsy.com 大阳城集团网站