大阳城集团网站

华微电子董秘回答:2021年上半

华微电子(600360)09月13日在投资者关系平台上答复了投资者关心的

飞机是怎么盲降的?为你揭秘

盲降一词即使对经常坐飞机的人来说也有些陌生,因为它是普通

行使双极晶体管实行锂离子电

随着便携式手持设备(如手机、PDA等)的功能不断增加,加上对较

四川九洲:公司专业从事微波

同花顺300033)金融研究中心9月16日讯,有投资者向四川九洲000

阅读推荐

您所在的位置首页商业伙伴构建下一代ASR:语音激情识别使用顺序

构建下一代ASR:语音激情识别使用顺序

作者:admin 发布时间:2021-09-24 浏览次数:133

  CTI论坛(编译/老秦):在2021年冬季出版的《语音技术》(Speech Technology)中,我讨论了语音情感识别(SER)的潜在使用案例及其增强客户体验的能力(“

  ”)。现在,让我们继续讨论SER的挑战,以及如何构建下一代SER应用程序。

  作为一个领域,SER已有20多年的历史,但与自动语音识别(ASR)相比,SER相对较新。今天,由于人工智能在该领域的应用,ASR已经真正起飞。另一方面,SER的速度较慢,因为与ASR不同,用于训练AI模型的数据相当有限。

  传统的SER数据集要么是作用的,要么是诱导的。表演数据集是由付费演员用特定的情感说出固定的短语创建的。诱导数据集比这些稍有改进,通过让演讲者观看特定的片段或让他们想象特定的情况,可以引发某些情绪。这些数据集是稀疏的,我们今天所设想的那种SER用例需要在交互式对话中进行自动情感检测;在这些数据集上训练的人工智能模型在现实世界中不会很好地工作。在预定义/有限情绪的语音片段上训练和测试的SER系统将无法在实际使用中处理自发语音。

  请注意,约束条件不是真实世界充满情感的语音的可用性,而是对数据进行注释/标记以创建标准化数据集。与其他类型的数据(例如图像)相比,标记语音的情感内容可能更加主观。这就引出了下一个问题:语音情感建模。

  语音情感建模,即如何表达嵌入语音中的情感,既复杂又关键。传统的方法之一是将语音情感建模为愤怒、不信任、恐惧、快乐、悲伤或中性的主要类别之一。与基于离散类别的方法相比,机器学习更倾向于基于维度的方法。在前者中,使用了语音的声学特征,包括语言和非语言。可以使用声音(光谱信息、能量)、韵律(语调、强度、节奏)等技术特征的组合来训练SER模型。

  非语言发声,如笑、叹气、呼吸和犹豫/暂停,包含用于情绪检测的有用信号。我们还需要考虑非情绪性条件,这些条件与声音听起来如何有关,例如疲劳、感冒、饮酒或其他物质。面向消费者的SER应用必须处理多种语言、跨文化语音模式、远场声学、说话人识别、群体动力学、语音转换等问题。

  尽管我们在这里讨论的是SER,但任何其他非语音线索(如视觉信息)也可以作为模型的输入。例如,在某些场景中,音频和视频内容都可能可用。语音文本本身可以使用自然语言处理(NLP)进行分析。除了字面上的解释,NLP有可能帮助发现讽刺或幽默。

  所有这些都表明了拥有高质量数据的重要性。数据集的丰富性将决定SER的性能。机器学习技术在这里扮演着重要角色:

  半监督学习技术可用于标记数据。在这里,人类研究人员标记一小部分数据,并让算法标记语料库的其余部分。

  这种方法的一个扩展是主动学习,在这种学习中,有一个人在循环中,以提高自动标签的质量。在主动学习中,如果算法对其数据分类的可信度较低,它会将语音数据路由到人工注释器。

  合成语音数据可使用少量真实语音生成,可使用生成对抗网络(GAN)等技术使其接近真实语音质量。

  转移学习是指将知识从一个环境应用到另一个环境,可能是有用的。示例包括利用成人情绪模型进行儿童情绪识别训练,或使用非语音音频(如音乐)训练SER模型。

  总之,语音情感识别是一个复杂的领域,包括语言和非语言、上下文甚至视觉的许多活动部分。机器学习和人工协助将在下一代SER应用中发挥重要作用。

热点文章

《 上一篇 分立元件奈何举办功放驾驭 分立元件集成驾驭计 分立元件功放电道道理 下一篇 》

友情链接:

公司:大阳城集团网站 地址:江苏省南通市灵寿县开发区

联系人:钱品开 手机:13376383743 电话:86-0411-85927653

网址:http://globalbsy.com

globalbsy.com 大阳城集团网站