首页
会议中主动发言者检测的音视频融合策略
返回

会议中主动发言者检测的音视频融合策略

2022-12-19 科技信息 By:佚名
最佳答案主动说话者检测是检测在给定时间说话的人的任务。在这种情况下,交流不仅通过语音进行,还通过非语言符号进行。因此,纯音频方法可能不够高效。arXiv.org最近的一篇论文提出了一种依赖于音频信息与视频信息相结合的方法。研究人员合并视觉和音频特征以获得稳健的最终检测。分析了两种可能的音频分析...

主动说话者检测是检测在给定时间说话的人的任务。在这种情况下,交流不仅通过语音进行,还通过非语言符号进行。因此,纯音频方法可能不够高效。

arXiv.org最近的一篇论文提出了一种依赖于音频信息与视频信息相结合的方法。

研究人员合并视觉和音频特征以获得稳健的最终检测。分析了两种可能的音频分析方法:一种具有神经网络的监督方法和一种具有扬声器分割和聚类方法的无监督方法。基于3DCNN的纯视觉说话者分类器应用于视觉模态。

研究人员比较了两种融合:朴素融合和基于注意力模块的融合。结果表明,合并视觉和音频模式比我们的基于视频的系统具有更高的性能。

会议是专业环境中的常见活动,赋予语音助理高级功能以促进会议管理仍然具有挑战性。在这种情况下,像主动说话者检测这样的任务可以为模拟会议参与者之间的交互提供有用的见解。受我们与高级会议助手相关的应用程序上下文的启发,我们希望结合音频和视频信息以实现最佳性能。在本文中,我们提出了两种不同类型的融合来检测主动说话者,通过神经网络结合两种视觉模式和一种音频模式。为了进行比较,还使用了用于音频特征提取的经典无监督方法。我们期望以每个参与者的面部为中心的视觉数据非常适合基于对嘴唇和面部手势的检测来检测语音活动。因此,我们的基线系统使用视觉数据,我们选择了3D卷积神经网络架构,该架构对于同时编码外观和运动是有效的。为了改进这个系统,我们通过使用CNN或无监督扬声器分类系统处理音频流来补充视觉信息。我们通过光流运动添加视觉模态信息,进一步改进了这个系统。我们使用公开且最先进的基准评估了我们的提案:AMI语料库。我们分析了每个系统对合并的贡献,以确定给定的参与者当前是否在讲话。我们还讨论了我们获得的结果。此外,我们已经证明,对于我们的应用程序上下文,添加运动信息可以大大提高性能。最后,我们证明了基于注意力的融合在降低标准偏差的同时提高了性能。

猜你喜欢
欧洲四大人种(四大人种)

欧洲四大人种(四大人种)

12-19 0 阅读
mo9信用钱包客服电话(mo9信用钱包)

mo9信用钱包客服电话(mo9信用钱包)

12-18 0 阅读
电脑电视转接线(电脑电视)

电脑电视转接线(电脑电视)

12-18 0 阅读
资源管理器已停止工作 不断重复(资源管理器已停止工作)

资源管理器已停止工作 不断重复(资源管理器已停止工作)

12-18 0 阅读
qq昵称女生简短好听可爱(qq昵称女)

qq昵称女生简短好听可爱(qq昵称女)

12-18 0 阅读
孩子长高的方法有哪些(小孩长高方法有哪些)

孩子长高的方法有哪些(小孩长高方法有哪些)

12-18 0 阅读
热门推荐
含鸡巴(关于含鸡巴的介绍)

含鸡巴(关于含鸡巴的介绍)

12-19 0 阅读
水费网上缴费营业厅佛山市(水费网上缴费营业厅)

水费网上缴费营业厅佛山市(水费网上缴费营业厅)

08-26 0 阅读
魅族note9:魅族note9连接到电脑的方法

魅族note9:魅族note9连接到电脑的方法

12-18 0 阅读
中国人保(中国人保介绍)

中国人保(中国人保介绍)

12-18 0 阅读
德国面积和人口(德国面积)

德国面积和人口(德国面积)

12-18 0 阅读
博德瓷砖是一线品牌吗百度(博德瓷砖是一线品牌吗)

博德瓷砖是一线品牌吗百度(博德瓷砖是一线品牌吗)

12-18 0 阅读
现在cf怎么调烟雾头(cf怎么调烟雾头)

现在cf怎么调烟雾头(cf怎么调烟雾头)

12-18 0 阅读
浙江工商大学自考本科行政管理(浙江工商大学自考本科)

浙江工商大学自考本科行政管理(浙江工商大学自考本科)

12-18 0 阅读
旁组词 两个字(旁组词)

旁组词 两个字(旁组词)

12-18 0 阅读
好人好梦黑鸭子合唱(好人好梦原唱)

好人好梦黑鸭子合唱(好人好梦原唱)

12-18 0 阅读