由日本株式会社PFU和PFU上海计算机有限公司联合开发的基于深度学习的“环境音识别系统”参加了IEEE官方指定的国际大赛DCASE2018 Challenge的Task4的竞赛,在50个参赛系统中脱颖而出,取得了第一名的佳绩。
DCASE2018 Challenge是IEEE指定的AASP(Audio and Acoustic Signal Processing) Challenge大赛的一部分,也是IEEE官方指定的音频和声学信号处理的国际性权威竞赛。Task4是“Large-scale weakly labeled semi-supervised sound event detection in domestic environments”,也就是“在室内环境中的大尺度弱标签半监督声音事件检测”。今年的竞赛内容是在给定一段室内环境中的音频(包括了人的声音,猫和狗的叫声,警报声,吸尘器的声音,刮胡子的声音,油炸食物的声音等等)中识别出从第几秒开始到第几秒结束有哪种类型的声音。
PFU上海团队参加了上述的竞赛,在与北京清华、中国科技大学、上海交大等国内知名大学,以及美国约翰·霍普金斯大学、奥地利格拉茨大学、韩国电子通信研究院、印度理工学院等诸多海外研究机构的同台竞技中,取得了第一名的优异成绩。准确率比第二名大幅高出2.5%,比基准高出21.6%。
近年来深度学习(Deep Learning)技术飞速发展,PFU上海团队时刻紧盯最前沿技术的变化,通过不断钻研及运用,在神经网络技术方面积累了丰富的经验,具备了很强的实践能力。在这次竞赛中,PFU上海团队充分利用了多年来对各种神经网络技术研究的经验,准确选取了最适合音频处理的神经网络的算法,提高了提取语音的声学特征的准确率,为最后的优胜奠定了坚实的基础。而且在传统模型无法处理的弱标签数据上,尝试并挑战了多种最前沿的新模型来训练以前传统模型无法处理的弱标签数据,通过上下文关联技术进一步强化了声学特征,在这些新技术的运用方面,取得了新的突破。
今后, PFU上海团队将继续深耕AI领域,不断挑战,勇攀新的高峰。