ディープラーニングに基づく音声認識技術
お問い合わせ
音響特性から、音声は言語音、音楽、環境音の三つに分類されます。
現在主流の音声認識や声紋認識技術は音声信号処理に向けたものであり、技術は比較的成熟しています。
PFU上海グループは長い間、環境音のAI認識技術研究開発に取り組んでいます。
特定の音を判別したい応用シーンに対しては、事前に音サンプルを採取して、AIのディープラーニングとトレーニングを行い、
AI環境音認識エンジンに自ら学習させ、最終的には実際の現場で、特定種類の音を認識し、選別することができます。
人工知能の国際的権威コンテストであるDCASE 2018で総合優勝したことがあります(音声認識領域)。
複雑な環境の音を判別し分類することができます。
(あらかじめ判別した音声を学習しておく必要があり、1つの音声につき約200個の音声サンプルが必要となります。)
【DCASE2018 Task4 世界1位】
異常音検知
異音を起こすことが難しい場合に、
正常時の音を学習させる事で「普段と異なる音」を検知する技術です。
【DCASE2020 Task2 世界第6位】
道路の安全と密接に関連する3つの音声をAI認識します。
音声のAI認識と映像監視による画像解析を組み合わせ、
従来の画像認識だけでは解決できなかった課題を解決します。
以上の六つの機械音に異常音が含まれるかどうかを予測し、
計測技術は実際の現場業務への適用性が高いです!
ディープラーニングに基づく音声認識技術
お問い合わせ