2次元GDを用いた音響認識ソフトウェア


鳥の鳴き声、音声、衝撃音などの様々な音響信号を、2次元GDを用いて認識するソフトウェアです。このソフトウェアは、Windowsパソコンにインストールして利用します。最初に、データレコーダを用いて音響波形をWAVファイルに録音します。
ソフトウェアの第1画面において、WAVファイルの音響波形を予め登録します。図1と図2の右側に示すようにソフトウェアは、この音響波形にFIRデジタルフィルタ処理を行った後、LPC(Linear Predictive Coefficient 線形予測係数)スペクトル分析法を用いて、スペクトルパターン(標準パターン)を抽出します。
ソフトウェアの第2画面において、WAVファイルの連続録音データを入力します。図1と図2の左側に示すようにソフトウェアは、この連続波形にFIRデジタルフィルタ処理を行い、フィルタ処理後の連続波形から自動的に目的の音響波形を切り出すセグメンテーションを実行します。そして、切り出した音響波形からスペクトルパターン(入力パターン)を抽出します。
この第2画面において、類似性尺度(2次元GD)を用いて入力パターンと標準パターンの間の類似の程度を数値化し、入力パターンを認識します。
以下において、鳥の鳴き声の例を用いて、標準パターンの登録、連続録音データのセグメンテーション、入力パターンの認識のそれぞれの処理について説明します。

図1 パターンマッチングの処理手順

図2 パターンマッチングの処理手順

処理手順

標準パターンの登録:

図3に示す第1画面において、数種類(2~14)のクラスタごとに複数の音響波形を登録します。
図1と図2の右側に示すようにソフトウェアは、これらの音響波形にFIRデジタルフィルタ処理を行った後、LPCスペクトル分析法を用いて、それぞれのスペクトルパターン(標準パターン)を抽出します。
第1画面では、標準パターンのスペクトル画像が表示され、音響波形の原音とフィルタ出力音がスピーカから再生されます。

図3 標準パターンの登録(第1画面)

目的音の切り出し:

図4は、セグメンテーションの画面を示しています。このセグメンテーションでは、図1と図2の左側に示すように、WAVファイルの連続録音データにFIRデジタルフィルタ処理を行い、次に、フィルタ処理後の連続波形から自動的に目的の音響波形を切り出します。
処理の高速化のために、認識ソフトウェアは図4の表示を省略します。セグメンテーションの処理結果は、認識ソフトウェアとは別に用意されたセグメンテーションソフトウェアを用いて確認できます。

図4 目的音の切り出し

入力パターンの認識:

図5に示す第2画面においてソフトウェアは、上記セグメンテーションにより切り出した音響波形からスペクトルパターン(入力パターン)を抽出して画面の左側に表示します。
次にソフトウェアは、2次元GDを用いて、第1画面で登録したすべてのスペクトルパターン(複数の標準パターン)と入力音のスペクトルパターン(1個の入力パターン)をそれぞれ比較し、入力パターンから最小距離をもつ標準パターンを画面の右側に表示します。
さらに認識結果として、その標準パターンの名前を画面の下段に表示し、最小距離の値を右側の棒グラフに示します。
セグメンテーションにより切り出した複数の入力パターンについて上記の認識処理を繰り返すことにより、連続録音データの中に含まれるすべてのターゲット音を認識します。認識結果として、連続録音データの中の入力パターンの時刻、入力パターンから最小距離をもつ標準パターンの名前、及び、その最小距離を画面の下段に表示します。
第2画面では、画面の下段の認識結果をクリックすると、入力パターンと標準パターンのスペクトル画像が表示され、入力パターンの音響波形のフィルタ出力音がスピーカから再生されます。

図5 入力パターンの認識(第2画面)