2次元GDを用いた音響認識ソフトウェア

鳥の鳴き声、音声、衝撃音などの様々な音響信号を、2次元ＧＤを用いて認識するソフトウェアです。このソフトウェアは、Windowsパソコンにインストールして利用します。最初に、データレコーダを用いて音響波形をＷＡＶファイルに録音します。
ソフトウェアの第１画面において、ＷＡＶファイルの音響波形を予め登録します。図１と図２の右側に示すようにソフトウェアは、この音響波形にＦＩＲデジタルフィルタ処理を行った後、ＬＰＣ（Linear Predictive Coefficient 線形予測係数）スペクトル分析法を用いて、スペクトルパターン（標準パターン）を抽出します。
ソフトウェアの第２画面において、ＷＡＶファイルの連続録音データを入力します。図１と図２の左側に示すようにソフトウェアは、この連続波形にＦＩＲデジタルフィルタ処理を行い、フィルタ処理後の連続波形から自動的に目的の音響波形を切り出すセグメンテーションを実行します。そして、切り出した音響波形からスペクトルパターン（入力パターン）を抽出します。
この第２画面において、類似性尺度（２次元ＧＤ）を用いて入力パターンと標準パターンの間の類似の程度を数値化し、入力パターンを認識します。
以下において、鳥の鳴き声の例を用いて、標準パターンの登録、連続録音データのセグメンテーション、入力パターンの認識のそれぞれの処理について説明します。

図１　パターンマッチングの処理手順

図２　パターンマッチングの処理手順

処理手順

標準パターンの登録:

図３に示す第１画面において、数種類（２～１４）のクラスタごとに複数の音響波形を登録します。
図１と図２の右側に示すようにソフトウェアは、これらの音響波形にＦＩＲデジタルフィルタ処理を行った後、ＬＰＣスペクトル分析法を用いて、それぞれのスペクトルパターン（標準パターン）を抽出します。
第１画面では、標準パターンのスペクトル画像が表示され、音響波形の原音とフィルタ出力音がスピーカから再生されます。

図３　標準パターンの登録（第１画面）

目的音の切り出し:

図４は、セグメンテーションの画面を示しています。このセグメンテーションでは、図１と図２の左側に示すように、ＷＡＶファイルの連続録音データにＦＩＲデジタルフィルタ処理を行い、次に、フィルタ処理後の連続波形から自動的に目的の音響波形を切り出します。
処理の高速化のために、認識ソフトウェアは図４の表示を省略します。セグメンテーションの処理結果は、認識ソフトウェアとは別に用意されたセグメンテーションソフトウェアを用いて確認できます。

図４　目的音の切り出し

入力パターンの認識:

図５に示す第２画面においてソフトウェアは、上記セグメンテーションにより切り出した音響波形からスペクトルパターン（入力パターン）を抽出して画面の左側に表示します。
次にソフトウェアは、２次元ＧＤを用いて、第１画面で登録したすべてのスペクトルパターン（複数の標準パターン）と入力音のスペクトルパターン（1個の入力パターン）をそれぞれ比較し、入力パターンから最小距離をもつ標準パターンを画面の右側に表示します。
さらに認識結果として、その標準パターンの名前を画面の下段に表示し、最小距離の値を右側の棒グラフに示します。
セグメンテーションにより切り出した複数の入力パターンについて上記の認識処理を繰り返すことにより、連続録音データの中に含まれるすべてのターゲット音を認識します。認識結果として、連続録音データの中の入力パターンの時刻、入力パターンから最小距離をもつ標準パターンの名前、及び、その最小距離を画面の下段に表示します。
第２画面では、画面の下段の認識結果をクリックすると、入力パターンと標準パターンのスペクトル画像が表示され、入力パターンの音響波形のフィルタ出力音がスピーカから再生されます。

図５　入力パターンの認識（第２画面）