音声認識APIについて

unread,

Feb 27, 2020, 9:58:41 PM2/27/20

to 多言語音声翻訳サンドボックスサーバー技術フォーラム

HTTP Serviceを使用した音声認識について、

HTTP Statusが200で返ってきている場合に、認識結果が空白のときと、しっかりと入っているときがあるのですが、これは何かリクエストの仕方が悪いのでしょうか？

この現象は、認識させる音声ファイルの長さが30秒を超えたあたりから現れ始め、

音声ファイルが長ければ長いほど、認識結果が空白の確立が高くなります。

また、音声ファイルの作成方法は以下のとおりです。

・WIndows版のChromeからマイクで音声を入力し、wavファイルを生成

・自前のバックエンドサーバへ生成したwavファイルをアップロードし、バックエンドサーバから音声認識APIのHTTP Serviceを使用。

よろしくお願いします。

unread,

Feb 27, 2020, 10:00:59 PM2/27/20

to 多言語音声翻訳サンドボックスサーバー技術フォーラム

また、他に必要な情報がございましたら、教えてください。

unread,

Feb 27, 2020, 10:14:53 PM2/27/20

to 多言語音声翻訳サンドボックスサーバー技術フォーラム

はい、長い音声の場合は、音声データを投げてから処理が完了するまでに

サーバーでの処理時間が長くなってしまうため、

タイムアウトによる音声認識処理の中断が発生してしまいます。

処理時間は音声データの中身により変動するのですが、

目安としては 1回のリクエストあたり15秒以内に収めていただくと

タイムアウトが発生しづらくなるため、

そのように実装していただけるとよいかと思います。

unread,

Feb 27, 2020, 10:19:49 PM2/27/20

to 多言語音声翻訳サンドボックスサーバー技術フォーラム

あと、「wavファイル」とお書きいただいていますが、
音声認識で利用するのは
『「16bit int（リトルエンディアン）・1channel」のraw形式』
のみとなりますので wavファイルのヘッダを取り除いた状態で
音声認識APIのご利用をお願いします。

https://mimi.readme.io/page/tagengo-api-compat#section-2-%E9%9F%B3%E5%A3%B0%E8%AA%8D%E8%AD%98%E3%82%92%E8%A1%8C%E3%81%86

＃wavファイルのままですと、ヘッダ部分を「音声の一部」として扱ってしまいます。

Reply all

Reply to author

Forward