音声認識APIについて

27 views
Skip to first unread message

小川昌吾

unread,
Feb 27, 2020, 9:58:41 PM2/27/20
to 多言語音声翻訳サンドボックスサーバー技術フォーラム
HTTP Serviceを使用した音声認識について、
HTTP Statusが200で返ってきている場合に、認識結果が空白のときと、しっかりと入っているときがあるのですが、これは何かリクエストの仕方が悪いのでしょうか?

この現象は、認識させる音声ファイルの長さが30秒を超えたあたりから現れ始め、
音声ファイルが長ければ長いほど、認識結果が空白の確立が高くなります。

また、音声ファイルの作成方法は以下のとおりです。
・WIndows版のChromeからマイクで音声を入力し、wavファイルを生成
・自前のバックエンドサーバへ生成したwavファイルをアップロードし、バックエンドサーバから音声認識APIのHTTP Serviceを使用。

よろしくお願いします。

小川昌吾

unread,
Feb 27, 2020, 10:00:59 PM2/27/20
to 多言語音声翻訳サンドボックスサーバー技術フォーラム
また、他に必要な情報がございましたら、教えてください。

吉川哲史

unread,
Feb 27, 2020, 10:14:53 PM2/27/20
to 多言語音声翻訳サンドボックスサーバー技術フォーラム
はい、長い音声の場合は、音声データを投げてから処理が完了するまでに
サーバーでの処理時間が長くなってしまうため、
タイムアウトによる音声認識処理の中断が発生してしまいます。

処理時間は音声データの中身により変動するのですが、
目安としては 1回のリクエストあたり15秒以内に収めていただくと
タイムアウトが発生しづらくなるため、
そのように実装していただけるとよいかと思います。

吉川哲史

unread,
Feb 27, 2020, 10:19:49 PM2/27/20
to 多言語音声翻訳サンドボックスサーバー技術フォーラム
あと、「wavファイル」とお書きいただいていますが、
音声認識で利用するのは
『「16bit int(リトルエンディアン)・1channel」のraw形式』
のみとなりますので wavファイルのヘッダを取り除いた状態で
音声認識APIのご利用をお願いします。

https://mimi.readme.io/page/tagengo-api-compat#section-2-%E9%9F%B3%E5%A3%B0%E8%AA%8D%E8%AD%98%E3%82%92%E8%A1%8C%E3%81%86

#wavファイルのままですと、ヘッダ部分を「音声の一部」として扱ってしまいます。



Reply all
Reply to author
Forward
0 new messages