OpenJTalk の音響モデル

916 views
Skip to first unread message

小島正友

unread,
May 27, 2016, 8:01:48 PM5/27/16
to nvda-japa...@googlegroups.com
まほろばの 小島です。

OpenJTalk で音響モデルを変更することで、音質がどのように変わるか
を試して、Webページ
http://mahoro-ba.net/e1875.html
で紹介していました。

それを見られた、東北大学 大学院工学研究科 通信工学専攻 伊藤・能勢研究室
の研究支援者の方から、女性の音響モデル(htsvoice) tohoku-f01 を公開して
いることを、メールで教えていただきました。
https://github.com/icn-lab/htsvoice-tohoku-f01

---- 引用 ここから ----
この音響モデルは,Open JTalkの開発メンバーの一人である,当研究室の
能勢隆先生が,品質にこだわって作られたものです.
---- 引用 ここまで ----

それをNVDAで試してみたところ、mei よりも滑らかに読み上げてくれる
ように感じました。ただし、ちょっと気になるところがあったので、
音の高さを40に変更して使っています。
CCライセンスが、(CC BY 4.0) なので、NVDA日本語版に、搭載して
配布することも可能だと思いますが、そのような検討はできないでしょうか。

みなさんのご意見を、お聞かせ下さい。

--
以下 署名です
--------------------------------------
e-mail mas...@gmail.com
twitter masakjm
facebook https://www.facebook.com/masatomo.kojima

小島正友

unread,
May 27, 2016, 8:41:18 PM5/27/16
to nvda-japa...@googlegroups.com
まほろばの小島です。


音声サンプルを簡単に比較できるように、直リンクを貼っておきます。
mei normal http://mahoro-ba.net/files_wav/nvda_20161jp_mei_normal.wav
tohoku-f01  http://mahoro-ba.net/files_wav/nvda_20161jp_tohoku-f01n.wav
唱地ヨエ  http://mahoro-ba.net/files_wav/nvda_20161jp_yoe.wav
Haruka Desktop http://mahoro-ba.net/files_wav/




2016年5月28日 9:01 小島正友 <mas...@gmail.com>:

小島正友

unread,
May 27, 2016, 8:47:40 PM5/27/16
to nvda-japa...@googlegroups.com
まほろばの小島です。
先ほど、作成途中のメールを誤って送信してしまったようです。ごめんなさい。

音声サンプルを簡単に比較できるように、直リンクを貼っておきます。
mei normal http://mahoro-ba.net/files_wav/nvda_20161jp_mei_normal.wav
tohoku-f01  http://mahoro-ba.net/files_wav/nvda_20161jp_tohoku-f01n.wav
唱地ヨエ  http://mahoro-ba.net/files_wav/nvda_20161jp_yoe.wav
Haruka Desktop http://mahoro-ba.net/files_wav/TTS2_haruka_desktop.wav
Ayumi Mobile http://mahoro-ba.net/files_wav/TTS2_ayumi_mobile.wav

以上、参考にしてください。


2016年5月28日 9:01 小島正友 <mas...@gmail.com>:

Suzuki Mitsuo

unread,
May 28, 2016, 1:44:12 PM5/28/16
to nvda-japa...@googlegroups.com
こんにちは。横浜市在住の鈴木です。
NVDA 2016.2JPのベータ版でJTalkのmeiの音声が変わっています。
ご参考まで。
--
NVDA日本語版
http://www.nvda.jp
---
このメールは Google グループのグループ「NVDA Japanese Users」の登録者に送られています。
このグループから退会し、グループからのメールの配信を停止するには
nvda-japanese-u...@googlegroups.com にメールを送信してください。

このグループに投稿するには、nvda-japa...@googlegroups.com にメールを送信してください。
その他のオプションについては、https://groups.google.com/d/optout にアクセスしてください。

小島正友

unread,
May 28, 2016, 3:28:24 PM5/28/16
to nvda-japa...@googlegroups.com
鈴井さんこんにちは。小島です。
mei happy で音の高さを調整したもののことですね。
今回の比較でも、NVDA 2016.2JPのベータ版(160513)も対象としたのですが、
自分には改善されたようには感じなかったので、提示しなかっただけです。
ベータ版(160522)では評価していません。
音声サンプルがありますので聞き比べてみてください。

2016.1 http://mahoro-ba.net/files_wav/nvda_20161jp_mei_normal.wav
2016.2 http://mahoro-ba.net/files_wav/nvda_b160513_mei_happy.wav


2016年5月29日 2:44 Suzuki Mitsuo <msu...@hotmail.com>:

梅木好彦

unread,
May 28, 2016, 4:45:33 PM5/28/16
to nvda-japa...@googlegroups.com
梅木です。

 まほろばさん、大変貴重な情報を有難うございました。
音声サンプルを聞かせてもらうと、
確かに tohoku-f01 は、聞きやすくて良いですね。
私の感じでは、少し音声の震えがあるので、
抑揚を少し下げると、より聞きやすくなるような気がします。
少なくとも現状のJTalkよりも、聞きやすいと感じました。
この音声をJtalkに組み込んでいただけると
嬉しいと思います。
他は、Ayumi Mobile も落ち着いた声で、
選択肢に入ると良いと思いました。
みなさんは、いかがでしょうか?


Suzuki Mitsuo

unread,
May 29, 2016, 1:19:03 PM5/29/16
to nvda-japa...@googlegroups.com
こんにちは。鈴木です。

音声サンプルを一通り聞きましたが、私もtohoku-f01とAyumi Mobileは他のものに比べてくっきり聞こえるように感じました。
ただ、どれもそれほど大きな差を感じたわけではないのと、私はJTalkに慣れてしまっているのか、現状のJTalkでもそれほど聞き取りづらいとは思っていないのと、
以前こちらで紹介された有料の海外製の音声エンジンと、他の人が聞き取りやすいと言っているProTalkerも試してみましたがそれほど聞き取りやすいとは思わなかったので、
しばらくJTalkでもいいかなあと思っています。
もちろん、いまがベストと思っているわけでもないので、改善されるのはありがたいです。
ちなみに、私が使っていていつも判別に困っているのはアルファベットのBとPとTとDの発音です(Dは「デー」と発音されるときと「ディー」と発音されるときがありますが、後者のときは他の3つと区別がつきにくくなります)。
この点が改善されるとありがたいです。
あとは、指し当たって判別しづらいものはないです(あるかもしれないけどいまは思い出せないというか思いつかないです)。

あと、これは余談になりますが、NVDAの設定→日本語設定に「かな文字をフォネティック読み」というのと「アルファベットをフォねティっ区読み」という設定があって、これらをオンにしていてもフォネティック読みされないので何の設定なのかと思っていましたが、NVDAキーを押しながらTABキーを素早く2回押して(ダブルクリックみたいな感じで)つづり読みをさせるとフォねティっ区読みされるということがやっとわかりました(アルファとかブラボーとか「新聞のシ」とか「クラブのク」とか)。上記のアルファベットの区別はとりあえずこれで対応してみます。

-----Original Message-----
From: 梅木好彦
Sent: Sunday, May 29, 2016 5:45 AM
To: nvda-japa...@googlegroups.com

梅木好彦

unread,
May 29, 2016, 9:27:37 PM5/29/16
to nvda-japa...@googlegroups.com
梅木です。

音声は耳の慣れや、個人差があると思います。
私もJTalkのLiteの声に慣れてしまって、
特にそれで困ると言うことはないのですが、
いろいろ選択肢を作って、
その人に合う声を選べるのがベストでしょうね。

フォネティック読みに関してですが、
フォーカスを調べるときには、NVDA+Tabの2度打ちで、
フォネティック読みになりますが、
入力文字を調べたり、テキストの文字を確認するときは、
デスクトップ配列なら、テンキーの2を2回押す、
ラップトップ配列では、NVDA+ピリオドを2回押すことで、
ひらがな、カタカナ、英字などをフォネティック読みしますので、
お試し下さい。


k.sasaki

unread,
Jun 4, 2016, 6:54:22 PM6/4/16
to nvda-japa...@googlegroups.com
 こんにちは、神戸市兵庫区の佐々木と申します。

 音声サンプル聞かせていただきました。
 うちの環境では、ayumi Mobile が、一番聞きやすかったです。
 以前の投稿を参考に使えるようにしてみました。ナレーターは、「ayumi」
ちゃんがしゃべるようになりましたが、nvdaでは、選択肢の中に出てきません
。nvdaでは使えないんですねぇ、あ~残念。



T.Hori

unread,
Jun 12, 2016, 6:08:07 AM6/12/16
to nvda-japa...@googlegroups.com
小島さん、皆さんこんばんは堀です。
僕もNVDAには期待をしてこのMLは読ませていただいてます。
音声サンプルを聞いてみましたが僕の感想としては、
tohoku-f01とAyumi Mobileが聞きやすいと感じました。
この2つがNVDAにはじめから入っていればかなり快適に使えるのではないかと思
います。

それでは。

小島正友

unread,
Jun 12, 2016, 8:29:31 AM6/12/16
to nvda-japa...@googlegroups.com
梅木さん、鈴木さん、佐々木さん、堀さん、つるしぐもさん
まほろばの小島です。

みなさん、音声の評価をありがとうございます。

tohoku-f01 や Ayumi Mobile が好印象のようですが、私もそう思います。

Galatea Talk (Open Jtalk の前のプロジェクト) は男女とも聞きやすいと
思いますが、約10年前にこの音質が実現できているのに、何故その成果が
使えない(使わない?) のでしょうね。

tohoku-f01 は、日本語ベータ版 2016.3jp-beta で使えるように、
いち早く対応して頂けたので、これをインストールして、もっと詳細に
確認することもできます。 https://www.nvda.jp/

自分は、tohoku-f01 の音声設定の高さを40にして使っていますが、
高さや抑揚で聞きやすさが変わるようであれば、報告して頂けると
2016.3jp リリース時の設定値を調整して頂けるかもしれません。

以上、よろしくお願いします。

-------------
2016年6月12日 19:08 T.Hori <horiy...@momo-mail.com>:

Suzuki Mitsuo

unread,
Jun 12, 2016, 11:31:04 AM6/12/16
to nvda-japa...@googlegroups.com
こんにちは。横浜市在住の鈴木です。

昨日から、NVDA 2016.3JP beta 160610を試しています。

tohoku-f01については、高音がくっきりしているのか音声がくっきりきこえるのと、読み方がなめらかなのでmeiより速さを上げても聞き取れるように感じています。
(meiで高速読み上げで速さを70にすると自分にはくずれて聞こえるがtohoku-f01ではこの速さでもなめらかに聞こえる)

さて、自分には聞き取りにくいと感じているパターンもいくつか試しているのですが、全体的に思うのは、tohoku-f01は文章を連続的に読み上げさせることについてはよく調整されていると思うのですが、1文字ずつ読み上げさせる場合には改善の余地があるように感じます。以下、いくつか例をあげます。

1)
"GTP"と入力あるいは1文字ずつ読ませる → 「ティーピーピー」のように聞こえる。

("gtp"を連続読みさせると、1文字目は「ジー」と聞こえるが、2文字と3文字目は「ティーピー」と聞こえなくもないがやはり区別しづらい)

2)
「もじです」と入力または1文字ずつ読ませる → 「モディデツ」のように聞こえる。

(連続読みさせると「モジデス」のようにだいたい聞こえるが、「す」のところは「ツ」っぽくも聞こえる)

3)
"tohoku"と入力あるいは1文字ずつ読ませる → 「ピーオーエイチオーテーユー」と聞こえる。
(連続読みさせると「トウホク」と聞こえる)

4)
「かきくけこ」と入力あるいは1文字ずつ読ませる → 「アキウテコ」と聞こえる。

(連続読みさせると「カキクケコ」と聞こえる)

たぶん、1文字読みさせた場合の問題は上記以外にもあると思います。

自分が書いた文章の文字レベルのチェックは1文字ずつ読ませて確認しますし、いちいちフォネティック読みさせるのは作業効率悪すぎです。上記のような状況では、入力している最中でさえ、自分が正しい入力をしているのか混乱し不安になります。

そういうわけで、普段の使用にはもう少しmeiを使います。

上記につきまして、検証の上、改善していただけるとありがたいです。
Reply all
Reply to author
Forward
0 new messages