音声合成プロジェクト「ユーフォニア」Google I / O 2019で発表か

Google

2019/4/29

この記事は約3分で読めます。

ユーフォニアが発表されました

今年も面白そうなネタが発表されそうです。

9TO5Googleは、今年の開発者向けイベントGoogle I / Oで音声合成技術に関すると思われる新プロジェクト「ユーフォニア」を発表しそうだと報じました。

Google likely to unveil 'Project Euphonia' at I/O 19 to give the speech-impaired 'their voice back'

Google may be unveiling a new accessibility techno...

記事中では、Google I / Oのイベントリストにあるセッションの1つ「アクセシビリティの設計」のセッション内容が一部更新、その更新内容に「Project Euphonia」と呼ばれるプロジェクトがあることにふれています。

その内容は、言語障害を持つ人々に声を戻すことを目的としており、セッション内容としては、「ユーフォニアに加え科学的発見を促進するために機械学習における最近の発展を利用すること」になると強調しています。

Google I / OのWebサイトでMichael Brennerに提供されている略歴を見ると、Project EuphoniaはGoogleのプロジェクトで、Harvard大学などのサードパーティのものではないことが確認できるとのこと。

さて。

このユーフォニアがどのようなプロジェクトなのかについては、当日のセッションで明らかになるとして。

このユーフォニアという言葉自体を調べてみると、音声合成の歴史上に「1857年には､M. FaberがEuphoniaを製作した」とあり、音声合成に掛かる装置名だったことがわかります。

現代的な信号処理手法が発明されるずっと以前から､西ｱﾌﾘｶのﾄｰｷﾝｸﾞﾄﾞﾗﾑ等のように音声を模倣する試みがなされてきた｡

1779年には､ｸﾘｽﾃｨｱﾝ･ｸﾗｯﾂｪﾝｼｭﾀｲﾝにより母音を発声できる機械が製作された[1]｡
この流れはふいごを使った機械式音声合成器を作ったｵｳﾞｫﾙﾌｶﾞﾝｸﾞ･ﾌｫﾝ･ｹﾝﾍﾟﾚﾝに引き継がれた｡彼は1791年に論文[2]を発表し､その機械について説明している｡この機械は舌と唇をﾓﾃﾞﾙ化しており､母音だけでなく子音も発音できた｡
1837年､ﾁｬｰﾙｽﾞ･ﾎｲｰﾄｽﾄﾝがﾌｫﾝ･ｹﾝﾍﾟﾚﾝのﾃﾞｻﾞｲﾝを元にしゃべる機械を製作し､1857年には､M. FaberがEuphoniaを製作した｡
ﾎｲｰﾄｽﾄﾝの機械は､1923年にPagetが再現している[3]
https://ja.wikipedia.org/wiki/%E9%9F%B3%E5%A3%B0%E5%90%88%E6%88%90

この後、ボコーダーの開発を経て1950年代後半にコンピューターによる音声合成が登場、1999年に統計的なモデルが東京工大により提案され、2013年にはGoogleによる深層学習に基づく音声合成が提案されることになります。

特に2013年から歴史に登場するGoogleの研究は、とてつもない速度で進化しているようで、2017年には従来必要だった専用のテキスト処理（言葉の形態素解析と音声辞書の準備）を必要としない方式が提案されています。

統計学的アプローチが有効だと東京工業大学のチームによって示された事により、統計モデルを複雑化、深層化することで、性能を向上させることが可能となり、結果として、Googleが持つ膨大なデータと膨大な処理リソースがそれを成したといえるでしょう。

現在のEnd-to-End音声認識技術は、言語的な知識が不要で未知の言語であっても問題を回避することが可能で、加えて学習するための処理リソース（GPU）も大幅に削減できるのが特徴です。

ユーフォニアの発表は、この研究の続報とみて間違いなく、つまり音声合成技術の最先端が発表されるとみられます。

ひょっとしてGPU的なアプローチではなくなるのかも？

ひょっとしてサーバーサイドの処理なしで出来るようになったりするのでしょうか。

ひょっとしてバーチャルユーチューバー向けのリアルタイム音声合成的な技術かも？

それとも。

全く検討がつきませんが……ワクワクしますね。