AmazonのAlexaやMicrosoftのCortana、AppleのSiriだけではなく、日本でもLINEのClovaを搭載したWAVEが注目を集めるなど、*VUI(音声を使って操作するUI)*を活用したヴァーチャルアシスタントは日々進化を遂げています。

ただ、こうした音声を使ったプロジェクトは各企業が囲い込みを行っているので、私たちはSDKなどが公開されるまでその中身や仕組を知ることはできません。

もし、これらのプロジェクトがオープンソース化され、世界中の開発者によって改良・改善がなされていたらどうでしょうか。

私たちも、こうした分野に関する知識があればプラットフォームに参加することができ、開発の一翼を担うことができるかもしれません。

実は、「Mozilla Foundation」がオープンソースの音声プラットフォームプロジェクト*「Project Common Voice」*をローンチしていきました。

音声認識(Voice Recognition)の分野はまだまだ発展途中であり、Mozillaはこのプロジェクトをオープンソース化することで一気にこの分野での勢力を拡大しようとしています。
注目すべきは、プログラマーだけではなく、ノンプログラマーもこのプロジェクトに参加してプロジェクトを前進させる一助となることができるのです。音声認識がオープンソースによって気軽に使えるようになれば、私たちの生活で音声AIがより身近になるかもしれません。

今回は、*Mozillaが推し進めるオープンソースの音声認識プロジェクト「Project Common Voice」*の概要をお伝えします。
  

音声認識プログラムに対する需要

microphone.jpeg
画像参照元:pexels.com

FOSSBYTES の報道によれば、Googleがモバイル端末での全検索の約20%(つまり5回中1回)は音声検索を使っていることが昨年明らかになったといいます。

そして、テキストを使ったサーチに対して、音声検索はますます勢いを増して増えてきています。実際、何年もの間、音声認識とその使い道はテック界を牽引してきた巨大企業にとって重要な要素となっています。SiriやCortana、AlexaやGoogle Assistantがその顕著な例と言えるでしょう。

WIRED によれば、何人もの専門家が音声認識の技術を*[「NBT」](The Next Big Thing=次にやってくる世界を変える技術):blank *だと考えています。

現在、iPhoneのようなタッチスクリーンのデバイスが何億人ものポケットに入っていますが、そのうちポケットの中にはスクリーンすらないデバイスに置き換わってしまう(Alexaのポケット版のようなものが出るのも時間の問題)かもしれません。しかし、オープンソースの世界では、音声認識に対する研究開発は遅れ気味であったことは事実です。AppleやMicrosoft、AmazonやGoogleは、こうした音声認識に関する技術を囲い込んでおり、世界中の開発者がイノベーションを起こしにくい状況となっていました。

その事実にメスを入れようとしたのが、Firefoxブラウザの生みの親でもあるMozillaです。Mozillaは2017年6月に、Project Common Voice と呼ばれるプロジェクトをスタートさせました。
  

Project Common Voice

pcv.png
Screenshot on Project Common Voice

ほとんどのエンドユーザーにとって、世界を変える、世界規模の巨大なプロジェクトに参加するチャンスというのは日常生活の中ではほとんどないのかもしれません。しかし、音声認識の世界では、例えばSiriに向かって「Hey, Siri! 今日の天気は?」と話しかけるだけでも、(おそらく無意識的ではあると思いますが)Appleにあなたの肉声を提供することで「Siri」というプロジェクトの改良を手伝っていることになります。

ただ、何度も申し上げるように、SiriはAppleによるクローズドなプロジェクトです。「自由なインターネット」の世界で、自分たちエンドユーザーの力を結束させてパワフルなイノベーションを起こすには、オープン化したプロジェクトに関わるのが一番いい方法です。

Project Common Voiceでは、ボランティアであるエンドユーザーの皆さんが、2つの方法を使って、このオープンソースの音声認識システムが「学習」する手伝いをすることができます。最終的には、Mozillaは2017年後半に、オープンソースデータベースを公開するために、10,000時間分の音声データを集約するのをゴールにしています。

もちろん、Googleのような巨大企業も、あなたの声を使って音声認識システムを「教育」しています。こうした企業は、「無料」のサービスを提供している代わりに肉声を手に入れようとしています。Mozillaの場合は、音声認識エンジンはオープンソースなので、肉声を提供することでより発展に貢献している感覚がつかめるでしょう。
  

Project Common Voiceへの貢献の仕方

このプロジェクトへの貢献の仕方は大きくわけて3通りあります。プログラマーでなくともプロジェクトに貢献することができるので、自分に合った方法を探してみましょう。
  

1. Speak

record.png
Screenshot on Project Common Voice

Project Common Voiceでは肉声のデータを集めています。そこで、Speakと書かれているメニューを押すと、例文テキストが表示されるので、ボタンを押して例文テキストを読み上げてみましょう。

profile.png
Screenshot on Project Common Voice

また、読み上げた音声データの人口統計に関しても収集しているので、Profileメニューで設定をしておきましょう。
  

2. Listen

listen.png
Screenshot on Project Common Voice

話すのに自信がない場合でも、肉声データを聴いて検証することでお手伝いをすることができます。Listen では、他のユーザーが読み上げたデータを聴いて、本当にテキスト通りに読み上げているのかを「Yes!」か「Nope.」を押して検証していきます。
  

3. Contribute

もしあなたがプログラマーだった場合には、実際にプログラム開発の現場で貢献することもできるでしょう。Contribute メニューは実際にGitHubにつながっているので、直接オープンソースプロジェクトに参画することが可能です。
  

まとめ

現在は英語のみが対象となっているProject Common Voiceですが、今後は音声認識分野で有望な中国語を皮切りに、日本語を含めたその他の言語にも開発が広がっていく可能性があります。

世界で1日でも早く音声認識を使った日常が当たり前になるように、ぜひプロジェクトに参加してみてはいかがでしょうか。

参考:
2017年の定番になる?新しいタイプの抽象的UI「VUI」入門|ferret