Project Common Voiceとは？Mozillaが推し進めるオープンソースの音声認識プロジェクト

更新日: 2018年01月31日

プログラミング

AmazonのAlexaやMicrosoftのCortana、AppleのSiriだけではなく、日本でもLINEのClovaを搭載したWAVEが注目を集めるなど、*VUI（音声を使って操作するUI）*を活用したヴァーチャルアシスタントは日々進化を遂げています。

ただ、こうした音声を使ったプロジェクトは各企業が囲い込みを行っているので、私たちはSDKなどが公開されるまでその中身や仕組を知ることはできません。

もし、これらのプロジェクトがオープンソース化され、世界中の開発者によって改良・改善がなされていたらどうでしょうか。

私たちも、こうした分野に関する知識があればプラットフォームに参加することができ、開発の一翼を担うことができるかもしれません。

実は、「Mozilla Foundation」がオープンソースの音声プラットフォームプロジェクト*「Project Common Voice」*をローンチしていきました。

音声認識(Voice Recognition)の分野はまだまだ発展途中であり、Mozillaはこのプロジェクトをオープンソース化することで一気にこの分野での勢力を拡大しようとしています。
注目すべきは、プログラマーだけではなく、ノンプログラマーもこのプロジェクトに参加してプロジェクトを前進させる一助となることができるのです。音声認識がオープンソースによって気軽に使えるようになれば、私たちの生活で音声AIがより身近になるかもしれません。

今回は、*Mozillaが推し進めるオープンソースの音声認識プロジェクト「Project Common Voice」*の概要をお伝えします。
　　

音声認識プログラムに対する需要

画像参照元：pexels.com

FOSSBYTES の報道によれば、Googleがモバイル端末での全検索の約20％(つまり5回中1回)は音声検索を使っていることが昨年明らかになったといいます。

そして、テキストを使ったサーチに対して、音声検索はますます勢いを増して増えてきています。実際、何年もの間、音声認識とその使い道はテック界を牽引してきた巨大企業にとって重要な要素となっています。SiriやCortana、AlexaやGoogle Assistantがその顕著な例と言えるでしょう。

WIRED によれば、何人もの専門家が音声認識の技術を*[「NBT」](The Next Big Thing＝次にやってくる世界を変える技術):blank *だと考えています。

現在、iPhoneのようなタッチスクリーンのデバイスが何億人ものポケットに入っていますが、そのうちポケットの中にはスクリーンすらないデバイスに置き換わってしまう(Alexaのポケット版のようなものが出るのも時間の問題)かもしれません。しかし、オープンソースの世界では、音声認識に対する研究開発は遅れ気味であったことは事実です。AppleやMicrosoft、AmazonやGoogleは、こうした音声認識に関する技術を囲い込んでおり、世界中の開発者がイノベーションを起こしにくい状況となっていました。

その事実にメスを入れようとしたのが、Firefoxブラウザの生みの親でもあるMozillaです。Mozillaは2017年6月に、Project Common Voice と呼ばれるプロジェクトをスタートさせました。
　　

Project Common Voice

Screenshot on Project Common Voice

ほとんどのエンドユーザーにとって、世界を変える、世界規模の巨大なプロジェクトに参加するチャンスというのは日常生活の中ではほとんどないのかもしれません。しかし、音声認識の世界では、例えばSiriに向かって「Hey, Siri! 今日の天気は？」と話しかけるだけでも、(おそらく無意識的ではあると思いますが)Appleにあなたの肉声を提供することで「Siri」というプロジェクトの改良を手伝っていることになります。

ただ、何度も申し上げるように、SiriはAppleによるクローズドなプロジェクトです。「自由なインターネット」の世界で、自分たちエンドユーザーの力を結束させてパワフルなイノベーションを起こすには、オープン化したプロジェクトに関わるのが一番いい方法です。

Project Common Voiceでは、ボランティアであるエンドユーザーの皆さんが、2つの方法を使って、このオープンソースの音声認識システムが「学習」する手伝いをすることができます。最終的には、Mozillaは2017年後半に、オープンソースデータベースを公開するために、10,000時間分の音声データを集約するのをゴールにしています。

もちろん、Googleのような巨大企業も、あなたの声を使って音声認識システムを「教育」しています。こうした企業は、「無料」のサービスを提供している代わりに肉声を手に入れようとしています。Mozillaの場合は、音声認識エンジンはオープンソースなので、肉声を提供することでより発展に貢献している感覚がつかめるでしょう。