
Project Common Voiceとは?Mozillaが推し進めるオープンソースの音声認識プロジェクト
AmazonのAlexaやMicrosoftのCortana、AppleのSiriだけではなく、日本でもLINEのClovaを搭載したWAVEが注目を集めるなど、*VUI(音声を使って操作するUI)*を活用したヴァーチャルアシスタントは日々進化を遂げています。
ただ、こうした音声を使ったプロジェクトは各企業が囲い込みを行っているので、私たちはSDKなどが公開されるまでその中身や仕組を知ることはできません。
もし、これらのプロジェクトがオープンソース化され、世界中の開発者によって改良・改善がなされていたらどうでしょうか。
私たちも、こうした分野に関する知識があればプラットフォームに参加することができ、開発の一翼を担うことができるかもしれません。
実は、「Mozilla Foundation」がオープンソースの音声プラットフォームプロジェクト*「Project Common Voice」*をローンチしていきました。
音声認識(Voice Recognition)の分野はまだまだ発展途中であり、Mozillaはこのプロジェクトをオープンソース化することで一気にこの分野での勢力を拡大しようとしています。
注目すべきは、プログラマーだけではなく、ノンプログラマーもこのプロジェクトに参加してプロジェクトを前進させる一助となることができるのです。音声認識がオープンソースによって気軽に使えるようになれば、私たちの生活で音声AIがより身近になるかもしれません。
今回は、*Mozillaが推し進めるオープンソースの音声認識プロジェクト「Project Common Voice」*の概要をお伝えします。
  
音声認識プログラムに対する需要

画像参照元:pexels.com
FOSSBYTES の報道によれば、Googleがモバイル端末での全検索の約20%(つまり5回中1回)は音声検索を使っていることが昨年明らかになったといいます。
そして、テキストを使ったサーチに対して、音声検索はますます勢いを増して増えてきています。実際、何年もの間、音声認識とその使い道はテック界を牽引してきた巨大企業にとって重要な要素となっています。SiriやCortana、AlexaやGoogle Assistantがその顕著な例と言えるでしょう。
WIRED によれば、何人もの専門家が音声認識の技術を*[「NBT」](The Next Big Thing=次にやってくる世界を変える技術):blank *だと考えています。
現在、iPhoneのようなタッチスクリーンのデバイスが何億人ものポケットに入っていますが、そのうちポケットの中にはスクリーンすらないデバイスに置き換わってしまう(Alexaのポケット版のようなものが出るのも時間の問題)かもしれません。しかし、オープンソースの世界では、音声認識に対する研究開発は遅れ気味であったことは事実です。AppleやMicrosoft、AmazonやGoogleは、こうした音声認識に関する技術を囲い込んでおり、世界中の開発者がイノベーションを起こしにくい状況となっていました。
その事実にメスを入れようとしたのが、Firefoxブラウザの生みの親でもあるMozillaです。Mozillaは2017年6月に、Project Common Voice と呼ばれるプロジェクトをスタートさせました。
  
Project Common Voice

Screenshot on Project Common Voice
ほとんどのエンドユーザーにとって、世界を変える、世界規模の巨大なプロジェクトに参加するチャンスというのは日常生活の中ではほとんどないのかもしれません。しかし、音声認識の世界では、例えばSiriに向かって「Hey, Siri! 今日の天気は?」と話しかけるだけでも、(おそらく無意識的ではあると思いますが)Appleにあなたの肉声を提供することで「Siri」というプロジェクトの改良を手伝っていることになります。
ただ、何度も申し上げるように、SiriはAppleによるクローズドなプロジェクトです。「自由なインターネット」の世界で、自分たちエンドユーザーの力を結束させてパワフルなイノベーションを起こすには、オープン化したプロジェクトに関わるのが一番いい方法です。
Project Common Voiceでは、ボランティアであるエンドユーザーの皆さんが、2つの方法を使って、このオープンソースの音声認識システムが「学習」する手伝いをすることができます。最終的には、Mozillaは2017年後半に、オープンソースデータベースを公開するために、10,000時間分の音声データを集約するのをゴールにしています。
もちろん、Googleのような巨大企業も、あなたの声を使って音声認識システムを「教育」しています。こうした企業は、「無料」のサービスを提供している代わりに肉声を手に入れようとしています。Mozillaの場合は、音声認識エンジンはオープンソースなので、肉声を提供することでより発展に貢献している感覚がつかめるでしょう。
  
Project Common Voiceへの貢献の仕方
このプロジェクトへの貢献の仕方は大きくわけて3通りあります。プログラマーでなくともプロジェクトに貢献することができるので、自分に合った方法を探してみましょう。
  
1. Speak

Screenshot on Project Common Voice
Project Common Voiceでは肉声のデータを集めています。そこで、Speakと書かれているメニューを押すと、例文テキストが表示されるので、ボタンを押して例文テキストを読み上げてみましょう。

Screenshot on Project Common Voice
また、読み上げた音声データの人口統計に関しても収集しているので、Profileメニューで設定をしておきましょう。
  
2. Listen

Screenshot on Project Common Voice
話すのに自信がない場合でも、肉声データを聴いて検証することでお手伝いをすることができます。Listen では、他のユーザーが読み上げたデータを聴いて、本当にテキスト通りに読み上げているのかを「Yes!」か「Nope.」を押して検証していきます。
  
3. Contribute
もしあなたがプログラマーだった場合には、実際にプログラム開発の現場で貢献することもできるでしょう。Contribute メニューは実際にGitHubにつながっているので、直接オープンソースプロジェクトに参画することが可能です。
  
まとめ
現在は英語のみが対象となっているProject Common Voiceですが、今後は音声認識分野で有望な中国語を皮切りに、日本語を含めたその他の言語にも開発が広がっていく可能性があります。
世界で1日でも早く音声認識を使った日常が当たり前になるように、ぜひプロジェクトに参加してみてはいかがでしょうか。
参考:
2017年の定番になる?新しいタイプの抽象的UI「VUI」入門|ferret
  
- UI
 - UIとは、ユーザーインターフェイス(User Interface)の略で、ユーザー(使い手)とデバイスとのインターフェイス(接点)のことを意味します。
 
- フォーム
 - フォームとは、もともと「形」「書式」「伝票」などの意味を持つ英単語です。インターネットの分野では、パソコンの操作画面におけるユーザーからの入力を受け付ける部分を指します。企業のホームページでは、入力フォームが設置されていることが多いようです。
 
- フォーム
 - フォームとは、もともと「形」「書式」「伝票」などの意味を持つ英単語です。インターネットの分野では、パソコンの操作画面におけるユーザーからの入力を受け付ける部分を指します。企業のホームページでは、入力フォームが設置されていることが多いようです。
 
- Googleとは、世界最大の検索エンジンであるGoogleを展開する米国の企業です。1998年に創業され急激に成長しました。その検索エンジンであるGoogleは、現在日本でも展開していて、日本のYahoo!Japanにも検索結果のデータを提供するなど、検索市場において圧倒的な地位を築いています。
 
- テキスト
 - テキストとは、純粋に文字のみで構成されるデータのことをいいます。 太字や斜線などの修飾情報や、埋め込まれた画像などの文字以外のデータが表現することはできませんが、テキストのみで構成されたテキストファイルであれば、どのような機種のコンピューターでも共通して利用することができます。
 
- Googleとは、世界最大の検索エンジンであるGoogleを展開する米国の企業です。1998年に創業され急激に成長しました。その検索エンジンであるGoogleは、現在日本でも展開していて、日本のYahoo!Japanにも検索結果のデータを提供するなど、検索市場において圧倒的な地位を築いています。
 
- デバイス
 - デバイスとは「特定の機能を持つ道具」を表す語で、転じてパソコンを構成するさまざまな機器や装置、パーツを指すようになりました。基本的に、コンピューターの内部装置や周辺機器などは、すべて「デバイス」と呼ばれます。
 
- Googleとは、世界最大の検索エンジンであるGoogleを展開する米国の企業です。1998年に創業され急激に成長しました。その検索エンジンであるGoogleは、現在日本でも展開していて、日本のYahoo!Japanにも検索結果のデータを提供するなど、検索市場において圧倒的な地位を築いています。
 
- インターネット
 - インターネットとは、通信プロトコル(規約、手順)TCP/IPを用いて、全世界のネットワークを相互につなぎ、世界中の無数のコンピュータが接続した巨大なコンピュータネットワークです。インターネットの起源は、米国防総省が始めた分散型コンピュータネットワークの研究プロジェクトARPAnetです。現在、インターネット上で様々なサービスが利用できます。
 
- データベース
 - データベースとは、複数のアプリケーションまたはユーザーによって共有されるデータの集合体のことです。特定のテーマに沿ったデータを集めて管理され、検索や抽出が簡単にできるようになっているものを指します。
 
- Googleとは、世界最大の検索エンジンであるGoogleを展開する米国の企業です。1998年に創業され急激に成長しました。その検索エンジンであるGoogleは、現在日本でも展開していて、日本のYahoo!Japanにも検索結果のデータを提供するなど、検索市場において圧倒的な地位を築いています。
 
- テキスト
 - テキストとは、純粋に文字のみで構成されるデータのことをいいます。 太字や斜線などの修飾情報や、埋め込まれた画像などの文字以外のデータが表現することはできませんが、テキストのみで構成されたテキストファイルであれば、どのような機種のコンピューターでも共通して利用することができます。
 
- テキスト
 - テキストとは、純粋に文字のみで構成されるデータのことをいいます。 太字や斜線などの修飾情報や、埋め込まれた画像などの文字以外のデータが表現することはできませんが、テキストのみで構成されたテキストファイルであれば、どのような機種のコンピューターでも共通して利用することができます。
 
おすすめ記事
おすすめエントリー
同じカテゴリから記事を探す
カテゴリから記事をさがす
●Webマーケティング手法
- SEO(検索エンジン最適化)
 - Web広告・広告効果測定
 - SNSマーケティング
 - 動画マーケティング
 - メールマーケティング
 - コンテンツマーケティング
 - BtoBマーケティング
 - リサーチ・市場調査
 - 広報・PR
 - アフィリエイト広告・ASP
 
●ステップ
●ツール・素材
- CMS・サイト制作
 - フォーム作成
 - LP制作・LPO
 - ABテスト・EFO・CRO
 - Web接客・チャットボット
 - 動画・映像制作
 - アクセス解析
 - マーケティングオートメーション(MA)
 - メールマーケティング
 - データ分析・BI
 - CRM(顧客管理)
 - SFA(商談管理)
 - Web会議
 - 営業支援
 - EC・通販・ネットショップ
 - 口コミ分析・ソーシャルリスニング
 - フォント
 - 素材サイト
 
●目的・施策
- Google広告
 - Facebook広告
 - Twitter広告
 - Instagram広告
 - LINE運用
 - LINE広告
 - YouTube運用
 - YouTube広告
 - TikTok広告
 - テレビCM
 - サイト制作・サイトリニューアル
 - LP制作・LPO
 - UI
 - UX
 - オウンドメディア運営
 - 記事制作・ライティング
 - コピーライティング
 - ホワイトペーパー制作
 - デザイン
 - セミナー・展示会
 - 動画・映像制作
 - データ分析・BI
 - EC・通販・ネットショップ
 - 口コミ分析・ソーシャルリスニング
 
●課題
●その他










