議事録やインタビュー記事、動画の字幕などを効率よく作るために、文字起こしを自動化したい方も多いのではないでしょうか。文字起こしツールを使用すると、動画や音声などのデータを入力するだけでテキストとして書き起こすことが可能です。

この記事では、無料で使い始められる5つのおすすめ文字起こしツールについて、実際に使ってみた精度や感想を交えて紹介します。

目次

  1. 文字起こしツール選びのポイント
    1. インストールが必要かどうか
    2. 文字起こしの精度
    3. 対応しているファイル形式・長さ
    4. 編集・共有機能の有無
    5. 料金プラン
  2. 無料で使い始められるおすすめ文字起こしツール5選
    1. Rimo Voice
    2. CLOVA Note
    3. Notta
    4. toruno
    5. 文字起こしさん

▼ 記事作成の業務負担をAIが軽減

コンテンツ作成の生産性をAI技術で向上|ferret One

コンテンツ作成の生産性をAI技術で向上|ferret One

WebマーケティングのノウハウとAI技術を組み合わせて、マーケターの業務負荷を減らし、生産性を向上させます!

文字起こしツール選びのポイント

文字起こしツールは、種類によって使いやすさや機能に違いがあります。目的に合う文字起こしツールを選ぶためにチェックすべきポイントは次の通りです。

●インストールが必要かどうか

文字起こしツールの中には、アプリやソフトウェアのインストールが必要なタイプと、Webブラウザからログインして利用できるタイプがあります。

一般的に、アプリをインストールするタイプの文字起こしツールは、スマートフォンでの利用が想定されています。そのため、文字起こししたテキストをPCで編集したい場合は、Webブラウザ上で利用できるタイプのほうが便利です。

Webブラウザ上で利用できるタイプなら、アプリやソフトウェアのアップデートを自分で行う必要がありません。また、アカウントにログインするだけで、端末を問わず文字起こしデータを確認・編集できます。

●文字起こしの精度

音声を認識しテキスト化する精度は、文字起こしツールによって異なります。高性能な文字起こしツールでは、聞き取りにくい言葉や固有名詞、ノイズの入った音声なども高い精度でテキスト化することが可能です。

精度の高い音声認識エンジンを搭載したツールを選ぶことで、文字起こしの作業を効率化できます。導入を検討しているツールがあれば、実際に音声データを入力し、どの程度正確に文字起こしできるかチェックしてみることがおすすめです。

●対応しているファイル形式・長さ

文字起こしが可能なファイル形式データ容量再生時間の長さなどはツールによって異なります。例えば、音声データにしか対応していないツールでは、オンラインミーティングなどを録画した動画データの文字起こしはできません。

また、ファイル形式を表す「拡張子」の種類が異なると文字起こしできない場合があります。音声では「.mp3」や「.wav」、「.aiff」、動画では「.mp4」や「.mov」、「.avi」などが主な拡張子です。

ファイル形式や長さは編集ソフトを使えば加工できるものの、余計な手間がかかってしまうため、自社で用意するデータに対応した文字起こしツールを選びましょう。

●編集・共有機能の有無

ツールによっては音声をテキスト化するだけでなく、文字起こししたテキスト編集したり、他のユーザーに共有したりすることが可能です。

また、AIによる認識機能で、複数の話者の発言を聞き分けて自動で分離できる文字起こしツールもあります。自社の用途に合うプラスアルファの機能が備わっているかを確認しましょう。

●料金プラン

文字起こしツールには無料・有料の両方があり、無料のものテキスト化できる音声の長さやデータ容量に制限があることが一般的です。

ツールによっては体験版として無料プランが用意されている場合や、複数の料金プランから用途に合ったものを選べる場合もあります。文字起こししたいデータのボリュームやユーザー数に応じて、適切なプランのあるツールを選ぶことが重要です。

無料で使い始められるおすすめ文字起こしツール5選

数多くある文字起こしツールの中から、以下の3つの条件を満たすおすすめツールを厳選して紹介します。

① 無料プランがある
アプリのインストールや機材購入が不要で、PCのブラウザから使用できる
③ アップロードしたデータの文字起こしに対応している

また、各ツールの精度を確かめるため、「Zoom」で録音した45秒程度のインタビューデータを使って実際に文字起こしを行いました。

▼検証用インタビュー動画はこちら

 
音声を聞きながら手作業で文字起こししたテキストは次の通りです。

質問者:
えー、本日はよろしくお願いします。
    
回答者:
よろしくお願いします。

質問者:
えっと今日は、えーっと、貴社で行っているタスク管理についてお伺いできればと思います。

回答者:
はい。はーい。

質問者:
まず、最初に、えっとどのようなツールを使っていらっしゃるかっていうのをお伺いでき

回答者:
はい。

質問者:
ますでしょうか。

回答者:
あ、はい。えっと、弊社では、Notionというツールを使って管理しております。

質問者:
あ、Notionを使ってらっしゃるんですね。

回答者:
はい。

質問者:
ちなみにこのNotionはなぜ選ばれたんですか。

回答者:
あ、えっとですね、あの、カスタマイズ性が高いので、えっと自社の業務に合わせて調整がしやすいというところが一番大きな理由になっています。

質問者:
あ、なるほど。ありがとうございます。

Rimo Voice

01rimo_1.jpg

出典:Rimo Voice

Rimo Voiceは、アップロードした動画・音声データやリアルタイムに録音した音声を文字起こしできるツールです。

無料版はメールアドレス登録のほか、GoogleやMicrosoft、Facebookのアカウントでも利用でき、60分間までの文字起こしに対応しています。有料版プランは従量課金制と定額制の2種類です。

おすすめのユーザー ・音声と動画、両方のデータを文字起こししたい人
・使いやすく精度が高い文字起こしツールを探している人
・文字起こしテキストをもとに音声を再生して内容を確認したい人
利用可能なファイル形式 音声:M4A、MP3、WAV、AAC
動画:MP4、MOV
1ファイルあたりの時間制限 5時間未満
1ファイルあたりの容量制限 音声:1GB以下
動画:3GB以下
機能 ・日本語に特化したAIによる文字起こし
・マイクによるリアルタイム録音
・文字起こしテキストと連動した音声再生機能
・音声、録画データの文字化による検索
・人手による修正(オプションサービス)
テキスト編集機能 あり
他ユーザーへの共有機能 あり
話者の自動分離機能 あり(アップロード後に話者指定の作業が必要)
料金プラン 【無料トライアル】
合計60分間までのデータを文字起こし可能

【スポット利用(従量課金制)】
音声ファイル 30秒ごとに22円、動画ファイル30秒ごとに33円

【定額制】
トライアル:月額3万円(10時間/月)
ライト:月額6万円(20時間/月)
ベーシック:月額12万円(45時間/月)
ビジネス:要問合せ(100時間~/月)

使ってみた精度・感想

GoogleアカウントでRimo Voiceの無料トライアル版にログインし、インタビュー動画をアップロードしてみました。

02rimo_2.jpg

アップロードは数秒、その後文字起こしの処理は4分程度で完了しました。

03rimo_3.jpg

Rimo Voiceを使った文字起こしの結果は次の通りです

本日はよろしくお願いします。よろしくお願いします。今日は貴社で行っているタスク管理についてお伺いできればと思います。はい。まず最初にどのようなツールを使っていらっしゃるかっていうのをお伺いできますでしょうかはい弊社ではションというツールを使って管理しております。モーションを使ってらっしゃるんですね。ちなみにこの農相はなぜ選ばれたんですかですねカスタマイズ性が高いので自社の業務に合わせて調整がしやすいというところが一番大きな理由になっていますなるほど、ありがとうございます。

(※赤文字の装飾部分は出力後に編集)

インタビュー音声に含まれる「えーっと」などの不要な言葉が自動的に削除され、自然な書き起こし文が出力されました。

ただし、タスク管理ツールの名称である「Notion」という固有名詞が正しく認識されていないため、修正が必要です。また、文の句切れで3箇所、句点が抜けている部分がありました。

Rimo Voiceでは話者を設定し、音声の該当箇所を各10秒間ずつ手動で指定することでAIによる話者分離機能を利用できます。今回は音声全体の時間が45秒と短く、話者を手動で指定する時点で分離作業がほとんど完了してしまうため、AIによる話者分離機能の解説は割愛します。

Rimo Voiceの感想まとめ

〇簡単に登録できて使い方も分かりやすい
〇書き起こしの精度が高い
×固有名詞の誤りや句点の抜けなどは修正が必要

CLOVA Note

04clova_1.jpg

出典:CLOVA Note

CLOVA Noteは、アップロードした録音データやリアルタイムの音声を文字起こしできるツールです。日本語だけでなく英語、韓国語、中国語の音声にも対応しています。

オープンデータ期間中のため無料で利用でき、最大で毎月600分間までの音声を文字起こしできます。ただし、利用にはLINEのアカウントが必要です。

おすすめのユーザー ・無料で多くの音声を文字起こししたい人
・インタビューなど複数の話者を含む音声を文字起こししたい人
・英語、韓国語、中国語の音声を文字起こししたい人
利用可能なファイル形式 音声:M4A、MP3、WAV、AAC、AMR
1ファイルあたりの時間制限 180分未満
1ファイルあたりの容量制限 公式サイトに記載なし
機能 ・AI技術を活用した文字起こし(日本語、英語、韓国語、中国語)
・マイクによるリアルタイム録音
・メモ機能
・ブックマーク機能
・音声データの文字化による検索
テキスト編集機能 あり
他ユーザーへの共有機能 あり
話者の自動分離機能 あり(アップロード時に自動で分離)
料金プラン 【オープンベータ期間中】
PCでは毎月300分間までの文字起こしが無料
ユーザーデータ取得への同意で毎月600分間まで無料
スマートフォンアプリは使い放題

使ってみた精度・感想

LINEアカウントでCLOVA Noteの管理画面にログインし、インタビュー音声をアップロードしてみました。

05clova_2.jpg

アップロードから文字起こしの処理まで、数秒程度で完了しました。

06clova_3.jpg

CLOVA Noteを使った文字起こしの結果は次の通りです。

参加者 1
で、本日はよろしくお願いします。よろしくお願いします。えっと、今日は、えっと、記者で行っているタ スク管理についてお伺いできればと思います。
はい。まず最初に、えっと、どのようなツールを使っていらっしゃるかっていうのをお伺いできますでしょうか。
 
参加者 2
はい。えっと、弊社ではモーションというツールを使って管理しております。
 
参加者 1
あ、モーションを使ってらっしゃるんですね。ちなみに、こ、モーションはなぜ選ばれたんですか。
 
参加者 2
あ、えっとですね、あの、カスタマイズ性が高いので、えっと、自社の業務に合わせて調整がしやすいというところが1番大きな理由になって います。
 
参加者 1
なるほど。ありがとうございます。

(※赤文字の装飾部分は出力後に編集)

解析が完了した時点で、話者ごとの分離が自動で行われていました。短い相槌のフレーズなどは区別しきれていないものの、全体としては話者分離の精度が高い印象です。また、句読点の抜けが無いことも好印象でした。

一方、気になった点として、「えっと」や「あの」などの不要な言葉がそのまま残ってしまうことが挙げられます。文脈上「貴社」と表記されるべきところが「記者」と誤った漢字になっている点や、「Notion」という固有名詞が「モーション」と誤認されている箇所は修正が必要です。

CLOVA Noteの感想まとめ

〇話者が自動で分離されるため便利
〇句読点の精度が高い
×不要な言葉もそのまま文字起こしされる
×漢字や固有名詞の誤りは修正が必要 

Notta

07notta_1.jpg

出典:Notta

Nottaは、様々な形式・言語の文字起こしに対応したツールです。動画や音声データに加え、リアルタイムの音声も文字起こしできます。104言語の文字起こしに対応し、出力結果は42言語へ翻訳可能です。

無料版はメールアドレス登録のほかGoogleやMicrosoft、Appleのアカウントでも利用でき、1ファイルあたり5分間月に合計120分間まで文字起こしができます。有料版プランは3種類あり、文字起こし時間やユーザー数に応じて選ぶことが可能です。

おすすめのユーザー ・多言語の音声を文字起こししたい人
・YouTubeなどにアップされた動画を文字起こししたい人
・複数のユーザーで利用したい企業
利用可能なファイル形式 音声:M4A、MP3、WAV、CAF、AIFF
動画:MP4、MOV、AVI、RMVB、FLV、WMV
1ファイルあたりの時間制限 5時間未満(無料プランでは5分まで)
1ファイルあたりの容量制限 音声:1GB以下
動画:10GB以下
機能 ・104言語に対応したAIによる文字起こし
・アップロードデータおよびリアルタイム音声の文字起こし
・YouTubeやGoogleドライブのURL貼り付けによる文字起こし
・文字起こしテキストと連動した音声再生機能
タグ付け
・ChatGPTによるAI要約
・共同作業可能なワークスペースの作成
・音声、録画データの文字化による検索
・42言語に対応した文字起こし結果の翻訳
・自動校正
・Chrome拡張機能
テキスト編集機能 あり
他ユーザーへの共有機能 あり
話者の自動分離機能 あり(有料版ではアップロード時に自動で分離)
料金プラン 【無料プラン】
月に120分間までのデータを文字起こし可能

【プレミアム】
月1,800分の文字起こしが可能
12か月分一括払い:14,400円(1か月あたり1,200円)
毎月払い:月額2,000円

【チーム】
月2,400分の文字起こしとワークスペースの利用が可能
12か月分一括払い:74,520円(1か月あたり6,210円)
毎月払い:月額8,280円

【エンタープライズ】
要問い合わせ

使ってみた精度・感想

メールアドレスでNottaの無料プランに登録し、インタビュー動画をアップロードしてみました。

08notta_2.jpg

アップロードは数秒、その後文字起こしの処理は2分程度で完了しました。

09notta_3.jpg

Nottaを使った文字起こしの結果は次の通りです。

本日はよろしくお願いします。
よろしくお願いします。
今日は貴社で行っているタスク管理についてお伺いできればと思います。はい。まず最初にどのようなツールを使っていらっしゃるかっていうのをお伺いできますでしょうか?
はい弊社ではションというツールを使って管理しております
モーションを使ってらっしゃるんですね。ちなみに昭和なぜ選ばれたんですか。
ですねカスタマイズ性が高いので自社の業務に合わせて調整がしやすいというところが一番大きな理由に なっています。
なるほど、ありがとうございます。

(※赤文字の装飾部分は出力後に編集)

「えーっと」など不要な言葉が自動的に削除され、自然な書き起こし文が出力されました。漢字の変換も適切に行われています。

固有名詞の「Notion」は誤変換されているため修正が必要です。句読点は2箇所に抜けがありました。ただし、Notta有料プランの辞書登録機能を利用すれば、より高い精度での文字起こしが可能となります。

無料プランの注意点として、画面上では発言者が分離して表示されるものの、出力するテキストデータには話者の情報が含まれないことが挙げられます。発言者やタイムコードの情報を文字起こしに含めたい場合、有料プランへのアップグレードが必要です。

Nottaの感想まとめ

〇簡単に登録できる
〇書き起こしの精度が高い
×固有名詞の誤りや句点の抜けなどは修正が必要
×無料プランでは話者分離された文字起こしを出力できない 

toruno

10toruno_1.jpg

出典:toruno

torunoは、Web会議リアル会議の議事録作成に適した文字起こしツールです。音声と文字起こしテキストに加えて、画面キャプチャも保存できます。

料金プランは個人向けの「torunoパーソナル」と法人向けの「torunoビジネス」に分かれています。torunoパーソナルの無料プランはメールアドレスの登録で利用でき、合計3時間までの文字起こしが可能です。torunoビジネスには3週間の無料トライアルがあります。

おすすめのユーザー ・議事録を効率よく作成したい人
・リアルタイムの音声を録音、文字起こししたい人
利用可能なファイル形式 音声:MP3
1ファイルあたりの時間制限 3時間未満
1ファイルあたりの容量制限 100MB以下
機能 ・AIによる文字起こし
・マイクによる録音とリアルタイム文字起こし
・画面キャプチャの記録、文字起こしテキストとの連動
・文字起こしテキストと連動した音声再生
テキスト編集機能 あり
他ユーザーへの共有機能 あり
話者の自動分離機能 なし
料金プラン 【torunoパーソナル 無料プラン】
合計3時間まで利用可能

【torunoパーソナル 有料プラン】
月10時間まで基本料金で利用可能
月額基本料金1,650円
超過分の従量料金 2.2円/分

【torunoビジネス 3週間トライアルプラン】
1チームあたり30時間まで利用可能
登録ユーザー30名以内

【torunoビジネス 月20時間プラン】
1チームあたり月20時間まで基本料金で利用可能
月額基本料金6,000円
超過分の従量料金 300円/時

【torunoビジネス 月100時間プラン】
1チームあたり月100時間まで基本料金で利用可能
月額基本料金28,500円
超過分の従量料金 285円/時

【torunoビジネス 月500時間プラン】
1チームあたり月500時間まで基本料金で利用可能
月額基本料金135,000円
超過分の従量料金 270円/時

使ってみた精度・感想

torunoでは「MP3形式の音声データのみ利用可能です。しかし、今回Zoomの録画機能で用意した音声ファイルは「M4A」形式だったため、MP3に変換した上でアップロードしました。音声ファイルの形式は、音声編集ソフトや無料のWebサービスなどで変換できます。

11toruno_2.jpg

アップロードは数秒、その後文字起こしの処理は15分程度で完了しました。

12toruno_3.jpg

torunoを使った文字起こしの結果は次の通りです。

音声ファイル:
2023/5/29 15:16:20:
本日はよろしくお願いします。よろしくお願いします。今日は貴社で行っているタスク管理についてお伺いできればと思います。はい。まず最初にどのようなツールを使っていらっしゃるかっていうのをお伺いできますでしょうかはい弊社ではションというツールを使って管理しております。
 
音声ファイル:
2023/5/29 15:16:40:
モーションを使ってらっしゃるんですね。ちなみに昭和なぜ選ばれたんですかですねカスタマイズ性が高いので自社の業務に合わせて調整がしやすいというところが一番大きな理由になっていますなるほど、ありがとうございます。

(※赤文字の装飾部分は出力後に編集)

音声に含まれていた「えーっと」などの不要な言葉が自動的に削除され、漢字も正しく変換された自然な書き起こし文が出力されました。

ただし、ダウンロードしたテキストファイルに「音声ファイル:」の文字やタイムコード自動で挿入されてしまうため、編集が必要です。固有名詞の「Notion」が正しく認識されず、句点は3箇所抜けていました。

torunoの感想まとめ

〇不要な言葉が自動で省略される
〇漢字変換の精度が高い
×出力したテキストにタイムコードが自動で挿入されてしまう
×固有名詞の誤認や句点の抜けがある
×音声がMP3以外の形式の場合、変換に手間がかかる 

文字起こしさん

13moji_1.jpg

出典:文字起こしさん

文字起こしさんは、アップロードした動画・音声データを文字起こしできるツールです。さらに、画像データなどに含まれる文字テキストデータ化にも対応しています。

無料で利用できるプランは、会員登録不要で毎月1分までの文字起こしができる「フリー」と、会員登録で毎日10分まで文字起こしができる「ライト」の2種類です。その他、文字起こしできるデータの長さ・分量に応じた有料プランが3種類あります。

おすすめのユーザー ・登録不要で機能を試してみたい人
・10分以内など短い音声を無料で文字起こししたい人
・画像に含まれる文字をテキストデータ化したい人
利用可能なファイル形式 音声:MP3、WAV、AAC、WMA、AIFC、FLAC、AIFF
動画:MP4、MOV、AVI、FLV、MKV、WEBM、WMV、3GP
画像(文字認識):JPG、JPEG、PNG、WEBP
文書(文字認識):PDF
1ファイルあたりの時間制限 90分以内(無料プランは1ファイル1分まで)
1ファイルあたりの容量制限 公式サイトに記載なし
機能 ・AIによる音声、動画データの文字起こし(約30種の言語に対応)
・画像や文書データに含まれる文字のテキスト
・単語の認識精度を高める辞書機能
テキスト編集機能 あり
他ユーザーへの共有機能 なし
話者の自動分離機能 なし
料金プラン 【フリー】
登録不要・無料で利用可能
音声 1分/月
画像 3枚/月

【ライト】
会員登録後、無料で利用可能
音声 10分/日
画像 10枚/日

【ベーシック】月額1,000円
音声 4時間/月
画像 500枚/月

【バリュー】
月額2,000円
音声 10時間/月
画像 1,200枚/月

【プレミアム】
月額3,000円
音声 20時間/月
画像 3,000枚/月

使ってみた精度・感想

会員登録不要かつ無料で利用できる文字起こしさんのフリープランで、インタビュー動画をアップロードしてみました。

14moji_2.jpg

アップロードと文字起こしの処理は1分程度で完了しました。

15moji_3.jpg

文字起こしさんではGoogleとAmiVoice、2種類の音声認識エンジンを使った文字起こしの結果が表示されました。それぞれの出力結果は次の通りです。

Googleの音声認識エンジンによる文字起こし

本日はよろしくお願いしますお願いします今日はやっているタスク管理についてお伺いできればと思いま すまず最初にどのようなツールを使っていらっしゃるかっていうのをお伺いできないでしょうかはいではローションというツールを使って管理しておりますモーションはなぜ選ばれたんですかとですねあのカスタマイズ性が高いので自社の業務に合わせて調整がしやすいというところが一番大きな理由になっていますなるほどありがとうございます

(※赤文字の装飾部分は出力後に編集)

AmiVoiceの音声認識エンジンによる文字起こし

本日はよろしくお願いします。よろしくお願いします。今日は貴社で行っているタスク管理についてお伺いできればと思います。はい。まず最初にどのようなツールを使っていらっしゃるかっていうのをお伺いできますでしょうかはい弊社ではションというツールを使って管理しております。モーションを使ってらっしゃるんですね。ちなみに昭和なぜ選ばれたんですか。とですねカスタマイズ性が高いので自社の業務に合わせて調整がしやすいというところが一番大きな理由になっています。なるほど、ありがとうございます。

(※赤文字の装飾部分は出力後に編集)

Googleの音声認識エンジンを利用した出力結果には句読点がありませんでした。また、元の音声では「お伺いできますでしょうか」という発言が「お伺いできないでしょうか」と変化するなど、精度が低い印象です。

AmiVoiceの音声認識エンジンを利用した方は、「えーっと」などの不要な言葉が削除され、漢字の変換も適切な書き起こしが出力されました。ただし、「Notion」という固有名詞の誤認識や、2箇所の句点の抜けなどは修正が必要です。

文字起こしさんの感想まとめ

〇登録不要ですぐに試すことができる
〇AmiVoiceの音声認識を利用した書き起こしは精度が高い
×固有名詞の誤りや句点の抜けなどは修正が必要
×無料で文字起こしできる時間が短い 

比較まとめ

最後に、今回紹介した5つの文字起こしツールについて精度や機能、対応しているデータ形式などをまとめます。

精度と機能

ツール 精度 文字起こし完了までの時間※ テキスト編集機能 ユーザー共有機能 話者自動分離機能
Rimo Voice ★★★★ 4分程度
CLOVA Note ★★★★★ 数秒程度
Notta ★★★★ 2分程度
toruno ★★★★ 15分程度 -
文字起こしさん ★★★ 1分程度 - -

※「Zoom」で録音した45秒程度のインタビューデータを使用した場合

対応音声データ

ツール M4A MP3 WAV AAC AMR CAF WMA AIFF AIFC FLAC
Rimo Voice - - - - - -
CLOVA Note - - - - -
Notta - - - - -
toruno - - - - - - - - -
文字起こしさん - - -

 

対応動画データ

ツール MP4 MOV AVI FLV WMV RMVB MKV WEBM 3GP
Rimo Voice - - - - - - -
CLOVA Note - - - - - - - - -
Notta - - -
toruno - - - - - - - - -
文字起こしさん -

ツールを活用して文字起こしを効率化しよう

文字起こしツールを導入すると、音声を自動でテキスト化し、手間を省くことができます。ツールによって精度や対応しているデータの長さ・形式などが異なるため、用途に合ったものを選ぶことが重要です。自社に合うツールを選び、文字起こしの作業を効率化しましょう。

▼自社に適したマーケティングツールを探すなら

ferretで自社に適したマーケティングツールを探す

おすすめのマーケティングツール・サービスを探す

探しているツールがきっと見つかる!マーケティングに役立つおすすめサービス・ツールはこちら

▼ 記事作成の業務負担をAIが軽減

コンテンツ作成の生産性をAI技術で向上|ferret One

コンテンツ作成の生産性をAI技術で向上|ferret One

WebマーケティングのノウハウとAI技術を組み合わせて、マーケターの業務負荷を減らし、生産性を向上させます!

▼ 記事制作をプロに依頼したい方はこちら

ban記事中_記事制作.png