音声文字起こしの種類
1. AI自動文字起こし
OpenAIのWhisperやGoogleのSpeech-to-Text APIなど、機械学習モデルが自動で書き起こす方式。精度が高く・無料で使えるツールが増えています。
2. 音声認識リアルタイム書き起こし
会議中や講演中にリアルタイムで字幕表示する方式。Google Meet・Zoom・Teamsの字幕機能、iPhoneのライブテキスト、Androidの自動字幕が代表例。
3. 人手による文字起こし
クラウドソーシングや専門業者に依頼する方式。1時間あたり1万〜2万円が相場。専門用語・固有名詞が多いケースで使われます。
無料の音声文字起こしツール比較
| ツール | 無料枠 | 精度 | スピード | 用途 |
|---|---|---|---|---|
| Whisper(ローカル実行) | 無制限 | ◎ | △〜◯ | プライバシー重視・大量処理 |
| Whisper(OpenAI API) | $0.006/分 | ◎ | ◎ | 高精度を求めるとき |
| ハカドルツールズ Whisper | 無料 | ◎ | ◎ | ブラウザだけで完結 |
| Notta | 月120分まで無料 | ◯ | ◯ | リアルタイム会議 |
| Google Speech-to-Text | 月60分無料 | ◯ | ◎ | 開発者向け |
| Microsoft Word(ディクテーション) | 無料 | △〜◯ | ◎ | リアルタイム入力 |
| Googleドキュメント音声入力 | 無料 | △〜◯ | ◎ | 軽い議事録 |
| iPhone標準(音声入力) | 無料 | ◯ | ◎ | スマホで完結 |
| Otter.ai | 月300分まで無料 | ◯ | ◎ | 英語会議 |
| LINE WORKS AiNote | 月10時間(有料プラン内) | ◯ | ◯ | LINE WORKS連携 |
OpenAI Whisper の特徴
精度
WhisperはOpenAIが2022年に公開したオープンソースの音声認識モデル。日本語も含む99言語に対応し、雑音環境でも高い精度を発揮します。
モデルのサイズ
| モデル | パラメータ数 | 必要メモリ | 用途 |
|---|---|---|---|
| tiny | 39M | ~1GB | 高速・低精度 |
| base | 74M | ~1GB | バランス |
| small | 244M | ~2GB | 中精度 |
| medium | 769M | ~5GB | 高精度 |
| large-v3 | 1550M | ~10GB | 最高精度 |
| turbo | 809M | ~6GB | 大型モデル並み・高速 |
ローカル実行する場合、PCスペックに応じて選びます。M1/M2 Macなら medium まで快適、大型のCUDA GPUがあれば large も実用的。
ローカル実行の方法
Python版
pip install -U openai-whisper
# 音声ファイルを文字起こし
whisper input.mp3 --language Japanese --model medium --output_format txt
whisper.cpp(C++実装・軽量)
git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
make
./models/download-ggml-model.sh medium
./main -m models/ggml-medium.bin -l ja -f input.wav -otxt
mp3 → wav 変換が必要なケースもあります(ffmpeg)。
Web版(ブラウザだけで動作)
ハカドルツールズの音声文字起こしツールはWebAssembly版Whisperでブラウザだけで動作。サーバーに音声を送信しないためプライバシー面で安心です。
無料ツール詳細比較
Notta
- 1ファイルあたり3分まで無料
- 自動要約・翻訳機能あり
- 日本語精度が高い(特に会議録向けに最適化)
- スマホアプリ・PC両対応
- 月額1,200円〜(1日120分・要約・翻訳)
Otter.ai
- 月300分まで無料
- 英語の精度が高い
- 話者分離機能あり
- 日本語対応は限定的
- リアルタイム字幕表示あり
Googleドキュメント音声入力
- ツール → 音声入力(Chrome限定)
- ストリーミング型(長時間連続入力に弱い)
- 句読点が手動(「まる」「点」と発音)
- 短いメモには便利
iPhone・Mac の音声入力
- iOS 16以降は端末上で処理(オンデバイス)
- プライバシー◎
- マイクボタンタップで起動
- 句読点を音声で(「てん」「まる」)
Microsoft Word ディクテーション
- Microsoft 365契約者は無料
- 句読点自動挿入機能あり
- 日本語対応
- 「Wordのディクテーション」「OneNoteのディクテーション」両方使える
文字起こしを高精度にするコツ
録音段階
| 工夫 | 効果 |
|---|---|
| マイクと口の距離を15cm以内に | 雑音減・音量UP |
| 静かな部屋で録音 | エアコン・パソコンファンも雑音源 |
| 1人ずつ話す | 話者重複は精度急落の原因 |
| 棒読みではなく自然に話す | AIは自然な発話に最適化されている |
| 専門用語は明瞭に | 早口・小声は誤認識 |
録音フォーマット
| フォーマット | 推奨度 | 備考 |
|---|---|---|
| WAV(44.1kHz, 16bit) | ◎ | 最高品質 |
| FLAC | ◎ | 可逆圧縮 |
| MP3(128kbps以上) | ◯ | 一般的 |
| AAC(M4A) | ◯ | iPhone標準 |
| OGG | ◯ | Android |
| AMR | △ | 古い形式・低品質 |
後処理
文字起こし結果は必ず以下を確認:
- 固有名詞(人名・社名・製品名)の誤変換
- 数字・年号の誤変換
- 専門用語の誤変換
- 「あー」「えーと」など不要な音
- 句読点・改行の整理
議事録作成ワークフロー
1. 録音(Zoom/Meet/Teams/ICレコーダー)
↓
2. 文字起こし(Whisper等で自動)
↓
3. ChatGPTで要約・整形
↓
4. ファクトチェック・固有名詞修正
↓
5. 議事録テンプレートに整形
↓
6. 共有
ChatGPTで要約するプロンプト例
以下の文字起こしを、議事録形式に整形してください。
要件:
- 参加者一覧
- 議題・議論内容(箇条書き)
- 決定事項
- アクションアイテム(誰が何を、いつまでに)
- 次回会議の予定
文字起こし:
[ここに貼り付け]
プライバシー上の注意
| ツール | データの扱い |
|---|---|
| Whisper(ローカル実行) | サーバー送信なし・完全プライベート |
| ハカドルツールズ Whisper | ブラウザ内で処理・送信なし |
| OpenAI API(Whisper API) | 30日間ログ保持・学習に使用しない |
| Notta | サーバー送信あり・SOC2取得済み |
| Google Speech-to-Text | 無料枠は学習データに使われる可能性 |
| Otter.ai | 米国サーバー保存 |
機密情報を含む音声(社内会議・面接・取引先打ち合わせ)はローカル実行 or オンデバイス処理を選びましょう。
用途別おすすめ
| 用途 | おすすめ |
|---|---|
| 機密会議の議事録 | ローカルWhisper / ハカドルWhisper |
| 英語会議の要約 | Otter.ai |
| 日本語会議の要約 | Notta |
| 開発者の自動化 | OpenAI Whisper API |
| 講義・授業 | Notta(要約付き) |
| 海外取引(多言語) | Whisper(自動翻訳付き) |
| インタビュー記事化 | OpenAI Whisper API + ChatGPT |
まとめ
- 無料ならWhisperが最強(精度・対応言語ともに)
- リアルタイム会議用にはNottaやOtter.ai
- 機密情報はローカル実行が必須
- 文字起こし後はChatGPTで要約・整形がおすすめ
関連ツール: 音声文字起こしツール はWhisperモデルをブラウザ上で実行する文字起こしツールです。音声ファイルがサーバーに送信されないため、機密会議の議事録作成にも安心してご利用いただけます。