音声文字起こしの種類

1. AI自動文字起こし

OpenAIのWhisperやGoogleのSpeech-to-Text APIなど、機械学習モデルが自動で書き起こす方式。精度が高く・無料で使えるツールが増えています。

2. 音声認識リアルタイム書き起こし

会議中や講演中にリアルタイムで字幕表示する方式。Google Meet・Zoom・Teamsの字幕機能、iPhoneのライブテキスト、Androidの自動字幕が代表例。

3. 人手による文字起こし

クラウドソーシングや専門業者に依頼する方式。1時間あたり1万〜2万円が相場。専門用語・固有名詞が多いケースで使われます。

無料の音声文字起こしツール比較

ツール無料枠精度スピード用途
Whisper(ローカル実行)無制限△〜◯プライバシー重視・大量処理
Whisper(OpenAI API)$0.006/分高精度を求めるとき
ハカドルツールズ Whisper無料ブラウザだけで完結
Notta月120分まで無料リアルタイム会議
Google Speech-to-Text月60分無料開発者向け
Microsoft Word(ディクテーション)無料△〜◯リアルタイム入力
Googleドキュメント音声入力無料△〜◯軽い議事録
iPhone標準(音声入力)無料スマホで完結
Otter.ai月300分まで無料英語会議
LINE WORKS AiNote月10時間(有料プラン内)LINE WORKS連携

OpenAI Whisper の特徴

精度

WhisperはOpenAIが2022年に公開したオープンソースの音声認識モデル。日本語も含む99言語に対応し、雑音環境でも高い精度を発揮します。

モデルのサイズ

モデルパラメータ数必要メモリ用途
tiny39M~1GB高速・低精度
base74M~1GBバランス
small244M~2GB中精度
medium769M~5GB高精度
large-v31550M~10GB最高精度
turbo809M~6GB大型モデル並み・高速

ローカル実行する場合、PCスペックに応じて選びます。M1/M2 Macなら medium まで快適、大型のCUDA GPUがあれば large も実用的。

ローカル実行の方法

Python版

pip install -U openai-whisper

# 音声ファイルを文字起こし
whisper input.mp3 --language Japanese --model medium --output_format txt

whisper.cpp(C++実装・軽量)

git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
make
./models/download-ggml-model.sh medium
./main -m models/ggml-medium.bin -l ja -f input.wav -otxt

mp3 → wav 変換が必要なケースもあります(ffmpeg)。

Web版(ブラウザだけで動作)

ハカドルツールズの音声文字起こしツールはWebAssembly版Whisperでブラウザだけで動作。サーバーに音声を送信しないためプライバシー面で安心です。

無料ツール詳細比較

Notta

  • 1ファイルあたり3分まで無料
  • 自動要約・翻訳機能あり
  • 日本語精度が高い(特に会議録向けに最適化)
  • スマホアプリ・PC両対応
  • 月額1,200円〜(1日120分・要約・翻訳)

Otter.ai

  • 月300分まで無料
  • 英語の精度が高い
  • 話者分離機能あり
  • 日本語対応は限定的
  • リアルタイム字幕表示あり

Googleドキュメント音声入力

  • ツール → 音声入力(Chrome限定)
  • ストリーミング型(長時間連続入力に弱い)
  • 句読点が手動(「まる」「点」と発音)
  • 短いメモには便利

iPhone・Mac の音声入力

  • iOS 16以降は端末上で処理(オンデバイス)
  • プライバシー◎
  • マイクボタンタップで起動
  • 句読点を音声で(「てん」「まる」)

Microsoft Word ディクテーション

  • Microsoft 365契約者は無料
  • 句読点自動挿入機能あり
  • 日本語対応
  • 「Wordのディクテーション」「OneNoteのディクテーション」両方使える

文字起こしを高精度にするコツ

録音段階

工夫効果
マイクと口の距離を15cm以内に雑音減・音量UP
静かな部屋で録音エアコン・パソコンファンも雑音源
1人ずつ話す話者重複は精度急落の原因
棒読みではなく自然に話すAIは自然な発話に最適化されている
専門用語は明瞭に早口・小声は誤認識

録音フォーマット

フォーマット推奨度備考
WAV(44.1kHz, 16bit)最高品質
FLAC可逆圧縮
MP3(128kbps以上)一般的
AAC(M4A)iPhone標準
OGGAndroid
AMR古い形式・低品質

後処理

文字起こし結果は必ず以下を確認:

  1. 固有名詞(人名・社名・製品名)の誤変換
  2. 数字・年号の誤変換
  3. 専門用語の誤変換
  4. 「あー」「えーと」など不要な音
  5. 句読点・改行の整理

議事録作成ワークフロー

1. 録音(Zoom/Meet/Teams/ICレコーダー)

2. 文字起こし(Whisper等で自動)

3. ChatGPTで要約・整形

4. ファクトチェック・固有名詞修正

5. 議事録テンプレートに整形

6. 共有

ChatGPTで要約するプロンプト例

以下の文字起こしを、議事録形式に整形してください。

要件:
- 参加者一覧
- 議題・議論内容(箇条書き)
- 決定事項
- アクションアイテム(誰が何を、いつまでに)
- 次回会議の予定

文字起こし:
[ここに貼り付け]

プライバシー上の注意

ツールデータの扱い
Whisper(ローカル実行)サーバー送信なし・完全プライベート
ハカドルツールズ Whisperブラウザ内で処理・送信なし
OpenAI API(Whisper API)30日間ログ保持・学習に使用しない
Nottaサーバー送信あり・SOC2取得済み
Google Speech-to-Text無料枠は学習データに使われる可能性
Otter.ai米国サーバー保存

機密情報を含む音声(社内会議・面接・取引先打ち合わせ)はローカル実行 or オンデバイス処理を選びましょう。

用途別おすすめ

用途おすすめ
機密会議の議事録ローカルWhisper / ハカドルWhisper
英語会議の要約Otter.ai
日本語会議の要約Notta
開発者の自動化OpenAI Whisper API
講義・授業Notta(要約付き)
海外取引(多言語)Whisper(自動翻訳付き)
インタビュー記事化OpenAI Whisper API + ChatGPT

まとめ

  • 無料ならWhisperが最強(精度・対応言語ともに)
  • リアルタイム会議用にはNottaやOtter.ai
  • 機密情報はローカル実行が必須
  • 文字起こし後はChatGPTで要約・整形がおすすめ

関連ツール: 音声文字起こしツール はWhisperモデルをブラウザ上で実行する文字起こしツールです。音声ファイルがサーバーに送信されないため、機密会議の議事録作成にも安心してご利用いただけます。