音声文字起こし無料ツール比較【2026年】Whisper・AI自動・スマホ対応

音声文字起こしを無料で行う方法を徹底比較。Whisper・Notta・LINE WORKS・スマホ標準機能・ブラウザツールの精度・速度・対応言語を解説します。

音声文字起こしの種類

1. AI自動文字起こし

OpenAIのWhisperやGoogleのSpeech-to-Text APIなど、機械学習モデルが自動で書き起こす方式。精度が高く・無料で使えるツールが増えています。

2. 音声認識リアルタイム書き起こし

会議中や講演中にリアルタイムで字幕表示する方式。Google Meet・Zoom・Teamsの字幕機能、iPhoneのライブテキスト、Androidの自動字幕が代表例。

3. 人手による文字起こし

クラウドソーシングや専門業者に依頼する方式。1時間あたり1万〜2万円が相場。専門用語・固有名詞が多いケースで使われます。

無料の音声文字起こしツール比較

ツール	無料枠	精度	スピード	用途
Whisper（ローカル実行）	無制限	◎	△〜◯	プライバシー重視・大量処理
Whisper（OpenAI API）	$0.006/分	◎	◎	高精度を求めるとき
ハカドルツールズ Whisper	無料	◎	◎	ブラウザだけで完結
Notta	月120分まで無料	◯	◯	リアルタイム会議
Google Speech-to-Text	月60分無料	◯	◎	開発者向け
Microsoft Word（ディクテーション）	無料	△〜◯	◎	リアルタイム入力
Googleドキュメント音声入力	無料	△〜◯	◎	軽い議事録
iPhone標準（音声入力）	無料	◯	◎	スマホで完結
Otter.ai	月300分まで無料	◯	◎	英語会議
LINE WORKS AiNote	月10時間（有料プラン内）	◯	◯	LINE WORKS連携

OpenAI Whisper の特徴

精度

WhisperはOpenAIが2022年に公開したオープンソースの音声認識モデル。日本語も含む99言語に対応し、雑音環境でも高い精度を発揮します。

モデルのサイズ

モデル	パラメータ数	必要メモリ	用途
tiny	39M	~1GB	高速・低精度
base	74M	~1GB	バランス
small	244M	~2GB	中精度
medium	769M	~5GB	高精度
large-v3	1550M	~10GB	最高精度
turbo	809M	~6GB	大型モデル並み・高速

ローカル実行する場合、PCスペックに応じて選びます。M1/M2 Macなら medium まで快適、大型のCUDA GPUがあれば large も実用的。

ローカル実行の方法

Python版

pip install -U openai-whisper

# 音声ファイルを文字起こし
whisper input.mp3 --language Japanese --model medium --output_format txt

whisper.cpp（C++実装・軽量）

git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
make
./models/download-ggml-model.sh medium
./main -m models/ggml-medium.bin -l ja -f input.wav -otxt

mp3 → wav 変換が必要なケースもあります（ffmpeg）。

Web版（ブラウザだけで動作）

ハカドルツールズの音声文字起こしツールはWebAssembly版Whisperでブラウザだけで動作。サーバーに音声を送信しないためプライバシー面で安心です。

無料ツール詳細比較

Notta

1ファイルあたり3分まで無料
自動要約・翻訳機能あり
日本語精度が高い（特に会議録向けに最適化）
スマホアプリ・PC両対応
月額1,200円〜（1日120分・要約・翻訳）

Otter.ai

月300分まで無料
英語の精度が高い
話者分離機能あり
日本語対応は限定的
リアルタイム字幕表示あり

Googleドキュメント音声入力

ツール → 音声入力（Chrome限定）
ストリーミング型（長時間連続入力に弱い）
句読点が手動（「まる」「点」と発音）
短いメモには便利

iPhone・Mac の音声入力

iOS 16以降は端末上で処理（オンデバイス）
プライバシー◎
マイクボタンタップで起動
句読点を音声で（「てん」「まる」）

Microsoft Word ディクテーション

Microsoft 365契約者は無料
句読点自動挿入機能あり
日本語対応
「Wordのディクテーション」「OneNoteのディクテーション」両方使える

文字起こしを高精度にするコツ

録音段階

工夫	効果
マイクと口の距離を15cm以内に	雑音減・音量UP
静かな部屋で録音	エアコン・パソコンファンも雑音源
1人ずつ話す	話者重複は精度急落の原因
棒読みではなく自然に話す	AIは自然な発話に最適化されている
専門用語は明瞭に	早口・小声は誤認識

録音フォーマット

フォーマット	推奨度	備考
WAV（44.1kHz, 16bit）	◎	最高品質
FLAC	◎	可逆圧縮
MP3（128kbps以上）	◯	一般的
AAC（M4A）	◯	iPhone標準
OGG	◯	Android
AMR	△	古い形式・低品質

後処理

文字起こし結果は必ず以下を確認:

固有名詞（人名・社名・製品名）の誤変換
数字・年号の誤変換
専門用語の誤変換
「あー」「えーと」など不要な音
句読点・改行の整理

議事録作成ワークフロー

1. 録音（Zoom/Meet/Teams/ICレコーダー）
   ↓
2. 文字起こし（Whisper等で自動）
   ↓
3. ChatGPTで要約・整形
   ↓
4. ファクトチェック・固有名詞修正
   ↓
5. 議事録テンプレートに整形
   ↓
6. 共有

ChatGPTで要約するプロンプト例

以下の文字起こしを、議事録形式に整形してください。

要件:
- 参加者一覧
- 議題・議論内容（箇条書き）
- 決定事項
- アクションアイテム（誰が何を、いつまでに）
- 次回会議の予定

文字起こし:
[ここに貼り付け]

プライバシー上の注意

ツール	データの扱い
Whisper（ローカル実行）	サーバー送信なし・完全プライベート
ハカドルツールズ Whisper	ブラウザ内で処理・送信なし
OpenAI API（Whisper API）	30日間ログ保持・学習に使用しない
Notta	サーバー送信あり・SOC2取得済み
Google Speech-to-Text	無料枠は学習データに使われる可能性
Otter.ai	米国サーバー保存

機密情報を含む音声（社内会議・面接・取引先打ち合わせ）はローカル実行 or オンデバイス処理を選びましょう。

用途別おすすめ

用途	おすすめ
機密会議の議事録	ローカルWhisper / ハカドルWhisper
英語会議の要約	Otter.ai
日本語会議の要約	Notta
開発者の自動化	OpenAI Whisper API
講義・授業	Notta（要約付き）
海外取引（多言語）	Whisper（自動翻訳付き）
インタビュー記事化	OpenAI Whisper API + ChatGPT

まとめ

無料ならWhisperが最強（精度・対応言語ともに）
リアルタイム会議用にはNottaやOtter.ai
機密情報はローカル実行が必須
文字起こし後はChatGPTで要約・整形がおすすめ

関連ツール: 音声文字起こしツールはWhisperモデルをブラウザ上で実行する文字起こしツールです。音声ファイルがサーバーに送信されないため、機密会議の議事録作成にも安心してご利用いただけます。