会議の議事録づくり、YouTube動画の字幕生成、インタビューの文字起こし——「音声を自動でテキスト化できたら、どれだけ時間が浮くだろう」と思ったことはありませんか。そんな悩みを解決するのが、OpenAIが公開している音声認識AI「Whisper」です。基本機能は無料で、日本語の文字起こし精度も実用レベルに達しています。この記事では、Whisperの使い方をローカル版とAPI版の2パターンに分けて、初心者でも迷わないように解説します。
OpenAI Whisperとは?無料で使える音声認識AIモデル
OpenAI Whisperは、OpenAIが2022年に公開した音声認識AIモデルです。最大の特徴は、モデル自体がオープンソースとして無料公開されている点にあります。
世界中の約68万時間にもおよぶ多言語音声データで学習されており、日本語を含む99以上の言語に対応しています。単なる文字起こし(音声→テキスト)だけでなく、外国語音声を英語に翻訳する機能も備えています。
筆者が実際に1時間分の日本語会議音声を文字起こしした結果、専門用語や固有名詞を除けばほぼ手直し不要なレベルのテキストが出力されました。
Whisperを使う方法は大きく2つです。
- ローカル版:自分のPCにPythonでインストールして動かす方法。完全無料・データが外部に出ない
- API版:OpenAIのクラウドにファイルを送って処理する方法。従量課金だが手軽・高速
ローカル版とAPI版の違いと使い分け
| 項目 | ローカル版(Python) | API版 |
|---|---|---|
| 料金 | 完全無料 | 従量課金(音声の長さに応じて) |
| セットアップ | Python・ffmpeg等の環境構築が必要 | APIキーを取得するだけ |
| 処理速度 | PCのスペック(特にGPU)に依存 | 高速・安定 |
| データの安全性 | 音声が外部に出ない(機密向き) | クラウドに音声を送信 |
| 音声ファイル上限 | PC性能次第(長時間も可) | 1ファイル25MBまで |
| おすすめ対象 | 大量処理・機密データ・コスト重視 | たまに使う・手軽さ重視 |
機密性の高い会議や大量処理にはローカル版、月に数回しか使わない人にはAPI版が手軽です。
ローカル版Whisperのインストール・実行手順
手順1:Pythonとffmpegを準備する
Whisperの動作にはPython 3.8以降と「ffmpeg」が必要です。
`bash
Mac(Homebrew)
brew install ffmpeg
Windows(Chocolatey)
choco install ffmpeg
Ubuntu / WSL
sudo apt update && sudo apt install ffmpeg
`
手順2:Whisper本体をインストールする
`bash
pip install -U openai-whisper
`
手順3:日本語音声を文字起こしする
`bash
whisper meeting.mp3 --language Japanese --model medium
`
--language Japanese で日本語を明示的に指定すると精度と速度が安定します。実行すると .txt .srt(字幕ファイル).vtt などが自動生成されます。
モデルサイズの選び方
| モデル | 精度 | 速度 | 必要メモリの目安 |
|---|---|---|---|
| tiny | 低 | 最速 | 約1GB |
| base | やや低 | 速い | 約1GB |
| small | 中 | 普通 | 約2GB |
| medium | 高 | やや遅い | 約5GB |
| large | 最高 | 遅い | 約10GB |
日本語の文字起こしではmedium以上がおすすめです。
API版Whisperの使い方(curl / Pythonサンプル)
curlで使う場合
`bash
curl https://api.openai.com/v1/audio/transcriptions \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: multipart/form-data" \
-F file="@meeting.mp3" \
-F model="whisper-1" \
-F language="ja"
`
Pythonで使う場合
`python
from openai import OpenAI
client = OpenAI(api_key="YOUR_API_KEY")
with open("meeting.mp3", "rb") as audio_file:
transcript = client.audio.transcriptions.create(
model="whisper-1",
file=audio_file,
language="ja"
)
print(transcript.text)
`
API版は1ファイル25MBの上限があるため、長時間音声はffmpegで分割・圧縮してから送信しましょう。
Whisperの日本語対応精度と注意点
- クリアな音声ほど精度が上がる:マイク収録やノイズの少ない環境では高精度
- 専門用語・固有名詞は要チェック:後から一括置換で修正すると効率的
- 句読点は自動付与される:medium以上のモデルでは自然な位置に句読点が入る
- 話者分離は非対応:話者の区別はWhisper単体ではできない
競合ツールとの比較(Google Speech-to-Text等)
| ツール | 料金 | 日本語精度 | 特徴 |
|---|---|---|---|
| OpenAI Whisper(ローカル) | 無料 | 高 | オフライン可・データ安全 |
| OpenAI Whisper(API) | 従量課金 | 高 | 手軽・高速 |
| Google Speech-to-Text | 従量課金 | 高 | リアルタイム認識に強い・話者分離対応 |
| Amazon Transcribe | 従量課金 | 中〜高 | AWS連携・話者分離対応 |
Whisperの圧倒的な強みは、ローカル版なら完全無料かつデータが外部に出ない点です。リアルタイム認識や話者分離が必須なら、Google Speech-to-Textなどクラウド専業サービスに分があります。
よくある質問(FAQ)
Q1. Whisperは本当に完全無料で使えますか?
ローカル版(Python版)はモデルもソフトウェアも無料で、何時間文字起こししても費用はかかりません。API版はOpenAIのクラウドを利用するため従量課金となります。
Q2. GPUがないPCでも動きますか?
CPUのみでも動作します。ただし大きいモデルは処理に時間がかかるため、GPUがない場合はsmallモデルから試すのがおすすめです。
Q3. 日本語の文字起こし精度はどのくらいですか?
クリアな音声であれば、専門用語を除いてほぼ手直し不要なレベルです。筆者の体感では1時間のクリアな音声の修正に10〜15分程度です。
Q4. 字幕ファイル(SRT)は作れますか?
作れます。ローカル版では実行時に .srt .vtt ファイルが自動生成されます。API版でも response_format="srt" を指定すれば字幕形式で出力できます。
Q5. 長時間の音声を文字起こしする際の注意点は?
ローカル版はPCの性能次第で長時間音声も処理可能です。API版は1ファイル25MBの上限があるため、長い音声はffmpegで分割・圧縮してから送信する必要があります。
まとめ:あなたに合ったWhisperの使い方を選ぼう
- コスト重視・機密データ・大量処理ならローカル版(完全無料)
- 手軽さ・たまに使う・環境構築が面倒ならAPI版(従量課金)
- 日本語はmedium以上のモデルで実用精度
- リアルタイム認識・話者分離が必要なら他サービスも検討
まずは無料のローカル版で文字起こしの便利さを体験し、用途に応じてAPI版やGUIツールを使い分けるのが最も効率的な進め方です。
✅ AI×Web・ITスキルを習得【インターネット・アカデミー】
Webデザイン・マーケティング・プログラミングをマンツーマン指導。給付金最大56万円。
無料カウンセリングに申し込む →※本リンクはアフィリエイト広告(PR)を含みます

コメント