MENU
  • 学習・副業
    • 副業・収益化
  • 比較・レビュー
    • SaaS比較・レビュー
    • 使い方・チュートリアル
  • AIビジネス・自動化
    • AIアシスタント・デバイス
    • AIビジネスツール
    • 開発ツール
    • 音楽・音声AI
    • ノーコード・AI自動化
  • AIライティング
    • AIライティングツール
  • AI画像・3D
    • AI画像生成
    • AI写真・画像編集
    • 3D・ビジュアル生成AI
  • AI動画・映像
    • 動画生成AI
    • AI動画編集・生成
本音レビューで選ぶ、あなたに合ったAIツール
AIツール比較ラボ
  • 学習・副業
    • 副業・収益化
  • 比較・レビュー
    • SaaS比較・レビュー
    • 使い方・チュートリアル
  • AIビジネス・自動化
    • AIアシスタント・デバイス
    • AIビジネスツール
    • 開発ツール
    • 音楽・音声AI
    • ノーコード・AI自動化
  • AIライティング
    • AIライティングツール
  • AI画像・3D
    • AI画像生成
    • AI写真・画像編集
    • 3D・ビジュアル生成AI
  • AI動画・映像
    • 動画生成AI
    • AI動画編集・生成
AIツール比較ラボ
  • 学習・副業
    • 副業・収益化
  • 比較・レビュー
    • SaaS比較・レビュー
    • 使い方・チュートリアル
  • AIビジネス・自動化
    • AIアシスタント・デバイス
    • AIビジネスツール
    • 開発ツール
    • 音楽・音声AI
    • ノーコード・AI自動化
  • AIライティング
    • AIライティングツール
  • AI画像・3D
    • AI画像生成
    • AI写真・画像編集
    • 3D・ビジュアル生成AI
  • AI動画・映像
    • 動画生成AI
    • AI動画編集・生成
  1. ホーム
  2. 使い方・チュートリアル
  3. OpenAI Whisper 使い方・無料で日本語文字起こし完全ガイド【2026年版】|ローカル版とAPI版の違いも解説

OpenAI Whisper 使い方・無料で日本語文字起こし完全ガイド【2026年版】|ローカル版とAPI版の違いも解説

2026 6/10
広告
使い方・チュートリアル
2026年6月10日

会議の議事録づくり、YouTube動画の字幕生成、インタビューの文字起こし——「音声を自動でテキスト化できたら、どれだけ時間が浮くだろう」と思ったことはありませんか。そんな悩みを解決するのが、OpenAIが公開している音声認識AI「Whisper」です。基本機能は無料で、日本語の文字起こし精度も実用レベルに達しています。この記事では、Whisperの使い方をローカル版とAPI版の2パターンに分けて、初心者でも迷わないように解説します。

目次

OpenAI Whisperとは?無料で使える音声認識AIモデル

OpenAI Whisperは、OpenAIが2022年に公開した音声認識AIモデルです。最大の特徴は、モデル自体がオープンソースとして無料公開されている点にあります。

世界中の約68万時間にもおよぶ多言語音声データで学習されており、日本語を含む99以上の言語に対応しています。単なる文字起こし(音声→テキスト)だけでなく、外国語音声を英語に翻訳する機能も備えています。

筆者が実際に1時間分の日本語会議音声を文字起こしした結果、専門用語や固有名詞を除けばほぼ手直し不要なレベルのテキストが出力されました。

Whisperを使う方法は大きく2つです。

  • ローカル版:自分のPCにPythonでインストールして動かす方法。完全無料・データが外部に出ない
  • API版:OpenAIのクラウドにファイルを送って処理する方法。従量課金だが手軽・高速

ローカル版とAPI版の違いと使い分け

項目ローカル版(Python)API版
料金完全無料従量課金(音声の長さに応じて)
セットアップPython・ffmpeg等の環境構築が必要APIキーを取得するだけ
処理速度PCのスペック(特にGPU)に依存高速・安定
データの安全性音声が外部に出ない(機密向き)クラウドに音声を送信
音声ファイル上限PC性能次第(長時間も可)1ファイル25MBまで
おすすめ対象大量処理・機密データ・コスト重視たまに使う・手軽さ重視

機密性の高い会議や大量処理にはローカル版、月に数回しか使わない人にはAPI版が手軽です。

ローカル版Whisperのインストール・実行手順

手順1:Pythonとffmpegを準備する

Whisperの動作にはPython 3.8以降と「ffmpeg」が必要です。

`bash

Mac(Homebrew)

brew install ffmpeg

Windows(Chocolatey)

choco install ffmpeg

Ubuntu / WSL

sudo apt update && sudo apt install ffmpeg

`

手順2:Whisper本体をインストールする

`bash

pip install -U openai-whisper

`

手順3:日本語音声を文字起こしする

`bash

whisper meeting.mp3 --language Japanese --model medium

`

--language Japanese で日本語を明示的に指定すると精度と速度が安定します。実行すると .txt .srt(字幕ファイル).vtt などが自動生成されます。

モデルサイズの選び方

モデル精度速度必要メモリの目安
tiny低最速約1GB
baseやや低速い約1GB
small中普通約2GB
medium高やや遅い約5GB
large最高遅い約10GB

日本語の文字起こしではmedium以上がおすすめです。

API版Whisperの使い方(curl / Pythonサンプル)

curlで使う場合

`bash

curl https://api.openai.com/v1/audio/transcriptions \

-H "Authorization: Bearer YOUR_API_KEY" \

-H "Content-Type: multipart/form-data" \

-F file="@meeting.mp3" \

-F model="whisper-1" \

-F language="ja"

`

Pythonで使う場合

`python

from openai import OpenAI

client = OpenAI(api_key="YOUR_API_KEY")

with open("meeting.mp3", "rb") as audio_file:

transcript = client.audio.transcriptions.create(

model="whisper-1",

file=audio_file,

language="ja"

)

print(transcript.text)

`

API版は1ファイル25MBの上限があるため、長時間音声はffmpegで分割・圧縮してから送信しましょう。

Whisperの日本語対応精度と注意点

  • クリアな音声ほど精度が上がる:マイク収録やノイズの少ない環境では高精度
  • 専門用語・固有名詞は要チェック:後から一括置換で修正すると効率的
  • 句読点は自動付与される:medium以上のモデルでは自然な位置に句読点が入る
  • 話者分離は非対応:話者の区別はWhisper単体ではできない

競合ツールとの比較(Google Speech-to-Text等)

ツール料金日本語精度特徴
OpenAI Whisper(ローカル)無料高オフライン可・データ安全
OpenAI Whisper(API)従量課金高手軽・高速
Google Speech-to-Text従量課金高リアルタイム認識に強い・話者分離対応
Amazon Transcribe従量課金中〜高AWS連携・話者分離対応

Whisperの圧倒的な強みは、ローカル版なら完全無料かつデータが外部に出ない点です。リアルタイム認識や話者分離が必須なら、Google Speech-to-Textなどクラウド専業サービスに分があります。

よくある質問(FAQ)

Q1. Whisperは本当に完全無料で使えますか?

ローカル版(Python版)はモデルもソフトウェアも無料で、何時間文字起こししても費用はかかりません。API版はOpenAIのクラウドを利用するため従量課金となります。

Q2. GPUがないPCでも動きますか?

CPUのみでも動作します。ただし大きいモデルは処理に時間がかかるため、GPUがない場合はsmallモデルから試すのがおすすめです。

Q3. 日本語の文字起こし精度はどのくらいですか?

クリアな音声であれば、専門用語を除いてほぼ手直し不要なレベルです。筆者の体感では1時間のクリアな音声の修正に10〜15分程度です。

Q4. 字幕ファイル(SRT)は作れますか?

作れます。ローカル版では実行時に .srt .vtt ファイルが自動生成されます。API版でも response_format="srt" を指定すれば字幕形式で出力できます。

Q5. 長時間の音声を文字起こしする際の注意点は?

ローカル版はPCの性能次第で長時間音声も処理可能です。API版は1ファイル25MBの上限があるため、長い音声はffmpegで分割・圧縮してから送信する必要があります。

まとめ:あなたに合ったWhisperの使い方を選ぼう

  • コスト重視・機密データ・大量処理ならローカル版(完全無料)
  • 手軽さ・たまに使う・環境構築が面倒ならAPI版(従量課金)
  • 日本語はmedium以上のモデルで実用精度
  • リアルタイム認識・話者分離が必要なら他サービスも検討

まずは無料のローカル版で文字起こしの便利さを体験し、用途に応じてAPI版やGUIツールを使い分けるのが最も効率的な進め方です。

✅ AI×Web・ITスキルを習得【インターネット・アカデミー】

Webデザイン・マーケティング・プログラミングをマンツーマン指導。給付金最大56万円。

無料カウンセリングに申し込む →

※本リンクはアフィリエイト広告(PR)を含みます

▶ Plaud.ai / PLAUD Note / NotePinの詳細はこちら

使い方・チュートリアル
よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

コメント

コメントする コメントをキャンセル

email confirm*

post date*

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

最近の投稿

  • Poe AI 使い方・料金・日本語対応を徹底解説【2026年版】|GPT-4o/Claude/Geminiを1画面で使う方法
  • OpenAI Whisper 使い方・無料で日本語文字起こし完全ガイド【2026年版】|ローカル版とAPI版の違いも解説
  • Canva vs Figma 徹底比較【2026年版】|副業・個人事業主に向いているのはどっち?
  • AIプロンプトエンジニアリング副業の稼ぎ方【2026年版】|月収・案件・フリーランス独立を解説
  • ChatGPT で英語学習を効率化する方法|会話練習・添削・例文生成を活用【2026年版】
人気記事
  • Wondershare Filmora AI動画編集ソフトのイメージ
    【2026年最新】Wondershare Filmora 使い方・料金・AI機能・評判を徹底解説
  • HitPaw FotorPeaの使い方と料金完全ガイド|AI写真高画質化を試した
  • Claude Code 使い方【日本語】初心者向け完全ガイド|インストールからコマンド一覧まで
  • HitPaw VikPea AI動画高画質化ソフトのイメージ
    【2026年最新】HitPaw VikPea(Video Enhancer)使い方・料金・評判を徹底解説|AI動画高画質化の決定版
  • Meshy AI 3Dモデル生成のイメージ
    Meshy AI 使い方・料金・無料プラン徹底解説|3Dモデル生成AIの始め方【2026年最新】

最近のコメント

表示できるコメントはありません。

アーカイブ

  • 2026年6月
  • 2026年5月
  • 2026年4月

カテゴリー

  • 副業・収益化
  • AIアシスタント・デバイス
  • SaaS比較・レビュー
  • AIビジネスツール
  • AIライティングツール
  • AI画像生成
  • 動画生成AI
  • AI動画編集・生成
  • ノーコード・AI自動化
  • 使い方・チュートリアル
  • 開発ツール
  • 音楽・音声AI
  • 3D・ビジュアル生成AI
  • AI写真・画像編集
目次