Pythonで作れる音声認識AIアシスタント

speech_recognition
を使った簡単な音声認識AIの作成方法
近年、音声入力やスマートアシスタントの需要が高まり、開発者の間でも「音声認識AIアシスタント」への注目が高まっています。
本記事では、Pythonライブラリ「speech_recognition
」を使って、誰でも簡単に作れる音声認識AIアシスタントの作成方法をご紹介します。
✅ この記事でわかること
speech_recognition
とは何か?- Pythonで音声認識を行う基本コード
- AIアシスタントとしての簡単な応用
- 応用アイデアと展望
speech_recognition
とは?
speech_recognition
は、Pythonで音声認識を簡単に実装できるライブラリです。
Google Web Speech APIやSphinxなど、複数の音声認識エンジンに対応しているのが特徴です。
主な特徴:
- Google API(無料/オンライン)
- Sphinx(オフライン対応)
- 録音ファイルやマイク入力に対応
- シンプルな構文で音声をテキストに変換
インストール方法
以下のコマンドでインストール可能です。
pip install SpeechRecognition
さらに、マイクから音声入力を行うには、pyaudio
も必要です。
pip install pyaudio
※pyaudio
のインストールがうまくいかない場合は、brew install portaudio
(macOS)などが必要になることもあります。
基本的な音声認識コード(マイク入力)
import speech_recognition as sr
# 初期化
r = sr.Recognizer()
# マイクから音声を取得
with sr.Microphone() as source:
print("話しかけてください...")
audio = r.listen(source)
try:
text = r.recognize_google(audio, language='ja-JP')
print("認識結果: " + text)
except sr.UnknownValueError:
print("音声を認識できませんでした。")
except sr.RequestError as e:
print("APIにアクセスできませんでした。", e)
簡単なAIアシスタントとしての応用
上記のコードに簡単な応答機能を加えることで、「音声会話できるAIアシスタント」のような動作が可能になります。
if "天気" in text:
print("今日の天気は晴れです!") # 実際にはAPIと連携可能
elif "時間" in text:
from datetime import datetime
print("現在の時刻は", datetime.now().strftime("%H:%M"), "です。")
else:
print("すみません、よくわかりませんでした。")
応用アイデア
- ChatGPT APIや音声合成と連携し、会話型AIに進化
- 音声でIoT家電を操作
- 会議の議事録自動化ツール
- 高齢者向けのシンプルな音声ナビ
まとめ
Pythonのspeech_recognition
ライブラリを使えば、誰でも簡単に音声認識AIアシスタントを作ることができます。
StarScriptでは、AIや音声認識技術を活用したアプリ開発・PoC開発のご相談も承っております。
気軽にお問い合わせください。
合同会社StarScript(スタースクリプト)では、音声認識やAI技術を活用したスマートアプリの開発支援を行っています。
お見積りや開発依頼など、ぜひお気軽にご相談ください。