SpeechRecognition使って音声認識アプリをつくってみよう①-FP2級薬剤師の薬とお金研究室

最近の動画関係の作業のニーズの高まりに伴って音声認識がどうしても必要になってきてしまったので、勉強していくことにしました。現在進行系で書いていくので、間違っているところやうまくいかないところがあると思いますが、それは適宜修正して、うまくいかなかった内容も書いていきたいと思います。

目標設定

最終的な目標はmp4ファイルから自動で文字起こしをするというものになります。最近は議事録の文字起こしサービスなども増えているので、想像はしやすい内容です。

開発環境

macOS Big Sur

Visual Studio Code（以下VScode）

使用する予定の技術

anaconda

SpeechRecognition（pythonの音声認識のライブラリ）

pyaudio

作業

anacondaのインストール

https://www.anaconda.com/products/individual　こちらのページからインストールをします。Downloadボタンを押して、ダウンロードしたあとはインストールします。

ディレクトリは/Users/{USER名}/に設定しました。

ほかのディレクトリに設定してPATHを通しておくのもありです。

SpeechRecognitionとpyaudioのインストール

実際はanacondaをインストールしてから時間が経っていたので、まずはcondaのアップデートをしました。

ターミナルを起動して以下のコマンドを実行します。

conda update conda

condaのアップデートが完了したら、次にSpeechRecognitionとpyaudioをインストールします。

まずSpeechRecognitionのインストール

conda install speechrecognition

次にpyaudioのインストール

conda install pyaudio

これでインストール完了です。

動作確認

インストールが完了したあとに、ターミナルで以下のコマンドを実行します。

 python -m speech_recognition

これを実行するとターミナル上で「say something!」と表示されます。

マイクをオンにするかの確認が入る場合は有効にした上でなにかを英語で話すと認識されます。

とりえあずoopsと言ってみましたが、認識されなかったかと思って２度言ったので２回認識されました。しゃべってから認識するまで少し時間がかかる感じがします。（２，３秒くらい）

今回はここまでです。

とりあえず、音声が認識されるという状態にはなりました。

次回の目標

日本語の認識をできるようにする

外部音声ファイルを認識できるようにする

----------2021/7/6追記------------------

vscodeで開発するためにAnaconda Navigatorにて仮想環境をEnvironmentsからcreateします。

その環境でpyaudioとSpeechRecognitionがインストールされていなかったので、vscodeで仮想環境のjupyter notebookを開いて、そこで上記のインストールをしました。

conda listでインストールされていることが確認できました。

SpeechRecognition使って音声認識アプリをつくってみよう①

目標設定

開発環境

使用する予定の技術

anacondaのインストール

SpeechRecognitionとpyaudioのインストール

動作確認

次回の目標

0 件のコメント:

コメントを投稿

管理人

アクセスカウンター

カスタム人気記事

カスタムアーカイブ

検索

最新記事

Menu Footer Widget