最近の動画関係の作業のニーズの高まりに伴って音声認識がどうしても必要になってきてしまったので、勉強していくことにしました。現在進行系で書いていくので、間違っているところやうまくいかないところがあると思いますが、それは適宜修正して、うまくいかなかった内容も書いていきたいと思います。
目標設定
最終的な目標はmp4ファイルから自動で文字起こしをするというものになります。最近は議事録の文字起こしサービスなども増えているので、想像はしやすい内容です。
開発環境
macOS Big Sur
Visual Studio Code(以下VScode)
使用する予定の技術
anaconda
SpeechRecognition(pythonの音声認識のライブラリ)
pyaudio
作業
anacondaのインストール
ディレクトリは/Users/{USER名}/に設定しました。
ほかのディレクトリに設定してPATHを通しておくのもありです。
SpeechRecognitionとpyaudioのインストール
実際はanacondaをインストールしてから時間が経っていたので、まずはcondaのアップデートをしました。
ターミナルを起動して以下のコマンドを実行します。
conda update conda
condaのアップデートが完了したら、次にSpeechRecognitionとpyaudioをインストールします。
まずSpeechRecognitionのインストール
conda install speechrecognition
次にpyaudioのインストール
conda install pyaudio
これでインストール完了です。
動作確認
インストールが完了したあとに、ターミナルで以下のコマンドを実行します。
python -m speech_recognition
これを実行するとターミナル上で「say something!」と表示されます。
マイクをオンにするかの確認が入る場合は有効にした上でなにかを英語で話すと認識されます。
とりえあずoopsと言ってみましたが、認識されなかったかと思って2度言ったので2回認識されました。しゃべってから認識するまで少し時間がかかる感じがします。(2,3秒くらい)
今回はここまでです。
とりあえず、音声が認識されるという状態にはなりました。
次回の目標
日本語の認識をできるようにする
外部音声ファイルを認識できるようにする
----------2021/7/6追記------------------
vscodeで開発するためにAnaconda Navigatorにて仮想環境をEnvironmentsからcreateします。
その環境でpyaudioとSpeechRecognitionがインストールされていなかったので、vscodeで仮想環境のjupyter notebookを開いて、そこで上記のインストールをしました。
conda listでインストールされていることが確認できました。
0 件のコメント:
コメントを投稿