現代における自動文字起こしについて
YouTube で動画を作成していると、撮影済みの動画の文字起こしをしたい場合が出てきます。
例えば動画の文字起こしを行い、そのテキストを利用してテロップを作成する場合などにこの文字起こし作業は必要になります。
さて、このようなケースで文字起こしを行う際、できることなら自動で文字起こしをしたいもの。
自動で文字起こしを行う場合、専用の文字起こし用のソフトを導入して文字起こしを行ったり、Web Speech APIを用いて自分でプログラムを組み、自作するなど、いくつか方法があります。
自身もこのWeb Speech APIを用いて簡単な文字起こしツールを作成したことがありますが、少し仕様を理解すれば動かすことができるようになるため、以前に比べると文字起こしツール作成に関する敷居は下がってきたと言えるかもしれません。
文字起こし用のツールを紹介しているブログ記事
ちなみに、今、少し調べてみただけでも、いくつかの文字起こし用のツールが見つかりました。
下記にそれらのツールを紹介している記事を貼ります。
Web 会議での発話をリアルタイムで文字に書き起こせる便利ツール 2 選。Zoom などと併用可能!
自動で議事録作成して会議の効率アップ!初心者から上級者向けまで、オススメの文字起こしアプリ 6 選
このように新たに専用のソフトを入れて対応するのも良いですが、今回はそのような専用アプリを導入することなく、Google ドキュメントを使って文字起こしを行う方法について書いていきます。
予め準備しておくもの(Soundflower と LadioCast)
なお、この方法を実施する場合、下記のようなツールが必要になります。
- Google アカウント
- Google ドキュメントを利用するため
- Soundflower
- LadioCast
Google ドキュメントを利用するため Google アカウントが必須なのは当然のものとして、他にこちらで説明している SoundFlower
と LadioCast
という2つのソフトをインストールしておく必要があります。
Soundflower
は現在 M1 Mac には対応していないため、この方法は現状 intel mac のみでしか実現できないことに注意してください。
この方法を行うと、上にも書いたように動画だけでなく PC 内部で鳴らせる音声であれば、すべての声を文字起こしの対象とすることができます。
例えば、専用のツールであれば、動画に限定されるなどの制約があるものもあるため、その点でこの方法は優位性があります。
もし、Soundflower
と LadioCast
をインストールしていない場合は下記の記事を見て、インストールを行ってください。
【Logic Pro】SoundFlower と LadioCast を用いて、PC やブラウザで鳴らした音を Logic Pro X で録音する
Google ドキュメントを用いて自動文字起こしを行う手順
さて、では本題です。
まずは Mac 上での音声の入出力を以下のようにします。
- 入力を Soundflower(64ch)に設定
- 出力を Soundflower(2ch)に設定
実際のキャプチャも下記に貼るので参考にしてください。
次に LadioCast の設定を下記のように設定します。
- 入力 1 を
Soundflower(64ch)
に設定- 入力 1 下部にある
メイン
とAux1
も忘れずに有効にしてください
- 入力 1 下部にある
- 出力メインを
Soundflower(2ch)
に設定 - 出力 Aux1 に
内蔵出力
を設定- この内臓出力を追加することで流れている音声をモニタリングします
実際の設定画面を下記に貼ります。
次に文字起こしした内容を書き込むための Google ドキュメントを開き、下記の画面赤枠にある 音声入力
を選択します。
マイクの利用許可を求められるので 許可
してください。
あとはこの状態で PC 内部で音声を流せば、Google ドキュメント側で勝手に音声認識を行い、テキスト化してくれます。
下記は、とある天気予報動画を文字起こししてみたものです。
ご覧のように音声認識の精度は完璧とは言えないものの、ある程度は拾えていることが分かります。
なにより PC 上で音声を鳴らすだけで認識を開始してくれるので、簡単です。
音楽の歌詞の自動文字起こしはできないのか?
PC 内部で鳴らす音声なら文字起こし対象になる、と書きましたが、音楽の歌詞は文字起こしできないか?と思い、試してみました。
下記のキャプチャはB/W の Mellow Yellowという曲の歌詞を読み取ろうとしたものですが、全く読み取れていません。
どうやら音楽については音声認識の精度がほぼほぼ機能しなくなるようで、歌詞の書き起こし用途としては利用できなそうでした。
何度か試してみましたが、そのたびに川鉄 Messenger
などと歌詞にない独創的な言葉が Google ドキュメント上に溢れてくるので、これはこれで オートマティスム(自動筆記)などを彷彿とさせるような、独創性に溢れた香りを感じました。
例えば B/W の曲を音声認識させて生成された言葉の連なりで B/W の新曲を作る、というようなことを行ってみても良いかもしれません。
それは現代におけるオートマティスムと言えるのではないでしょうか?
ちなみにB/Wは私が所属している音楽グループです。
各ストリーミングサービスにて音楽を配信しているので、よろしければ聴いてみてください。
最後に
というわけで、今回は Google ドキュメントを用いた文字起こしについて書いてきました。
精度的にはまだまだ改善の余地はありそうですが、Google は以前も Google 翻訳の品質を Deep Learning を用いて大幅に向上させてくるなど実績もあるので、音声認識の精度にも期待です。