文字起こしを音声入力で

昨日の続きで、テープ起こしの時短化について。

それまでは音源を自分の耳で聞いて、それを打鍵していた。昔ながらの原始的な方法を取っていたのだが、この方法を人工知能に頼れないかと思った。

つまり口述筆記ソフトを使い、音源から聞こえてくる声を自動的に文字化できないか。これが可能であれば相当、時間の短縮が図れる。

うまくいけば音源を再生しっぱなしで放置し、終わった後に多少の調整をするだけでテープ起こしが完了してしまうかもしれない。

これは良いアイデアを思いついたと喜び勇んでネットを調査し、iPhoneに口述筆記アプリはないかと探してみた。

すると評判の良いものを一つ発見した。その名も「音声認識装置」。かなりベタなネーミングだが、レビューを読んでみると割と正確に変換ができるようである。

お値段は1,080円となっていた。アプリにしては少々お高いがこれで時短化できるなら安いもの。早速ダウンロードして試してみることにした。

パソコン上で音源を再生し、スピーカー近くへiPhoneを設置。「音声認識装置」を起動させてしばらく様子を見てみた。すると問題点が2つ出てきた。

一つは、流しっぱなしにしているとある程度のところでアプリが停止し、そこまでの内容を勝手に文字化し始めたのである。

これはメモリーが関係しているのだと思う。当然といえば当然のことである。とりあえず流しっぱなしで放置するのはできないことに気づいた。

もう一つは、変換の精度が相当悪いという点だ。

iPhoneへ自分の声で話しかければ高精度で変換してくれるのだけど、録音した音源の場合はそれがうまくいかないようだ。

正答率で言えば5%くらいだろうか。この程度であればこれまで通り自分の耳で聞き、手で打っていく方が断然速い。

しかしこれで諦めるのはなんだか嫌だ。新しいやり方で今以上に速くはできないものか。

そう考えているうちに、「自分の声なら高精度で変換できる」ということに思いいたった。そうか、音源の声を自分で復唱して、それを人工知能に読み込ませて文字化していけばいいのではないか。

結局、音源を再生しては停めるという動作は必要になるが、キーボードを叩くよりかはいくらか速くなりそうである。

もちろん自分の声なら精度が良いと言っても、100%正しく変換するのは不可能である。

同音異義語の問題もある。なので訂正の手間を考えると、ソフトはスマホよりもパソコンのものが望ましい。

そう考えてまた色々と調べてみた。使っているMacintoshにはデフォルトの機能で口述筆記があるのだけど、それを起動させると音源再生に使っているソフト(Express Scribe)が動かなくなるという問題が発生した。

まさに帯に短し襷に長しである。

そうして探しているうちに、ようやく適したソフトへ辿り着くことができた。その内容とは何か。引っ張るほどのことでもないんですが、続きは明日書きます。


金沢在住のフリーランス・ライター。2014年より海外への一人旅をはじめる。これまでに訪れた国は16カ国。旅に使っているカメラは、2016年秋に亡くなった写真家の伯父・富岡省三氏のHasselblad 500C/M。