弊社はライティングに関するお仕事を多く賜っている。併せて、映像制作やラジオの仕事でも、最近はブログとの併用もあり、音声を元とした文字コンテンツの作成には縁が深い。そうした仕事の中で、ライターが面倒だと思う作業のひとつに「文字起こし」がある。
インタビューの仕事において、自らがインタビュワーになる場合は、メモ書きから原稿を作ることもあるが、弊社では他のインタビュワーがインタビューした音声データを受け取り、そこから記事の作成・編集を行うこともあり、文字起こしの作業は必然的に一定数ある。
自ら行うこともあれば、文字起こし専門のバイトなどにお願いすることもあるが、人間がやることなので時間もかかれば精度もまちまち、もちろん費用もそこそこかかる。そこで、以前からAIを活用した文字起こしをトライをしてきた。そして、今回ためしたのがAmazonAWSの、文字起こしのサービスAmazon Transcribeだ。つい先日、日本語対応したのだ。
金額も非常に安い。早速、60分ほどのインタビュー音声を変換してみることにした。
まずAWSのセットアップから行ったが、とても簡単。あっという間に終わる。そしてAmazon Transcribeの設定を行ったが、これも多少つまづきはあったものの、そこまで苦労は感じなかった。使い方については、あえて解説しないが、検索してみると数多在ると思うので必要であればググっていただきた。ちなみに、AWSのオフィシャルの使い方説明も日本語で非常にわかりやすいので、そちらを参照にするのもよいだろう。
さて、早速セットアップがおわったところで、音声データをアップした。60分(正確には前後の余白を切ったデータにしたので57分)のインタビューデータが約17分で変換完了となった。
今回はインタビュワーが私、インタビュイーは1人。しかし両方ともなかなかの早口である。文字起こしされたデータは3万字ほどであった。
さて、キニナル文字起こしの精度についてだが、昨今のAIによる文字起こしが非常に精度が高いことはよく知られていると思う。AbemaTVの会見で見られるリアルタイム文字起こしも、時折、奇妙な誤変換があるにせよ、概ね読んでいて違和感がないレベルだ。Amazon Transcribeも同様に、基本的な精度は良いのではないかと思う。
ただし、今回変換した文字起こしデータでは、正直仕事に使えるレベルではなかった。
例えば、講演会や映像データ、ラジオ番組といった、ある程度、聴く人にとって聞き取りやすい状態にされた喋りについては、非常によい結果が得られると考えられる。しかし、今回のインタビューの場合、特にインタビュイーが非常に早口でしゃべる人であり、考えながら、雑談を加えながら、言い間違いもしょっちゅうありながらなので、そのあたりがAIにとっては、非常に困難だったのだろう。いわゆる余計な言いよどみや、口癖(いや、あの、なんか…といったようなもの)も加わり、改行もされていないため、非常に読み取りづらい。
そして一番、問題に感じたのは、5000文字以上になると、jsonデータをダウンロードして使わなければならない点。これがパソコンに明るくない人では、正直扱いづらいとしか言えないもので、結果的には変換して読めたとはいえ、私も正直面倒に感じた。
しかし、まだまだとはいえ、可能性も感じるし、例えばラジオ番組でブログに一部を抜き出して掲載といった使い方をする際には、スピード感も含めて、非常に良いツールだと思う。案件によるが、ライター業で使うにはまだ一部で試験的に「やってみた」レベルでしか使えないと感じた。