日本語特化をうたうAI(人工知能)による文字起こしサービス「Rimo Voice」。高い変換精度が受け、ライターや編集者などクリエイティブ界隈を中心にじわじわと話題となっている。開発者は、働き方改革に寄与するツールを目指したという。その真意を聞いた。

1時間の音声を5分ほどで自動文字起こし

「Rimo Voice」は、2020年9月にリリースされたAI文字起こしサービス。ブラウザー上に音声または動画ファイルをアップロードすると自動で文字起こしが始まる。音声ファイルであれば、1時間ほどの文字変換が約5分で完了する。

シンプルなRimo Voiceのサービス画面。ここにファイルをアップロードすると自動で文字起こしが始まる(出所:Rimo)
シンプルなRimo Voiceのサービス画面。ここにファイルをアップロードすると自動で文字起こしが始まる(出所:Rimo)
[画像のクリックで拡大表示]

特筆すべきは変換精度の高さと使いやすさ。筆者も昨年10月から利用しているが、これまでのツールの中で最も手直しが少なく使いやすい。まず、文脈を理解して文章をブロック単位で分けてくれるのが助かる。「あのー」「えーと」といった言葉は当然のようにカットされ、ある程度の整理が済んだ状態から修正が可能。さらに文字と音声データがリンクしており、ブラウザー上で音声を確認しながら編集ができるため、作業効率がぐんと上がる。そもそもこうしたAIツールは、いかに効率化をサポートして生産性を高めてくれるかがポイントであり、元より100%の完成度を求めていない。その点はしっかりとクリアしている。

Rimo Voiceを使って今回の取材内容を起こした画面。右下の鉛筆マークをクリックするとブラウザー上で文字編集ができるようになる(出所:Rimo)
Rimo Voiceを使って今回の取材内容を起こした画面。右下の鉛筆マークをクリックするとブラウザー上で文字編集ができるようになる(出所:Rimo)
[画像のクリックで拡大表示]

独自アカウントのほかGoogleやFacebookとの連携が可能で、決済情報を紐付ければすぐに利用できる。音声ファイルは30秒/20円、動画ファイルは30秒/30円。音声ファイルならば1時間で2400円となる。法人向けに月40時間/10万円の定額制プランも用意している(価格はすべて税別)。

2019年に創業したばかりのRimo合同会社が提供する。同社を率いるのはGoogleやWantedlyでエンジニアとして活躍してきた相川直視氏である。前職のWantedlyでは名刺管理アプリ「Wantedly People」の開発を手がけ、画像や文字認識技術を深く学んだ。

「画像認識、音声認識はプレイヤーが多く、Google、Amazon、Apple、Microsoftなど巨大IT企業がひしめいている分野。自前の開発が難しいイメージがあるが、私自身はあまりそのように感じたことはない。Wantedly Peopleでも、GoogleのAPIを超えるような技術を自分たちで開発できた。もともと、新しいことへのチャレンジが好きだということもあり、日本語に特化した音声認識に取り組む価値があると考えた」(相川氏)

日本語には漢字やひらがななどの複数の回答があり、独特な“間”を表現する読点もある。だが相川氏は「公開されている情報からきちんと知識を仕入れて適用すれば、高い精度を出すことができる」と自信をのぞかせる。先日、LINEがNAVERと共同で日本語に特化した超巨大言語モデルの開発を発表したが、将来的にはこうしたモデルも積極的に活用したいと語る。