3月22日未明、米メジャーリーグ・マリナーズのイチロー選手が現役引退会見を行いました。この際ネットテレビAmebaTVのライブ配信では、AI「AIポン(あいぽん)」によって会見の音声がリアルタイムで文字化されたのですが、「選手生活」が「性生活」になってしまうなど誤認識が頻発。SNSでは視聴者から「笑ってしまう」「会見が頭に入らない」など集中力を奪われるといった声が相次ぎ話題となりました。
「AIポン」は2018年12月からAmebaTVが試験的に生放送に導入しているリアルタイムAI字幕システム。Googleが提供する音声認識テキスト変換サービス「Cloud Speech-To-Text API」をベースに、LASSICが開発した「LASSIC Speech Recognition」を活用し、生放送中の音声をリアルタイムで認識して字幕として画面に出力します。表示までが約1秒と、テレビ局などの現状のリアルタイム字幕に対し大幅に短縮されているのが特徴です。
引退会見の中継では記者の質問やイチロー選手の回答が「AIポン」によって字幕化されていったのですが、「テレビ東京のスミと申します」が「鳥のささみと申します」に、「ファンの存在無くしては」が「パンの存在なくしては」に、「おかしなこと言ってます?」が「お菓子もできますか」になるなど、変換ミスが続出。
さらには「今回まぁ東京ドームでプレーする」が「今大麻東京屯田ところ」に、「プロ野球生活を過ごした人間」が「部落生活を過ごした人間」になるなどの誤認識もありました。「プロ野球でそれなりに苦しんだ人間でないと、やっぱり草野球を楽しむことはできない」という含蓄ある言葉も、「お酒を楽しむことはできない」となんだか退廃的な発言に……。
中継中、Twitterでは「AI字幕のせいで感動が笑いに変わってまうわ」「AIの翻訳が神すぎて腹痛いw」「字幕変換が雑でイチローの話が入ってこねぇ」などツッコミが相次いで投稿されました。「AI文字起こしすごい!」と純粋に驚く声もありましたが、「AIポンはまだまだですな」「AI字幕のアホさに内容が入ってこない 何のための字幕なのか…」など厳しい声も少なくありません。
AmebaTVは「AIポン」の導入当初、「今後、最新の機械学習アルゴリズムを利用し、日々の放送を通して固有名詞の習得など更に音声認識精度が向上することを期待しています」と説明していました。字幕がほぼ発言通りにリアルタイムで文字化されるようになったら、聴覚障害者などさまざまな人にとって非常に利便性の高いサービスとなります。現段階ではAIポンの精度はまだまだ「試験的」と言わざるを得ないようですが、今後の改善に期待したいところです。