AI字幕生成とは?仕組みと放送字幕・Web動画字幕の違いを解説

AI字幕生成とは何か

近年、動画コンテンツの増加とともに「AI字幕生成」という言葉を検索する機会が増えています。AI字幕生成とは、音声認識(自動文字起こし)の技術を使って動画の音声からテキストを自動で書き起こし、それを字幕として表示できる形に整形する一連の処理を指します。

単純に音声をテキスト化するだけであれば既に多くのツールが存在しますが、実際に「使える字幕」にするためには、書き起こしたテキストをどこで改行するか、1画面に何文字表示するか、どのタイミングで表示・消去するかといった編集判断が必要になります。この編集判断まで含めて自動化する仕組みが、現在「AI字幕生成」と呼ばれている領域です。

放送字幕とWeb動画字幕は、同じ「字幕」でも別物

「字幕を自動で作る」と一口に言っても、テレビ放送向けの字幕とYouTubeなどのWeb動画向けの字幕とでは、求められる仕様がまったく異なります。

Web動画の字幕は、WebVTTやSRTといった比較的自由度の高いテキストベースのフォーマットで作られることがほとんどです。改行位置や表示時間に厳密なルールはなく、プラットフォームや制作者の裁量に委ねられている部分が大きいのが実情です。

一方、地上デジタル放送の字幕は、電波産業会(ARIB)が定めるARIB STD-B36という運用規定に沿って制作・送出する必要があります。字幕プレーンの構成、色や外字(DRCSユーザー外字)の扱い、表示位置といった要素を規格に準拠させたうえで、送出フォーマットである.1HD/.1SDといった専用のバイナリファイルとして書き出さなければなりません。汎用の動画編集ソフトや字幕ツールでは、この放送用フォーマットをそのまま扱うことができません。

つまり「AI字幕生成」を謳うサービスであっても、Web動画専用に作られたものと、放送の送出まで見据えて作られたものとでは、内部の実装がまったく別物になります。

なぜ放送字幕の自動化は難しいのか

放送字幕の現場では、AIによる自動生成だけでは対応しきれない、長年積み上げられてきた制作ルールが数多く存在します。代表的なものを挙げると次のとおりです。

テロップよけ・テロップいかし: 画面内にすでに表示されているテロップと字幕が重ならないよう、字幕の表示位置を自動で調整する、または既存のテロップ位置を字幕として流用する処理
ルビ自動付与: 小学校3年生以上で習う漢字や常用漢字外の漢字にルビを振るかどうかを判定する処理
話者・ナレーション識別: 話者ごとに字幕の色を変えたり、ナレーションを記号で括ったりする処理
DRCSユーザー外字: 標準の文字コードにない外字を、放送局ごとの字形定義に従って表示する処理

これらは音声認識の精度とは別の軸にある「編集ルールの自動化」であり、放送業界向けのAI字幕生成サービスを開発するうえで実装コストが最も高い部分でもあります。

NAXAのSubtitle Generatorのアプローチ

NAXAのSubtitle Generatorは、こうした放送字幕特有の編集ルールをARIB STD-B36/B37の仕様に沿って組み込んだうえで、文字起こしから字幕プレーンの生成までを自動化するプラットフォームです。

入力は放送送出フォーマットであるMXF(SMPTE 436M VANC)をそのまま取り込めるほか、出力は放送送出向けのARIB STD-B36/NAB、配信向けのWebVTT/SRT、編集向けのXMEML(Adobe Premiere Pro/Final Cut Pro 7互換)まで、用途に応じて書き分けられます。ARIB STD-B36/B37のバイナリフォーマットは汎用ツールでは読み書きできないため、NAXAではデコーダ・エンコーダを自社で実装し、位置・色・DRCSユーザー外字・ルビ・タイミングを保持したまま読み込み、同じ規格で書き戻せる仕組みを構築しています。

まとめ

AI字幕生成は、音声認識の精度だけでなく、「どの規格に準拠した字幕として書き出すか」によって実装の難易度が大きく変わる領域です。Web動画向けの字幕生成と、放送送出まで見据えた字幕生成は別のものと捉えたうえで、自社が必要としているのがどちらの用途かを見極めることが、ツール選定の最初のポイントになります。

AI字幕生成とは何か

放送字幕とWeb動画字幕は、同じ「字幕」でも別物

なぜ放送字幕の自動化は難しいのか

NAXAのSubtitle Generatorのアプローチ

まとめ

AI字幕生成・文字起こし