PDF Processing Pipeline

スキャンPDFページをフォーマット済みWord文書に変換するエンドツーエンドの自動パイプライン。複雑な多段組レイアウト、ラテン語/英語の並列テキスト、脚注、見出しを大量に処理。

概要

クライアントが必要としていたのは、500ページにわたるスキャン済み宗教テキスト（ラテン語/英語の2段組形式）を精密にフォーマットされた.docxファイルに変換すること。手作業での入力では数週間を要する作業でした。このパイプラインはOCR抽出、マークアップタグ付け、レイアウト解析、Word生成の全工程を自動化しました。

文書構造（見出し、ページヘッダー、脚注、2段組セクション、斜体テキスト、上付き文字）をタグ付けするカスタムマークアップ言語を設計し、フォーマットエンジンがこれをピクセルパーフェクトなWord出力に変換します。

主な機能

500ページのバッチ処理パイプライン
多段組ラテン語/英語レイアウト検出
カラム順序の自動検出（原本に一致）
文書構造用のカスタムマークアップ言語
ハイフネーション除去エンジン
脚注・見出し・ページヘッダーの処理
斜体 / 上付き文字のインラインフォーマット
ゼロエラー品質ゲート（失敗時は自動リジェクト）
進捗追跡付きバッチランナー
Gemini Vision APIによるAI支援OCR

技術スタック

Python python-docx Gemini Vision API Custom Parser Batch Runner QC Gate

成果

500ページを処理・納品完了。数週間かかる手作業を完全自動化されたオーバーナイト処理に短縮し、フォーマット品質はクライアントの仕様を上回りました。