スキャンPDFの処理を自動化するClaude Codeプラグインを作った
書籍をスキャナーで読み取ってPDF化した後の処理を簡単にするため、 Claude Codeプラグイン「pdf-processor」を開発しました。 複数PDFのマージ、OCR処理、ファイルサイズ最適化、目次の追加を 自動化し、スキャン書籍を実用的なデジタル書籍に変換します。 書籍をスキャナーで読み取ってPDF化すると、複数のファイルに分かれてしまったり、テキスト検索ができなかったりします。また、目次がないため、そのままでは使いにくい状態になります。これらを手作業で処理するのは非常に面倒です。 そこで、スキャンしたPDFの処理を自動化するClaude Codeプラグイン「pdf-processor」を開発しました。このプラグインを使えば、複数のPDFファイルのマージ、OCR処理、目次の追加を簡単に実行でます。 プラグインのソースコードはGitHubで公開しています。 このプラグインは、スキャンされたPDFファイルを実用的なデジタル書籍に変換するためのツールです。主な機能は以下の通りです。 pdf-processorプラグインは、3つのステップで処理を行います。 まず、 Claudeが以下の処理を自動で実行します。 処理が完了すると、OCR処理済みのPDFファイルと、メタデータをダンプしたファイルが生成されます。 ダンプされたメタデータファイルをエディタで開き、目次情報を追加します。目次は以下の形式で記述します。 各目次項目は 例として、以下のように追加します。 目次情報を編集したら、 このコマンドを実行すると、OCR処理済みのPDFに目次が追加され、完成版のPDFファイルが作成されます。 pdf-processorプラグインは、以下のツールを組み合わせて実装しています。 これらのツールのインストールや設定は、プラグインのREADMEに詳しく記載されています。 pdf-processorプラグインを使うことで、スキャンしたPDFの処理を大幅に効率化できます。複数ファイルのマージ、OCR処理、目次の追加といった面倒な作業を、Claude Codeとの対話だけで完了できるようになりました。 スキャンした書籍や資料をデジタル化する際に、ぜひ活用してみてください。プラグインのソースコードはGitHubで公開しているので、カスタマイズや改善の提案も歓迎します。はじめに
pdf-processorプラグインの機能
使い方
ステップ1: 前処理の実行
/pdf-processor:preprocess コマンドを実行して、複数のPDFファイルをマージし、OCR処理を行います。/pdf-processor:preprocessステップ2: 目次情報の編集
BookmarkBegin で始まり、以下の3つのフィールドで構成されます。BookmarkTitle: 目次のタイトル(章名など)BookmarkLevel: 目次の階層レベル(1が最上位、2が第2階層)BookmarkPageNumber: 目次項目が指すページ番号BookmarkBegin
BookmarkTitle: 第1章 はじめに
BookmarkLevel: 1
BookmarkPageNumber: 1
BookmarkBegin
BookmarkTitle: 1.1 背景
BookmarkLevel: 2
BookmarkPageNumber: 2
BookmarkBegin
BookmarkTitle: 1.2 目的
BookmarkLevel: 2
BookmarkPageNumber: 5
BookmarkBegin
BookmarkTitle: 第2章 実装
BookmarkLevel: 1
BookmarkPageNumber: 10ステップ3: 目次の適用
/pdf-processor:apply-toc コマンドを実行して、最終的なPDFファイルを生成します。/pdf-processor:apply-toc技術的な詳細
まとめ