例えば、PDFのカタログの内容をhtml形式でHPに起こさないといけない場合などにいちいち手打ちで作るのはだるすぎる。
結論としては、Adobe Acrobat Pro(有料)とVSCode(無料)などの正規表現での置き換えが使えるエディターがあれば、サクッと行うことが可能。
- Adobe Acrobat Proでhtml形式でエクスポート
- 不要なスタイル情報などをエディターで削除
Acrobat Pro含むAdobeソフト全部入りを格安で契約する裏ワザは下記の記事かこの記事の末尾を参照。
やり方
こんなファイルがあるとする。
Acrobat proで書き出す
ファイルをAcrobat Proで開いたら、PDFを書き出し
を選択。
↓
HTML Webページ
を選択して、書き出し
エディターで編集
html形式で保存したファイルをエディターで開く。
VSCodeなら、Ctrl
+ F
で検索を表示して、
- 置換の切り替え
- 正規表現を使用する
style="[^"]*"
と入力- 何も入力しない
- すべて置換
これでstyle=”ほにゃらら”の表記がすべて削除され、余計なスタイル情報が消える。
同じ要領で必要に応じて、class="[^"]*"
などもどんどん置き換えていってもいい。
これでPDFからいい感じにテーブルのhtml情報を抽出することができた!
Adobe Arobat Pro入りのAdobe CCを社会人でも学割料金で手に入れられるURLはこちら!
詳しく知りたい人は、一番下までスクロールするか、
を読んでくれ!