例えば、PDFのカタログの内容をhtml形式でHPに起こさないといけない場合などにいちいち手打ちで作るのはだるすぎる。

結論としては、Adobe Acrobat Pro(有料)とVSCode(無料)などの正規表現での置き換えが使えるエディターがあれば、サクッと行うことが可能。

  • Adobe Acrobat Proでhtml形式でエクスポート
  • 不要なスタイル情報などをエディターで削除

Acrobat Pro含むAdobeソフト全部入りを格安で契約する裏ワザは下記の記事かこの記事の末尾を参照。

 

やり方

ユーザーマニュアル.pdf

こんなファイルがあるとする。

 

 

Acrobat proで書き出す

ファイルをAcrobat Proで開いたら、PDFを書き出しを選択。

HTML Webページを選択して、書き出し

 

エディターで編集

html形式で保存したファイルをエディターで開く。

VSCodeなら、Ctrl + F

で検索を表示して、

  1. 置換の切り替え
  2. 正規表現を使用する
  3. style="[^"]*"と入力
  4. 何も入力しない
  5. すべて置換

これでstyle=”ほにゃらら”の表記がすべて削除され、余計なスタイル情報が消える。

同じ要領で必要に応じて、class="[^"]*"などもどんどん置き換えていってもいい。

 

これでPDFからいい感じにテーブルのhtml情報を抽出することができた!

 

Adobe Arobat Pro入りのAdobe CCを社会人でも学割料金で手に入れられるURLはこちら

 

詳しく知りたい人は、一番下までスクロールするか、

を読んでくれ!

 

完全合法!Adobe全部入りを誰でも学生料金で手に入れる方法

デジタルハリウッドなら、通常77,760円/年のAdobe CCを税込39,980円/年で契約できます!

教材がおまけでついてくるので、学生と同じ扱いになるような感じです。

Adobe Creative Cloud目的で契約してOK

  • Adobeのソフト一式制限なしで利用可能
  • 後出しの別途料金なし、上記以外に料金不要
  • 教材は使わなくもOK
  • 学生・教職員用のプランだが入学は不要
  • 再契約もできる
  • 商用利用可能(会社で使ってもいい)

自分も契約して、働いている会社の経費で落としてます!

おすすめの記事