【Linux】サーバーでPDFの結合

Linuxサーバー上でPDFを結合できるコマンドがあります

コマンドが見つからないとなる場合は

というパッケージをインストールしましょう。

PDFの結合

逆にPDFをページごとに分割するpdfseparateというコマンドもあります。
pdfseparateコマンドで元のPDFをページごとに分割しておけば
任意のページだけを組み合わせて新たなPDFファイルを生成できますね。

ImageMagick

サーバーにImageMagickをインストールすれば
convertコマンドによって簡単にPDFを画像に変換できます。

複数ページある場合は自動で画像ファイルに番号が振られます。

【Linux】PDFから文字を抽出する pdftotext

PDFから文字を抽出というと、OCRという技術が必要なイメージですが、
紙をスキャンしたPDFや、画像から生成したPDFなどではなく
文字を抽出できるタイプのPDFの場合、もっと簡単な方法があります。

pdftotextというコマンドを使用します。

たとえばAcrobatやWord、Excelなどから作成したPDFなら
これだけでテキストが抽出できます。

LibreofficeでExcel、WordをPDFに変換するために必要だったもの

サーバー上でExcelかWordを作成してLibreofficeで変換すれば
WebシステムでもとてもきれいにPDFが生成できますが
毎回サーバーに必要なものを入れ忘れてエラーになるのでメモ。