【Linux】PDFから文字を抽出する pdftotext

PDFから文字を抽出というと、OCRという技術が必要なイメージですが、
紙をスキャンしたPDFや、画像から生成したPDFなどではなく
文字を抽出できるタイプのPDFの場合、もっと簡単な方法があります。

pdftotextというコマンドを使用します。

たとえばAcrobatやWord、Excelなどから作成したPDFなら
これだけでテキストが抽出できます。