PDFから文字を抽出というと、OCRという技術が必要なイメージですが、
紙をスキャンしたPDFや、画像から生成したPDFなどではなく
文字を抽出できるタイプのPDFの場合、もっと簡単な方法があります。
pdftotextというコマンドを使用します。
1 |
pdftotext (読込むPDFファイル) (出力するテキストファイル) |
たとえばAcrobatやWord、Excelなどから作成したPDFなら
これだけでテキストが抽出できます。
在宅プログラマーの備忘録として2005年に始めたブログです。
PDFから文字を抽出というと、OCRという技術が必要なイメージですが、
紙をスキャンしたPDFや、画像から生成したPDFなどではなく
文字を抽出できるタイプのPDFの場合、もっと簡単な方法があります。
pdftotextというコマンドを使用します。
1 |
pdftotext (読込むPDFファイル) (出力するテキストファイル) |
たとえばAcrobatやWord、Excelなどから作成したPDFなら
これだけでテキストが抽出できます。