PDFから文字を抽出というと、OCRという技術が必要なイメージですが、
紙をスキャンしたPDFや、画像から生成したPDFなどではなく
文字を抽出できるタイプのPDFの場合、もっと簡単な方法があります。
pdftotextというコマンドを使用します。
たとえばAcrobatやWord、Excelなどから作成したPDFなら
これだけでテキストが抽出できます。
在宅プログラマーの備忘録として2005年に始めたブログです。
PDFから文字を抽出というと、OCRという技術が必要なイメージですが、
紙をスキャンしたPDFや、画像から生成したPDFなどではなく
文字を抽出できるタイプのPDFの場合、もっと簡単な方法があります。
pdftotextというコマンドを使用します。
たとえばAcrobatやWord、Excelなどから作成したPDFなら
これだけでテキストが抽出できます。
サーバーの使用容量が急に増えたりしたとき、
どのフォルダが増えているのかを調べるコマンドです。
調べたいフォルダがある場所まで行ってから、
そもそも日本語がインストールされていない可能性を疑う
サーバー上でExcelかWordを作成してLibreofficeで変換すれば
WebシステムでもとてもきれいにPDFが生成できますが
毎回サーバーに必要なものを入れ忘れてエラーになるのでメモ。
先日Let’s EncryptのログにWarningが出ていました。
証明書の更新はできていますが、
Let’s Encrypt自身のアップグレードでWarningが出ていたようです。
アップグレードするには、現在インストールされているPython2.6はサポートが廃止される予定なので
まずはPythonをアップグレードしろとのこと。
しかしCentOS6の標準では2.6までしか入りませんのでリポジトリのインストールから始めます。
リポジトリのインストール
Python2.7のインストール
これだけではpythonコマンド使用時のバージョンは2.7になりません。
2.7が自動的に有効になるように設定しましょう。
これで~/certbot-auto renewを実行すれば
Let’s EncryptのrenewコマンドでLet’s Encrypt自身のアップグレードもされるようになりました。
しかし、自動更新はたいていの場合、cronで設定されているかと思います。
cronで実行される場合はまだpython2.7が有効になっていません。
cronで実行するコマンドでpython2.7を有効にするには
crontabでの記述を次のようにします。
↓
(毎日AM5時にrenewを実行する場合)