PDF2TXT | virx blog

A feladat: ki kell nyerni a szöveget egy szkennelt pdf-ből. Eszközök: openSUSE Tumbleweed, fish, Google Tesseract OCR.

# zypper in tesseract-ocr tesseract-ocr-traineddata-hungarian
$ pdftoppm -png myfile.pdf pages
$ for f in pages-??.png; tesseract $f "text-$f" -l hun; end
$ cat text-pages* > text-complete.txt

Ha nem szkennelt, hanem generált pdf-ről van szó, akkor az tartalmazza a szöveget, és nincs szükség OCR-re. A szöveget Ghostscript segítségével lehet kinyerni:

$ gs -sDEVICE=txtwrite -o output.txt input.pdf