A feladat: ki kell nyerni a szöveget egy szkennelt pdf-ből. Eszközök: openSUSE Tumbleweed, fish, Google Tesseract OCR.
# zypper in tesseract-ocr tesseract-ocr-traineddata-hungarian
$ pdftoppm -png myfile.pdf pages
$ for f in pages-??.png; tesseract $f "text-$f" -l hun; end
$ cat text-pages* > text-complete.txt
Ha nem szkennelt, hanem generált pdf-ről van szó, akkor az tartalmazza a szöveget, és nincs szükség OCR-re. A szöveget Ghostscript segítségével lehet kinyerni:
$ gs -sDEVICE=txtwrite -o output.txt input.pdf