CP-Experimente

PDF-File splitten: pdftk file.pdf burst

Bilder extrahieren: pdfimages -j pg.pdf pg

JPEG2000 umwandeln: opj_decompress -i bild.jp2 -o dir/bild.tif (Umwandlung nach PNG sehr langsam, deshalb tif!)

Umwandeln in PNG: convert -sharpen 2x2 -posterize -antialias pg-000.ppm pg.png

Parameter probieren!

Besser scantailor verwenden!

Tesseract: tesseract pg.png pg -l deu-frak

Text und Boxen erzeugen:

Config-File unter /usr/share/tesseract-ocr/tessdata/configs:

tessedit_create_txt 1 tessedit_create_boxfile 1Aufruf: tesseract imgfile targetdir/basename -l deu_frak configfile Numerieren mit führenden Nullen: for i in $(seq -f "%03g"); do echo $i; doneText vorbereitenVerzeichnis texts und pngs Viele RegEx der Liste stammen von nola In GG importierenAbteilungen ersetzen: ([a-zäöüß])[-«»·] *\n([a-zäöüß][^ \n]*) * zu $1$2\n Fraktur: Große I, J suchen J([bcdfghjklmnpqrstvwxzß]) zu I$1 (große I kommen nicht vor) Suche ,, (Anführungszeichen) Emdash zu -- Strichzahl korrigieren (sp)----*(sp) zu 2 Strichen ,, zu » Ellipsen mit Leerzeichen Typos: fch 2l sii ii Falsche Absätze: \n\n([a-z]äöü) zu \n$1 Kombination Zahl-Buchstabe [a-zäöüß][0-9] und umgekehrt Typische Verwechslungen:* fich zu sich * fie zu sieNoch ungetestet:Blank vor Ellipse zu # Leerzeichen vor Satzzeichen entfernen +([.!?<:;\)'«]) zu $1 Blank vor Ellipse wieder herstellen Leerzeichen nach einleitetenden Zeichen: ([»\(>]) + zu $1Bilder vorbereitenvon tif nach png konvertieren pngcrunsh -bit_depth 2 -d targetdir pngfileProject CommentsMathematik: Essential_Maths_for_Proofers Deutsch allg.: http://www.pgdp.net/wiki/Standard_Rules_for_German_ProjectsDateien per Drag-and-Drop in Eingabefeldercat dateiname | xselkopiert kompletten Dateiinhalt in die primary selection (mittlere Maustaste)

User:Jpo/CP-Experimente

Contents

CP-Experimente

Text vorbereiten

Bilder vorbereiten

Project Comments

Dateien per Drag-and-Drop in Eingabefelder

Navigation menu

User:Jpo/CP-Experimente

CP-Experimente

Text vorbereiten

Bilder vorbereiten

Project Comments

Dateien per Drag-and-Drop in Eingabefelder

Navigation menu

Search