User:Jpo/CP-Experimente
CP-Experimente
PDF-File splitten: pdftk file.pdf burst
Bilder extrahieren: pdfimages -j pg.pdf pg
JPEG2000 umwandeln: opj_decompress -i bild.jp2 -o dir/bild.tif (Umwandlung nach PNG sehr langsam, deshalb tif!)
Umwandeln in PNG: convert -sharpen 2x2 -posterize -antialias pg-000.ppm pg.png
Parameter probieren!
Besser scantailor verwenden!
Tesseract: tesseract pg.png pg -l deu-frak
Text und Boxen erzeugen:
Config-File unter /usr/share/tesseract-ocr/tessdata/configs:
tessedit_create_txt 1 tessedit_create_boxfile 1
Aufruf:
tesseract imgfile targetdir/basename -l deu_frak configfile
Numerieren mit führenden Nullen: for i in $(seq -f "%03g"); do echo $i; done
Text vorbereiten
Verzeichnis texts und pngs
Viele RegEx der Liste stammen von nola
In GG importieren
- Abteilungen ersetzen: ([a-zäöüß])[-«»·] *\n([a-zäöüß][^ \n]*) * zu $1$2\n
- Fraktur: Große I, J suchen J([bcdfghjklmnpqrstvwxzß]) zu I$1 (große I kommen nicht vor)
- Suche ,, (Anführungszeichen)
- Emdash zu --
- Strichzahl korrigieren (sp)----*(sp) zu 2 Strichen
- ,, zu »
- Ellipsen mit Leerzeichen
- Typos: fch 2l sii ii
- Falsche Absätze: \n\n([a-z]äöü) zu \n$1
- Kombination Zahl-Buchstabe [a-zäöüß][0-9] und umgekehrt
- Typische Verwechslungen:
* fich zu sich * fie zu sie
Noch ungetestet:
- Blank vor Ellipse zu #
- Leerzeichen vor Satzzeichen entfernen +([.!?<:;\)'«]) zu $1
- Blank vor Ellipse wieder herstellen
- Leerzeichen nach einleitetenden Zeichen: ([»\(>]) + zu $1
Bilder vorbereiten
- von tif nach png konvertieren
- pngcrunsh -bit_depth 2 -d targetdir pngfile
Project Comments
Mathematik: Essential_Maths_for_Proofers
Deutsch allg.: http://www.pgdp.net/wiki/Standard_Rules_for_German_Projects
Dateien per Drag-and-Drop in Eingabefelder
cat dateiname | xsel
kopiert kompletten Dateiinhalt in die primary selection (mittlere Maustaste)