User:Jpo/CP-Experimente

From DPWiki

CP-Experimente

PDF-File splitten: pdftk file.pdf burst

Bilder extrahieren: pdfimages -j pg.pdf pg

JPEG2000 umwandeln: opj_decompress -i bild.jp2 -o dir/bild.tif (Umwandlung nach PNG sehr langsam, deshalb tif!)

Umwandeln in PNG: convert -sharpen 2x2 -posterize -antialias pg-000.ppm pg.png

Parameter probieren!

Besser scantailor verwenden!

Tesseract: tesseract pg.png pg -l deu-frak

Text und Boxen erzeugen:

Config-File unter /usr/share/tesseract-ocr/tessdata/configs:

tessedit_create_txt 1
tessedit_create_boxfile 1

Aufruf:

tesseract imgfile targetdir/basename -l deu_frak configfile

Numerieren mit führenden Nullen: for i in $(seq -f "%03g"); do echo $i; done

Text vorbereiten

Verzeichnis texts und pngs

Viele RegEx der Liste stammen von nola

In GG importieren

  • Abteilungen ersetzen: ([a-zäöüß])[-«»·] *\n([a-zäöüß][^ \n]*) * zu $1$2\n
  • Fraktur: Große I, J suchen J([bcdfghjklmnpqrstvwxzß]) zu I$1 (große I kommen nicht vor)
  • Suche ,, (Anführungszeichen)
  • Emdash zu --
  • Strichzahl korrigieren (sp)----*(sp) zu 2 Strichen
  • ,, zu »
  • Ellipsen mit Leerzeichen
  • Typos: fch 2l sii ii
  • Falsche Absätze: \n\n([a-z]äöü) zu \n$1
  • Kombination Zahl-Buchstabe [a-zäöüß][0-9] und umgekehrt
  • Typische Verwechslungen:
 * fich zu sich
 * fie zu sie

Noch ungetestet:

  • Blank vor Ellipse zu #
  • Leerzeichen vor Satzzeichen entfernen +([.!?<:;\)'«]) zu $1
  • Blank vor Ellipse wieder herstellen
  • Leerzeichen nach einleitetenden Zeichen: ([»\(>]) + zu $1

Bilder vorbereiten

  • von tif nach png konvertieren
  • pngcrunsh -bit_depth 2 -d targetdir pngfile

Project Comments

Mathematik: Essential_Maths_for_Proofers

Deutsch allg.: http://www.pgdp.net/wiki/Standard_Rules_for_German_Projects

Dateien per Drag-and-Drop in Eingabefelder

cat dateiname | xsel

kopiert kompletten Dateiinhalt in die primary selection (mittlere Maustaste)