User:Jhellingman/Dutch Works in Progress/Groene Boekje

From DPWiki
Jump to navigation Jump to search

Het oude groene boekje staat inmiddels op Project Gutenberg.

Inleiding

Tussen 1865 en 1947 was de spelling De Vries-Te Winkel de standaard voor het Nederlands. De meeste Nederlandstalige boeken in Project Gutenberg zijn in deze spelling geschreven. Om de kwaliteit van deze boeken te verbeteren is het dus nodig een spellingschecker te maken die deze spelling kent. Daarvoor grijpen we terug naar het Groene Boekje, maar dan in de zevende uitgave uit 1914. Dit kleine boekje volgt hetzelfde formaat als het huidige Groene Boekje, met dat verschil, dat het de oude spelling hanteert. De volledige titel is Woordenlijst voor de spelling der Nederlandsche Taal: Met aanwijzing van de geslachten der naamwoorden en de vervoeging der werkwoorden. Na 43 pagina's inleiding volgen precies 500 pagina's in twee kolommen met de woorden in de juiste spelling, en een indicatie van het geslacht bij zelfstandige naamwoorden.

Voor het gemak heb ik de pagina's in kolommen gesplitst, wat resulteert in een project van maar liefst 1043 pagina's, die stuk-voor-stuk redelijk makkelijk te doen zijn.

Het project staat op PGDP.

De Spelling De Vries-Te Winkel

De spelling De Vries-Te Winkel onderscheidt zich van de huidige spelling op twee belangrijke punten, het gebruik van de dubbele oo en ee in open lettergrepen, en het gebruik van sch aan het eind van sommige woorden waar wij nu s schrijven. Beide verschillen zijn gebaseerd op verschillen in uitspraak, die ook bij de invoering van die spelling al vrijwel verdwenen waren, en op de wens om homoniemen te onderscheiden. Dus zien we wasch en was, koolen en kolen allebei als geldige spellingen terug.

Daarnaast zien we een groot aantal kleinere verschillen, zoals het gebruik van ph voor f in leenwoorden; een paar keer qu waar wij nu kw gebruiken; het anders gebruik van de tussen -n- en -e-, enz.

Een ander belangrijk verschil is het gebruik van naamvallen, en dan met name het woordje den en bijbehorende bijvoeglijke naamwoorden op -en.

Een uitgebreide geschiedenis van de Nederlandse spelling is te vinden op Wikipedia.

Spelling

Vanzelfsprekend laten we de spelling van woorden precies zo als die is in dit boekje. Let scherp op automatische "verbeteringen" die de OCR kan hebben toegepast. Lijkt iets echt fout, maak dan een opmerking zo: [** leg probleem uit], maar laat het wel staan zoals in de bron. Dit boekje is eigenlijk per definitie correct (maar er zouden woorden in kunnen staan die we niet kennen, en erg veel lijken op woorden die we wel kennen).

Marges

Het oorspronkelijke boekje had vrij krappe marges, waardoor soms de eerste of laatste letter aan de rand van het papier moeilijk leesbaar is. Herstel deze, maar als er ook maar enige twijfel is over de correctheid, voeg dan een sterretje (*) toe, zodat ik er tijdens PP in het origineel naar kan kijken.

Alinea's

Elke ingang vormt een eigen alinea. Een ingang begint met het hoofdwoord vetgedrukt, gevolgd door wat grammaticale informatie en afgeleide vormen van het hoofdwoord. Deze verschillen per soort. Voor werkwoorden staan er meestal drie vormen:

Proeven, proefde, heeft geproefd.

Bij zelfstandige naamwoorden vinden we vaak het meervoud en de verkleinwoorden:

Proef en Proeve, V., proeven. Proefje, O., [proef]jes.

Maar soms alleen het meervoud:

Proevenlezer, M., [proeven]lezers.

Bij bijvoeglijke naamwoorden vinden we de trappen van vergelijking:

Prettig, prettiger, prettigst.

Soms staan er toelichtingen tussen haakjes, met name waar de betekenis ambigu of minder bekend is:

Prepareeren (voorbereiden enz.), prepareerde, heeft geprepareerd.

Tussen de ingangen komt dus steeds een lege regel. Dit heb ik geprobeerd tijdens het voorbewerken goed te krijgen, maar dat is niet in alle gevallen geluk. Verbeter het als het niet zo is.

Hoofdletters

Elke ingang in dit boekje begint met een hoofdletter. Voor de spellingscontrolelijst willen we alleen hoofdletters zien als een woord niet in kleine letters mag voorkomen, zoals bijvoorbeeld:

Zuid-Brabant.

Is dat het geval, plaats dan een dakje voor de eerste hoofdletter, en maak er

^Zuid-Brabant.

van.

Aanvullen verkortingen

Het groene boekje gebruikt vaak een streepje om ruimte te sparen. Zo treffen we in het origineel:

Driehoek, M., -hoeken; -hoekje, O., -jes.

Voor een spellingscontrolelijst hebben we complete woorden nodig. Met een klein programmaatje heb ik alvast de mogelijke uitbreidingen ingevuld, als volgt:

Driehoek, M., [*drie]hoeken; [*drie]hoekje, O., [*driehoek]jes.

Het programmaatje dat deze aanvullingen heeft gemaakt is verre van foutloos, en raakt snel in de war van OCR problemen. Het is de bedoeling dat je de automatische aanvullingen nakijkt, eventueel verbetert of aanvult, en dan het sterretje weghaalt. De vierkante haken moeten wel blijven staan. Dan krijgen we dus:

Driehoek, M., [drie]hoeken; [drie]hoekje, O., [driehoek]jes.

Kom je er niet uit, of heb je enige twijfel, dan laat je het sterretje gewoon staan.

Een regelmatig voorkomende fout die ik niet makkelijk kon oplossen: soms is door de OCR het woordje en vastgeplakt aan het volgende afgekorte woord, met het volgende resultaat:

Tapijt en tapeet, [*ta]pijten en-peten.

Hiervan maken we dan:

Tapijt en tapeet, [ta]pijten en [ta]peten.

Er kunnen meer dingen mis zijn gegaan, zoals situaties waarbij het verkeerde woord is ingevuld. Let op dat OCR-fouten in het oorspronkelijke woord door het programma worden overgenomen, en kunnen leiden tot een mismatch, waardoor het woord niet op de juiste plaats is afgebroken.

Verder zijn we nog de volgende bijzondere gevallen tegen gekomen.

Ingangen met twee varianten, waarbij het weglatingsstreepje voor beide varianten gebruikt kan worden:

Aanschouwelijk of aanschouwlijk, -lijker, -lijkst.

Hiervan maken we:

Aanschouwelijk of aanschouwlijk, [aanschouwelijker of aanschouw]lijker,
[aanschouwelijkst of aanschouw]lijkst. 

Het weglatingsstreepje aan het einde van een ingang:

Admiraal-generaal, M., admiraals- en admiralen-generaal.

Hiervan maken we:

Admiraal-generaal, M., admiraals[-generaal] en admiralen-generaal.

Merk op dat het streepje deel uitmaakt van het in te vullen woord.

Tenslotte kan het weglatingsstreepje weggevallen zijn, dit is een typo, die we verbeteren, en markeren met een opmerking.

Gedachtestreepjes

In een paar gevallen is het gehele woord vervangen door een gedachtestreepje (em dash), bijvoorbeeld:

Achteren. (Naar --, ten --, van --).

Vervang ook in deze gevallen het gedachtestreepje met het woord tussen blokhaken, met de hoofdletter vervangen door een kleine letter.

Achteren. (Naar [achteren], ten [achteren], van [achteren]).

Formatteren

Dit boekje zal ik de formatteer ronden laten overslaan (Behalve dat de ik de inleiding door F1 zal laten gaan). Het is niet nodig aan te geven dat zaken vet zijn. Voor de inleiding is het handig als we even de cursief gezette woorden aangeven. Voor de rest zorg ik daarvoor tijdens het PP-en.

Post-processen

Ik zal dit werk zelf Post-processen. Tijdens PP maak ik een bestand dat er zo uitziet:

Driehoek, M., driehoeken; driehoekje, O., driehoekjes.

een bestand dat er net zo uitziet als het origineel:

Driehoek, M., -hoeken; -hoekje, O., -jes.

en een bestand dat er zo uitziet:

driehoek
driehoeken 
driehoekje
driehoekjes

Waarbij de woordenlijst opnieuw is gesorteerd en alle dubbele woorden eruit zijn gehaald. Alle bestanden zullen worden gepost op Project Gutenberg.

Spellingcontrolebestand

Tenslotte zal ik de lijst omvormen tot een spellingcontrolebestand geschikt voor gebruik in Aspell, FireFox en Open Office.

Omdat deze lijst primair gebruikt gaat worden in een omgeving waar teksten zijn ge-OCR-d, dienen we het suggestiemechanisme hierop af te stemmen. We voegen dus expliciet de veel voorkomende OCR-fouten in de lijst. We gebruiken hiervoor bijvoorbeeld de REP functie in Hunspell (Hunspell documentatie).

REP 14
REP sen sch
REP seh sch
REP soh sch
REP cb ch
REP rn m
REP u n
REP n u
REP e c
REP c e
REP b h
REP h b
REP y ij
REP ii ij
REP jj ij
REP i l
REP l i

Gebruikelijke wijzigingen ten opzichte van de huidige spelling kunnen we als volgt weergeven. (Van modern naar oud)

REP 13
REP s sch
REP o oo
REP e ee
REP f ph
REP c k
REP k c
REP qu kw
REP kw qu
REP e ae
REP oei oeie
REP lj lli 
REP es ën 
REP r rh

Respectievelijk voor mensch, loopen, eeten, photographie, kritikus, critiek, quaestie, moeielijk, millioen, functiën, rhetorica.

(Opmerkelijk: de lijst bevat zowel kritikus als tooneelcriticus, maar niet criticus en tooneelkritikus, de consistentie is dus ver te zoeken.)

Één affix rule dient te worden aangepast ten opzichte van modern Nederlands.

SFX M sch sschen sch

Om uit de vorm visch het meervoud visschen te genereren.

Ontbrekende woordvormen

In de lijst ontbreken bepaalde woordvormen, met name:

  • woorden op -e en -en, zoals kleine en kleinen.
  • werkwoordsvormen voor de eerste en tweede persoon enkelvoud, zoals loop, loopt.

Deze gaan we semi-automatisch toevoegen, volgense de volgende regel:

  • Moderne woordenlijst. staat woord en woorde in de moderne lijst, en woord in de oude lijst, dan voegen we ook woorde toe.

Moderniseer

Een stuk gereedschap om de spelling De Vries-Te Winkel om te zetten in moderne spelling.

Werkwijze in stappen

  1. Lees een moderne woordenlijst in.
  2. Lees een woordenlijst volgens de oude spelling in.
  3. Normaliseer alle woorden in beide lijsten naar een 'kern' spelling, waarbij wijzigingen in de spelling niet meer zichtbaar is. Dwz. We maken van alle voorkomens van sch een s, van oo een o, enz. We voorzien ook een bijzondere afhandeling van de naamvals -n.
  4. Koppel de lijsten aan de hand van de kern-spelling aan elkaar.
  5. Genereer de volgende lijsten:
    1. Woorden gelijk in beide lijsten (hond = hond; kolen = kolen)
    2. Woorden verschillend in beide lijsten, maar met eenduidige wijzigingen (van oud naar nieuw). (mensch => mens; wasch => was; koolen => kolen)
    3. Woorden met meerdere mogelijke koppelingen. (den => de, den; langen => lange, langen)
    4. Mogelijk valse koppelingen (lees => les; boom => bom; logisch => logies), zoveel mogelijk uitfilteren met regeltjes.
    5. Woorden in de oude lijst zonder koppeling aan een modern woord.
  6. Verbeter de lijsten aan de hand van deze resultaten.

Uiteindelijk krijgen we een lijst die er ongeveer zo uitziet:

den : de, den
koolen : kolen 
mensch : mens
millioen : miljoen
phantasie : fantasie
wasch : was
zoo : zo

Zijn de lijsten in een redelijke staat van compleetheid, dan kunnen we het volgende proces gaan doorlopen voor oude teksten.

  1. Gebruik de lijsten om woorden in de oude spelling te vervangen door die in de nieuwe.
    1. Bij eenduidige wijziging: verander gewoon
    2. Bij meerdere mogelijkheden: laat gebruiker kiezen.
  2. Lees de gehele tekst nogmaals door om inconsistenties en verouderd taalgebruik te verbeteren.

Supplement voor verouderde woorden

Naast veranderingen in de spelling, zijn ook veel woorden verouderd. Ook deze kunnen we met een supplement lijst afhandelen. Dit lijkt meer op een soort thesaurus.

aardbezie : aardbei
moerbezie : moerbei
moerbezieboom : moerbeiboom
photographietoestel : fototoestel

Referenties

Over de Nederlandse spelling:

Over Spellingscontrolesoftware: