User:Jhellingman/Dutch Works in Progress/Groene Boekje
Het oude groene boekje staat inmiddels op Project Gutenberg.
Inleiding
Tussen 1865 en 1947 was de spelling De Vries-Te Winkel de standaard voor het Nederlands. De meeste Nederlandstalige boeken in Project Gutenberg zijn in deze spelling geschreven. Om de kwaliteit van deze boeken te verbeteren is het dus nodig een spellingschecker te maken die deze spelling kent. Daarvoor grijpen we terug naar het Groene Boekje, maar dan in de zevende uitgave uit 1914. Dit kleine boekje volgt hetzelfde formaat als het huidige Groene Boekje, met dat verschil, dat het de oude spelling hanteert. De volledige titel is Woordenlijst voor de spelling der Nederlandsche Taal: Met aanwijzing van de geslachten der naamwoorden en de vervoeging der werkwoorden. Na 43 pagina's inleiding volgen precies 500 pagina's in twee kolommen met de woorden in de juiste spelling, en een indicatie van het geslacht bij zelfstandige naamwoorden.
Voor het gemak heb ik de pagina's in kolommen gesplitst, wat resulteert in een project van maar liefst 1043 pagina's, die stuk-voor-stuk redelijk makkelijk te doen zijn.
De Spelling De Vries-Te Winkel
De spelling De Vries-Te Winkel onderscheidt zich van de huidige spelling op twee belangrijke punten, het gebruik van de dubbele oo en ee in open lettergrepen, en het gebruik van sch aan het eind van sommige woorden waar wij nu s schrijven. Beide verschillen zijn gebaseerd op verschillen in uitspraak, die ook bij de invoering van die spelling al vrijwel verdwenen waren, en op de wens om homoniemen te onderscheiden. Dus zien we wasch en was, koolen en kolen allebei als geldige spellingen terug.
Daarnaast zien we een groot aantal kleinere verschillen, zoals het gebruik van ph voor f in leenwoorden; een paar keer qu waar wij nu kw gebruiken; het anders gebruik van de tussen -n- en -e-, enz.
Een ander belangrijk verschil is het gebruik van naamvallen, en dan met name het woordje den en bijbehorende bijvoeglijke naamwoorden op -en.
Een uitgebreide geschiedenis van de Nederlandse spelling is te vinden op Wikipedia.
Spelling
Vanzelfsprekend laten we de spelling van woorden precies zo als die is in dit boekje. Let scherp op automatische "verbeteringen" die de OCR kan hebben toegepast. Lijkt iets echt fout, maak dan een opmerking zo: [** leg probleem uit]
, maar laat het wel staan zoals in de bron. Dit boekje is eigenlijk per definitie correct (maar er zouden woorden in kunnen staan die we niet kennen, en erg veel lijken op woorden die we wel kennen).
Marges
Het oorspronkelijke boekje had vrij krappe marges, waardoor soms de eerste of laatste letter aan de rand van het papier moeilijk leesbaar is. Herstel deze, maar als er ook maar enige twijfel is over de correctheid, voeg dan een sterretje (*) toe, zodat ik er tijdens PP in het origineel naar kan kijken.
Alinea's
Elke ingang vormt een eigen alinea. Een ingang begint met het hoofdwoord vetgedrukt, gevolgd door wat grammaticale informatie en afgeleide vormen van het hoofdwoord. Deze verschillen per soort. Voor werkwoorden staan er meestal drie vormen:
Proeven, proefde, heeft geproefd.
Bij zelfstandige naamwoorden vinden we vaak het meervoud en de verkleinwoorden:
Proef en Proeve, V., proeven. Proefje, O., [proef]jes.
Maar soms alleen het meervoud:
Proevenlezer, M., [proeven]lezers.
Bij bijvoeglijke naamwoorden vinden we de trappen van vergelijking:
Prettig, prettiger, prettigst.
Soms staan er toelichtingen tussen haakjes, met name waar de betekenis ambigu of minder bekend is:
Prepareeren (voorbereiden enz.), prepareerde, heeft geprepareerd.
Tussen de ingangen komt dus steeds een lege regel. Dit heb ik geprobeerd tijdens het voorbewerken goed te krijgen, maar dat is niet in alle gevallen geluk. Verbeter het als het niet zo is.
Hoofdletters
Elke ingang in dit boekje begint met een hoofdletter. Voor de spellingscontrolelijst willen we alleen hoofdletters zien als een woord niet in kleine letters mag voorkomen, zoals bijvoorbeeld:
Zuid-Brabant.
Is dat het geval, plaats dan een dakje voor de eerste hoofdletter, en maak er
^Zuid-Brabant.
van.
Aanvullen verkortingen
Het groene boekje gebruikt vaak een streepje om ruimte te sparen. Zo treffen we in het origineel:
Driehoek, M., -hoeken; -hoekje, O., -jes.
Voor een spellingscontrolelijst hebben we complete woorden nodig. Met een klein programmaatje heb ik alvast de mogelijke uitbreidingen ingevuld, als volgt:
Driehoek, M., [*drie]hoeken; [*drie]hoekje, O., [*driehoek]jes.
Het programmaatje dat deze aanvullingen heeft gemaakt is verre van foutloos, en raakt snel in de war van OCR problemen. Het is de bedoeling dat je de automatische aanvullingen nakijkt, eventueel verbetert of aanvult, en dan het sterretje weghaalt. De vierkante haken moeten wel blijven staan. Dan krijgen we dus:
Driehoek, M., [drie]hoeken; [drie]hoekje, O., [driehoek]jes.
Kom je er niet uit, of heb je enige twijfel, dan laat je het sterretje gewoon staan.
Een regelmatig voorkomende fout die ik niet makkelijk kon oplossen: soms is door de OCR het woordje en
vastgeplakt aan het volgende afgekorte woord, met het volgende resultaat:
Tapijt en tapeet, [*ta]pijten en-peten.
Hiervan maken we dan:
Tapijt en tapeet, [ta]pijten en [ta]peten.
Er kunnen meer dingen mis zijn gegaan, zoals situaties waarbij het verkeerde woord is ingevuld. Let op dat OCR-fouten in het oorspronkelijke woord door het programma worden overgenomen, en kunnen leiden tot een mismatch, waardoor het woord niet op de juiste plaats is afgebroken.
Verder zijn we nog de volgende bijzondere gevallen tegen gekomen.
Ingangen met twee varianten, waarbij het weglatingsstreepje voor beide varianten gebruikt kan worden:
Aanschouwelijk of aanschouwlijk, -lijker, -lijkst.
Hiervan maken we:
Aanschouwelijk of aanschouwlijk, [aanschouwelijker of aanschouw]lijker, [aanschouwelijkst of aanschouw]lijkst.
Het weglatingsstreepje aan het einde van een ingang:
Admiraal-generaal, M., admiraals- en admiralen-generaal.
Hiervan maken we:
Admiraal-generaal, M., admiraals[-generaal] en admiralen-generaal.
Merk op dat het streepje deel uitmaakt van het in te vullen woord.
Tenslotte kan het weglatingsstreepje weggevallen zijn, dit is een typo, die we verbeteren, en markeren met een opmerking.
Gedachtestreepjes
In een paar gevallen is het gehele woord vervangen door een gedachtestreepje (em dash), bijvoorbeeld:
Achteren. (Naar --, ten --, van --).
Vervang ook in deze gevallen het gedachtestreepje met het woord tussen blokhaken, met de hoofdletter vervangen door een kleine letter.
Achteren. (Naar [achteren], ten [achteren], van [achteren]).
Formatteren
Dit boekje zal ik de formatteer ronden laten overslaan (Behalve dat de ik de inleiding door F1 zal laten gaan). Het is niet nodig aan te geven dat zaken vet zijn. Voor de inleiding is het handig als we even de cursief gezette woorden aangeven. Voor de rest zorg ik daarvoor tijdens het PP-en.
Post-processen
Ik zal dit werk zelf Post-processen. Tijdens PP maak ik een bestand dat er zo uitziet:
Driehoek, M., driehoeken; driehoekje, O., driehoekjes.
een bestand dat er net zo uitziet als het origineel:
Driehoek, M., -hoeken; -hoekje, O., -jes.
en een bestand dat er zo uitziet:
driehoek driehoeken driehoekje driehoekjes
Waarbij de woordenlijst opnieuw is gesorteerd en alle dubbele woorden eruit zijn gehaald. Alle bestanden zullen worden gepost op Project Gutenberg.
Spellingcontrolebestand
Tenslotte zal ik de lijst omvormen tot een spellingcontrolebestand geschikt voor gebruik in Aspell, FireFox en Open Office.
Omdat deze lijst primair gebruikt gaat worden in een omgeving waar teksten zijn ge-OCR-d, dienen we het suggestiemechanisme hierop af te stemmen. We voegen dus expliciet de veel voorkomende OCR-fouten in de lijst. We gebruiken hiervoor bijvoorbeeld de REP functie in Hunspell (Hunspell documentatie).
REP 14 REP sen sch REP seh sch REP soh sch REP cb ch REP rn m REP u n REP n u REP e c REP c e REP b h REP h b REP y ij REP ii ij REP jj ij REP i l REP l i
Gebruikelijke wijzigingen ten opzichte van de huidige spelling kunnen we als volgt weergeven. (Van modern naar oud)
REP 13 REP s sch REP o oo REP e ee REP f ph REP c k REP k c REP qu kw REP kw qu REP e ae REP oei oeie REP lj lli REP es ën REP r rh
Respectievelijk voor mensch, loopen, eeten, photographie, kritikus, critiek, quaestie, moeielijk, millioen, functiën, rhetorica.
(Opmerkelijk: de lijst bevat zowel kritikus als tooneelcriticus, maar niet criticus en tooneelkritikus, de consistentie is dus ver te zoeken.)
Één affix rule dient te worden aangepast ten opzichte van modern Nederlands.
SFX M sch sschen sch
Om uit de vorm visch het meervoud visschen te genereren.
Ontbrekende woordvormen
In de lijst ontbreken bepaalde woordvormen, met name:
- woorden op -e en -en, zoals kleine en kleinen.
- werkwoordsvormen voor de eerste en tweede persoon enkelvoud, zoals loop, loopt.
Deze gaan we semi-automatisch toevoegen, volgense de volgende regel:
- Moderne woordenlijst. staat woord en woorde in de moderne lijst, en woord in de oude lijst, dan voegen we ook woorde toe.
Moderniseer
Een stuk gereedschap om de spelling De Vries-Te Winkel om te zetten in moderne spelling.
Werkwijze in stappen
- Lees een moderne woordenlijst in.
- Lees een woordenlijst volgens de oude spelling in.
- Normaliseer alle woorden in beide lijsten naar een 'kern' spelling, waarbij wijzigingen in de spelling niet meer zichtbaar is. Dwz. We maken van alle voorkomens van sch een s, van oo een o, enz. We voorzien ook een bijzondere afhandeling van de naamvals -n.
- Koppel de lijsten aan de hand van de kern-spelling aan elkaar.
- Genereer de volgende lijsten:
- Woorden gelijk in beide lijsten (hond = hond; kolen = kolen)
- Woorden verschillend in beide lijsten, maar met eenduidige wijzigingen (van oud naar nieuw). (mensch => mens; wasch => was; koolen => kolen)
- Woorden met meerdere mogelijke koppelingen. (den => de, den; langen => lange, langen)
- Mogelijk valse koppelingen (lees => les; boom => bom; logisch => logies), zoveel mogelijk uitfilteren met regeltjes.
- Woorden in de oude lijst zonder koppeling aan een modern woord.
- Verbeter de lijsten aan de hand van deze resultaten.
Uiteindelijk krijgen we een lijst die er ongeveer zo uitziet:
den : de, den koolen : kolen mensch : mens millioen : miljoen phantasie : fantasie wasch : was zoo : zo
Zijn de lijsten in een redelijke staat van compleetheid, dan kunnen we het volgende proces gaan doorlopen voor oude teksten.
- Gebruik de lijsten om woorden in de oude spelling te vervangen door die in de nieuwe.
- Bij eenduidige wijziging: verander gewoon
- Bij meerdere mogelijkheden: laat gebruiker kiezen.
- Lees de gehele tekst nogmaals door om inconsistenties en verouderd taalgebruik te verbeteren.
Supplement voor verouderde woorden
Naast veranderingen in de spelling, zijn ook veel woorden verouderd. Ook deze kunnen we met een supplement lijst afhandelen. Dit lijkt meer op een soort thesaurus.
aardbezie : aardbei moerbezie : moerbei moerbezieboom : moerbeiboom photographietoestel : fototoestel
Referenties
Over de Nederlandse spelling:
- Verhandeling over de spelling der Nederduitsche taal, ter bevordering van eenparigheid in dezelve (1827) van Matthijs Siegenbeek op Google Books.
- De grondbeginselen der Nederlandsche spelling. Ontwerp der spelling voor het aanstaande Nederlandsch Woordenboek (1863) van L.A. te Winkel
- De woordenlijst der Nederlandse taal online (2005) door de Taalunie
Over Spellingscontrolesoftware: