A.K.A. rare tekentjes op je computer.
Wij gebruiken 26 "westerse" lettertjes, sommige naburige landen hebben een alfabet van 25 of 27 letters. Andere landen gebruiken volstrekt andere karakters in hun alfabet, en nog andere landen hebben niet eens een echt alfabet.
De uitdaging is dus om dit allemaal correct weer te geven op je computer, vooral omdat via het internet alles met alles moet kunnen praten.
Eigenlijk is dit helemaal geen uitdaging meer, want dit probleem is reeds lang geleden opgelost: Unicode.
Maar zolang programmeurs hun ontwikkelingstools de schuld geven van alle bugs en niet willen bijleren zal het nog lang duren voordat Unicode overal correct ondersteund wordt.
Neem nu bijvoorbeeld het verschil tussen Microsoft en Linux...
Karakters
Linux ondersteunt Unicode. Geen enkel probleem.
Je kan Unicode documenten versturen via verschillende Linux distributies, versies, enz... zonder dat dat een impact heeft, want Unicode is gestandaardiseerd
Het grootste probleem is om alle tekens correct weer te geven, want natuurlijk hebben niet alle lettertypes ondersteuning voor alle Unicode karakters.
Microsoft ondersteunt ook Unicode, of toch bijna, want alhoewel Unicode een standaard is, weten we allemaal hoe goed Microsoft standaarden respecteert: Niet.
Het probleem is dat bijvoorbeeld de Engelse en de Japanse versie van Windows niet gewoon een vertaling van de interface is, maar een compleet andere codebase.
Deze versies hebben verschillende bugs, verschillende patches, en inderdaad: Een verschillende Unicodetable. (En beide verschillend van de standaard.)
Natuurlijk komt de Unicode tabel voor het grootste gedeelte wel overeen, maar niet helemaal.
Met een Japanse Windows versie afdrukken via een Engelse printserver geeft soms enorm "leuke" resultaten, alhoewel de meeste Japanners dat meestal niet leuk vinden.
Linux - Microsoft: 1-0
Collation
Enkel rare karakters kunnen weergeven/afdrukken is natuurlijk niet genoeg.
Er is ook zoiets als collation, oftewel de volgorde van karakters om o.a. alfabetisch te kunnen sorteren.
Als je bijvoorbeeld de woorden: FRY, ZENDA, FRÜZ, ÖTZI in alfabetische volgorde wil zetten dan moet je eerst weten volgens welke collation je dat moet doen.
In België doen we dat als volgt: FRÜZ, FRY, ÖTZI, ZENDA
In Zweden doet men dat zo: FRY, FRÜZ, ZENDA, ÖTZI
Wij houden geen rekening met accenten, de letters zijn evenwaardig.
In Zweden zijn letters met een umlaut minderwaardig en komen als laatste.
Ik denk dat Microsoft nog niet weet dat dat verschil bestaat, of in ieder geval werkt dat voor geen meter in hun software.
In mijn Linux werkt dat wel perfect.
|#>echo -e "FRY\nZENDA\nFRÜZ\nÖTZI" > test.txt |#>cat test.txt |FRY |ZENDA |FRÜZ |ÖTZI | |#>export LC_ALL="nl_BE" |#>export LANG="nl_BE" |#>cat test.txt |sort |FRÜZ |FRY |ÖTZI |ZENDA | |#>export LC_ALL="sv_SE" |#>export LANG="sv_SE" |#>cat test.txt |sort |FRY |FRÜZ |ZENDA |ÖTZI
Linux - Microsoft : 2-0
Besluit
Als je een internationaal bedrijf bent en op een correcte manier documenten wil uitwisselen, is Microsoft niet geschikt.
Mocht het je intereseren: De titel van deze blogpost is Grieks en luidt "kryptós & gráfo". (verborgen & schrijven, oftewel "cryptografie").
