datagott > wetenschap

Ruud Harmsen (18.04.2020, 11:31)
Fri, 10 Apr 2020 23:54:10 +0200: BugHunter <bughunter>
scribeva:

>Johan Wevers <johanw> schreef op Vr 10 Apr 2020 om 22:31:
>>Unicode is vaak de boosdoener. Bij usenetclients

>ook.


Neen.
Ruud Harmsen (18.04.2020, 11:32)
11 Apr 2020 13:30:33 GMT: Rob <nomail> scribeva:

>Echter het meest voorkomende alternatief is 16-bit characters (wchar)
>en dat is nog venijniger want als je dat als string ziet dan hebben
>de normale ASCII tekens een 00 in het hoge byte, zodat standaard C
>string operaties volkomen fout gaan met dit soort data en je alles
>moet opslaan als length+value.


Of als wide-character strings. Maar ook dat is een hoop werk.
Ruud Harmsen (18.04.2020, 11:35)
11 Apr 2020 13:30:33 GMT: Rob <nomail> scribeva:

>Echter die variabele lengte dat is ook vervelend


Ja. Ik heb bewust een bug in mijn
[..] laten zitten,
wegens in de huidige (12 jaar oude) opzet te lastig te fixen, die
ontstaat als een meerbytes-UTF8-teken maar gedeeltelijk in de
inleesbuffer komt te staan.

>en het sorteren van strings met UTF-8 is ook een vak apart.


Dat zou dankzij de Unix locales vanzelf goed moeten gaan.

Soortgelijke onderwerpen