vak: (Default)
[personal profile] vak
Помянем незлым тихим словом.

Из файла debian/debhelper.in/locales.NEWS пакета glibc_2.31-17.debian.tar.xz:
locales (2.31-14) unstable; urgency=low

* Starting with locales 2.31-14, non UTF-8 locales are deprecated and not
offered anymore in the debconf dialog, except for the ones already
configured. Nevertheless users of non UTF-8 locales are encouraged to
switch their system to an UTF-8 locale.

Please note that iconv still supports conversion to and from non UTF-8
charset. For instance reading a file using an ISO-8859-15 charset can be
done with: iconv --from-code=ISO-8859-15 foobar.txt

-- Aurelien Jarno

Date: 2021-08-30 08:57 (UTC)
norian: (Default)
From: [personal profile] norian
ну то есть вообще все восьмибитные зачем-то зашкварили, утф8 на самом деле переменной длины и поэтому работа с ним то ещё адище

молодцы какие (с)

Date: 2021-08-31 17:53 (UTC)
dluciv: (Default)
From: [personal profile] dluciv

Всё равно правильно обычно оперировать не codepoint'ами, а графемами, а они в принципе разной длины (нормализация нормализует далеко не всё).

Date: 2021-08-30 18:18 (UTC)
ircicq: (Default)
From: [personal profile] ircicq
Основная причина, что в байте 8 бит - это 7/8-битное представление character.

Если отказались от 8-битных кодировок, то логично расширять минимально-адресуемый элемент RAM до 16 бит.

Date: 2021-08-30 19:06 (UTC)
ircicq: (Default)
From: [personal profile] ircicq
Причина использования UTF-8 тоже в 8-битности байта
и еще в экономии на ASCII, который пока превалирует.

По мере уменьшения доли текстов на английском, всё более оптимальным становится 16-битовый байт.

Date: 2021-08-31 17:55 (UTC)
dluciv: (Default)
From: [personal profile] dluciv

Это на практике мало что даст (один бит адреса), поскольку аппаратура минимально адресует всё равно слово, которое сейчас гораздо длиннее.