Во времена, когда компьютеры были похилее и побольше, я потратил невероятное количество времени на жонглирование кодировками. Можно сказать, убил на это лучшие годы. Я еще помню войну между cp866 и windows-1251! Я очень хорошо помню KOI-8! Я пообламывал зубы об iso-8859-5! И я возблагодарил Бога, когда UTF-8 стал поддерживаться везде и стал универсальным стандартом. В нем есть еще несколько отравляющих по мелочи жизнь вещей вроде byte order mark, они по крайней мере не вызывают резкой невозможности что-то прочитать ни для кого.
И тут я упоминаю — случайно! — что использовал UTF-8, а мне говорят, чтобы я все перекодировал в windows-1251, а типографские знаки препинания выкинул, потому что у кого-то, якобы, не читается… Я знаю, что в этом случае не читается на самом деле и почему. Не читается сам файл, потому что он тупо обрезался при записи на диск, по не связанным с кодировкой причинам, про которые надо написать отдельную телегу. Покажите мне этих, у которых не читается — я хочу видеть их глаза!
“Мой стандарт”, my ass! Вылезайте из каменного века и понюхайте напалм! У меня стоят и постоянно используются компьютеры, древность которых не просто не вызывает сомнений, а является предметом особой гордости, потому что считается что они массово передохли много лет назад. И тем не менее, броузеров которые не читают UTF-8 у меня нет. Кончились.
А броузеры которые не читают windows-1251 — есть.
Пойти напиться с горя, чтоли…

3 Comments
Ты ж не пьешь…
Все было совсем не так :) битым был htm-файл, который как раз нормально читался. в html типографские знаки препинания в виде гекскодов или сущностей только поощряются а не читался txt-шник, причем тремя или четырьмя текстовыми редакторами И почему бы стандартом не принять utf-16 или utf-32, а лучше UCS-4, дабы избавить программистов от геморроя при анализе строк, неизбежно возникающем в utf. А больше всего плюются от utf-8 на Дальнем востоке, поскольку одинаковые с виду и разные по значению иероглифы из японского, китайского и старокорейского наборов имеют одинаковый код. А это все равно что дать одинаковым кодом латинскую “A” и русскую “А”. так что их выбор – Shift-JIS. А мой выбор пока что – 1251 :)
Конфликт именно из-за html, а не из-за txt.
Post a Comment