Как было сказано ранее, я сейчас воюю с XeTeX, для чего подписался на рассылку и обратился к автору, мол, куда дели русские кавычки-елочки. Автор любезно объяснил как воткнуть их на место, и немедленно внес соответствующие изменения в дистрибутив, чем меня весьма порадовал. Но, как вы понимаете, просто так все кончиться не могло.
Есть в TeX такая штука, зовут babel. Это пакет для борьбы с особянностями национальной печати. Появился он тогда, когда поддержки utf-8 в техе еще не было, и потому, рассчитывает на наличие специальных команд, которые порождают символы в том числе кириллицы. В случае работы с TTF-шрифтами в XeTeX этих команд не возникает и он ругается и рисует пробелы вместо букв. Для борьбы с этой его особенностью, автор XeTeX сочинил пакет xunicode, в котором описаны все экзотические символы европейских языков… окромя собственно кириллицы.
Для кириллицы автор сделал отдельный файлик, в котором пересчитал русский алфавит, но так как он сам русского не знает и не читает, так на этом дело и встало — он не знал, все ли он поймал и не напортачил ли. Я вызвался доделать и доделал. Строго говоря, русскому языку не хватало только Ё.
Но оказалось что TeX знает превеликое множество кириллицы, которой в русском языке нет — украинскую, белорусскую, сербскую, македонскую, кыргызкую, татарскую, чукотскую… Я довольно долго с ними возился, но наконец отыскал почти все.
И тут всплыл некий серб. Сначала он объяснил откуда взялась часть этих неведомых букв (из славянских языков с кириллицей) а потом начал качать политкорректность. Вы, мол, обозвали экзотическими буквы которыми 15 миллионов человек пользуются и которые в любом нормальном шрифте есть. Вот эти мол буквы уникальны в сербском, вот эти в македонском…
А я грешным делом и забыл про болгарский-македонский-сербский, меня как-то больше неславянские буквы там беспокоили.
Всплыл джентльмен с истфака МГУ, и покусал этого серба слегка за меня, а я тем временем отсортировал все буквы по языкам, на какие нашел алфавит, и оказалось что из этих “уникальных” букв половина попала в совершенно неславянские языки и вообще все это муть.
Потом переписал все комментарии в тексте так, чтобы было понятно что вот эти буквы во всех кодировках подряд, вот эти — где попало, а вот этих в восьмибитных кодировках нет. Еще будет выпендриваться — отсортирую по уникодным номерам и скажу чтобы заткнулся.
Мне вот другое непонятно, чего это он так? Для меня все эти буквы экзотические. Для меня 98% человечества экзотические в том или ином виде, в том числе те, кто пишет кириллицей. Почему во всем надо видеть национальное унижение?
2 Comments
Ты ещё вспомни, как японцы устраивают расовую ненависть китайцам и корейцам за объединённый иероглифический комплекс в юникоде и мстят миру за это своими несовместимыми кодировками. :)
Кстати, о национальных унижениях: http://community.livejournal.com/ru_mac/3941612.html
Post a Comment