Skip to content

Monthly Archives: June 2007

О языке

thoughtful emoticon

Почему-то когда речь заходит об образовании на родном языке, все всегда хотят получать образование на родном языке, и скромно умалчивают о том, кто будет его давать.

А лично я бы скорее боролся за то, чтобы иметь возможность преподавать на некоем языке, нежели за возможность получать на нем образование. Ибо преподавание без образования бывает, а вот образование без преподавания — нет.

Я тащусь от этих сербов…

dejected emoticon

Как было сказано ранее, я сейчас воюю с XeTeX, для чего подписался на рассылку и обратился к автору, мол, куда дели русские кавычки-елочки. Автор любезно объяснил как воткнуть их на место, и немедленно внес соответствующие изменения в дистрибутив, чем меня весьма порадовал. Но, как вы понимаете, просто так все кончиться не могло.

Есть в TeX такая штука, зовут babel. Это пакет для борьбы с особянностями национальной печати. Появился он тогда, когда поддержки utf-8 в техе еще не было, и потому, рассчитывает на наличие специальных команд, которые порождают символы в том числе кириллицы. В случае работы с TTF-шрифтами в XeTeX этих команд не возникает и он ругается и рисует пробелы вместо букв. Для борьбы с этой его особенностью, автор XeTeX сочинил пакет xunicode, в котором описаны все экзотические символы европейских языков… окромя собственно кириллицы.

Для кириллицы автор сделал отдельный файлик, в котором пересчитал русский алфавит, но так как он сам русского не знает и не читает, так на этом дело и встало — он не знал, все ли он поймал и не напортачил ли. Я вызвался доделать и доделал. Строго говоря, русскому языку не хватало только Ё.

Но оказалось что TeX знает превеликое множество кириллицы, которой в русском языке нет — украинскую, белорусскую, сербскую, македонскую, кыргызкую, татарскую, чукотскую… Я довольно долго с ними возился, но наконец отыскал почти все.

И тут всплыл некий серб. Сначала он объяснил откуда взялась часть этих неведомых букв (из славянских языков с кириллицей) а потом начал качать политкорректность. Вы, мол, обозвали экзотическими буквы которыми 15 миллионов человек пользуются и которые в любом нормальном шрифте есть. Вот эти мол буквы уникальны в сербском, вот эти в македонском…

А я грешным делом и забыл про болгарский-македонский-сербский, меня как-то больше неславянские буквы там беспокоили.

Всплыл джентльмен с истфака МГУ, и покусал этого серба слегка за меня, а я тем временем отсортировал все буквы по языкам, на какие нашел алфавит, и оказалось что из этих “уникальных” букв половина попала в совершенно неславянские языки и вообще все это муть.

Потом переписал все комментарии в тексте так, чтобы было понятно что вот эти буквы во всех кодировках подряд, вот эти — где попало, а вот этих в восьмибитных кодировках нет. Еще будет выпендриваться — отсортирую по уникодным номерам и скажу чтобы заткнулся.

Мне вот другое непонятно, чего это он так? Для меня все эти буквы экзотические. Для меня 98% человечества экзотические в том или ином виде, в том числе те, кто пишет кириллицей. Почему во всем надо видеть национальное унижение?

New Age Gospel

thoughtful emoticon

Для тех кто не в курсе, именно так надо бы переводить 新世紀エヴァンゲリオン, который мы знаем как Neon Genesis Evangelion потому что Хидеаки Анно не очень хорошо владеет английским — “Евангелие нового века”. Сверхновый завет.

Это я к тому, что у меня растет племянник. Сейчас он еще совсем маленький, но через годик-другой встанет вопрос его образования, а поскольку я такой ученый в клане один, и вообще ему крестный отец, ляжет оно почти полностью на меня.

И мне надо будет рассказывать ему сказки. А какие? Или точнее, про кого?

Традиционные древнейшие сказки — про лисичек, колобков, курочку Рябу и прочих представителей животного мира — мне как-то не нравятся. Почти всех их, кроме разве что ежика, кошки, собаки и мышки он увидит только на картинках и в кино — и это еще оптимистическая оценка, гарантировать я могу только кошек и собак. Это не серьезно. И вообще, я хочу чтобы у него были свои собственные сказки.

Для сказки детской нормально когда персонажи архетипичны, так что там наверное будут принцессы и принцы, короли и драконы — этих в реальном мире тоже нет, но им легко сопоставляются эквиваленты… ну и поскольку это сказки для ребенка родившегося в наше время, а не абы когда, ездить они будут не на лошадях, а на джипах, звонить друг другу по мобильникам и обмениваться электронной почтой. Это как-то уже неизбежно.

А кто еще там может быть?

Крокодил шире чем длиннее…

tired emoticon

…мдя, надо же так умудриться меня достать за двое суток. :)

Для тех кто не знает: TeX — это такая вавилонская башня острием вниз. Если точнее, это злоумный издательский пакет, ведущий свое начало еще в 60х, во времена когда компьютеров в современном понимании еще толком не было. До сих пор он используется для научной литературы, особливо для математики, ибо как ни старалось человечество, а ничего всерьез лучше для рисования формул не придумано и по сию пору.

Мне не надо рисовать формулы. Мне нужен BibTeX — а это очень полезная штука навешанная поверх TeX для учета ссылок на литературу, которая позволяет их просто и быстро цитировать. Это действительно чрезвычайно удобно, потому что встретив то, что можно спизпроцитировать, его можно занести в базу, оставить заметочку чего там заинтересовало, и больше не вспоминать пока мысль не оформится и не придет время писать. Текст живо так обрастает сносками и приобретает ученый вид.

Только вот я уже задолбался на грабли наступать, нужен какой-то радикальный метод борьбы со всем этим бобром, а документация нарочито невнятна.

TeX — невероятно древний пакет, который появился на свет тогда, когда даже восьмибитных компьютеров еще толком не было. Поэтому он уверен что букв 128. Все это, конечно, было исправлено позже, путем навешивания сверху еще одной приблуды, которая… Теперь приблуд и прочих радостей на нем столько, что дистрибутив занимает полный дивидюк.

После довольно длительной войны со списком литературы оформленным по ГОСТ1 и базой литературы в utf-82 я получил наконец искомый документ, и понял что смотреть на этот шрифт я не могу, ибо он ужасен.

Ладно, на такой случай вроде бы есть совсем новый вариант — XeTeX. Который работает с TTF-шрифтами и utf-8 по умолчанию. Вроде бы этого мне и надо.

Хрен, оно тоже не работает. Почему? Потому что в Gentoo для всех вариантов TeX, которых на свете порядочно, общая система, складывающая в кучку всю вавилонскую башню что выше острия. И в настоящий момент за ней некому ухаживать, поэтому часть пакетов насмерть брошены. Англоговорящие линуксоиды этого не замечают, потому что им не нужен не только ГОСТ, но и кириллица как таковая. За основу бобра взят пакет TeTeX. Который автор бросил еще в прошлом году, сказав всем переходить на новый TexLive, которое в Gentoo как таковое есть, но исходники, пожеванные чтобы они влезали в Gentoo, надо качать с сайта который намертво лежит…

Убью кого-нибудь за такие фокусы.

update: Я знаю даже кого я убью, его зовут TeTeX. Это, конечно, еще гигабайт закачки, но что мне гигабайт…

  1. Никогда бы не подумал, что моя диссертация оформлена не по ГОСТ, однако факт, оказалось именно так. Надо будет как-нибудь переверстать для порядка…
  2. Оно отказывалось работать очень долго, и я до сих пор не понял, почему же оно наконец перестало. Тех кто до сих пор обожает cp1251, спешу уведомить что я попробовал и ее, но это не помогло.

Подумайте о детях

thoughtful emoticon

Это уже крылатая фраза, которую поминают каждый раз когда кто-то пытается что-нибудь запретить, по крайней мере в англоговорящей части сети — “think of the children!”. Но уже тамошние исследователи заметили что что-то они многовато о детях думают:

  • The vast majority of teens are talking to only to people within their groups
  • They’re told that all adult strangers are bad
  • “My mom says it’s okay to talk to you”
  • Recounted a story about a lost boy scout troop that took longer to find because they were hiding from search parties, all of whom were adult strangers. They were rescued only when the search parties clued into this and brought children with them

(цит. по “Notes and Photos from danah boyd’s “MyFriends, MySpace” Presentation” — вообще, это конспект выступления на семинаре)

Не просто “много”, а “основная масса” тинейджеров говорит только и исключительно со своими сверстниками, все чужие взрослые — “плохие”. Уже немного перебор, так? Дальше пуще.

  • Teen mobility is becoming increasingly limited:
    • Urban and suburban design is such that cars are necessary, limiting access to many places
    • Even in cities with good public transit systems, many kids aren’t let out of sight. In the UK, people are practically terrified to let the kids out of the house

(там же)

Это было бы немножко смешно, если бы не статья про то, как дети полностью потеряли зону в которой им дозволялось гулять за четыре поколения — с большой и красивой картой. Разница буквально между 300 метрами сейчас и 10 километрами тогда. (!)

Сложив все это вместе мы получаем очень странную картину, в которой дети в англоговорящих странах не просто ограничены в правах, а существуют в отдельной карманной реальности с диаметром триста метров, в которой нет вообще никаких взрослых кроме их собственных родителей, и что там творится — одному Богу известно, а этнографы пялятся и дивятся. Как именно все эти люди вырастут и во что — они уже не представляют, поскольку ситуация прецедентов не имеет.

Вот тут мне становится все страньше и страньше. Потому что свое детство, в котором я в 10-12 лет спокойно ездил в Московский Планетарий и просиживал там на лекциях весь день, шлялся по городу, и ездил на автобусах из Дивноморского аж до Новороссийска и обратно, я никак не могу с этим даже сравнить. И ничего, живой, и если чем нездоровый, так это наоборот от того, что сейчас я перемещаюсь далеко не так активно, как тогда.

Подумайте о детях… кстати сказать, подумайте о наших детях. Как у нас с этим дело обстоит, как бы данных собрать?

Ибо у всего этого лет через пять-восемь посыплются последствия на весь мир.

update: Папа родная, они что, совсем все с ума посходили?… another update: Действительно, совсем.

Правописание

angry emoticon

Значительная часть рунета:

  • Не знает, что до и после дефиса положено ставить пробелы.
  • Вообще не ставит пробелов туда куда надо и ставит туда куда не надо.
  • Не владеет окончаниями на “тся”-”ться” и пишет “цца”.

И вообще препятствует токенизации как только может.

P.S. А, да. Еще они злоупотребляют троеточиями направо и налево, но это вообще характерно для определенной группы лиц, общие характеристики которой я пока не пытался выделить — окромя того, что у них невероятная каша в голове. От языка это, как ни странно, не зависит.

Фильтры

angry emoticon

Основная проблема социологии которая постоянно мешает мне жить — это проблема фильтров. Если точнее, это проблема выделения для исследования лиц, обладающих некими данными характеристиками, но не имеющих реально связывающих их в легко выделяемую группу структур. Я даже не могу никого опросить, потому что не имею способа сконцентрироваться на исследуемом подмножестве не вызывая при этом сомнений в репрезентативности.

Можно сколько угодно рассуждать о ролевиках, но нельзя выделить их из общей массы населения таким образом, чтобы быть уверенным в репрезентативности выборки. То же самое касается людей реагирующих на спам, и много кого еще.

Похоже надо сочинять какие-то совершенно невероятные по объемам пожираемых данных методы контент-анализа, а мне не хватает лингвистики…