Skip to content

Monthly Archives: March 2008

О сходстве головы и задницы

angry emoticon

И тем и другим можно издавать звуки. Различие же головы и задницы в том, что головой можно воспринимать звуки, а задницей затруднительно. И современный компьютер более напоминает задницу чем голову. Это я к тому, что перспектива вручную расставлять фонемы в километровых монологах меня не прельщает, и чтобы избежать ее, мне требуется распознаватель (а не синтезатор) русской речи под MS SAPI 5.1.

Раньше я страдал от синтеза речи, теперь страдаю от распознавания… Многочасовое копание в сети показывает, что:

  1. Существует ровно один движок распознавания русской речи под SAPI. Его якобы сделала компания с сакраментальным названием “Сакрамент”. Якобы, потому что приобрести его штатным порядком невозможно, в их ценнике его нет, и сколько они могут содрать за него даже думать боязно.
  2. Микрософт считает что достаточно сделать английский, японский и китайский распознаватели, а дальше вы как-нибудь сами. Впрочем, подобным же свинством они отличились и когда распознавали рукописный текст, так что тут ничего нового нет.
  3. Существует некая система “Горыныч” якобы изготовленная некоей компанией “VoiceLock”. Якобы изготовленная, потому что более ранние упоминания о ней говорят, что это скорее всего хак Dragon Dictate. Сайт у компании напрочь отсутствует, хотя диски с программой продаются аж на Озоне, поэтому выяснить достоверно, порождает ли установка программы движок распознавания в списке SAPI или нет — невозможно.

При этом самых разнообразных дурносинтезаторов русской речи дохера, в том числе в исполнении вышеупомянутой “Сакрамент” только нафиг мне не сдались синтезаторы под винду.

Вопрос о том, расставляли ли все фонемы в русском дубляже Half-Life Episode 2 вручную, остается открытым. Написать им, чтоли…

update: Возможно, фокус не пройдет даже если мне удастся добыть такой распознаватель. Судя по внутренностям оригинального звука и русского дубляжа, фонемы для русского дубляжа расставляли каким-то совершенно иным софтом, который не пишет в исходный вав никаких сведений о произносимой фразе, и не делит ее на слова.

Вопрос только в том, автоматически это делалось или нет. Тупой генератор данных фонем из русской письменной фразы, подставляющий некие дефолтные значения для длительностей, которые потом надо было бы двигать ручками, написать несложно…

update 2 — update strikes back: Обнаружено достоверно что поддерживающий SAPI 5.1 распознаватель русской речи меня таки спасет. Обнаружено также что теоретически есть в природе Vocative Russian ASR Engine, но тоже только теоретически — его нельзя ни скачать ни пронаблюдать в демо-версии, и как и Сакраментовский, вероятно, он продается только телекомам за неприличные деньги. Горыныч, судя по различным интервью и прочей мути, ничего кроме SAPI 4.0 не поддерживает, что сделает его добычу бессмысленной.

Повбывав бы гадов.

Деление

thoughtful emoticon

Компьютеры размножаются делением.

  1. Купил новый основной, и их стало на один больше.
  2. Купил новый корпус под сервер, сложил сервер и старый основной в новом корпусе, и их стало на один меньше.
  3. Из остатков собрал еще один, в надежде применить его как очередной сервер для специфической надобности, и по ходу дела мне принесли еще обломков и барахла.
  4. По ходу сборки еще одного нового, уже не для себя, внезапно образовался еще один, и теперь из него и упомянутого выше сервера для специфической надобности надо собрать очередной целый комплект.
  5. …но после этого их все равно останется два, плюс горка обломков и барахла! Я уже как-то молчу про коллекцию старых кирпичей под Socket A, которых от этого станет еще больше.
  6. При этом, мне обещали где-то через месяц отдать на усыновление еще один комплект эпохи SDRAM, и тоже Socket A, но у него, похоже, потекли конденсаторы на маме, (Еще б я знал какие) отчего процессоров снова станет больше.

Сижу в облаке вытряхнутой из них пыли на горке винтиков и мечтаю о полном шкафу баллонов сжатого воздуха.