Skip to content

О сходстве головы и задницы

angry emoticon

И тем и другим можно издавать звуки. Различие же головы и задницы в том, что головой можно воспринимать звуки, а задницей затруднительно. И современный компьютер более напоминает задницу чем голову. Это я к тому, что перспектива вручную расставлять фонемы в километровых монологах меня не прельщает, и чтобы избежать ее, мне требуется распознаватель (а не синтезатор) русской речи под MS SAPI 5.1.

Раньше я страдал от синтеза речи, теперь страдаю от распознавания… Многочасовое копание в сети показывает, что:

  1. Существует ровно один движок распознавания русской речи под SAPI. Его якобы сделала компания с сакраментальным названием “Сакрамент”. Якобы, потому что приобрести его штатным порядком невозможно, в их ценнике его нет, и сколько они могут содрать за него даже думать боязно.
  2. Микрософт считает что достаточно сделать английский, японский и китайский распознаватели, а дальше вы как-нибудь сами. Впрочем, подобным же свинством они отличились и когда распознавали рукописный текст, так что тут ничего нового нет.
  3. Существует некая система “Горыныч” якобы изготовленная некоей компанией “VoiceLock”. Якобы изготовленная, потому что более ранние упоминания о ней говорят, что это скорее всего хак Dragon Dictate. Сайт у компании напрочь отсутствует, хотя диски с программой продаются аж на Озоне, поэтому выяснить достоверно, порождает ли установка программы движок распознавания в списке SAPI или нет — невозможно.

При этом самых разнообразных дурносинтезаторов русской речи дохера, в том числе в исполнении вышеупомянутой “Сакрамент” только нафиг мне не сдались синтезаторы под винду.

Вопрос о том, расставляли ли все фонемы в русском дубляже Half-Life Episode 2 вручную, остается открытым. Написать им, чтоли…

update: Возможно, фокус не пройдет даже если мне удастся добыть такой распознаватель. Судя по внутренностям оригинального звука и русского дубляжа, фонемы для русского дубляжа расставляли каким-то совершенно иным софтом, который не пишет в исходный вав никаких сведений о произносимой фразе, и не делит ее на слова.

Вопрос только в том, автоматически это делалось или нет. Тупой генератор данных фонем из русской письменной фразы, подставляющий некие дефолтные значения для длительностей, которые потом надо было бы двигать ручками, написать несложно…

update 2 — update strikes back: Обнаружено достоверно что поддерживающий SAPI 5.1 распознаватель русской речи меня таки спасет. Обнаружено также что теоретически есть в природе Vocative Russian ASR Engine, но тоже только теоретически — его нельзя ни скачать ни пронаблюдать в демо-версии, и как и Сакраментовский, вероятно, он продается только телекомам за неприличные деньги. Горыныч, судя по различным интервью и прочей мути, ничего кроме SAPI 4.0 не поддерживает, что сделает его добычу бессмысленной.

Повбывав бы гадов.

2 Comments

  1. parpalakparpalak wrote:

    Как-то давно я игрался с “Горынычем”. Это действительно какая-то надстройка над Dragon Dictate. Судя по оформлению, программа для Win 3.1. Более-менее правильно это работало под Win 9x, под Win XP есть глюки, в том числе с непонятными знаками вместо русских букв.

    Эту версию я откуда-то скачал. Не знаю, выходили ли новые версии. Если нужно, я могу найти (у себя на диске) архив и как-нибудь переслать (общий объем - около 30 Мб).

    Wednesday, March 5, 2008 at 13:53 | Permalink
  2. rn3aohrn3aoh wrote:

    На Озоне продают диск с новой версией, но думаю, там та же самая петрушка, так что не стоит париться — если оно не порождает распознаватель совместимый с SAPI и встающий в систему на положенное место, для решения моей проблемы оно все равно бесполезно. В рекламе Горыныча ни про какой API вообще не говорят.

    Подумав еще немного, я пришел к выводу, что мне подойдет любой распознаватель русской речи с достаточно документированным API, которому можно скормить звук и получить оттуда речь в виде списка фонем из ARPABET и их начал и длительностей с точностью до микросекунды. Мне придется писать софтинку для этого самому, но поскольку от нее на выходе требуется не графический интерфейс, а wav с дополнительным блоком данных, формат которых вроде бы известен, это дело не шибко хитрое. Но скорее всего, ничего подобного добыть не удастся, поскольку за все что хотя бы упоминается в сети стесняются просить конкретные деньги — а значит, оно как минимум, стоит неподъемно.

    Проще попросить от человека текст с проставленными паузами, соответствующими фактически произнесенному звуку, перегнать текст в фонетическую репрезентацию по словарю, а затем найти эти паузы в звуке и тупо поделить время звука между фонемами на равные промежутки, после чего записать результат в искомом формате. Это даст болванку для дальнейшей ручной работы, экономящую минимум половину времени…

    Wednesday, March 5, 2008 at 15:58 | Permalink

Post a Comment

Your email is never published nor shared. Required fields are marked *
*
*