<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Slow Fourier Transform &#187; speech recognition</title>
	<atom:link href="http://rn3aoh.net/archive/tag/speech-recognition/feed/" rel="self" type="application/rss+xml" />
	<link>http://rn3aoh.net</link>
	<description>Altering reality one world at a time</description>
	<lastBuildDate>Tue, 07 Feb 2012 11:11:29 +0000</lastBuildDate>
	<language>ru</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
		<item>
		<title>О сходстве головы и задницы</title>
		<link>http://rn3aoh.net/archive/2008/03/05/o-sxodstve-golovy-i-zadnicy/</link>
		<comments>http://rn3aoh.net/archive/2008/03/05/o-sxodstve-golovy-i-zadnicy/#comments</comments>
		<pubDate>Wed, 05 Mar 2008 00:38:01 +0000</pubDate>
		<dc:creator>rn3aoh</dc:creator>
				<category><![CDATA[Computers]]></category>
		<category><![CDATA[machinima]]></category>
		<category><![CDATA[speech recognition]]></category>
		<category><![CDATA[speech synthesis]]></category>

		<guid isPermaLink="false">http://rn3aoh.net/archive/2008/03/05/o-sxodstve-golovy-i-zadnicy</guid>
		<description><![CDATA[И тем и другим можно издавать звуки. Различие же головы и задницы в том, что головой можно воспринимать звуки, а задницей затруднительно. И современный компьютер более напоминает задницу чем голову. Это я к тому, что перспектива вручную расставлять фонемы в километровых монологах меня не прельщает, и чтобы избежать ее, мне требуется распознаватель (а не синтезатор) [...]]]></description>
			<content:encoded><![CDATA[<p>И тем и другим можно издавать звуки. Различие же головы и задницы в том, что головой можно воспринимать звуки, а задницей затруднительно. И современный компьютер более напоминает задницу чем голову. Это я к тому, что перспектива вручную расставлять фонемы в километровых монологах меня не прельщает, и чтобы избежать ее, мне требуется распознаватель (а не синтезатор) русской речи под MS SAPI 5.1.</p>

<p>Раньше я страдал от синтеза речи, теперь страдаю от распознавания&#8230; Многочасовое копание в сети показывает, что:</p>

<ol>
<li>Существует ровно один движок распознавания русской речи под SAPI. Его якобы сделала компания с сакраментальным названием &#8220;Сакрамент&#8221;. Якобы, потому что приобрести его штатным порядком невозможно, в их ценнике его нет, и сколько они могут содрать за него даже думать боязно. </li>
<li>Микрософт считает что достаточно сделать английский, японский и китайский распознаватели, а дальше вы как-нибудь сами. Впрочем, подобным же свинством они отличились и когда распознавали рукописный текст, так что тут ничего нового нет.</li>
<li>Существует некая система &#8220;Горыныч&#8221; якобы изготовленная некоей компанией &#8220;VoiceLock&#8221;. Якобы изготовленная, потому что более ранние упоминания о ней говорят, что это скорее всего хак Dragon Dictate. Сайт у компании напрочь отсутствует, хотя диски с программой продаются аж на Озоне, поэтому выяснить достоверно, порождает ли установка программы движок распознавания в списке SAPI или нет &#8212; невозможно.</li>
</ol>

<p>При этом самых разнообразных дурносинтезаторов русской речи дохера, в том числе в исполнении вышеупомянутой &#8220;Сакрамент&#8221; только нафиг мне не сдались синтезаторы под винду.</p>

<p>Вопрос о том, расставляли ли все фонемы в русском дубляже Half-Life Episode 2 вручную, остается открытым. Написать им, чтоли&#8230;</p>

<p><strong>update</strong>: Возможно, фокус не пройдет даже если мне удастся добыть такой распознаватель. Судя по внутренностям оригинального звука и русского дубляжа, фонемы для русского дубляжа расставляли каким-то совершенно иным софтом, который не пишет в исходный вав никаких сведений о произносимой фразе, и не делит ее на слова.</p>

<p>Вопрос только в том, автоматически это делалось или нет. Тупой генератор данных фонем из русской письменной фразы, подставляющий некие дефолтные значения для длительностей, которые потом надо было бы двигать ручками, написать несложно&#8230;</p>

<p><strong>update 2 &#8212; update strikes back</strong>: Обнаружено достоверно что поддерживающий SAPI 5.1 распознаватель русской речи меня таки спасет. Обнаружено также что теоретически есть в природе Vocative Russian ASR Engine, но тоже только теоретически &#8212; его нельзя ни скачать ни пронаблюдать в демо-версии, и как и Сакраментовский, вероятно, он продается только телекомам за неприличные деньги. Горыныч, судя по различным интервью и прочей мути, ничего кроме SAPI 4.0 не поддерживает, что сделает его добычу бессмысленной.</p>

<p>Повбывав бы гадов.</p>
]]></content:encoded>
			<wfw:commentRss>http://rn3aoh.net/archive/2008/03/05/o-sxodstve-golovy-i-zadnicy/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
	</channel>
</rss>
<!-- This Quick Cache file was built for (  rn3aoh.net/archive/tag/speech-recognition/feed/ ) in 0.70256 seconds, on Feb 10th, 2012 at 12:35 pm UTC. -->
<!-- This Quick Cache file will automatically expire ( and be re-built automatically ) on Feb 10th, 2012 at 1:35 pm UTC -->
