Tema6_sokr

Технологии распознавания речи и программы синтеза речи

История развития технологии распознавания речи уходит в далекое прошлое. Первую систему акустических резонаторов, издававших гласные звуки при помощи вибрирующих язычков, построил в конце XVIII века сотрудник Петербургского университета Кратценштейн. В то же время Вольфганг фон Кемпелен, разработал более сложную модель генерации связной речи, в роли резонаторов речевого тракта которой выступала гибкая трубка из кожи, управляемая оператором. Модель имела также отверстия для имитации носовых полостей и ручки управления свистками, создававшими фрикативные звуки. Оператор одной рукой приводил в движение меха, управлял "носовыми" отверстиями и плунжером язычка, имитируя работу легких и артикуляционных органов, а другой манипулировал кожаной трубкой, меняя "голосовой" тракт.

Следующий этап развития методов распознавания речи связан с появлением звукового кино в 30-е годы прошлого столетия. Ученый Е. А. Шолпо рисовал в крупном масштабе рассчитанные им звуковые волны, фотографировал их кадр за кадром и проигрывал готовую пленку через кинопроектор.

Несколько позже ученый Мурзин разработал способ распознавания речи, в основе которого лежал метод синтеза речи с помощью ряда Фурье. Сумма элементарных спектральных составляющих, в музыкальной акустике получили название "чистые тона". Банк "чистых тонов" Мурзин сконструировал в виде покрытого фотоэмульсией стеклянного диска, очень похожего на современный компакт-диск. С помощью специального станка на него концентрическими кольцами были записаны 144 фотооптические звуковые дорожки "чистых тонов".

Особый интерес представляет разработанная в 1937 году механическая модель речевого тракта, получившая название - говорящее устройство Риша. В данной модели были воспроизведены артикуляторные органы человека: губы, зубы, твердое небо, мягкое небо, язык и глотка. Для управления конфигурацией голосового тракта применялись похожие на трубы духового оркестра клавиши. Опытный оператор управления клавишами мог извлекать вполне разборчивую речь.

Первой электрической и одновременно последней аналоговой моделью речевого тракта стал прибор водер, разработанный Дадли, Ришем и Уоткинсом. Водер управлялся от ручной клавиатуры и синтезировал сигналы с заданным спектром. Десять параллельно соединенных полосовых фильтров составляли блок управления резонансами.

С развитием электротехники и телефонной связи интерес к синтезу речи возрос. Изобретенный Дадли полосной вокодер (вокодер – это система телефонной связи, в которой передаются сигналы не речевые, а специального кода, представляющие собой речь в закодированном виде) открыл целую эпоху не только в синтезе речи, но и в технике связи, так как помимо синтезатора он содержал еще и анализатор речи - блок полосовых фильтров, измерявших роль соответствующих спектральных компонентов. В основном этот прибор использовался военными. Модернизация вокодеров шла как по пути повышения естественности речи, так и по пути сокращения количества передаваемых сигналов. Появились корреляционные и форматные вокодеры. Способ передачи речи по корреляционному вокодеру состоит в следующем: по линии связи передается функция корреляции, получаемая быстрым измерением мгновенного спектра речи в дискретных точках, а в синтезаторе на приемном конце по ней восстанавливается мгновенный спектр речи. А в форматном вокодере информация передается не обо всем мгновенном спектре, а только о резонансных максимумах и минимумах - частотах полюсов и нулей передаточной функции речевого тракта, а также частота ОТ и решение тон-шум. Подобные системы давали разборчивость речи почти 100% для гласных звуков и около 70% для согласных при частотной полосе передачи примерно 300 Гц.

Главным фактором, ускорившим развитие программ распознавания речи, было совершенствование компьютеров. С их появлением вокодерные синтезаторы стали подключать к выходу ЭВМ. Затем их стали выпускать в виде небольших периферийных устройств, плат или чипов, содержащих целые словари готовых слов естественной речи. Периферийные записывающие устройства (ПЗУ) нашли свое применение в информационных системах и автоматических переводчиках. В настоящее время синтез речи перешел преимущественно в область программных решений, хотя еще встречаются смешанные продукты для профессионалов. Метод распознавания речи используемый на современном этапе развития данной проблемы заключается в следующем (см. рис. 152): Формально процесс распознавания речи можно описать так: аналоговый сигнал, генерируемый микрофоном, оцифровывается, и далее в речи выделяются фонемы (элементарные фрагменты, из которых состоят все произносимые слова). Затем определяется, какое слово, какому сочетанию фонем соответствует, и строится соответствующий словарь.

Рис. 152.Схема метода распознавания речи

Безусловно, программы для распознавания речи, требуют большой вычислительной мощности и значительных объемов памяти компьютера. Однако главная трудность при реализации данного метода на практике состоит в следующем. Во-первых, человек обычно не делает паузы между словами, а при слитном произнесении к задаче распознавания прибавляется еще и задача выделения слов (особенно односложных) из потока речи, что заведомо более сложно. Поэтому при произнесении слов важно, чтобы человек произносил слова по одному, делая достаточно продолжительные паузы или, чтобы каждое следующее слово произносилось после звукового сигнала. Но в этом случае встает проблема различия голосов, диалектов, дикций и прочих индивидуальные особенности говорящих.

В настоящее время существует два существенно различающихся режима работы: с настройкой на голос определенного человека и без такой настройки.

Размеры словаря при работе с настройкой на голос (speaker-dependent) могут достигать нескольких (и даже многих) тысяч слов при слитном произнесении. Рассмотрим процедуру настройки на голос (см. рис. 153).

Специалисты утверждают, что речь человека столь же индивидуальна, как отпечатки пальцев, поэтому речь человека можно использовать для построения различных охранных систем. В этом случае система настраивается на голос человека (или на голоса некоторого числа людей), которые при входе в систему называют кодовое слово, и компьютер реагирует только на эти голоса.

П ри втором способе распознавания речи (без настройки на голос) гарантируется, что система распознает любое включенное в словарь слово, кем бы оно ни было произнесено. Словари, в таких программах насчитывают небольшое количество слов (обычно не более двух десятков) и существуют для относительно небольшого числа языков (примерно тридцати). Создание словаря для распознавания речи без настройки на голос процесс дорогой и трудоемкий.

Рис. 153. Процедура настройки на голос

Например, для распознавания десяти-двадцати слов необходимо опросить несколько сотен или

даже тысяч носителей языка, выделять некие общие элементы их речи, а затем вывести усредненные значения. Хотя словарь без настройки на голос пользователя требует раздельного произнесения слов, этого оказывается вполне достаточно для некоторых приложений.

Существующие системы распознавания речи можно классифицировать по разным признакам.

По назначению:

командные системы,
системы диктовки текста.

По потребительским качествам:

диктороориентированные (тренируемые на конкретного диктора),
дикторонезависимые (рискую предложить термин "омнивойс"),
распознающие отдельные слова,
распознающие слитную речь.

По механизмам функционирования:

простейшие (корреляционные) детекторы,
экспертные системы с различным способом формирования и обработки базы знаний,
вероятностно-сетевые модели принятия решения, в том числе нейронные сети.

В настоящее время на рынке представлено множество коммерческих систем распознавания речи:

Voice Type Dictation, Voice Pilot и ViaVoice от IBM;
Dragon Dictate и Naturally Speaking от Dragon Systems;
Voice Assist от Creative Technology;
Listen for Windows от Verbex и многие другие.

Проведем сравнительный анализ существующих программ по распознаванию речи.

Программный комплекс "Горыныч" (разработчик: VoiceLock, соразработчик: российская фирма White Computers) - первая русскоязычная система автоматического распознавания речи. Словарь программы содержит 10 тысяч слов. С помощью данной программы можно вводить текст с голоса на русском и английском языке. Скорость голосового набора текстов зависит от производительности компьютера и может достигать 500-700 печатных знаков в минуту, что значительно превышает скорость "слепого" метода печатания. При этом система "Горыныч" осуществляет автоматический контроль правописания: в текстах, введенных с ее помощью. Во время работы можно пользоваться клавиатурой и мышкой. Система позволяет работать с несколькими библиотеками произношений - их количество может достигать восьми на одном рабочем месте. При диктовке слова необходимо произносить отдельно, делая небольшие паузы. Слово произносится без учета его грамматического написания. Неверное распознанное слово может быть исправлено либо с помощью клавиатуры, либо путем выбора нужного слова из списка предложенных вариантов.

Системные требования: Microsoft Windows 95/98/NT. Свободное пространство на жестком диске - минимум 25 Мб. Процессор - не ниже 133 МГц. Оперативная память - не менее 16 Мб (для Windows NT - 32Мб). Звуковые карты среднего и высшего (например, 16-ти разрядная звуковая карта, имеющая микрофонный вход).

Программа распознавания русской речи - "Комбат" московской фирмы "Вайт Груп" - русифицированная версия программы Dragon Dictate. Представляет собой программу ввода текстов с помощью микрофона в компьютер. "Комбат" позволяет настраиваться на очень широкий диапазон голосов: от детского или женского до мужского.

Система облегчает работу с компьютером слабовидящим людям и инвалидам с травмами рук, так как позволяет управлять практически всей операционной системой компьютера с помощью голоса. Скорость вводимого текста составляет от 350 до 600 знаков в минуту, в зависимости от производительности компьютера, при этом сохраняется возможность пользования, как мышкой, так и клавиатурой. Слова необходимо произносить очень четко, медленно и с небольшими паузами (степень распознавания текста 30 %).

Программа при инсталляции в зависимости от оперативной системы загружает либо 16-ти разрядные, либо 32-х разрядные драйвера. Для установки и эксплуатации системы необходим привод CD-ROM и электретный микрофон, который в меньшей степени (по сравнению с динамическим) реагирует на посторонние внешние шумы.

Компания "Сакрамент" разработала собственные модули распознавания отдельных слов и речевых команд, которые могут быть использованы в любом из приложений для решения самого широкого спектра задач, в том числе и для работы с белорусским и украинским языками. Разработанный модуль раздельного распознавания слов позволяет вводить цифры от 0 до 9 и 20 основных команд, присущих стандартному MS Windows Calculator. Модуль распознавания изолированных слов имеет словарь на 300 слов, точность составляет 95-98%, его можно внедрять в различные приложения.

Программный комплекс Philips FreeSpeech, разработан компанией . Он дает возможность диктовать текст в любой программе для Windows, где есть ввод текста, а также позволяет управлять перемещениями по меню и окнам на Рабочем столе. Словарь содержит 64 тысячи слов. Однако данный программный комплекс не распознает русского языка. В отличие от других пакетов, FreeSpeech требует ручного переключения между диктовкой, управлением, диктовкой по буквам и режимом "сна". Соответствующие команды можно подавать голосом, но скорость и качество распознавания невелики. Системные требования: Pentium MMX-166, память 32 Мбайт, 64 Мбайт на жестком диске, 16-разрядная звуковая плата.

Dragon NaturallySpeaking Preferred, разработанный компанией Dragon один из лучших программных пакетов. Он обладает высокой степенью распознавания речи (62 тысячи слов) и прост в использовании. С Dragon можно работать двумя способами: во-первых, пакет позволяет диктовать в своем текстовом окне (получившийся документ затем вставляется в нужную программу), во-вторых, он содержит встроенные утилиты, обеспечивающие ввод непосредственно в окне текстового процессора, почтовой программы, электронной таблицы. В качестве недостатка данной программы можно отметить неудобный ввод чисел, посредственное управление экраном и отсутствие распознавания текста на русском языке. Системные требования: Pentium-133, память 32 Мбайт, 60 Мбайт на жестком диске, 16-разрядная звуковая плата.

Программный комплекс Voice Xpress Professiona, разработанный компанией Lernout & Hauspie Данная система хорошо интегрируется с компонентами Microsoft Office,обладает хорошим распознаванием чисел, но уступает программе Dragon в качестве распознавания слов и команд. Также качество распознавания текста неравномерное, команды управления и форматирования иногда воспринимаются неправильно, а паузы необходимо делать перед командой и после нее. С другой стороны пакет обладает лучшей из всех рассмотренных системой исправления ошибок. Системные требования: Pentium MMX-166, память 48 Мбайт, 130 Мбайт на жестком диске, 16-разрядная звуковая плата.

IBM VOICETYPE simply speaking gold, разработанная компанией IBM, была использована в качестве основы при разработке голосового интерфейса операционной системы OS/2, она обеспечивает надежное функционирование даже в условиях высокой шумности, что является ее несомненным достоинством. IBM VOICETYPE интегрируется во множество различных приложений, в первую очередь - в Microsoft Word. На практике в Microsoft Word инициализируется модуль и инструментальная панель DICTATION, позволяющая сразу же после установки переходить к вводу текста на английском языке. Система хорошо справляется со стенографированием, распознает речь с сильным акцентом. Установочная версия IBM VOICETYPE содержит достаточно небольшой набор системных управляющих команд, но пользователь может настроить собственные голосовые режимы. Недостатком системы является наличие у IBM VOICETYPE режима, при котором программа автоматически набирает текстом все то, что не хранится в качестве голосового аналога системной команд, и если пользователь использовал созвучные выражения, скорее всего распознавание будет неправильным. Второй достаточно серьезной проблемой IBM VOICETYPE является встроенный модуль самообучения: если программа решит, что правильно распознала слово или выражение, в смысле текстового эквивалента, но не уловила до конца вашей индивидуальной тонкости произношения, то она может "попросить" пользователя повторить слово пару раз и перезапишет совершенно исправный фрагмент, но при плохом произношении слово может быть записано неверно.

Game Commander - программа для управления компьютером с помощью голосовых команд, имеет удобный интерфейс, работает с Windows-приложениями, есть модуль глобальных команд и отдельный модуль для каждого приложения. В качестве недостатка можно назвать отсутствие функции работы с мышью и распознавания на русском языке , однако с помощью трейнинга GameCommander начинает подчиняться командам на любом языке.

Труффальдино - программа голосового управления домашним или офисным оборудованием, используется для голосового управления: телевизором, домофоном, видео-магнитофоном, аудио-системами, кондиционером, микроволновой печью, освещением, телефоном и другим оборудованием. Распознает несколько десятков команд на любом языке. Очень полезна для людей с ограниченными физическими возможностями. Системные требования: конфигурация ПК Pentium 200 или выше, RAM 16 Mб, HDD > 2Гб, Windows не ниже 95/98, Стандартная звуковая карта типа SoundBlaster, микрофон, дополнительное устройство контроля за оборудованием (например, Infra-Red X-tender).

Содержание