Билет № 19
Принципы технологии распознавания слитной речи. Трудности решения задачи в общем виде. Ограничения позволяющие реализовать реальные системы. Конкретные примеры программ распознавания речи.
Задача распознавания речи (речевого ввода) существенно сложнее задачи синтеза речи (речевого вывода) и к настоящему времени решается лишь при ряде ограничений:
Ограничен объём словаря для вводимой информации (от 50 до 300 слов; при увеличении словаря падает достоверность, растёт время распознавания).
Устройства ввода распознают изолированно (раздельно) произносимые слова. Задача распознавания слитной речи пока окончательно не решена.
Проявляется зависимость достоверности распознавания от индивидуальных свойств речи конкретного оператора, вследствие чего требуется настройка устройства на данного диктора и его словарь. Достоверность распознавания при соблюдении некоторых условий может достигать 92 – 99 %.
Система распознавания речи «Dragon Naturally Speaking»
Разработка компании Nuance (капитализация 5 млрд. долларов) – программный продукт, система диктовки для любого текста и любого пользователя на английском языке. Система требует пред началом работы адаптации языковых моделей и расширения словаря. Адаптация языковых моделей производится путем загрузки в систему типичных для работы пользователя текстов и последующей корректировки статистических языковых моделей. Расширение словаря – задача пользователя. Насколько успешно он с ней справится, настолько успешно будет работать система. Любая система распознавания знает только те слова, что есть в ее словаре. Существует в этой системе и подстройка под голос диктора. Для этого нужно минут тридцать почитать тексты, предложенные системой, что бы программа адаптировала параметры существующих акустических моделей.
Следует четко понимать, что на данном этапе (а может быть и в принципе) создание универсального продукта невозможно. Например, для журналистов, которые проводят интервью с разными людьми, в разном окружении, в разных местностях. Надеяться на появление мобильных и даже стационарных устройств для распознавания спонтанной речи не приходится. Спонтанная речь отличается более сложными языковыми и акустическими моделями. Вычислительные мощности и речевые базы спонтанной речи должны иметь гигантские размеры. В то же время системы с ограниченным специализированным словарем есть и хорошо работают. Например, их используют медицинские учреждения в США. Известно, что медицинским работникам постоянно требуется делать какие – то записи, будь то история болезни или протоколирование действий. Медики в США наговаривают текст, который автоматически переводится в машинный вид. Затем текст подвергается косметической правке. Соответствующие технологии есть у фирмы Nuance. Объем продаж медицинских систем распознавания речи в США составляет 12 – 15 млрд. долларов. Можно, так же отметить мультимедийную систему изучения английского языка в игровой форме «TriplePlayPlus English». Разработка Сиракузского университета США (так же разновидность системы Dragon), в которой реализован диалоговый речевой режим обучаемого и программы. Производится предварительная настройка по принципу (мужчина, женщина или ребенок). Затем, в ходе речевого диалога, программа не пропустит на следующий этап обучения до тех пор, пока ее не «удовлетворит» произношение обучаемого.
В целом, в плане практического применения, наибольших успехов достигли системы на ограниченных специализированных словарях.
2. Разновидности сканеров. Краткие характеристики
принципов работы и областей применения.
Разновидности сканеров
В зависимости от способа сканирования объекта и самих объектов сканирования основными типами сканеров являются 4 основные разновидности:
Ручные сканеры
В этом типе сканеров отсутствует двигатель, перемещающий устройство сканирования, поэтому пользователю приходится сканировать объект вручную, перемещая по нему сканер. Основным их плюсом является мобильность, т.е. возможность «подлезть» туда, откуда невозможно сканировать другими типами сканеров.
Они имеют характерные недостатки: низкое разрешение, малую скорость работы, узкую полосу сканирования, возможные перекосы изображения, поскольку пользователю будет трудно перемещать сканер с постоянной скоростью.
Однако существуют «ниши», где использование их оправдано и необходимо. Например,
в мобильных офисах, в редакционной деятельности (сканер – «карандаш»). Так же они применяются для считывания различных этикеток (товарных кодов), наклеек на упаковках (штрих - кодов), номеров различных документов (таможня и т.п.). Эти сканеры конструктивно оформляются как ручные приборы, которые позволяют сканировать методом скольжения сканирующей головки по объекту сканирования.
Настольные планшетные сканеры
Наиболее распространенный тип сканеров — планшетный (плоскостной). Почти все модели имеют съемную крышку, что позволяет сканировать толстые оригиналы (журналы, книги).
Дополнительно некоторые модели могут оснащаться механизмом подачи отдельных листов, что удобно при работе с программами распознавания текстов — OCR (Optical Characters Recognition).
Это сканеры, с помощью которых пользователь может перевести в цифровой вид текстовую и графическую информацию, а затем сохранить ее, передать по линиям связи или подвергнуть обработке (редактированию, распознаванию и т.п.) на компьютере. Представляет собой планшет, внутри которого под прозрачным стеклом расположен механизм сканирования.
Планшетные сканеры, делятся на 3 типа:
1. Сканеры с подвижной головкой и неподвижным оригиналом FLATBED (рис. 4. 8, а).
2. Сканеры с неподвижной головкой и подвижным оригиналом – SHEEDFED (рис. 4.8, б).
3. Сканеры проекционного типа с зеркалом – OVER HEAD (рис. 4.8, в).
Структуры планшетных сканеров первых двух типов весьма сходны и отличаются только тем, что перемещается в процессе сканирования документа – сканирующая головка при неподвижном оригинале или наоборот.
Следует, однако, отметить, что сканеры с неподвижной сканирующей головкой работают более точно. В зависимости от конструктивного исполнения сканеры этих двух типов позволяют сканировать страницы книг, журналов и отдельных листов.
Сканеры проекционного типа по сравнению с двумя первыми разновидностями планшетных сканеров являются наиболее точными устройствами, так как и документ, и сканирующая головка неподвижны друг относительно друга. Построчное сканирование в устройствах этого типа осуществляется за счёт поворота проекционного зеркала, которое обеспечивает отображение строки документа, расположенной между осветительными лампами, на ПЗС - элемент.
Слайдовые сканеры
Слайд-сканеры — предназначены для сканирования плёночных слайдов. Выпускаются как самостоятельные устройства, так и в виде дополнительных модулей к планшетным сканерам.
Такие сканеры предназначены для сканирования слайдов, микрофильмов микрофишей, рентгеновских плёнок и т.п.
Они имеют высокое оптическое разрешение (6000 dpi – 236 точек/мм и выше).
Рис. 4. 9. Сканер марки ScanMaker 9800XL (MICROTEK), укомплектован слайд-модулем (размещен в крышке), со своим источником света.
Планшетные сканеры для сканирования прозрачных оригиналов могут комплектоваться слайд - модулем, который имеет свой источник света, расположенный сверху (рис. 4.9 и 4.10). Такой слайд-модуль устанавливается на плоскостной сканер вместо простой крышки, делая сканер универсальным (плоскостной сканер и установленный слайд-модуль).
Барабанные сканеры являются профессиональными устройствами, в которых светочувствительным элементом является фотоэлектронный умножитель (ФЭУ). Устройство ФЭУ рассмотрим далее (рис. 4. 11, 4.12). Благодаря ФЭУ и неподвижной сканирующей головке обеспечивается точнейшая фокусировка, а поскольку сканируется каждая точка по отдельности – исключаются взаимовлияние элементов друг на друга как в случае CCD-технологии (рис. 4.14).
Основное отличие барабанных сканеров заключается в том, что оригинал закрепляется на прозрачном барабане, который вращается с высокой частотой. Считывающий элемент располагается максимально близко от оригинала. Данная структура обеспечивает высокое качество сканирования. Обычно в барабанных сканерах установлено три фотоумножителя, и сканирование осуществляется за один проход. Барабанные сканеры способны сканировать непрозрачные и прозрачные оригиналы. Обратимся к рис. 4.14. Сканируемый оригинал (4) крепится на специальном барабане (2). Чтобы оригинал не повредился от чрезвычайно яркого источника, свет поступает по волоконно-оптическому кабелю (3) от галогенной лампы (1).
Объектив (5) и система зеркал (6) передаёт изображение на светофильтры (7) и светоприёмники–ФЭУ. Барабан вращается с высокой скоростью, постепенно перемещаясь вдоль оси вращения барабана, и за каждый оборот барабана снимается несколько точек изображения.
Барабанные сканеры дороги, но с их помощью можно получать изображения с высокой степенью детализации, которые, в свою очередь, могут быть использованы для последующего ретуширования, цветоделения и, наконец, формирования конечного варианта представления страницы издания или пленки для изготовления печатной формы.
- Билет № 1
- Билет № 2
- 2. Клиппирование речевого сигнала.
- 3. Выделение формантных параметров речи.
- Билет № 3
- Билет № 4
- Билет № 5
- 1. Методы кодирования- востановления формы речевых сигналов.
- 2. Аналоговые методы синтеза формантных частот.
- 3. Синтезаторы третьего типа используют метод цифрового моделирования голосового тракта человека.
- Билет № 6
- Билет № 7
- Билет № 8
- Билет № 9
- Билет № 10
- 3.4.4.2. Форматы пакетов
- 3.4.4.2.1. Маркерный пакет
- 3.4.4.2.2. Маркер начала кадра (sof)
- 3.4.4.2.3. Пакет данных
- 3.4.4.2.4. Пакет подтверждения
- Билет № 11
- Билет № 12
- Билет № 13
- Билет № 14
- Билет № 15
- Билет № 16
- Билет № 17
- Билет № 18
- Рассмотрим общее устройство и принцип работы пзс.
- 1. Методы кодирования- востановления формы речевых сигналов.
- 2. Аналоговые методы синтеза формантных частот.
- 3. Синтезаторы третьего типа используют метод цифрового моделирования голосового тракта человека.
- Билет № 19
- Билет № 20
- 4.1. Еще в 1996 г. Компания Lernout & Hauspie Speech Products
- 4.2. Управление голосом Vocollect
- 4.3. Система распознавания речи «Dragon Naturally Speaking»
- 4.4. Разработка «Горыныч».
- 4.5 Фирма црт (Центр речевых технологий, Ст. Петербург)
- «Икар Лаб»
- Назначение и области использования.
- Функциональные возможности
- 3.6.1.Качество печати.
- 3.6.2. Скорость печати.
- 3.6.3.Память принтера.
- 3.6.4. Бумага и лотки
- 3.6.5. Чернила и тонер.
- 3.6.6. Подключение к компьютеру.
- Билет № 21
- Билет № 22
- Билет № 23
- 3.2. Матричный принтер.
- 3.3. Струйный принтер.
- 3.4. Лазерный принтер.
- 3.5. Сублимационный принтер.
- Билет № 24
- Билет № 25
- Билет № 26
- Билет № 27
- 3.4.4.2. Форматы пакетов
- 3.4.4.2.1. Маркерный пакет
- 3.4.4.2.2. Маркер начала кадра (sof)
- 3.4.4.2.3. Пакет данных
- 3.4.4.2.4. Пакет подтверждения
- Билет № 28