Системы машинного перевода
В современную эпоху научно-технической революции и информатизации общества возросла интенсивность общения между народами и странами. Однако этот процесс в значительной мере тормозится языковыми барьерами. Обучение иностранным языкам и переводческая деятельность в какой-то мере смягчают остроту проблемы, но полностью ее не решают. Более радикальным решением является создание систем автоматического перевода текстов с одних естественных языков на другие. Такие системы создаются во многих развитых странах мира, однако качество автоматического перевода оставляет желать лучшего.
Многие выдающиеся лингвисты вообще ставили под сомнение – и не без основания – возможность адекватного перевода текстов с одного естественного языка на другой, как это ни парадоксально звучит в эпоху интенсивной переводческой деятельности. Для получения на практике адекватного перевода необходимо использование экстралингвистической информации, т. е. такой, которая не содержится в переводимом тексте, но существует в виде накопленного общественного знания. Это и служит основным препятствием для полностью автоматического (т. е. осуществляемого без участия человека) перевода с одного языка на другой. Поэтому, говоря о машинном переводе, мы подразумеваем лишь частично автоматизируемую деятельность, в которой на разных ее этапах участвует человек. Поскольку перевод специальных текстов при помощи компьютера может быть значительно облегчен и ускорен, системы машинного перевода стали полезным инструментом в работе переводчика и важным фактором снижения затрат в этой области.
Человеческий перевод текстов с одних естественных языков на другие – это сложный мыслительный процесс. Он осуществляется на основе восприятия исходного текста и последующей передачи его смысла средствами выходного языка. При этом переводятся не слова и их последовательности, а понятия и мыслительные образы, порождаемые в сознании переводчика под их воздействием. Системы машинного перевода текстов предназначены для моделирования работы человека-переводчика. Но если моделировать эту работу в полном объеме пока не представляется возможным, то нужно, по крайней мере, стремиться при машинном переводе оперировать теми единицами языка и речи, которые позволяют наиболее точно передавать содержание текста, написанного на одном языке, средствами другого языка. Такими единицами являются, прежде всего, фразеологические обороты и терминологические словосочетания и, во вторую очередь, отдельные слова. Поэтому перспективные системы машинного перевода должны опираться на фразеологическое богатство естественных языков. Они должны быть системами фразеологического перевода.
Концепция фразеологического машинного перевода была впервые четко сформулирована профессором Г. Г. Белоноговым в 1975 г. Далее она была развита и в настоящее время реализована в ВИНИТИ в виде двух систем: системы русско-английского перевода (RETRANS) и систем англо-русского перевода (ERTRANS)1. Если в других системах перевода в качестве основной минимальной единицы смысла, представляемой в машинных словарях, рассматривается слово и их можно охарактеризовать как системы преимущественно пословного семантико-синтаксического перевода, то в системах фразеологического перевода в качестве основной единицы смысла считаются фразеологические словосочетания, выражающие понятия, отношения между понятиями и ситуации. Это позволяет точнее передавать смысл переводимых текстов.
Как уже было указано, система RETRANS предназначена для перевода текстов с русского языка на английский. Тематика переводимых текстов включает широкий спектр предметных областей: экономику, коммерческую деятельность, машиностроение, электротехнику, энергетику, транспорт, аэронавтику, космонавтику, биологию, медицину, экологию, сельское хозяйство, математику, физику, химию, автоматику и радиоэлектронику, вычислительную технику, информатику, астрономию, геофизику, геологию, горное дело, металлургию, политику, законодательство и другие дисциплины. Словарь системы содержит около миллиона словарных статей и обеспечивает покрытие политематических текстов на 97–99 %. Это самый большой в мире русско-английский машинный словарь. Доля словосочетаний и фразеологических оборотов в словаре – около 80 %.
Система реализована на персональных компьютерах типа IBM РС/АТ. Скорость перевода текстов в автоматическом режиме – не менее 10–30 слов/сек. и зависит от быстродействия машины. Предусмотрена возможность работы в интерактивном режиме (с целью повышения качества перевода). Есть также возможность дополнительной настройки системы на конкретного пользователя. Для функционирования системы необходим объем оперативной памяти не менее 600 Кбайт и объем дисковой памяти не менее 20 Мбайт. Система работала под управлением операционной системы MS DOS 6.0 и выше. Теперь она работает под Windows 2000, встраивается в Word и доступна в Интернете на сайте ВИНИТИ. Система англо-русского перевода (ERTRANS) имеет характеристики, аналогичные системе RETRANS.
Одной из важнейших проблем, стоящих перед переводом, является частое и не всегда сразу заметное изменение значений слов. Словари не всегда успевают отразить эти изменения в научно-технической терминологии. В одном из докладов на международной конференции переводчиков приводились интересные примеры из вычислительной техники. Слово «компьютер» во времена Шекспира обозначало человека, выполняющего арифметические вычисления. В наше время подобное изменение претерпело слово «редактор», которым все больше обозначают программу обработки текста. Английские же слова word processor, первоначально употреблявшиеся в значении компьютера для обработки текста, а затем – и соответствующей программы, претерпело обратное изменение: теперь они часто применяются к людям и указывают на специалистов, поддерживающих работу этих программ.
С точки зрения пользователя системы машинного перевода могут подразделяться на три основных типа:
Информативные, предназначенные для помощи тем, кому нужен доступ к информации на иностранном языке и кто готов пользоваться «грубым», но достаточно понятным переводом. Такие системы, как правило, имеют словари большого объема, но не опираются на новейшие достижения в лингвистике и программировании.
Профессиональные, которые дают лишь черновые наброски перевода для профессиональных переводчиков и тем освобождают их от черновой работы. Такие системы теперь используются все реже, – как правило, при большом объеме текущей переводческой работы, выполняемой одновременно многими специалистами в одной предметной области. Чаще в этих ситуациях переводчиков снабжают автоматическими словарями, тезаурусами с интерактивным доступом или системами, получившими название «памяти переводчика».
Персональные – для авторов, желающих перевести свои статьи на иностранный язык, которым они не вполне владеют. Такие системы обычно работают в диалоге с пользователем и могут давать удовлетворительный перевод (качество которого все же зависит от того, насколько автор владеет выходным языком).
По применяемым лингвистическим методам системы машинного перевода можно разделить также на три типа:
Системы прямого перевода – наиболее многочисленные, поскольку начали создаваться еще в 50–60-е годы для фиксированных пар языков. В этих системах словарь и синтаксис входного языка анализируются лишь в той мере, в какой это необходимо для идентификации правильных выражений выходного языка и порядка слов. В начале своего развития эти системы выдавали пословные переводы и лишь позднее – переводы, основанные на анализе предложений входного языка.
Системы перевода с использованием языка-посредника, служащего для отображения «смысла» входного текста, который преобразуется в семантические и синтаксические представления, общие для нескольких выходных языков. Этот метод применяется обычно при необходимости перевода исходного текста на несколько языков (в переводческих центрах Европейского сообщества, например).
Системы перевода с трансфером более сложны, нежели предыдущие типы, поскольку языки-посредники применяются дважды – первый раз при переводе с входного языка, второй – при переводе на выходной язык. В этом случае становится необходимым дополнительный этап перевода – с языка-посредника входного языка на язык-посредник выходного языка. За этот счет достигается более глубокий лингвистический анализ и синтез.
В последние годы все большее применение в машинном переводе находят методы искусственного интеллекта, которые при переводе учитывают семантику текста. Это означает, что они опираются не столько на грамматические, сколько на семантико-синтаксические категории. Обычные для лингвистических методов многочисленные неоднозначности и неясности устраняются за счет внеязыковой базы данных. Это означает, что система пытается «понять» текст на входном языке до его перевода. Однако и методы искусственного интеллекта пока не дают всей информации, необходимой для полноценного машинного перевода. В частности, проблемы возникают при переводе с английского языка на японский. «Понимание» английского текста не дает достаточной информации о состоянии пишущего и читающего, необходимой для адекватного перевода на японский язык.
Несмотря на все оговорки, связанные с несовершенством систем машинного перевода, существуют уже сотни достаточно широко используемых систем такого рода.
- Р. С. Гиляревский основы информатики Курс лекций
- Содержание
- Вводная лекция Информатика как научная дисциплина
- Становление информатики
- Предмет и объекты исследования
- Информатика и другие науки и научные дисциплины
- Информация – знание – наука
- Информация и данные
- Свойства информации
- Структура информации
- Особенности информации
- Информация научная и техническая
- Наука как социальное явление
- Р. Мертон
- М. Поланьи
- К. Поппер
- Перспективы развития науки
- Интеллектуальная коммуникация Основные понятия
- Система научной коммуникации
- Библиотечная и информационная деятельность
- Научно-информационная деятельность
- Этапы и задачи коммуникации
- Информационное обслуживание
- Перспективы развития
- Человек в процессе коммуникации Потребители информации
- Эгалитарность информационного обслуживания
- Информационные потребности в развитии
- Литература как источник информации Основные понятия, эволюция и типология
- Закономерности роста и старения
- Закон рассеяния
- Перспективы развития
- Информационные издания и услуги Основные виды
- Реферирование и библиографирование
- Реферативный журнал винити
- Зарубежные реферативные журналы
- Электронная информация и базы данных
- Сети передачи и средства хранения и обработки данных
- Информационные услуги
- Информационные структуры и инфраструктура
- Информационный поиск Предыстория и сущность
- Процедуры и понятия
- Координатное индексирование
- Цитирование, библиографическое сочетание, социтирование
- Цитирующие документы
- Цитируемые документы
- Иерархические и фасетные классификации
- Рубрикаторы информационных изданий
- Разные типы информационно-поисковых языков
- Базы и банки данных
- Информационные системы Информационно-поисковые системы
- Интеллектуальные информационные системы
- Гипертекстовые системы Возникновение и развитие идеи гипертекста
- Логико-смысловой граф и логика связности
- Гипертекст как развитие функций чтения и письма
- Отечественные гипертекстовые системы гиперлог и семпро
- Системы гипермедиа как развитие гипертекста
- Системы машинного перевода
- Информационная технология о понятии информационной технологии
- Тенденции развития информационных технологий
- Влияние информационных технологий на развитие науки
- Социальные последствия новой технологии
- Компьютерные средства коммуникации Электронные вычислительные машины
- Новые поколения компьютеров
- Персональный компьютер и персональные вычисления
- Работа с текстом на компьютере о языках программирования
- Прикладные программы подготовки текстов
- "Понимание" текста на естественном языке
- Электронная книга Новая концепция книги
- Сущность, особенности и разновидности электронной книги
- Электронный журнал: проблемы распространения и хранения
- Организационные и юридические проблемы
- Электронная библиотека реальная и виртуальная
- Лучше ли электронная книга традиционной печатной? Доводы за электронную книгу
- Доводы против электронной книги
- Заменит ли электронная книга бумажную?
- Сведения об Интернет Интернет как глобальная компьютерная сеть
- Организация доступа к первоисточникам Научно-техническая информация
- Политическая информация
- Новости и литература в электронной форме
- Развлекательная и бытовая информация
- Образование
- Музеи, галереи и художественные выставки
- Информация по Интернет
- Заключительная лекция Идеи и методы информатики
- Поиски фундаментального закона
- Определение и предметная область информатики
- Перспективы информатики
- Словарь терминов