logo
Gilyarevsky_R_S_Osnovy_informatiki

Системы машинного перевода

В современную эпоху научно-технической революции и информатизации общества возросла интенсивность общения между народами и странами. Однако этот процесс в значительной мере тормозится языковыми барьерами. Обучение иностранным языкам и переводческая деятельность в какой-то мере смягчают остроту проблемы, но полностью ее не решают. Более радикальным решением является создание систем автоматического перевода текстов с одних естественных языков на другие. Такие системы создаются во многих развитых странах мира, однако качество автоматиче­ского перевода оставляет желать лучшего.

Многие выдающиеся лингвисты вообще ставили под сомнение – и не без основания – возможность адекватного перевода текстов с одного естественного языка на другой, как это ни парадоксально звучит в эпоху интенсивной переводческой деятельности. Для получения на практике адекватного перевода необходимо использование экстралингвистической информации, т. е. такой, которая не содержится в переводимом тексте, но существует в виде накопленного общественного знания. Это и служит основным препятствием для полностью автоматического (т. е. осуще­ствля­емого без участия человека) перевода с одного языка на другой. Поэтому, говоря о машинном переводе, мы подразумеваем лишь частично автоматизируемую деятельность, в которой на разных ее этапах участвует человек. Поскольку перевод специальных текстов при помощи компьютера может быть значительно облегчен и ускорен, системы машинного перевода стали полезным инструментом в работе переводчика и важным фактором сниже­ния затрат в этой области.

Человеческий перевод текстов с одних естественных языков на другие – это сложный мыслительный процесс. Он осуществ­ляется на основе восприятия исходного текста и последующей передачи его смысла средствами выходного языка. При этом переводятся не слова и их последовательности, а понятия и мы­сли­тельные образы, порождаемые в сознании переводчика под их воздействием. Системы машинного перевода текстов предназначены для моде­ли­рования работы человека-переводчика. Но если моделиро­вать эту работу в полном объеме пока не представляется возмож­ным, то нужно, по крайней мере, стремиться при машинном переводе оперировать теми единицами языка и речи, которые позволяют наиболее точно передавать содержание текста, напи­санного на одном языке, средствами другого языка. Такими единицами являют­ся, прежде всего, фразеологические обороты и терминологи­ческие словосочетания и, во вторую очередь, отдель­ные слова. Поэтому перспективные системы машинного перевода должны опираться на фразеологическое богатство естественных языков. Они должны быть системами фразеологического перевода.

Концепция фразеологического машинного перевода была впервые четко сформулирована профессором Г. Г. Белоноговым в 1975 г. Далее она была развита и в настоящее время реализована в ВИНИТИ в виде двух систем: системы русско-английского перевода (RETRANS) и систем англо-русского перевода (ERTRANS)1. Если в других системах перевода в качестве основной минимальной единицы смысла, представляемой в машинных словарях, рассматривается слово и их можно охарактеризовать как системы преимущественно пословного семантико-синтаксического перево­да, то в системах фразеологического перевода в качестве основной единицы смысла считаются фразеологические словосочетания, выражающие понятия, отношения между понятиями и ситуации. Это позволяет точнее передавать смысл переводимых текстов.

Как уже было указано, система RETRANS предназначена для перевода текстов с русского языка на английский. Тематика переводимых текстов включает широкий спектр предметных областей: экономику, коммерческую деятельность, машиностроение, электротехнику, энергетику, транспорт, аэронавтику, космонавтику, биологию, медицину, экологию, сельское хозяйство, математику, физику, химию, автоматику и радиоэлектронику, вычислитель­ную технику, информатику, астрономию, геофизику, геологию, горное дело, металлургию, политику, законодательство и другие дисциплины. Словарь системы содержит около миллиона словарных статей и обеспечивает покрытие политематических текстов на 97–99 %. Это самый большой в мире русско-английский машинный словарь. Доля словосочетаний и фразеологических оборотов в словаре – около 80 %.

Система реализована на персональных компьютерах типа IBM РС/АТ. Скорость перевода текстов в автоматическом режиме – не менее 10–30 слов/сек. и зависит от быстродействия машины. Предусмотрена возможность работы в интерактивном режиме (с целью повышения качества перевода). Есть также возможность дополнительной настройки системы на конкретного пользователя. Для функционирования системы необходим объем оператив­ной памяти не менее 600 Кбайт и объем дисковой памяти не менее 20 Мбайт. Система работала под управлением опера­ционной системы MS DOS 6.0 и выше. Теперь она работает под Windows 2000, встраивается в Word и доступна в Интернете на сайте ВИНИТИ. Система англо-русского перевода (ERTRANS) имеет характеристики, аналогичные системе RETRANS.

Одной из важнейших проблем, стоящих перед переводом, является частое и не всегда сразу заметное изменение значений слов. Словари не всегда успевают отразить эти изменения в науч­но-технической терминологии. В одном из докладов на меж­ду­народной конференции переводчиков приводились интересные примеры из вычислительной техники. Слово «компьютер» во времена Шекспира обозначало человека, выполняющего арифметические вычисления. В наше время подобное изменение претерпело слово «редактор», которым все больше обозначают программу обработки текста. Английские же слова word processor, первоначально употреблявшиеся в значении компьютера для обработки текста, а затем – и соответствующей программы, претерпело обратное изменение: теперь они часто применяются к людям и указывают на специалистов, поддерживающих работу этих программ.

С точки зрения пользователя системы машинного перевода могут подразделяться на три основных типа:

Информативные, предназначенные для помощи тем, кому нужен доступ к информации на иностранном языке и кто готов пользоваться «грубым», но достаточно понятным переводом. Такие системы, как правило, имеют словари большого объема, но не опираются на новейшие достижения в лингвистике и программировании.

Профессиональные, которые дают лишь черновые наброски перевода для профессиональных переводчиков и тем освобождают их от черновой работы. Такие системы теперь используются все реже, – как правило, при большом объеме текущей переводческой работы, выполняемой одновременно многими специалистами в одной предметной области. Чаще в этих ситуациях переводчиков снабжают автоматическими словарями, тезаурусами с интерактивным доступом или системами, получившими название «памяти переводчика».

Персональные – для авторов, желающих перевести свои статьи на иностранный язык, которым они не вполне владеют. Такие системы обычно работают в диалоге с пользователем и могут давать удовлетворительный перевод (качество которого все же зависит от того, насколько автор владеет выходным языком).

По применяемым лингвистическим методам системы машинного перевода можно разделить также на три типа:

Системы прямого перевода – наиболее многочисленные, поскольку начали создаваться еще в 50–60-е годы для фиксированных пар языков. В этих системах словарь и синтаксис входного языка анализируются лишь в той мере, в какой это необходимо для идентификации правильных выражений выходного языка и порядка слов. В начале своего развития эти системы выдавали пословные переводы и лишь позднее – переводы, основанные на ана­лизе предложений входного языка.

Системы перевода с использованием языка-посредника, служащего для отображения «смысла» входного текста, который преобразуется в семантические и синтаксические представления, об­щие для нескольких выходных языков. Этот метод применяется обычно при необходимости перевода исходного текста на несколь­ко языков (в переводческих центрах Европейского сообщества, например).

Системы перевода с трансфером более сложны, нежели предыдущие типы, поскольку языки-посредники применяются дважды – первый раз при переводе с входного языка, второй – при переводе на выходной язык. В этом случае становится необходимым дополнительный этап перевода – с языка-посредника входного языка на язык-посредник выходного языка. За этот счет достигается более глубокий лингвистический анализ и синтез.

В последние годы все большее применение в машинном переводе находят методы искусственного интеллекта, которые при переводе учитывают семантику текста. Это означает, что они опираются не столько на грамматические, сколько на семантико-синтаксические категории. Обычные для лингвистических методов многочисленные неоднозначности и неясности устраняются за счет внеязыковой базы данных. Это означает, что система пыта­ется «понять» текст на входном языке до его перевода. Однако и методы искусственного интеллекта пока не дают всей инфор­мации, необходимой для полноценного машинного перевода. В частности, проблемы возникают при переводе с английского языка на японский. «Понимание» английского текста не дает достаточной информации о состоянии пишущего и читающего, необходимой для адекватного перевода на японский язык.

Несмотря на все оговорки, связанные с несовершенством систем машинного перевода, существуют уже сотни достаточно широко используемых систем такого рода.