logo
ЛОИ New

Автоматическая обработка текста и ее место среди различных дисциплин

Задача разработки систем, понимающих ЕЯ, может решаться только совместными усилиями целого ряда наук. Направление «Автоматическая обработка текста» лежит на стыке лингвистики (в частности, компьютерной лингвистики), ИИ, психологии.

Компьютерная лингвистикаберет на себя собственно лингвистические проблемы компьютерного моделирования языковой деятельности. Еезадачи– построение более точных и более полных лингвистических моделей и более совершенных алгоритмов анализа и синтеза.

На западе:

дисциплина, занимающаяся разработкой компьютерных систем анализа ЕЯ текста, называется NLP – Natural Language Processing(language technology, language engineering). Ее принято выделять в отдельную и скорее инженерную дисциплину.

Технологически моделирование языковой деятельности выражается в построении систем автоматической обработки текста (АСОТ), или лингвистических процессоров.

Из истории лингвистических процессоров

Формальные модели языка, которые первоначально разрабатывались в чисто теоретическом плане, затем стали использоваться в качестве компонентов различных прикладных систем. Началось это в 50-е годы XX века с разработки систем МП (машинного перевода).

Вообще МП – первый опыт использования вычислительных машин для решения невычислительных задач. Джорджтаунский эксперимент (январь 1954 г.) Совместный проект Georgetown University и IBM. Основная цель – публично продемонстрировать принципиальную возможность (feasibility) автоматического перевода текста. Перевод 49 тщательно отобранных русских предложений на английский с использованием словаря в 250 слов и всего лишь 6 правил. Эксперимент, хоть и не имел большого научного значения, тем не менее

(1) стимулировал финансирование работ по МП

(2) вызвал бурное развитие МП в мире, в частности, в СССР.

Общественная эйфория сменилась разочарованием.

Bar-Hillel, один из участников Джорджтаунского эксперимента выступил против постановки нереальной цели (при том уровне лингвистических знаний и тех возможностях вычислительной техники) – цели создания fully automatic high quality translation systems. (Одна из наиболее наглядных проблем – лексическая неоднозначность: The box is in the pen. => Проблема использования знаний о мире.)

1966 год – опубликован знаменитый отчет ALPAC (Automatic Language Processing Advisory Committee): MT was slower, less accurate and twice as expensive as human translation. [W.John Hutchins. Machine translation. A brief history. 1995]

До середины 70-х годов – в МП затишье. Затем активизация.

Помимо МП, предпринимались попытки использовать методы обработки ЕЯ для задач информационного поиска. Появились макеты фактографических ИПС (вопросно-ответные системы), которые умели переводить запросы с ЕЯ в некоторое формальное представление (и обратно).

Современные сферы применения систем автоматической обработки текстов (лингвистических процессоров)

Приложения компьютерной лингвистики можно разделить на несколько категорий:

Текстовые:

Предназначены для обработки письменного текста (либо устного, но приведенного к письменному виду методами распознавания речи):

Понимание текста тут не всегда необходимо, могут использоваться статистические методы.

Примеры задач не требующих понимания ЕЯ:

Диалоговые:

Системы человеко-машинного общения., можно выделить следующие

Приложения:

Не следует путать: распознавание речи и понимание устной речи.

[О специфике диалоговых приложений тоже потом].

Несмотря на специфику приложений АОТ, можно выделить основные принципы построения лингвистических процессоров- общие для обоих видов задач.

Направления компьютерной лингвистики

КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА— наука, родившаяся на стыке вычислительной техники и лингвистики к началу 70-х годов ХХ столетия. Другие названия:математическая лингвистика, структурная лингвистика, вычислительная лингвистика.

ПЯТЬ ОСНОВНЫХ НАПРАВЛЕНИЙ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ:

  1. Анализ текстов на естественном языке.

  2. Синтез текстов на естественном языке.

  3. Понимание текстов.

  4. Оживление текста.

  5. Модели коммуникации.