Автоматическая обработка текста и ее место среди различных дисциплин
Задача разработки систем, понимающих ЕЯ, может решаться только совместными усилиями целого ряда наук. Направление «Автоматическая обработка текста» лежит на стыке лингвистики (в частности, компьютерной лингвистики), ИИ, психологии.
Компьютерная лингвистикаберет на себя собственно лингвистические проблемы компьютерного моделирования языковой деятельности. Еезадачи– построение более точных и более полных лингвистических моделей и более совершенных алгоритмов анализа и синтеза.
На западе:
дисциплина, занимающаяся разработкой компьютерных систем анализа ЕЯ текста, называется NLP – Natural Language Processing(language technology, language engineering). Ее принято выделять в отдельную и скорее инженерную дисциплину.
Технологически моделирование языковой деятельности выражается в построении систем автоматической обработки текста (АСОТ), или лингвистических процессоров.
Из истории лингвистических процессоров
Формальные модели языка, которые первоначально разрабатывались в чисто теоретическом плане, затем стали использоваться в качестве компонентов различных прикладных систем. Началось это в 50-е годы XX века с разработки систем МП (машинного перевода).
Вообще МП – первый опыт использования вычислительных машин для решения невычислительных задач. Джорджтаунский эксперимент (январь 1954 г.) Совместный проект Georgetown University и IBM. Основная цель – публично продемонстрировать принципиальную возможность (feasibility) автоматического перевода текста. Перевод 49 тщательно отобранных русских предложений на английский с использованием словаря в 250 слов и всего лишь 6 правил. Эксперимент, хоть и не имел большого научного значения, тем не менее
(1) стимулировал финансирование работ по МП
(2) вызвал бурное развитие МП в мире, в частности, в СССР.
Общественная эйфория сменилась разочарованием.
Bar-Hillel, один из участников Джорджтаунского эксперимента выступил против постановки нереальной цели (при том уровне лингвистических знаний и тех возможностях вычислительной техники) – цели создания fully automatic high quality translation systems. (Одна из наиболее наглядных проблем – лексическая неоднозначность: The box is in the pen. => Проблема использования знаний о мире.)
1966 год – опубликован знаменитый отчет ALPAC (Automatic Language Processing Advisory Committee): MT was slower, less accurate and twice as expensive as human translation. [W.John Hutchins. Machine translation. A brief history. 1995]
До середины 70-х годов – в МП затишье. Затем активизация.
Помимо МП, предпринимались попытки использовать методы обработки ЕЯ для задач информационного поиска. Появились макеты фактографических ИПС (вопросно-ответные системы), которые умели переводить запросы с ЕЯ в некоторое формальное представление (и обратно).
Современные сферы применения систем автоматической обработки текстов (лингвистических процессоров)
Приложения компьютерной лингвистики можно разделить на несколько категорий:
Текстовые:
Предназначены для обработки письменного текста (либо устного, но приведенного к письменному виду методами распознавания речи):
Поисковые системы:
Information retrieval (информационный поиск, поиск документов); Пример: поиск документов по ключевым словам (в полнотекстовой БД, в сетях Интернет или Интранет)
Information extraction (извлечение из текстов информации на заданную тему: сведений о событиях и их атрибутах, о причинах, последствиях); Пример:Извлечение из текстов Wall Street Journal информации о смене руководства компаний; заполнение БД по биржевым операциям, описанным в новостях; поиск конкретных фактов в текстах (фактографический поиск).
Прочие:
классификация (категоризация, рубрицирование);
машинный перевод;
проверка правописания;
аннотирование (реферирование);
Понимание текста тут не всегда необходимо, могут использоваться статистические методы.
Примеры задач не требующих понимания ЕЯ:
Поиск документов по ключевым словам;
Построение квазирефератов;
МП в некоторых системах.
Диалоговые:
Системы человеко-машинного общения., можно выделить следующие
Приложения:
интеллектуальные вопросно-ответные (ориентированные на узкие предметные области);
общение пользователей с базами данных (сейчас - на ограниченном языке);
системы, предоставления различных услуг (выполнение банковских операций по телефону, заказ товаров по каталогам)
голосовое управление техникой (бытовыми приборами, компьютером);
интерфейсы экспертных систем (кооперативное решение проблем = человек + интеллектуальная система).
Не следует путать: распознавание речи и понимание устной речи.
[О специфике диалоговых приложений тоже потом].
Несмотря на специфику приложений АОТ, можно выделить основные принципы построения лингвистических процессоров- общие для обоих видов задач.
Направления компьютерной лингвистики
КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА— наука, родившаяся на стыке вычислительной техники и лингвистики к началу 70-х годов ХХ столетия. Другие названия:математическая лингвистика, структурная лингвистика, вычислительная лингвистика.
ПЯТЬ ОСНОВНЫХ НАПРАВЛЕНИЙ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ:
Анализ текстов на естественном языке.
Синтез текстов на естественном языке.
Понимание текстов.
Оживление текста.
Модели коммуникации.
- Что такое компьютерная лингвистика?
- История
- Терминология (Предикаты, субъекты, переменные, понятия, признаки)
- Поднауки лингвистики
- Язык исчисления предикатов первого порядка
- Язык и грамматика (формы Бэкуса-Наура)
- Природа языка
- Моделирование языковой деятельности
- Автоматическая обработка текста и ее место среди различных дисциплин
- Анализ текстов на естественном языке
- Этапы автоматического анализа текста
- Синтез текстов на естественном языке
- Понимание текстов
- Оживление текста
- Модели коммуникации
- Морфологический анализ
- 1. Флективные языки:
- 2. Изолирующие (аморфные) языки:
- 3. Агглютинативные (агглютинирующие) языки:
- 4. Полисинтетические (инкорпорирующие) языки:
- Синтаксический анализ
- Валентность
- Семантический анализ
- Тезаурусы
- Словари ролевых моделей
- Базы знаний
- Информационно-поисковые системы Internet
- Принципы построения поисковых систем (на примере Google)