logo
Информационные технологии 52 ответа 2009

Вопрос 6. Технологии текстового поиска

1. Текст является одной из основных форм обмена информацией в обществе} Поэтому текстовые сообщения преобладают в информационных системах.

Наиболее распространенными системами технологии обработки текста являются системы текстового поиска. Их задача заключается в том, чтобы находить в заданных коллекциях на естественном языке такие документы, которые удовлетворяют информационным потребностям пользователей.

Технологии текстового поиска имеют дело с информацией. Это могут быть статьи из газет и журналов, технические руководства, отчеты, книги, письма, законодательные акты и пр.

Основной единицей информации в системах текстового поиска является документ объем информации, обладающий законченным содержанием и какого-либо рода уникальным идентификатором.

Системы текстового поиска оперируют электронными документами — документами, хранимыми в памяти компьютеров и доступными для автоматизированной обработки. Компьютерная обработка и анализ текстовых документов возможны лишь в случае если программно доступны отдельные элементы текстового документа. Поэтому недостаточно просканировать бумажный текстовый документ и хранить полученное его факсимиле в памяти компьютера в виде какого-то графического файла. Необходимо иметь документ в оцифрованном виде — формате, когда каждый компонент текста программно доступен. Представление текстового документа в оиифрованном виде создается с помощью:

ввода содержания документа с клавиатуры с использованием какого-либо текстового редактора;

сканирования его с бумажного носителя и использования программы распознавания оптических символов;

генерации текста программным путем распознавателями голоса и другими способами.

2. Современные технологии текстового поиска охватывают большой спектр проблем:

/ теория информационного поиска;

/ методы удовлетворения потребностей пользователей в:

X • сборе информации;

|, • организации информации;

^• хранении информации; • поиске информации; • распространении информации; обеспечение интерфейсов между пользователем и средствами г управления ресурсами неструктурированной или слабоструктури-\, рованной информации, поддерживаемой в компьютерной среде.

V Значительное место в технологиях текстового поиска занимает обработка естественного языка. Под ней понимается компьютерное решение задач, связанных с пониманием, анализом, выполнением различных операций над текстами на естественном языке, а также с их генерацией. Этот класс задач относит-

( ся к области искусственного интеллекта.

f В середине 1990-х гг. во многих странах мира развернулись рабо-' ты, связанные с созданием электронных библиотек. Они в значительной мере оживили интерес к проблемам текстового поиска. Возникли такие совершенно новые направления, как:

• обнаружение информации в глобальной компьютерной сети;

• текстовый поиск в Web;

• мультиязыковой поиск.

Активное развитие технологий текстового поиска стимулировало создание поисковых систем более общего класса, которые имеют дело не только с текстовыми документами, но и с информацией, представленной в различных иных средах. В таких мультимедийных системах содержание объектов поиска — документов — представляет собой сочетание:

• текстовых элементов;

• статических изображений;

• музыкальных произведений;

• мультфильмов;

• видеоклипов и т. п.

Системы текстового поиска оказали значительное влияние на формирование специфического класса информационных сие-

|гм ii.i н.1и,1см1,1ч системами управления документами, которые ширит in шшмуются в настоящее время во многих крупных коммерческих компаниях и в других организациях. В таких i in icm.ix нажная роль отводится не только методам обработки 14 ич темного языка, созданным для работы с текстовыми до-кумешами, но и организации групповой разработки документов, их хранения, распространения, а также технологиям текстового поиска.