Вопрос 6. Технологии текстового поиска
1. Текст является одной из основных форм обмена информацией в обществе} Поэтому текстовые сообщения преобладают в информационных системах.
Наиболее распространенными системами технологии обработки текста являются системы текстового поиска. Их задача заключается в том, чтобы находить в заданных коллекциях на естественном языке такие документы, которые удовлетворяют информационным потребностям пользователей.
Технологии текстового поиска имеют дело с информацией. Это могут быть статьи из газет и журналов, технические руководства, отчеты, книги, письма, законодательные акты и пр.
Основной единицей информации в системах текстового поиска является документ — объем информации, обладающий законченным содержанием и какого-либо рода уникальным идентификатором.
Системы текстового поиска оперируют электронными документами — документами, хранимыми в памяти компьютеров и доступными для автоматизированной обработки. Компьютерная обработка и анализ текстовых документов возможны лишь в случае если программно доступны отдельные элементы текстового документа. Поэтому недостаточно просканировать бумажный текстовый документ и хранить полученное его факсимиле в памяти компьютера в виде какого-то графического файла. Необходимо иметь документ в оцифрованном виде — формате, когда каждый компонент текста программно доступен. Представление текстового документа в оиифрованном виде создается с помощью:
• ввода содержания документа с клавиатуры с использованием какого-либо текстового редактора;
• сканирования его с бумажного носителя и использования программы распознавания оптических символов;
• генерации текста программным путем распознавателями голоса и другими способами.
2. Современные технологии текстового поиска охватывают большой спектр проблем:
/ теория информационного поиска;
/ методы удовлетворения потребностей пользователей в:
X • сборе информации;
|, • организации информации;
^• хранении информации; • поиске информации; • распространении информации; обеспечение интерфейсов между пользователем и средствами г управления ресурсами неструктурированной или слабоструктури-\, рованной информации, поддерживаемой в компьютерной среде.
V Значительное место в технологиях текстового поиска занимает обработка естественного языка. Под ней понимается компьютерное решение задач, связанных с пониманием, анализом, выполнением различных операций над текстами на естественном языке, а также с их генерацией. Этот класс задач относит-
( ся к области искусственного интеллекта.
f В середине 1990-х гг. во многих странах мира развернулись рабо-' ты, связанные с созданием электронных библиотек. Они в значительной мере оживили интерес к проблемам текстового поиска. Возникли такие совершенно новые направления, как:
• обнаружение информации в глобальной компьютерной сети;
• текстовый поиск в Web;
• мультиязыковой поиск.
Активное развитие технологий текстового поиска стимулировало создание поисковых систем более общего класса, которые имеют дело не только с текстовыми документами, но и с информацией, представленной в различных иных средах. В таких мультимедийных системах содержание объектов поиска — документов — представляет собой сочетание:
• текстовых элементов;
• статических изображений;
• музыкальных произведений;
• мультфильмов;
• видеоклипов и т. п.
Системы текстового поиска оказали значительное влияние на формирование специфического класса информационных сие-
|гм ii.i н.1и,1см1,1ч системами управления документами, которые ширит in шшмуются в настоящее время во многих крупных коммерческих компаниях и в других организациях. В таких i in icm.ix нажная роль отводится не только методам обработки 14 ич темного языка, созданным для работы с текстовыми до-кумешами, но и организации групповой разработки документов, их хранения, распространения, а также технологиям текстового поиска.
- Вопрос 1. Понятие и классификация
- Вопрос 2. Итология - наука об информационных технологиях
- Вопрос 3. Проблемы использования
- Вопрос 4. Новая информационная технология
- Вопрос 5. Информационная технология обработки данных
- Вопрос 6. Технологии текстового поиска
- Вопрос 7. Информационная технология поддержки принятия решений
- Вопрос 8. Информационная технология экспертных систем
- 2. Основными компонентами информационной технологии, используемой в экспертной системе, являются:1
- Вопрос 9. Информационная технология управления
- Вопрос 10. Автоматизация офиса
- Вопрос 11. Аудио- и видеоконференции в автоматизации офиса
- Вопрос 12. Технологии баз данных
- Вопрос 13. Корпоративные информационные системы
- Вопрос 14. Классификация локальных вычислительных сетей
- Вопрос 15. Топология локальных вычислительных сетей
- Вопрос 16. Локальные сети Ethernet
- Вопрос 17. Защита информации в сетях
- Вопрос 18. Глобальные
- Вопрос 19. Модель osi
- Вопрос 20. Сеть Internet
- 5. Режимы передачи данных в сети:
- Вопрос 21. Подключение к Internet
- Вопрос 22. Протоколы tcp/ip
- Вопрос 23. Система имен (адресов) в Internet
- Вопрос 24. World Wide Web
- Вопрос 25. Электронная почта
- Вопрос 26. Роль электронной почты
- Вопрос 27. Телеконференции
- Вопрос 28. Обеспечение безопасности в Internet
- Вопрос 29. Обеспечение безопасности
- Вопрос 30. Факсимиле (факс)
- Вопрос 31. Мультимедиа
- Вопрос 32. Ip-телефония
- 5. Соединение "компьютер — телефон" ("телефон — компьютер").
- Вопрос 33. Достоинства и недостатки ip-телефонии
- Вопрос 34. Межсетевой протокол ip
- Вопрос 35. Общая модель передачи речи по сетям передачи данных
- Вопрос 36. Криптология
- Вопрос 37. Современные симметричные криптосистемы
- 2. Стандарт шифрования данных des {Data Encryption Standard)
- Вопрос 38. Асимметричные криптосистемы
- Вопрос 39. Защита информации в электронных платежных системах
- Вопрос 40. Обеспечение безопасности систем pos и банкоматов
- Вопрос 41. Электронная цифровая подпись (эцп)
- Вопрос 42. Сертификация электронной цифровой подписи
- Вопрос 43. Классификация систем мобильной связи
- Вопрос 44. Системы радиосвязи с подвижными объектами
- Вопрос 45. Стандарты систем сотовой радиосвязи и персонального радиовызова
- Вопрос 46. Системы сотовой подвижной связи
- 2. Услуги, которые оказывают системы третьего поколения, делятся на две группы:
- Вопрос 47. Функционирование системы сотовой связи
- Вопрос 48. Дополнительные функции и технологии сотовой связи
- Вопрос 49. Цифровые системы сотовой подвижной связи
- Вопрос 50. Спутниковые системы персональной связи
- Вопрос 51. Информационные технологии обучения (ито)
- Вопрос 52. Основные проблемы использования информационных технологий
- Вопрос 53. Технологии передачи информации при работе с правовыми базами