Тезаурусы
Теза́урус(от греч.thesauros— сокровище) в современной лингвистике — особая разновидность словарей общей или специальной лексики, в которых указаны семантические отношения (синонимы, антонимы, паронимы, гипонимы, гиперонимы и т.п.) между лексическими единицами. Таким образом, тезаурусы, особенно в электронном формате, являются одним из действенных инструментов для описания отдельных предметных областей.
В отличие от толкового словаря, тезаурус позволяет выявлять смысл не с только с помощью определения, но и посредством соотнесения слова с другими понятиями и их группами, благодаря чему может использоваться в системах искусственного интеллекта.
В прошлом термином тезаурус обозначались по преимуществу словари, с максимальной полнотой представлявшие лексику языка с примерами ее употребления в текстах.
Пароними́я— частичное звуковое сходство слов при их семантическом различии (полном или частичном). Паронимы часто являются источником речевых ошибок.
Примеры однокоренных паронимов: одеть — надеть, человеческий — человечный, оплатить — уплатить — заплатить.
Примеры совершенно неродственных паронимов: биология — бриология, бульон — брульон, компот — комплот, фактура — фрактура.
Однако тезаурус - это больше, чем инструмент информационного поиска. Тезаурус можно рассматривать как универсальную модель терминологической системы, а потому - как формальную систему знаний, содержащихся в языке конкретной научной области.
Тезаурус общего назначения
Тезаурус в наиболее общем определении - это словарь с семантическими связями между словарными единицами. С конца 50-х годов тезаурусы использовались в системах машинного перевода и информационно - поисковых системах (ИПС).
В отличие от семантических словарей, которые предназначены для подробного описания общей лексики, тезаурусы созданы для хранения и классификации предельно конкретных слов и словосочетаний. Например, слово веществонаходится в словаре РОСС (Русский общесемантический словарь), а все названия химических соединений уже в тезаурусе.
Какие связи описываются в тезаурусе? Как правило:
род-вид (AKO)
часть-целое (POF)
синонимия/антонимия
ассоциативные.
Пример связи «род-вид»
Пример семантического разбора
Это парадигматические(устойчивые связи, существующие между словами в языке). И то не все.
Синтагматические(текстовые) связи в тезаурусе не представлены.
Пример: WORDNET - интеллектуальный компьютерный тезаурус
http://wordnet.princeton.edu/perl/webwn
Создан в Принстонском университете и свободно распространяется.
Основные особенности.
Слова в нем сгруппированы в синонимические группы (синсеты - synsets). Они разбиты на 4 словаря - существительные, прилагательные, глаголы и наречия.
Синсеты объединены как в иерархические связи (гипонимы и гиперонимы), так и в отношение антонимии и также меронимии (быть частью чего-л или состоять из частей).
Решена также проблема морфологии - слово после обращения к WN возвращается в исходной форме.
Информационно-поисковый тезаурус
В области информационного поиска выигрыш от использования тезаурусов происходит за счет перехода от текста к дескрипторам, описывающим объект реального мира. Переход к дескрипторам позволяет осуществлять расширенное (избыточное) индексирование.
В информационно поисковом тезаурусе эксплицитно выражаются ПАРАДИГМАТИЧЕСКИЕ отношения между дескрипторами (не все, а те, которые чаще всего важны для повышения полноты информационного поиска). Экспериментально определено, что наиболее важными парадигматическими отношениями являются
соподчинение
сходство
вид-род (род-вид)
причина-следствие
часть-целое.
Пример словарной статьи:
Сельскохозяйственные машины
Син. сельскохозяйственная техника, сельхозтехника,
Вид: картофелеуборочный комбайн, сеялка, etc.
Пример избыточного индексирования
Запрос "сельскохозяйственные машины"
Пример: Общественно-политический тезаурус русского языка Университетская информационная система РОССИЯ
http://www.cir.ru/index.jsp
Разработан Автономной некоммерческой организацией «Центр информационных исследований» (АНО ЦИИ)
Тезаурус - это терминологический ресурс, реализованный в виде словаря понятий и терминов со связями между ними. Основное назначение тезауруса - помощь при информационном поиске: на основе связей тезауруса происходит расширение запроса, навигация по связям тезауруса помогает четче сформулировать сам запрос.
Особенностью иерархии Тезауруса УИС «Россия» является множественность классификации, то есть для большинства понятий ищется не единственное классифицирующее понятие (связь ВЫШЕ - НИЖЕ), а описываются различные точки зрения на конкретное понятие, например, понятие МАГАЗИН может рассматриваться и как ЗДАНИЕ, и как ТОРГОВАЯ ОРГАНИЗАЦИЯ.
Тезаурус по общественно-политической тематике, включает более 26.000 понятий, 62.000 терминов, 100.000 прямых и 700.000 наследуемых отношений между понятиями. Существующая версия Тезауруса описывает терминологию, используемую в общественно-политической области, включая экономическую, политическую, военную, законодательную, социальную, международные отношения и другие сферы.
Полное название Тезауруса - Информационно-поисковый тезаурус по общественно-политической тематике для автоматического индексирования. Здесь все определения важны:
”информационно-поисковый” – так как разработан специально для использования в информационном поиске для помощи пользователю при формировании (уточнении) запроса и для автоматического расширения условий запроса при поиске;
”по общественно-политической тематике” – так как покрывает 95-99% лексики и терминологии русскоязычного текста общественно-политической тематики ;
”для автоматического индексирования” – так как является основой для процесса автоматического определения тематики документов - группирования близких по иерархии тезауруса терминов в тематические узлы, автоматического рубрицирования и автоматического аннотирования.
Тезаурусы - заключение
Для многих известных тезаурусов (WordNet, Roget, EuroWordNet) большой проблемой остается автоматический вывод по связям тезауруса - когда расширение на ближайшую окрестность верно, но не полно, а попытки расширить окрестность ведут к ошибкам.
- Что такое компьютерная лингвистика?
- История
- Терминология (Предикаты, субъекты, переменные, понятия, признаки)
- Поднауки лингвистики
- Язык исчисления предикатов первого порядка
- Язык и грамматика (формы Бэкуса-Наура)
- Природа языка
- Моделирование языковой деятельности
- Автоматическая обработка текста и ее место среди различных дисциплин
- Анализ текстов на естественном языке
- Этапы автоматического анализа текста
- Синтез текстов на естественном языке
- Понимание текстов
- Оживление текста
- Модели коммуникации
- Морфологический анализ
- 1. Флективные языки:
- 2. Изолирующие (аморфные) языки:
- 3. Агглютинативные (агглютинирующие) языки:
- 4. Полисинтетические (инкорпорирующие) языки:
- Синтаксический анализ
- Валентность
- Семантический анализ
- Тезаурусы
- Словари ролевых моделей
- Базы знаний
- Информационно-поисковые системы Internet
- Принципы построения поисковых систем (на примере Google)