logo search
Основы_информатики

Принципы построения тезауруса в системе smart

Ни одно редко встречающееся понятие не следует включать в тезаурус. Термины слишком общего значения с высокой частотой встречаемости также должны быть исключены из словаря, т.к. они снижают эффективность поиска. Незначащие слова должны быть тщательно изучены пред включением их в список слов, предназначенных для исключения.

Например, слово «hand» должно быть включено в тезаурус по биологии, но его не следует включать в таких выражениях: on the other hand.

У неоднозначных терминов должны быть закодированы только те их значения, в которых они встречаются (field – «поле», «область» относится к понятию subject area – предметная область, а с другой стороны по его специальному значению в алгебре, поэтому «field» со значением «patch of land» не следует включать в мат. словарь). Г.Селтон «Автоматическая обработка, хранение и поиск информации» = G.Selton «Automatic Information Organizationand Retrieval».