logo
Основы_информатики

Практические рекомендации для составления пс Анализ содержания документов и выявления ключевых слов

На первом этапе составления ПОДа проводится анализ его содержания и выявление КС. Анализ содержания документов в процессе индексирования ведется в определенной последовательности по единой схеме. Схема позволяет унифицировать форму описания документа КСми, что способствует повышению эффективности работы ИПС. Согласно принятой схеме выявление КС осуществляется по следующим смысловым аспектам:

  1. предмет(или тема) исследования.

  2. сторона, с которой исследуется предмет или его свойство; признаки и закономерности предмета.

  3. область применения или использования предмета.

  4. вид исследования свойств предмета.

  5. конкретный метод исследования.

  6. методика проведения исследования и специальное оборудование, используемое для изучения предмета и его свойств исследования.

  7. условия, в которых проведены исследования свойств предмета.

Конкретно (по всем пунктам):

  1. применительно к документам по научно-технической тематике в качестве предмета исследования могут выступать: общие или частные понятия, а также любые материальные объекты: устройства, образцы техники, виды и системы вооружения и т.д.

  2. в качестве наиболее часто встречающихся сторон исследования предмета выступают производства, эксплуатация, автоматизация, стоимость, применение, технические требования и т.д. Данный смысловой аспект отвечает на вопрос: с какой точки зрения предмет представляет интерес в процессе исследования.

  3. областью применения предмета могут быть: любой другой предмет или вся его предметная область, отрасли хозяйства, различные военные операции и т.д.

  4. в качестве видов исследования выступают: теоретические расчёты, лабораторные исследования, стендовые испытания и т.д.

  5. + 6 методы и методика исследования могут быть: математические, сравнительно-исторические и т.д. Специальное оборудование, используемое в процессе исследования, представлено чаще различными установками , тренажерами, стендами, приборно-измерительным оборудованием, ЭВМ и т. д.

7. Условиями, характеризующими процесс исследования, могут быть: время и место (н-р, зима, лето, под водой); географические условия и условия местности (Арктика, тропики, пустыня); физические условия (температура, радиация); а также химические, биологические и др. условия.

Приведенные 7 смысловых аспектов характерны для: содержания научно-технических документов, отражающих результаты научных исследований, конструкторских разработок, испытаний. Они обладают наибольшей информационной емкостью, т.к. содержат основную семантическую информацию, представленную в документе.

Они составляю 7 элементов формализованной модели свернутого содержания документа, т.е. ПОДа. В соответствии с этими смысловыми аспектами осуществляется выбор КС в процессе анализа содержания документа. Первые три смысловые аспекта отражают информацию, касающуюся предмета исследования, остальные характеризуют сам процесс исследования. Составление ПОД начинается с выявления КС из заголовка (затем из текста). В процессе выбора КС необходимо придерживаться следующих правил:

  1. отражению КС-ами подлежит лишь та информация, которая действительно имеется в документе и ясно выражена.

  2. составление списка КС ни в коей мере не связыв. с вероятным наличием или отсутствие каких-либо дескрипторов в тезаурусе или с каким-либо предположением о характер возможных запросов.

  3. в качестве КС, выраженных отдельными словами ЕЯ, как правило используются только имена существительные. Если в каче6стве КС кроме сущ. необходимо использовать и другие КС, то их следует объединить в словосочетания вокруг соответств. существительного.

  4. элементы словосочетания ЕЯ, используемые в качестве КС выписываются в той же последовательности, что и в документе. Н-Р, «нелинейные дифференциальные уравнения», а не «дифференциальные уравнения нелинейные».

  5. словосочетания, отражающие принятые технические термины, выписываются как одно КС. Н-р, температурный коэффициент радиоактивности.

ПРОБЛЕМА АВТОМАТИЧЕСКОГО РЕФЕРИРОВАНИЯ ТЕКСТА

Реферат – вторичный документ, в котором кратко излагаются результаты исследований, приведенных в первичных документах (статьях, монографиях).

РЕФЕРАТ – один из важнейших источников информации (как вторичный документ). Но появление реферата происходит через 3-4 месяца после публикации первичного документа. За это время информация из первичного документа устаревает. Следовательно, проблема в том, чтобы сократить срок между выходом первичного документа и выходом реферата. Сократить можно лишь поручив процедуру составления реферата ЭВМ. А поручить это ЭВМ можно только в том случае, если мы её (процедуру) формализуем.

Формализованное реферирование - извлечение из текста первоисточника на основе заранее сформулированных правил предложений, характеризующих основное содержание этого текста. Набор таких предложений образует реферат-экстракт. На основе формального реферирования, выполненного человеком, складываются методы машинного реферирования, т.е. составления квазирефератов (составленных ЭВМ). ЭВМ с помощью определённого набора семантических и лингвистических правил выбирает ключевые фразы из исходного текста. В настоящее время есть несколько методов автоматического реферирования:

  1. статистические методы.

  2. логико-математические методы.

  3. лингвистические методы.

Одним из ЛИНГВИСТИЧЕСКИХ является метод «словесных клише». СУТЬ: экстрагирование (выбор из тестов первичных документов отдельных информативных и метаинформативных фраз с помощью «словесных клише»).

Информативные фразы составляют содержательную часть текста. В них выражены фактические сведения (в том числе графики, формулы) или концептуальное осмысление этих фактических сведений. Метаинфомративные фразы характеризуют тему документов в целом либо отдельные его фрагменты, т.е. содержательные аспекты. Совокупность метаинформативных фраз образует аннотацию, а информативных фраз – реферат (условное деление).

Для практической реализации идеи, заложенной в методе «словесных клише», были разработаны два «инструментария» - лексический аппарат экстрагирования и методика экстрагирования.

  1. Алгоритм.

  2. Лексический аппарат – список словесных клише, который состоит из трёх подсписков: маркеров, индикаторов, коннекторов.

МАРКЕР – элемент словесного клише (слова или словосочетания), однозначно обозначающий тот или иной аспект первичного документа.

Н-р: аспект1(выделены по каждой тематике)-целевая установка достаточно часто и точно характеризуется такими маркерами: цель, целью является и т.п.

Аспект2 – предполагаемый вариант решения – характеризуется такими маркерами: предполагаемый…основан…, в работе предлагается…

Аспект3 – особенность предлагаемого варианта решения: особенностью является.., особенность ..заключается…

В результате анализ первичных документов маркеры выявляются и систематизируются в специальных словарях, ТЕЗАУРУСАХ,

Тезаурус является основным документом формализованного реферирования, где содержится около 600 маркеров, лексических сопровождений и их синонимов.

Как правило, маркеры состоят из 2-х частей: ядерного слова и лексического сопровождения. Каждое из них может иметь свой класс синонимов. Ядерные слова, встречающиеся в тексте без зафиксированного в словаре лексического сопровождения, маркера не образуют, т.е. являются лжемаркерами.

СТРУКТУРА ТЕЗАУРУСА

В тезаурусе в алфавитном порядке перечислены ядерные элементы маркеров (помета-Я.), лексическое сопровождение ядра (Л.С.), их синонимы(С.) и отсылки от синонимов к ядерным словам (см.), (а.- аспект),ядерные элементы выделены курсивом, жирным. {ПП- аспекты (постановка проблемы), ПВР – аспекты (предлагаемый вариант решения), ЦЦ – аспекты (целевая установка), Р – результат}

Например: фрагмент тезауруса (словарная статья).

Актуальность  а.(ПП)

Л.С. – делать, иметь, представлять, являться.

Анализ см. я. Результаты а. (Р.)

Анализироваться см. я. Предлагаться а. (ПВР)

ИНДИКАТОРЫ – в отличие от маркеров, не привязаны жестко к определённому аспекту содержания первичного документа: они указывают на предложения, которым автор придаёт особое значение (Н-р, -следует подчеркнуть, - необходимо отметить) или в которых автор подводит итог какого-то фрагмента или изложения: (Н-р, итак, таким образом, следовательно).

КОННЕКТОРЫ – в отличие от маркеров и индикаторов, непосредственно выделяющих то предложение, в которое они входят, коннекторы служат для выделения предложений так или иначе связанных с маркированными. Можно выделить два типа коннекторов:

1.- указательные и личные местоимения (это, эти, он). Т.е. слова-заместители, вхождения которых в маркированные предложения лишают его смысловой значимости и требует включение в реферат-экстракт предложения, содержащего замещаемое слово. («шаг назад», коннекторы типа Х(«икс»)).

2. – слова и выражения, говорящие о том, что предложение, в которое они входят, уточняет, конкретизирует содержание маркированного предложения (Н-р, при этом, например, в частности). Эти коннекторы используются для выделения предложений, следующих за маркированными («шаг вперед» - процедура типа Y («игрек»)).

Примеры поисковых систем

1. ИПС Пусто-непусто-4 [документальная, с языком дескрипторного типа без грамматики]

Материал: ИПЯ предназначен для поиска информации в массиве рефератов по электротехнике

Описание языка(структура): ИПЯ построен на базе слов ЕЯ. Слова ЕЯ, отобранные для построения ИПЯ, объединились в классы условной эквивалентности. Каждому классу ставилось в однозначное соответствие некоторое число- дескриптор. Одно из слов выделяется и используется в качестве обозначения всего класса и оно (как и число) считается дескриптором , т.е. мы устранили синонимию. Например: новый, новинка, усовершенствование, модернизация, патент, патентуется , предлагается, разработан, разработанный - класс условной эквивалентности. Эти слова являются эквивалентными по действию в данном классе. Д – «модернизация» Слова, отобранные для включения в дескрипторный словарь, располагаются по алфавиту и против каждого слова выписываются дескриптор как вербальный, так и числовой.

Слова-омонимы встречались в словаре столько раз, сколько значений они имели в сфере действия данной системы.( например: «защита» имела два дескриптора: 1- защита (от перегрузки)-25; 2- защита (предохранитель)-80.), т.е. мы устранили омонимию.

Термины-словосочетания – выделены в отдельны список. (Н-р: «прибор для измерения напряжения» - 146). В П-нП4 были зафиксированы следующие виды отношений между дескрипторами: базисные -отношения подчинения. Они имеют транзитивный характер и частично упорядочивают дескрипторы ИПЯ. Базисные отношения приблизительно совпадают с отношениями «от общего к частному», поэтому их называют отношениями подчинения. Пример фиксации отношений:

|769свойства

|

_____ |153 данные

* * * *

692 (размер) 54 (вес)

КРИТЕРИИ СМЫСЛОВОГО СООТВЕТСТВИЯ (КСС)[логический]

КСС выражен в терминах пустоты-непустоты 4-х множеств (Поэтому П-нП4):

М(i)1- Мн-во дескрипторов документа, совпадающих с каким-либо дескриптором запроса.

М(i)2- Мно-во д-в документа, стоящих выше (но не обязательно непосредственно выше), хотя бы одного из дескрипторов запроса.

М(i)3 – Мно-во д-в, стоящих ниже (не обяз.непосредств.) хотя бы одного из д-в запроса.

М(i)4- Мно-во д-в ЗАПРОСА, не сравнимых ни с одним из дескрипторов докуметнтов ( в смыслах отношения , упорядочивающего мн-во д-в).

Критери выдачи может быть представлен следующей таблицей, в которой документы, подлежащие выдаче, разбиваются на 4 эшелона: (П-пусто, Н-непусто). Каждому из мн-в М1-4 поставлено в соответствие некотороечисло Мi, которое определяется следующим образом Мi=(0-если Мi-П, 1 –если Мi=Н),

Где i= 1,2,3,4.

№ эшелона

М1

М2

М3

М4

1

н

п

п

п

п

п

п

н

н

п

п

п

2

Н

н

н

п

3

н

п

н

н

н

н

п

п

4

п

н

п

п

Тогда для любой пары ПОД-ПОЗ можно составить 16 4-хразрядных двоичных чисел, каждое из которых будет характеризовать степень смыслового соответствия между документом и инф. запросом из этих 16 двоичных чисел (а они есть номера соотв. классов документов) были выбраны числа 0010, 0100, 0110, 1000, 1010, 1100, 1110, которые обозначают классы предположительно содержащие больше релевантных документов, чем нерелевантных. Эти числа были сгруппированы в таблицу:

№ эшелона

М1

М2

М3

М4

1(да)

1

0

1

0

0

0

0

1

1

0

0

0

2(да)

1

1

1

0

3(может быть)

1

0

1

1

0

1

0

0

4(может быть)

0

1

0

0

В этой таблице эшелоны так пронумерованы, чтобы вероятность выдачи искомых док-в была максимальной в 1-м эшелоне и минимальной в последнем, а вероятность выдачи нерелевантных д-в (поисковый шум) минимальна в 1-м эшелоне и максимальна в последнем.

Это даёт возможность пользователю определить, какие эшелоны д-в он хочет получить. Если его не беспокоит потеря некоторой части инф. и он хочет не тратить время на дополнительный просмотр и получить основную инф., он может ограничиться 1-м эшелоном. Там будут, как правило, документы, содержащие нужную инф-ю. Если же он заинтересован в получении исчерпывающей инф. и ради этого готов мириться с получением ненужных д-в, то он может запросить 2,3,4 эшелоны.

2.ИПС «БИТ» [документальная, язык смысловых кодов с грамматикой]

Разработана группой сотрудников Института кибернетики Украины под руководством Скороходько Е.Ф. На базе рефератов в области радиоэлектроники и вычислительной техники. Язык системы построен на основе следующих предположений: Структура ИПЯ должна как можно точнее отражать стр-ру инф-ии о явлениях внешнего мира. Любая инф. может быть передана с помощью комбинаций предметов и отношений. Если язык ПС будет располагать средствами для передачи этих компонентов инф., то с его помощью можно будет передавать смысл документов с требуемой точностью.

Структура языка. ИПЯ оперирует единицами 3-х видов: 1-термины ‘Х’;2-релатемы ‘R’; 3-предложения. Термины - это знаки, передающие номинативную информацию, т.е. обозначающие предметы. Релатемы – это знаки, передающие релятивную функцию, т.е. обозначающие отношения(или свойства). Предложения – это знаки, передающие семантическую инф-ю, т.е. описывающие ситуацию.

Грамматика языка делится на две части:

  1. грамматика образования производных единиц.

  2. грамматика тождественных преобразований единиц.

1-ая состоит из правил образования терминов, релатем и предложений.

2-ая состоит из правил тождественных преобразований терминов, релатем и предложений. Эта грамматикаслужит для выявления синонимичных выражений на ЕЯ и приведения всех вариантов записей к одной при сотсавлении ПОДов и ПОЗов.

Существует три операции построения предложений:

а) операция образования простых предложений, которая сводится к соединению 2-х терминов релатемой: XRX.

б) операция присоединения термина. Состоит в том, что в предложении при помощи релатем включается новый термин.

в) синтаксическая операция «склеивания» (2 простых предложения соединяются при помощи релатем в 1 сложное).

Структура языка

1.Алфавит языка включает символы X и R с индексами+ различные символы: ( ), ^, 1..0, ,.

2. Лексика а) термины заданы списком (базовые термины – из списка), каждый термин имеет 2 индекса – верхний и нижний. Н-р: Х0001. Верхний – 0- обозначает, что данный термин из списка базовых терминов (термины с индексами1,2,3-производные). Нижний – порядковый номер данного термина в списке базовых терминов (или в списке производных терминов).

Н-р: Х0001- базовый – «большая величина»; Х0003 – «вакуум»; Х0146- «электрон».

3. Логика системы (релатема, отношения).

Релатемы заданы списком (обозначают отношения). Имеют только нижний индекс. R001-обозначает «быть элементом класса». R003- обозначает «быть субъектом»; R045-обозначает «быть равным»; R047-обозначает «быть больше»; R003 – «не быть субъектом».

Из базовых терминов и релатем строятся коды, или производные термины.{язык RX-кодов= ИПЯ «Бит»} Пример: [Х040-«мощность», Х127-«увеличение». R011 – «иметь объект» ] R001 Х127R011Х040 – «увеличение мощности»

Этот код является термином, причём у него есть развернутый вид, или свёртка- Х1167. «Свёртка» удобна из-за краткости, а «развёртка», когда надо установить смысловые связи между терминами.

Смысловой код (семантический) может быть в виде свёртки, развёртки, а также: графический способ (в виде дерева, вершины которого сопоставлены с классами предметов (обозн. символами Х), а дуги – отношениями, которые обозначаются символами R. Вершина дерева, соответствует свёртке, а всё остальное – развёртка.