logo
Основы_информатики

Анализ языка

Трудности, возникающие при передаче содержания документа:

1) слова, которые выполняют синтаксические функции, но непосредственно не способствуют определению информационного содержания документа, должны быть исключены. Например: союзы, предлоги…

2) синонимы нужно распознавать

3) новые слова использовать в нескольких различных значениях в зависимости от контекста.

Military base – военная база

Lamp base – цоколь лампы

4) в ЕЯ часто применяются косвенные ссылки, когда местоимения или собирательные имена существительные используются для отсылки к словам, ранее упомянутым в тексте. Идентификация таких слов часто вызывает трудности.

5) между словами могут существовать отношения, которые в тексте содержаться не явно, но могут быть выведены из контекста или из других ранее проанализированных текстов.

6) значения многих слов могут изменяться или даже создаются новые слова

Например: милимикросекунда = наносекунда

Любая система анализа содержания текстов должна включать методы последовательной нормализации языка. Один из наиболее эффективных путей обеспечения такой нормализации связан с соответствующим образом построенными словарями.

1) Словарь отрицаний (Стоп-словарь)

Содержит термины, использование которых запрещено для целей анализа содержания.

2) Тезаурус (словарь синонимов), который для каждого входа словаря определяет одну или больше синонимичных категорий или классов понятий.

3) Словарь словосочетаний, которые используются для определения наиболее часто встречающихся комбинаций слов (называемых словосочетаниями). Такой словарь может повысить эффективность анализа содержания документов, выделяя для идентификации содержания однозначные словосочетания, вместо 2 или более неоднозначных компонентов.

Например: программирование, язык –

является менее определенным, если выступают отдельно, чем если исп. «язык программирования»

4) Иерархическая организация терминов и понятий, позволяющая для каждого определенного входа словаря найти более широкие понятия, идя вверх, или узкие, идя вниз. Например, для такого понятия как синтаксис можно получить более широкое понятие «язык» или более узкое – «пунктуация».

Словари не полностью устраняют неоднозначность языка, но помогают устранить влияние многих нарушений норм языка, что значительно повышает эффективность работы ИПС.