logo search
Otvety_k_ekzamenatsionnym_biletam_Informatika_1

Меры информации семантического уровня. Определение

понятия – «тезаурус».

Под семантической информацией понимают смысловое содержа­ние, извлекаемое получателем из сообщения. Общепринятой коли­чественной меры для его измерения в настоящее время не существу­ет. Среди известных подходов к семантической оценке информации наибольшее распространение получил тезаурусный подход, когда содержащийся в принятом сообщении смысл оценивается путем со­отнесения с тезаурусом получателя (приемника), его способностью «понимать» и принимать поступившее сообщение. Действительно, для понимания и использования информации ее получатель должен обладать определенным запасом знаний. Полное незнание предмета не позволяет извлечь полезной информации из принятого сообще­ния об этом предмете. Чем больше знаний о предмете, тем больше и количество полезной информации, извлекаемой из сообщения.

Если назвать имеющиеся у получателя сведения (знания) о дан­ном предмете тезаурусом (т.е. неким сводом слов, понятий, назва­ний и др., соотнесенных между собой по каким-либо семантическим параметрам), то количество семантической информации, содержа­щееся в некотором сообщении, можно оценить степенью измене­ния этого тезауруса под воздействием данного сообщения.

Тезаурус — в широком смысле — совокупность сведений, ко­торыми располагает пользователь (система), в более узком — запас знаний в виде словаря, отражающего семантические свя­зи между словами и другими смысловыми элементами данно­го языка.

Таким образом, количество семантической информации IС, извле­каемой получателем из поступающих сообщений и включаемой им в дальнейшем в свой тезаурус, зависит от степени подготовленности (полноты) тезауруса Sp для восприятия такой информации . При недостаточно развитом тезаурусе получатель извлекает из со­общения малое количество семантической информации, а в предель­ном случае при Sp = 0 (отсутствии у получателя исходных знаний) он вообще не воспринимает (не может «понять») поступающее сооб­щение. При достаточно развитом тезаурусе получателя также воспри­нимается малое количество семантической информации (тезаурус незначительно изменяется под воздействием данного сообщения), при этом в предельном случае, когда Sp , ∞ получатель «все знает», и извлекаемая из сообщения информация ему не нужна.

Зависимость количества семантической информации,

воспринимаемой потребителем, от его тезауруса.

Максимальное количество семантической информации получа­тель извлекает при согласовании ее смыслового содержания со сво­им тезаурусом (Sp = Spopt). В этом случае поступающая информация понятна получателю и несет ему ранее не известные (отсутствующие в его тезаурусе) сведения, включаемые в дальнейшем в тезаурус.

Следовательно, количество семантической информации, содер­жащееся в сообщении, является величиной относительной. Одно и то же сообщение может иметь смысловое содержание для получа­теля с более развитым тезаурусом (компетентного пользователя) и быть бессмысленным для получателя с недостаточно развитым те­заурусом (некомпетентного пользователя).

Относительной мерой количества семантической информации может служить коэффициент содержательности С, который опре­деляется как отношение количества семантической информации к ее объему:

C=Ic/Vд

Еще один подход к семантическим оценкам информации, раз­виваемый в рамках науковедения, заключается в том, что в качестве основного показателя семантической ценности информации, содержащейся в анализируемом документе (сообщении, публикации), принимается кол-во ссылок на него в других документах. Конкретные показатели формулируются на основе статистической обработки количества ссылок в различных выборках.