2.3.1 Первый закон Зипфа
Все созданные человеком тексты построены по единым правилам. Тексты описывается законами Зипфа (G.K. Zipf). Зипф предположил, что слова с большим количеством букв встречаются в тексте реже коротких слов. Основываясь на этом постулате, Зипф вывел два универсальных закона: Первый закон Зипфа «ранг -частота».
Выберем любое слово и посчитаем, сколько раз оно встречается в тексте. Эта величина называется частота вхождения слова. Измерим частоту каждого слова текста. Некоторые слова будут иметь одинаковую частоту, то есть входить в текст равное количество раз. Сгруппируем их, взяв только одно значение из каждой группы. Расположим частоты по мере их убывания и пронумеруем. Порядковый номер частоты называется ранг частоты. Так, наиболее часто встречающиеся слова будут иметь ранг 1, следующие за ними - 2 и т.д. Выберем любую страницу и определим вероятность встретить слово, на которое пал выбор. Вероятность будет равна отношению частоты вхождения этого слова к общему числу слов в тексте.
Вероятность = Частота вхождения слова / Число слов
Зипф установил закономерность: если умножить вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина (С) приблизительно постоянна. [рис 1]
С = (Частота вхождения слова х Ранг частоты) / Число слов
Если мы незначительно преобразуем формулу, а на следующем этапе, используем данные математического справочника, станет очевидным, что это функция типа y=k/x и ее график -равносторонняя гипербола.
Рис 1. Первый закон Зипфа.
Следовательно, по первому закону Зипфа, если самое распространенное слово встречается в тексте, например, 100 раз, то следующее по частоте слово вряд ли встретится 99 раз. Частота вхождения второго по популярности слова, с высокой долей вероятности, окажется на уровне 50. Значение константы в разных языках различно, но внутри одной языковой группы остается неизменно, какой бы текст мы ни взяли. Так, например, для английских текстов константа Зипфа равна приблизительно 0,1. Для русского языка коэффициент Зипфа получился равным 0,06-0,07. Хотя эти исследования не претендуют на полноту, универсальность законов Зипфа позволяет предположить, что полученные данные вполне достоверны.
- Введение
- 1. Информационные системы
- 1.1 Понятие информационных систем
- 1.3 Классификация информационных систем
- 2. Информационно поисковые системы
- 2.1 Исторические предпосылки развития поисковых систем
- 2.3 Особенности поисковых систем
- 2.3.1 Первый закон Зипфа
- 2.3.2 Второй закон Зипфа "количество - частота"
- 2.4 Механизм работы поисковых систем
- 2.5 Основные параметры поисковых систем
- 2.6 Классификация поисковых систем по авторитетности
- Классификация поисковых систем по авторитетности:
- 2.7. Проблемы и возможности поисковых систем
- 3. Стратегия поиска
- 3.1 Последовательность действий
- Информационно-поисковая система
- Информационный поиск, информационно-поисковая система и его среда.
- Тема 1.Виды информационно-поисковых систем
- Информационно-поисковые системы
- 1. Информационно-справочные и информационно-поисковые системы
- Информационные системы и технологии
- Информационно-аналитические и справочно-поисковые системы
- Информационно–поисковые системы
- 5.3.3. Информационные средства обучения информатике
- 1.9. Информационно-поисковые системы Документальные информационные системы