7.4.2. Законы Зипфа и автоматизация извлечения метаданных из электронных изданий
Известный математик Дж. Зипф (С. К. Zipf) показал, что все созданные человеком тексты подчиняются общим закономерностям, которые он сформулировал в 1946 г. в виде нескольких законов.
Если взять любой текст, то можно подсчитать, какие слова в нем сколько раз встречаются. Количество повторов слова в тексте можно назвать частотой. Чаще всего встречающемуся слову можно приписать ранг 1, следующему по частоте - 2 и т. д. Если несколько разных слов имеют одинаковые частоты, то учитывается только одно из этих нескольких значений. Если разделить частоту повторения слова на общее количество значащих слов в тексте, то получим его относительную частоту или вероятность встречи этого слова в тексте. Первый закон Зипфа гласит, что произведение вероятности встречи слова в тексте на его частоту приблизительно постоянно для любых текстов определенного языка. Сказанное иллюстрируется рис. 7.3, где представлена зависимость частоты встречи слова в тексте f от его ранга R.
Второй закон Зипфа определяет соотношение между частотой и количеством слов, которые с этой частотой встречаются в тексте. Если построить график зависимости количества слов и частоты, то окажется, что характеризующая ее кривая остается неизменной для любых текстов в пределах одного языка. Сказанное иллюстрируется да иным и рис. 7.4, на котором показаны кривые для английского (самая нижняя), французского и русского языков (самая верхняя).
Данные рис. 7.3могут успешно использоваться на практике для выделения значащих слов в тексте. Все значащие слова для данного текста размещаются в области средних значений ранга (область выделена на рис. 7.3штриховкой). Действительно, самые часто встречающиеся слова обычно относятся к вспомогательным, а самые редко встречающиеся обычно также не имеют решающего смыслового значения для данного текста. От того, как будет задан диапазон значимых слов, зависит многое. Если сделать его слишком широким - нужные термины потонут в море вспомогательных слов, установив чрезмерно узкий диапазон мы рискуем потеряешь смысловые термины.
Если рассматривать совокупность изданий, в особенности, посвященных одной и той же тематике, то вероятность случайного попадания малозначащих слов в выделенную область для группы изданий (см. рис. 7.3) уменьшается. Чтобы учесть такую возможность избавиться от случайных слов вводят понятие инверсной частоты термина. Инверсная частота определяется как логарифм отношения общего количества рассматриваемых документов п кчислу документов, содержащих данный термин m (под термином может пониматься не только отдельное слово, но и единое по смыслу словосочетание), т. е.
.
С учетом инверсной частоты вес или значимость термина в каждом документе определится как произведение
,
где z - вес или значимость термина в издании; f - частота повторения термина в этом издании; i - инверсная частота этого термина в группе издании.
Процесс определения веса или значимости термина в издании легко алгоритмизируется. На этом принципе основана работа всех программ - экстракторов значащих слов. Надо сказать, что даже широко распространенный в нашей стране редактор Word, начиная с версии 1997 г., как-то выполняет функции извлечения терминов. Для этого используется команда «Реферат» в секции меню «Сервис». Соответствующее команде диалоговое окно показано на рис. 7.5.
Как следует из данных рис. 7.5, реферат можно поместить в начало реферируемого документа или оформить в виде отдельного файла. Можно также регулировать размер реферата, задавая в процентах от основного текста количество предложений в нем. В примере на рис. 7.5в реферате содержатся два предложения, в то время как в исходном документе их было двадцать одно. Наряду с составлением реферата из текста документа извлекается пять наиболее значимых слов. Для их просмотра следует воспользоваться командой «Свойства» секции меню «Файл». Соответствующее диалоговое окно показано на рис. 7.6.
Для того чтобы ключевые слова были занесены в нужное поле вкладки «Документ» окна «Свойства», в диалоговом окне, показанном на рис. 7.5, должна быть задействована опция «Обновить сведения о документе»).
В поле «Ключевые слова» в примере отобрано пять слов, а именно: «в», «издательств», «области», «предусмотрен», «должен». Нетрудно за метить, что из пяти отобранных слов только одно соответствует тематике статьи «Современные издательства», причем одно из отобранных слов - предлог, который вообще не может иметь смысла, когда он берется отдельно от основного слова. Таким образом, качество отбора ключевых слов редактором Word 97 весьма низкое. Кстати, реферирование осуществляется только для работе названием на английском (а не на русском) языке. Надо сказать, что редактор Word 2000 ничем существенным не отличается от своего предшественника.
- Предисловие
- 1.2. Составные элементы электронного издания
- 1.2.1. Тексты
- 1.2.2. Иллюстративный материал
- 1.2.3. Звуковое сопровождение
- 1.2.4. Анимация и видео
- 1.3. Форматы электронных изданий
- 1.5. Современное состояние и перспективы электронного книгоиздания
- 2.1. Общая характеристика и структура html-документа
- 2.2. Тело документа и оформление его основных фрагментов
- 2.2.1. Тело документа
- 2.2.2. Теги логического форматирования текста
- 2.2.3. Теги физического форматирования текста
- 2.3. Оформление списков терминов и определений
- 2.3.1. Маркированные списки
- 2.3.2. Создание нумерованных списков
- 2.3.3. Списки определений
- 2.3.4. Многоуровневые списковые структуры
- 2.4. Использование графики при оформлении электронного издания
- 2.5. Включение в издание ссылок и комментариев
- 2.6. Оформление таблиц
- 2.7. Фреймовая структура электронного издания
- 2.8. Html-формы
- 2.9. Понятие о динамическом html и его компонентах
- Глава III. Мультимедийный документ и форматы представления его элементов
- 3.1. Мультимедиа и ее роль в современных информационных технологиях
- 3.2. Форматы представления текстовых блоков электронного издания
- 3.3. Форматы представления графической информации
- 3.4. Форматы представления аудиофайлов
- 3.5. Форматы представления анимации и цифрового видео
- 3.5.1. Анимационные gif-файлы
- 3.5.2. Принципы представления цифрового видео
- 3.5.3. Форматы цифрового видео
- 4. Глава IV. Средства подготовки электронных изданий
- 4.1. Издательские технологии и электронные издания
- 4.2. Подготовка гипертекстовых электронных изданий в doc-формате
- 4.2.1. Подготовка изданий в редакторе ms Word 97
- 4.2.2. Подготовка изданий в редакторе ms Word 2000
- 4.3. Редактирование html-изданий в редакторе ms Word 97
- 4.3.1. Команды секции меню «Формат»
- 4.3.2.Команды секции меню «Вставка»
- 4.4. Общая характеристика типовых html-редакторов первой группы
- 4.5. Общая характеристика wysiwyg-редактора Netscape Composer
- 4.6. Подготовка документов в pdf-формате
- 5. Глава V. Аппаратное и программное обеспечение рабочего места читателя
- 5.1. Требования и рекомендации к аппаратному обеспечению
- 5.1.1. Требования к центральной части или ядру пк
- 5.1.2. Мониторы и требования к ним
- 5.1.3. Cd-rom-накопители для работы с переносимыми изданиями
- 5.2. Назначение и общая характеристика браузеров
- 5.3. Браузер ms Internet Explorer
- 5.3.1. Экранный интерфейс
- 5.3.3. Основные команды меню браузера
- 5.3.4. Ведение журнала обозревателя и команды других секций меню
- 5.4. Программные средства для работы с электронными изданиями в pdf-формате
- 5.5. Программные средства для воспроизведения аудиофайлов
- Глава VI. Подготовка сетевых и мультимедийных изданий в специализированных программных пакетах
- 6.1. Общая характеристика пакета ms FrontPage 2000
- 6.1.1. Интерфейс пакета
- 6.1.2. Технология подготовки новых Web-сайтов
- 6.2. Назначение и общая характеристика пакета Dreamweaver
- 6.2.1. Интерфейс пакета DreamWeaver
- 6.2.2. Последовательность проектирования сайта в пакете Dreamweaver
- 6.3. Подготовка мультимедийных изданий в пакете Macromedia Director
- 6.3.1. Интерфейс пакета Macromedia Director
- 6.3.2. Основные окна и инспекторы пакета
- 6.3.3. Основные этапы работы над мультимедийным электронным изданием
- 6.4. Дизайн Web-сайтов в пакете Macromedia Flash
- 6.4.1. Общая характеристика и интерфейс пакета
- 6.4.2. Основные понятия и элементы Flash-технологии
- 6.5. Общая характеристика других программных средств для Web-дизайна
- 6.5.1. Другие средства проектирования Web-сайтов
- 6.5.2. Подготовка анимационных фрагментов в пакете 3d Studio Max
- 7. Глава VII. Организация хранения электронных изданий
- 7.1. Организация хранения и поиска электронных изданий
- 7.2. Информационное хранилище издательства
- 7.2.1. Требования к информационному хранилищу издательства
- 7.2.2. Проектирование структуры хранилища электронных изданий
- 7.3. Информационная структура современного издательства
- 7.4. Автоматизация выделения метаданных
- 7.4.1. Метаинформация и ее роль
- 7.4.2. Законы Зипфа и автоматизация извлечения метаданных из электронных изданий
- 7.4.3. Применение программ-экстракторов
- 7.5. Публикация содержимого баз данных на Web-страницах
- 7.5.1. Публикация статических Web-страниц
- 7.5.2. Публикация динамических Web-страниц
- 8. Глава VIII. Распространение электронных изданий
- 8.1. Виртуальный мир книги и его особенности
- 8.1.1. Некоммерческие электронные библиотеки
- 8.1.2. Представительство крупных библиотек в Интернете
- 8.2. Электронные книжные магазины
- 8.3. Технология e-book и развитие электронного книгораспространения
- 8.3.1. Специализированные аппаратные средства для работы с электронными изданиями
- 8.3.2. Современное аппаратное средство e-book
- 8.3.3. Программные средства e-book
- 8.3.4. Стандарт Open e-book
- 8.3.5. Достоинства и недостатки технологии e-book
- 9. Глава IX. Электронные учебники
- 9.1. Достоинства и недостатки электронных учебников
- 9.2. Структура электронного учебника
- 9.3. Основные принципы подготовки электронных учебников
- 9.3.1. Размещение информации на поверхности экрана
- 9.3.2. Проблема ориентации и перемещения пользователя внутри электронного издания
- 9.4. Дистанционное обучение и организация самостоятельной работы студентов
- 9.5. Автоматизированные методы оценки уровня подготовки студента