logo search
Информационно-поисковые и информационно-справочные системы в обучении информатике

3.1 Последовательность действий

1. Подбираем текст-источник. Чем четче описание проблемы в тексте-источнике, тем качественнее и точнее окажется результат. Размытый и путаный текст-источник найдёт в поисковой системе столь же ненужные документы.

2. Удаляем из текста стоп - слова (их можно просто вычеркивать).

3. Вычисляем частоту вхождения каждого термина. Причем делаем это без учета морфологии слов. Так, слова «ship» и «ships» будут разными терминами. Не нужно учитывать и регистр, все буквы считаем строчными.

4. Выписываем на отдельный лист термины в порядке убывания их частоты вхождения (первыми должны идти те, которые встречаются чаще).

5. Выбираем диапазон частот. Он должен лежать где-нибудь посередине. Не нужно брать слишком часто или, наоборот, слишком редко встречающиеся термины. Выбор диапазона субъективен. Вам следует ориентироваться на конкретный смысл текста. Необходимость выбирать диапазон вручную не должна смущать, ведь теперь вы выбираете термины не из текста, а из построенного по определенному закону упорядоченного списка.