logo
Responses

30. Принципи роботи індексних пошукових систем: сканування World Wide Web, індексація World Wide Web, ранжування результатів пошуку.

Більшість пошукових систем світу - індексні пошукові системи, які ще називають пошуковими покажчиками, пошуковими серверами, словниковими пошуковими системами, автоматичними індексами, пошуковими машинами, Search Engines, Retrieval Systems - в англомовних джерелах тощо. В інтернеті їх функціонує декілька сотень. Перед ними ставиться завдання якнайкраще охопити інформаційний Web-простір і подати його користувачам у зручному вигляді. Принцип роботи з індексними пошуковими системами ґрунтується на використанні ключових слів. Розшукуючи відомості з деякої теми, користувач повинен дібрати ключові слова, які описують цю тему, і задати їх індексній пошуковій системі як запит. Користувачам такої пошукової системи надається форма, або пульт управління пошуком, для введення ключового слова (слів) або фрази. Пошукова система знаходить у своїх базах даних, які називаються індексами або покажчиками, адреси Web-ресурсів, котрі містять ключові слова, і видає клієнту сторінку з посиланнями на ці ресурси. Така Web-сторінка називається звітом про результати пошуку.

Принципи роботи індексних пошукових систем

Індексні пошукові системи мережі інтернет дають змогу проводити досить глибокий пошук інформаційних ресурсів у рамках заданої теми. Робота індексної пошукової системи проводиться в три етапи.

  1. На першому етапі пошукова система за допомогою спеціальних комп’ютерних програм обстежує інформаційний простір мережі інтернет (головним чином WWW); виявляє наявні, а особливо нові та оновлені, Web-ресурси; фіксує посилання на сайти та документи, які припинили своє існування. Тобто відбувається процес сканування інформаційного простору.

  2. На другому етапі матеріал, зібраний у процесі сканування, із зазначенням посилань на те, де зберігається кожне слово, заноситься в індексну базу даних. Індексна база пошукової системи - це база даних слів, отриманих в результаті сканування. Далі відбувається перетворення бази даних так, щоб у ній можна було проводити прискорений пошук.

  3. На третьому етапі індексна пошукова система приймає запит від користувача, проводить пошук у своїх базах даних і видає Web-сторінку оформлених результатів пошуку.

Сьогодні найбільш розвинені пошукові системи інтернету поєднують у собі обидва методи пошуку (за темами і за ключовими словами) і дають змогу використовувати найбільш придатний.

Адреси деяких пошукових систем

http://meta.ua/

http://www.yahoo.com/

http://www.google.com.ua/

http://www.yandex.ua/

http://www.rambler.ru/

http://www.brama.com/ukr.html

http://www.bigmir.net/

http://www.mail.ru/

http://www.aport.ru/

http://www.online.ua/

Прийоми ефективного пошуку інформації

Для пошуку інформації за одним ключовим словом необхідно набрати це слово в полі введення запитів і натиснути кнопку Знайти (Найти, Search). Пошук за одним словом доцільно проводити в тому випадку, якщо це слово є рідкісним, маловживаним або ім’ям власним, наприклад, конкорданс, Голомб, Джерард Солтон.

Але, як правило, пошук за одним словом призводить до формування величезних списків Web-сторінок, на яких воно зустрічається. Знайти в такому списку потрібні ресурси не просто, і тому пошук за одним словом малоефективний. Набагато ефективнішим є пошук за кількома словами, але тут важливу роль відіграє правило, яке вказує пошуковій системі, як опрацьовувати групу слів. Наприклад, користувача можуть цікавити:

-документи, що містять І перше слово, І друге одночасно;

-документи, в яких ці слова зустрічаються поруч або недалеко одне від одного;

-документи, в яких зустрічається АБО перше слово, АБО друге, АБО обидва разом.

Таким чином, для ефективного пошуку за кількома ключовими словами потрібні спеціальні команди, які дають змогу пов’язати окремі слова між собою. Ці команди в пошукових системах утворюють спеціальну мову запитів.

Кожна індексна пошукова система використовує свою власну мову запитів, тому при використанні різних пошукових систем треба знати особливості кожної. Ретельний перелік правил написання запитів для конкретної пошукової системи можна знайти на її сервері за посиланнями Допомога, Як скласти запит, Поради з пошуку тощо. Але є загальний принцип, згідно з яким усі команди можна поділити на три групи: команди простого пошуку, команди мови запитів і команди розширеного пошуку. У режимі простого пошуку запити створюються нескладними методами, але вони, як правило, призводять до численних результатів, з яких важко вибрати необхідні. Команди мови запитів дають змогу досить точно описати потрібний документ. Команди розширеного пошуку призначені для пошуку документів не за їх змістом, а, наприклад, для пошуку Web-вузлів за їх назвами, за фрагментами їх адрес, за адресами посилань, які зустрічаються на їх Web-сторінках і т.п.

У процесі пошуку відомостей у мережі інтернет важливими є дві складові: повнота пошуку (тобто намагання не пропустити важливі відомості) і точність (тобто відсутність у результатах пошуку зайвих даних). Обидві ці складові називають загальним словом релевантність, яка передбачає максимальну змістову відповідність результатів пошуку вказаному запиту. Тобто релевантність - це адекватність відповіді запитанню.

Команди простого пошуку

1. Пошук групи слів. При роботі з будь-якою пошуковою системою слід з’ясувати, як вона сприймає групу слів у запиті, наприклад, видатні фізики. Україно- та російськомовні пошукові системи сприймають групу слів так, ніби між ними стоїть сполучник І, тобто шукають документи, в яких обидва ці слова зустрічаються одночасно. Так само працює пошукова система Google. Але більшість англомовних пошукових систем сприймають групу слів таким чином, ніби між ними стоїть сполучник АБО і шукають документи, які містять або перше, або друге слово, або обидва слова разом. Кількість слів у групі не обмежується.

2. Пошук словоформ. У зв’язку з тим, що в українській та російській мовах слова змінюються за відмінками, важливою властивістю пошукової системи є пошук словоформ. У більшості випадків пошукові системи дозволяють знаходити різні словоформи, наприклад, попередній запит на пошук видатні фізики рівносильний запиту видатний фізика.

3. Роль великих літер. Загальне правило для більшості пошукових систем полягає в тому, що великі літери на початку слова сприймаються як додаткова умова, що обмежує область пошуку. Наприклад, за запитом Ліга Чемпіонів будуть знайдені лише ті документи, які містять слова Ліга Чемпіонів. Проте пошук за запитом ліга чемпіонів поверне документи, в яких є слова Ліга чемпіонів, ліга Чемпіонів, Ліга Чемпіонів, ліга чемпіонів.

4. Пошук однокореневих слів. Більшість пошукових систем знаходить документи, які містять слова однокореневі з ключовими. Наприклад, пошук за запитом модел поверне документи, в яких є слова модель, моделей, модельний, моделізм, моделює, моделювання.

5. Засоби контекстного пошуку. Якщо ключові слова взяти в лапки, наприклад "To be or not to be", "Слово о полку Ігоревім", то пошукова система повинна знайти документи, в яких дана фраза присутня буквально, тобто саме так, як вона записана. Для пошуку фрази з абсолютно точним збігом пошуковій системі недостатньо індексного файла, і вона звертається до копій раніше збережених у своїй базі Web-сторінок.

6. Шукати у знайденому. Якщо в результаті пошуку було знайдено занадто багато документів і користувач має бажання скоротити такий список, то для цього використовується послуга "Шукати у знайденому", яку надають пошукові системи на пульті управління пошуком. Наприклад, запит електронна бібліотека можна уточнити запитом фантастика.

Команди мови запитів

Оператор І. За допомогою цього оператора об’єднують два чи більше слів таким чином, щоб вони всі були в документі, наприклад Ейнштейн І теорія І відносності. Як було зазначено вище, в україно- та російськомовних пошукових системах списки слів і без такого оператора сприймаються так, ніби між ними стоїть оператор І. Але для більшості англомовних пошукових систем оператор І відіграє важливу роль, йому відповідають символи "&" та "+".

Оператор АБО. Оператор забезпечує пошук за будь-яким словом з групи, наприклад, університет АБО академія. У більшості пошукових систем оператор АБО записується у запиті як OR.

Логічні дужки. Дужки застосовуються, коли необхідно управляти порядком дій логічних операторів, наприклад, пошук за запитом (чемпіонат АБО кубок) І світу поверне документи, в яких є слова чемпіонат світу або кубок світу.

Оператор НЕ. Цей оператор використовується, коли з результатів пошуку необхідно виключити деяке ключове слово. Необхідність у цьому виникає, коли треба уникнути двозначності або зменшити кількість посилань, що повертаються. Наприклад, Паскаль НЕ (мова програмування), кінопремія НЕ Оскар.

Пошук із зазначенням відстані. Такий вид пошуку дозволяє вказати, на який відстані одне від одного повинні розташовуватися слова в документі. В англомовних пошукових системах використовується оператор NEAR.

Наприклад,

Поняття про інформаційно-пошукові системи

Для організації пошуку інформації в мережі Iнтернет призначено пошукові сервери(пошукові системи). Використовуючи такі сервери, можна подати запит на пошук потрібної інформації, а сервер(система) видасть вам список посилань(адрес) на електронні джерела, при цьому кожна адреса відіграє роль гіперпосилання, активізуючи яке, можна одразу ж відкрити відповідну сторінку. За принципом дії пошукові сервери поділяються на пошукові каталоги і пошукові індекси. Пошукові каталоги дозволяють здійснювати тематичний пошук. Початкова сторінка таких серверів є тематичним рубрикатором верхнього рівня. Вибравши рубрику, підрубрику і т.д., можна поступово опускатися до переліку матеріалів, які присвячені досить вузькій темі. Пошукові індекси працюють як алфавітні вказівники. У них запит робиться в полі пошуку у вигляді послідовності ключових слів, які відповідають змісту шуканої інформації. У відповідь на такий запит буде видано список Web-сторінок, в яких зустрічаються вказані слова. Багато інформаційно-пошукових систем є одночасно і пошуковими каталогами, і пошуковими індексами. Відмітимо, що пошукові системи часто називають пошуковими машинами або машинами пошуку. Всього в світі існують сотні пошукових систем, і вибір якоїсь із них залежить від ваших власних уподобань. Відомими пошуковими серверами є: AltaVista, Yahoo, Rambler, Yandex, Aport, Мета Україна. Деякі з пошукових систем дозволяють шукати інформацію не тільки на Web-сторінках, але й у групах новин і в місцях, де зберігаються файли. Тому надалі будемо вживати замість терміна сторінка більш загальний термін - документ.

Етапи користування інформаційно-пошуковими системами

Процес пошуку доволі простий: задавши ключові слова, характерні для шуканої інформації, знаходимо потрібний нам документ. Незалежно від того, яка система пошуку використовується, загальний алгоритм пошуку виглядає наступним чином:

Перейдіть на початкову сторінку пошукової системи або на будь-яку іншу сторінку, на якій знаходяться поля для вводу запитів і кнопка для початку пошуку. В останньому випадку після клацання на кнопці відбувається перехід на сторінку пошукової системи. Принципової різниці між власне пошуковою системою і сторінкою з полями вводу запиту, який передається пошуковій системі, немає.

Якщо система дозволяє послідовно уточнювати межі для пошуку, то здійснюється перехід на розділи, які визначаються цими межами, наприклад, пошук лише в галузі наук. В таких системах запит в головному розділі здійснює пошук серед усіх вузлів Iнтернета. Якщо ж ви, наприклад, перейдете в розділ "Новини", то пошук за запитом проводиться лише серед вузлів, присвячених новинам.

Уведіть запит на пошук у відповідності з правилами, прийнятими у вибраній системі пошуку. У найпростішому випадку це одне або декілька слів, але можливі і складні запити з логічними операціями "AND", "OR", "NOT".

Якщо система пошуку дозволяє, то уточнюються деякі параметри запиту за допомогою додаткових полів, списків, прапорців і перемикачів, які можуть знаходитися на сторінці поряд з полем запиту.

Клацніть на кнопці для початку пошуку, і після деякої паузи відбудеться автоматичний перехід на сторінку із списком документів, що задовольняють вашому запиту. Час паузи залежить від складності запиту, швидкості роботи пошукової системи і якості зв'язку з даною системою.

Якщо посилань так багато, що вони не вміщаються на одну сторінку, то після перегляду першої сторінки з результатами пошуку можна перейти до наступної.

Знайшовши потрібне посилання, клацніть на ньому мишею і переходьте на сторінку, яку ви розшукували. Якщо потрібно переглянути після цього інші знайдені документи, то поверніться назад до сторінки з посиланнями і здійсніть перехід на новий документ за іншим посиланням.

В багатьох пошукових системах поле запиту залишається на сторінці під час перегляду результатів, там можна швидко уточнити запит і організувати новий пошук. В більшості систем список включає в себе, крім посилань, декілька рядків кожного зі знайдених документів.

В деяких системах списки посилань відсортовані таким чином, що на початку списку виписані посилання на документи, що найточніше задовольняють ваш запит. Наприклад, якщо в документі часто зустрічаються слова запиту і декілька слів, включених в запит, розміщені в документі поряд, то такий документ, на думку пошукової системи, найповніше задовольняє запиту. Відмітимо, що ступінь відповідності знайденого документа запиту, визначений пошуковою системою, не завжди співпадає з вашим розумінням цієї відповідності. Зазначимо також, що при виконанні запиту пошукова система не шукає документи безпосередньо в Iнтернеті. Вона звертається до своєї бази даних, де в компактному вигляді зібрані дані про інформацію в Iнтернеті.

Чим відрізняються різні інформаційно-пошукові системи

Пошукові системи використовують для індексування сайтів так званих "пошукових роботів", спайдеров (від англійського слова "spider", що значить "павук"). Робот - це невелика програма, що ходить по посиланнях на сайте й індексує (збирає і запам'ятовує) зустрінуту на шляху інформацію.

Принцип роботи пошукових роботів приблизно наступний: ви надаєте пошуковій системі точна адреса сторінки, який потрібно зареєструвати. Пошукова система перевіряє, чи існує по цій адресі сторінка, і якщо так, те сторінка вноситься в "графік відвідування". Між часом, коли ви зареєстрували сторінку в пошуковій системі і часом, коли вашу сторінку відвідає пошуковий робот може пройти від декількох хвилин до декількох тижнів. Так що не поспішаєте відразу ж перевіряти наявність вашої чи сторінки сайту в пошуковій системі.

Коли приходить "година Х", на вашу сторінку посилається пошуковий робот. Як правило, схема роботи робота наступна:

1) робот шукає файл robots.txt,

2) робот читає сторінку, для індексування якої він був посланий (глибина індексування, тобто читання сторінки міняється від робота до робота. Деякі зупиняються тільки на читанні заголовка сторінки і вмісту мета-тегів, інші можуть прочитати, скажемо перші 6000 символів на сторінці, а деякі індексують весь зміст веб-сторінки),

3) потім робот може або видалитися або продовжити індексування сайта,

4) через якийсь час робот знову може відвідати цю сторінку, якщо існує тег "revisit" чи відповідно до політики, яка проводиться пошуковою системою.

Відмінність каталогів від пошукових систем полягає в тому, що каталоги не посилають ніяких роботів, щоб індексувати вашу чи сторінку веб-сайту. Найбільш відомим каталогом є Yahoo.com.

Для реєстрації в каталозі вам необхідно знайти розділ, у який ви хочете помістити свою сторінку, послати короткий опис сайта і список ключових слів для пошуку вашої сторінки в каталозі. Потім ця інформація проглядається й оцінюється людьми, що вирішують, чи варто включати ваш інформацію в чи каталог ні.

Варто знати, що вам можуть відмовити в реєстрації, ваш сайт можуть помістити в інший розділ, можуть бути змінені опис сайта і/чи список його ключових слів. Усі залежить від модераторів.

Тому що реєстрація виробляється людиною, а не програмою, то пошук по каталогах дає більш релевантні результати, ніж пошук по пошукових системах. Корінною відмінністю каталогів від розвідувачів також є те, що пошук у них виробляється не по текстової складової всіх сторінок сайта, а тільки по короткому описі сервера й обраним при реєстрації ключовим словам.

Так само, як різні кухарі готують різні блюда з тих самих інгредієнтів, так і пошукові системи одержують різні результати, ґрунтуючись на тих самих вихідних даних. Усі залежить від алгоритмів обробки цих даних, закладених творцями пошукових систем.

Одні системи приділяють більшу увагу "індексу цитування", інші наявності всіх мета-тегов, треті взагалі не приділяють увагу мета-тегам. Rambler, наприклад, цілком ігнорує зміст мета-тегов (крім мета-тега robots). Якщо ви подивитеся на рейтинг вашого сайта в різних пошукових системах, він скрізь виявиться різним.

Тому й існують так називані вхідні сторінки, оптимизированние під роботу окремих пошукових систем.

Як правило, пошукові системи тримають у секреті точні рецепти, свої алгоритми ранжирування, відповідно до яких формуються їхні рейтинги. Цим переслідуються дві мети: захист від конкурентів і захист від спрямованого спама.

Крім того, пошукові системи відрізняються обсягом проіндексованих сторінок і періодом відновлення свого індексу.

В даний час пошукові обсяг індексації пошукових систем оцінюється по двох параметрах: по кількості веб-страниц, що пошукові системи відвідали для створення своєї бази даних і кількості веб-страниц проіндексованих у базі даних.

AltaVista, наприклад, затверджує, що її база даних нараховує 250 млн. сторінок, а число посещенних для індексації сторінок склало 400 млн. У пошукової системи FAST цей показник складає 400 млн. проти 700 млн., Excite - 250/920 млн., Inktomi - 110 млн./1 млрд.

Крім того, пошукові системи розрізняються періодом відновлення свого індексу, тобто часом, за которое відбувається повне відновлення бази даних пошукової системи. Ніж коротше цей період, тим більше релевантні результати ви будете одержувати на свій запит і меншу кількість "мертвих посилань". Саме тому ваш рейтинг в одній і тій же пошуковій системі може змінюватися: чи з'являються зникають якісь сайти, уводяться зміни в алгоритм роботи пошукових систем, міняється структура інформації на вашому сайте. Період відновлення індексу генератора в трьох основних російськомовних пошукових машин - Яndех, Rambler і "Апорт" - тиждень. Тому, зареєструвавши свій ресурс у пошуковій машині, не варто відразу ж шукати посилання на нього в результатах пошуку - він стане доступним тільки тоді, коли буде обновлена база даних пошукової системи.

Другий показник дуже важливий для правильної оцінки "індексу цитування", тому що чим більше число веб-страниц відвідав пошуковий робот, тим більша кількість перехресних посилань він проиндексировал.