logo search
Программа ГЭ_спец_2012 ответы light

Раздел 22. Разработка корпоративного web-узла

  1. Базовые стандарты и протоколы WWW: стандарты и протоколы передачи данных, форматы файлов Internet, используемые в WWW стандарты хранения данных, принципы поиска информации в Internet, использование поисковых систем, поиск тематической информации, путеводители по ресурсам.

Стандарты передачи данных

1.Ethernet

Ethernet - стандарт для построения ЛВС со скоростью передачи данных 10, 100 или 1000 Мбит/.

На сегодняшний день Ethernet является самым распространенным стандартом локальных сетей. В зависимости от типа физической среды передачи данных стандарт Ethernet имеет множество различных модификаций. Первые версии использовали шинную топологию и работали по коаксиальному кабелю (50 Ом) - 10Base5 (до 500 м) и 10Base-2 (до 185 м). Все последующие версии сети Ethernet имеют топологию звезды и работают по витым парам (100 Ом) или оптическим волокнам. Версии 10Base-T (10 Мбит/с) и 100Base-T4 используют кабели категории 3 (2 и 4 пары, соответственно), версия 100BASE-TX (100Мбит/с) использует две пары категории 5. В настоящее время все большую применимость находит сеть 1000Base-T (1 Гбит/с), которая использует четыре пары улучшенной категории 5, категории 6 и выше.

2.ATM

ATM - универсальная транспортная сеть для передачи голоса, данных и видео. Имеет скорости передачи 25, 155, 622 и 2400 Мбит/c.

Первые две разновидности могут работать по двум витым парам категории 5, аппаратура на 155, 622 и 2400Мбит/c использует в качестве среды передачи оптический кабель.

3.Стандарт FDDI

FDDI — оптоволоконный интерфейс разделяемых данных. В нем так же, как и в Token Ring, используется схема передачи маркера. Отметим, что в FDDI маркер посылается сразу же за передачей пакета в сеть, тогда как в Token Ring маркер генерируется только после возвращения к рабочей станции посланного ей сообщения. Кроме того, FDDI использует два независимых кольца с противоположной ориентацией для передачи данных (одно из них является резервным). По сравнению с Token Ring время обладания маркера ограничено. В качестве физической среды в FDDI может использоваться только оптоволоконный кабель. Максимальная скорость передачи данных по сети FDDI равна 100 Мбит/с. Оборудование для сетей FDDI в основном производят фирмы DEC, Cisco, 3COM.

4.Стандарт Token Ring

В ЛВС с передачей маркера сообщения передаются последовательно от одного узла к другому вне зависимости от того, какую топологию имеет сеть — кольцевую или звездообразную. Каждый узел сети получает пакет от соседнего узла. Если данный узел не является адресатом, то он передает тот же самый пакет следующему узлу. Передаваемый пакет может содержать либо данные, направляемые от одного узла другому, либо маркер. Маркер — это короткое сообщение, являющееся признаком незанятости сети. В том случае, когда рабочей станции необходимо передать сообщение, ее сетевой адаптер дожидается поступления маркера, а затем формирует пакет, содержащий данные, и передает этот пакет в сеть. Пакет распространяется по ЛВС от одного сетевого адаптера к другому до тех пор, пока не дойдет до компьютера-адресата, который произведет в нем стандартные изменения. Эти изменения являются подтверждением того, что данные достигли адресата. После этого пакет продолжает движение дальше по ЛВС, пока не возвратится в тот узел, который его сформировал. Узел-источник убеждается в правильности передачи пакета и возвращает в сеть маркер. Важно отметить, что в ЛВС с передачей маркера функционирование сети организовано так, что коллизий возникнуть не может. Скорость передачи данных сетей Token Ring достигает 16 Мбит/с. Оборудование для сетей Token Ring производят многие фирмы, в том числе IBM, 3COM.

ПРОТОКОЛЫ:

Модель OSI:

Каждый уровень стека протокола OSI, имеет конкретное назначение и определяет уровень передачи данных между двумя системами. При определении сетевого процесса, такого как запрос файла с сервера, вы начинаете с вершины стека - пользователь делает запрос. Затем запрос передается вниз по стеку и конвертируется на каждом уровне для передачи по сети. Каждый уровень добавляет к пакетам свою собственную служебную информацию.

Физический уровень определяет следующее:

Электрические и физические подключения.

Как разбитая на пакеты информация передается в виде битового потока по кабелю.

Как плата сетевого интерфейса получает доступ к кабелю.

Уровень связи данных

Уровень связи данных определяет правила передачи и приема информации по физической линии, соединяющей две системы. Он подразумевает, что подключение уже установлено на физическом уровне. Уровень связи данных управляет потоком разбитой на пакеты информации. Если битовый поток пересылается слишком быстро, принимающая станция должна указать, что для приема данных ей требуется пауза. Если пакет запорчен или не получен, то передающей станции нужно сообщить о необходимости повторной передачи.

Уровень связи данных разделяется на два подуровня. Уровень MAC (Media Access Control) управляет передачей пакетов по месту назначения. Уровень LLC (Logical Link Control) управляет передачей пакетов с верхних уровней и передает их через уровень MAC.

Используемые методы передачи данных зависят от типа применяемой в сети платы сетевого интерфейса. Чтобы соответствовать типу коммуникаций, драйвер этой платы должен быть настроен на соответствующий стек протокола. Если каждая система в сети использует одну и ту же плату сетевого интерфейса, совместимость на этом уровне не представляет проблемы.

Сетевой уровень

Сетевой уровень определяет протоколы для открытия и обслуживания сетевого маршрута между двумя системами. Он определяет, как передаются данные. На сетевом уровне для определения лучшего маршрута передачи к месту назначения может анализироваться адресная информация. Это имеет важное значение в объединенных сетях, где объединены несколько сегментов локальных сетей. Если пакет адресуется рабочей станции той же локальной сети, то он пересылается непосредственно. Если он адресуется сети в другом сегменте, то пакет передается на маршрутизирующее устройство, которое направляет его через маршрутизаторы, выбирая оптимальный маршрут. Прежде чем пакет достигнет места назначения, он может пройти через несколько маршрутизаторов. Чтобы избежать лишней циркуляции пакета, перед посылкой пакета важно знать лучший маршрут.

Для оптимизации доставки пакетов в объединенных сетях следует использовать маршрутизирующие устройства. Простейшими устройствами, которые посылают пакеты, не выбирая оптимального маршрута, являются мосты. Мосты работают на уровне связи данных, а маршрутизаторы - на сетевом уровне. Протокол IPX Novell NetWare автоматически предусматривает между двумя или более установленными на сервере сетевыми платами маршрутизирующие устройства сетевого уровня.

Транспортный уровень

Транспортный уровень обеспечивает наивысший уровень управления процессом перемещения данных из одной системы в другую. С помощью обнаружения и коррекции ошибок транспортный уровень обеспечивает качественные средства и точную доставку. Если данные в пакете пропущены, то протокол транспортного уровня на приемном конце координируется с протоколом транспортного уровня передающей системы для повторной передачи пакета. Этот уровень обеспечивает получение всех данных и в надлежащем порядке. На транспортном уровне NetWare работает протокол SPX (Sequenced Packet Exchange). На этому уровне между системами устанавливается виртуальная связь, аналогичная гарантированной телефонной коммутации. Во время сеанса передачи две системы сами поддерживают передачу данных.

Уровень сеанса

Уровень сеанса координирует обмен информацией между системами. Этот уровень называется так по устанавливаемому и завершаемому сеансу коммуникаций. Если одна система работает медленнее другой, или пакеты передаются не в том порядке, то требуется координация. На уровне сеанса к пакетам добавляется информация, которую используют коммуникационные протоколы и которая служит для поддержания сеанса до завершения передачи.

Уровень презентации

Протоколы на уровне презентации являются частью операционной системы и приложения, которое пользователь выполняет на рабочей станции. На этом уровне информация форматируется для вывода на экран и печати и интерпретируются коды в данных (такие как табуляция или специальные графические последовательности). На этом уровне выполнятся также кодирование данных и обработка других символьных последовательностей.

Уровень приложения

Сетевая операционная система и ее приложения доступны для пользователя на уровне приложений. Пользователи дают команды запроса на сетевые устройства, которые оформляются в пакеты и передаются по сети с помощью протоколов более низкого уровня.

Стандарты OSI обеспечивают полезный способ сравнения межсетевых средств и межоперативных возможностей различных разработчиков. В модели OSI несколько уровней протоколов образует так называемый стек протоколов, в котором каждый протокол работает на своем уровне программного и аппаратного обеспечения.

Стек протокола OSI определен Международной организацией стандартизации для содействия возможности межоперативной работы применяемых в мире продуктов. Он используется обычно в качестве стандарта для сравнения с другими стеками протоколов.

Протокол NetWare SPX/IPX (NetWare Sequenced Packet Exchange/Intenational Packet Exchange) - это "родной" протокол Novell NetWare, разработанный на основе стека протокола XNS (Xerox Network Services).

TCP/IP (Transmission Control Protocol/Internet Protocol) был одним из первых стеков сетевых протоколов. Первоначально он был разработан Министерством обороны США и использовался для связи аппаратуры разных производителей. Часть IP обеспечивает одно из лучших доступных сегодня определений межсетевой связи и используется многими разработчиками в качестве метода взаимодействия продуктов в локальных и глобальных сетях.

Протоколы AppleTalk были определены фирмой Apple Computer в качестве способа взаимодействия систем Apple Macintosh.

Протоколы IBM/Microsoft часто группируют вместе, так как эти две фирмы совместно разрабатывали и использовали программные продукты, такие как LAN Manager и OS/2.

ПРОТОКОЛЫ ПЕРЕДАЧИ ДАННЫХ В ИНТЕРНЕТ

Протокол HTTP

Протокол HTTP (Hipertext Transfer Protocol - Протокол передачи гипертекста) предназначен для передачи гипертекстов. Гипертекст это текст, содержащий специальные элементы, при обращении к которым выполняется непосредственный переход в другой текст. Эти элементы называются гиперссылками. В настоящее время HTTP наиболее популярный протокол Internet, т.к. обеспечивает простую и эффективную навигацию в сети. Поэтому сегмент Internet, использующий данный протокол называют World Wide Web (Всемирная паутина) или сокращенно WWW.

Протокол FTP

Протокол FTP (File Transfer Protocol - Протокол передачи файлов) позволяет передавать файлы клиентам сети. Суть процесса коммуникации с использованием протокола FTP состоит в следующем. Существует некий компьютер, который выполняет роль FTP-cepвepa. В принципе, FTP-сервером может служить любой компьютер. Для этого нужно всего лишь установить на нем соответствующее программное обеспечение. Единственное, о чем нужно позаботиться особо, — это о достаточной мощности компьютера, поскольку FTP-сервер предназначен для того, чтобы обрабатывать запросы, приходящие от других компьютеров, — как правило, весьма многочисленные. Когда вы хотите загрузить файл из сети по протоколу FTP, вы пользуетесь программой, которая является FTP-клиентом.Эта программа посылает запрос FTP-серверу, который либо выполняет его (в этом случае вы видите, например, окно с индикатором процесса загрузки файла), либо отказывается и возвращает сообщение об ошибке (например, из-за чрезмерной загруженности сервера). Если FTP-клиенту удается начать процесс соединения с FTP-сервером, он должен сообщить последнему имя пользователя (login или logon) и пароль (password). Эти обязательные параметры соединения позволяют владельцу сервера быть уверенным в том, что доступ к файлам, расположенным там, имеет не кто попало, а лишь те, кому они предназначены.

Поскольку FTP является самым удобным и популярным средством передачи файлов через Интернет, существует множество FTP-серверов, на которых собрано большое количество файлов, предназначенных для всеобщего пользования. Это могут быть хранилища программного обеспечения, распространяемого бесплатно или архивы программ крупных компаний, программы которых распространены по всему миру, например, Microsoft, Netscape или Symantec. Понятно, что надобность в каком-то особенном имени пользователя и засекреченном пароле для доступа к такому серверу отпадает. Чтобы пользователь не испытывал затруднений при попытке загрузить общедоступную программу, было принято соглашение об универсальном способе входа на FTP-сервер, который был назван анонимным (anonymous). При таком способе входа FTP-клиент всегда сообщает серверу одно и то же имя — anonymous. Паролем обычно служит любое слово (которое просто игнорируется сервером). Фактически это означает, что пользователи ничего не сообщают серверу при соединении. Естественно, при анонимном доступе предоставляется доступ только к тем файлам, которые предназначены для всех. Прочие разделы файловой структуры сервера, защищенные «настоящими» паролями, доступными не будут.

Протокол Telnet

С помощью этого протокола можно подключиться к удаленному компьютеру как пользователь (если известно имя пользователя, пароль) и производить действия над его файлами, приложениями точно так же, как если бы работали на основном компьютере. Telnet является протоколом эмуляции терминала. Работа с ним ведется из командной строки. Telnet-клиент поставляется в комплекте Windows 98. Чтобы дать команду клиенту Telnet соединиться с удаленным компьютером, необходимо подключится к Интернету, выбрать в меню Пуск (Start) команду Выполнить (Run) и набрать в строке ввода: telnet.lib.ru. После этого запустится программа Telnet и начнется сеанс связи.

Протокол WAIS

WAIS расшифровывается как Wide-Area Information Servers. Этот протокол был разработан для поиска информации в базах данных. Информационная система WAIS представляет собой распределенную базу данных, где отдельные базы данных хранятся на разных серверах. Сведения об их содержании и расположении хранятся в специальной базе данных — каталоге серверов. Просмотр информационных ресурсов осуществляется с помощью программы — клиента WAIS. Поиск информации ведется по ключевым словам, которые задает пользователь. Эти слова вводятся для определенной базы данных, и система находит все соответствующие им фрагменты текста на всех серверах, где располагаются данные этой базы. Результат представляется в виде списка ссылок на документы с указанием того, насколько часто встречается в данном документе искомое слово и все искомые слова в совокупности. Даже в наши дни, когда систему WAIS можно считать морально устаревшей, специалисты во многих областях при проведении научных исследований обращаются к ней в поисках специфической информации, которую не могут найти традиционными средствами.

Протокол Gopher.

Протокол Gopher — протокол уровня приложения, разработанный в 1991 году. До повсеместного распространения гипертекстовой системы World Wide Web Gopher использовался для извлечения информации (в основном текстовой) иерархической файловой структуры. Gopher был провозвестником WWW, позволявшим с помощью меню передвигаться от одной страницы к другой, постепенно сужая круг отображаемой информации. Программы-клиенты Gopher имели текстовый интерфейс. Однако пункты меню Gopher могли указывать и не только на текстовые файлы, но также, например, на telnet-соединения или базы данных WAIS. Сейчас ресурсы Gopher можно просматривать с помощью обычного Web-браузера, так как современные браузеры поддерживают этот протокол.

Протокол WAP.

WAP (Wireless Application Protocol) был разработан в 1997 году группой компаний Ericsson, Motorola, Nokia и Phone.corn (бывшей Unwired Planet) для того, чтобы предоставить доступ к службам Internet пользователям беспроводных устройств — таких как мобильные телефоны, пейджеры, электронные органайзеры и других, использующих различные стандарты связи. К примеру, если мобильный телефон поддерживает протокол WAP, то, набрав на его клавиатуре адрес нужной Web-страницы, можно увидеть ее (в упрощенном виде) прямо на дисплее телефона. В настоящее время подавляющее большинство производителей устройств уже перешли к выпуску моделей с поддержкой WAP, который также продолжает совершенствоваться.

Протокол SMTP

Протокол SMTP (Simple Mail Transfer Protocol - Протокол простой почтовой передачи) обеспечивает отправление электронного сообщения. Вследствие некоторой функциональной ограниченности (разработан он был достаточно давно) SMTP не способен накапливать сообщения на стороне получателя. Поэтому при получении почты необходим еще один из почтовых протоколов - протокол POP3.

Протокол POP3

Протокол POP3 (Post Office Protocol 3 - Протокол почтовой службы 3) обеспечивает получение электронного сообщения адресатом.В соответствии с ним почта принимается сервером и накапливается на нем. Программа — почтовый клиент — периодически проверяет почту на сервере и загружает сообщения на локальный компьютер.

Таким образом, отправление почты осуществляется с помощью SMTP, а прием с помощью РОРЗ. Вот почему в процессе создания учетной записи почты необходимо вводить названия как сервера SMTP, так и сервера РОРЗ.

ФОРМАТЫ ФАЙЛОВ В ИНТЕРНЕТ - писать не стал.. и так понятно.

Службы Internet.

Электронная почта

Электронная почта - самая древняя и используемая служба Internet. Пользователю предоставляется дисковое пространство сервера и почтовый адрес который записывается в следующем виде

e-mail: имя@доменный адрес сервера

где e-mail: - указатель, показывающий, что последующая последовательность символов является адресом электронной почты; имя - уникальное имя в пределах указанного после символа @ (его почему-то называют собакой) доменного адреса сервера. Например, iva@mail.line.spb.ru, или ivaevev@mail.ru . Кстати, иногда имя почтового адреса чувствительно к регистру, например могут оказаться разными адрес iva@mail.line.spb.ru и адрес Iva@mail.line.spb.ru .

При подключении к сети через провайдера пользователю как правило предоставляется бесплатный почтовый ящик с доступом по протоколу POP3. Однако существует большое количество организаций, предоставляющих пользователям бесплатные почтовые ящики, например Mail.ru, Narod.ru, Yandex.ru и др. Как правило это почтовые ящики с доступом по WWW, т.е. фактически пользователь получает страничку в сети, на которой будут публиковаться все письма. При этом доступ к ящику паролируется. Преимущество такого режима работы с почтой заключается в том, что при его использовании не требуется дополнительных почтовых программ, и получить доступ можно с любого другого компьютера, подключенного к сети.

Телеконференции.

Телеконференции - обобщенное понятие, относящееся на самом деле к двум видам сервиса и, соответственно, двум сетевым технологиям: дискуссионные группы (или списки рассылки, mailing lists) и newsgroup (система рассылки новостей) USENET. Первые поддерживаются с помощью серверов List Processor, которые рассылают сообщения по конкретным адресам электронной почты подписчикам. Вторые - через транспортную "широковещательную" систему на базе протокола NNTP (Network News Transfer Protocol), когда поток сообщений передается от одного узла к другому, т.е. для самых широких групп пользователей.

Форумы.

Исторически форумы возникли из "электронных досок объявлений" (BBS - Bulletin Board System). "Доски" и форумы устроены практически одинаково. Пользователь может зайдя на специализированную страницу, оставить на ней короткое сообщение, которое могут прочесть все остальные посетители. Для удобства все сообщения сортируются по тематическим категориям - в зависимости от темы доски объявлений или форума.

На письма размещенные на доске объявлений нельзя ответить на той же странице - можно лишь связаться с его автором по каналам электронной почты или через его персональную WWW-страницу. На форуме пользователь может на любое сообщение ответить комментарием доступным всем участникам форума. Форумов существует значительно больше, чем групп новостей. В принципе любой крупный сайт предоставляет возможности посетителям создать форум по интересующей их тематике. Например форум http://politika.kulichki.com/ram.htm. Найти нужный русскоязычный форум можно по каталогу http://www.webforum.ru, англоязычный по каталогу http://www.ezboard.com.

Internet relay chat (IRC)

Служба Internet relay chat (IRC) - "Живая болтовня в Internet" позволяет обмениваться в реальном времени текстовыми посланиями участников "болтовни". "Болтать" можно используя специальную программу mIRC (можно бесплатно скачать http://www.mirc.com) и огромный набор серверов службы IRC. Однако, можно участвовать в чате и без специальной программы. Существует множество WWW-чатов. Список и рейтинг чатов можно найти по следующим адресам: http://chats.top-100.ru, http://wq.cjb.net/, http://www.irnet.ru/olezhka2/wrchats.shtml.

"Мгновенная почта" (Instant Messaging)

Instant Messaging возник как гибрид e-mail и ICR и позволяет пользователям мгновенно (и при желании конфиденциально) обмениваться текстовыми сообщениями. Фирма MicroSoft рекламирует пакет программ MSN Messenger, реализующий данную технологию. Однако, хотя это пакет с русифицированным интерфейсом, его популярность в России пока что невелика. Еще менее известен в России сверхпопулярный в США AOL Instant Messenger (AIM), так, как эта программа ориентирована на пользователей сети America Online. Новым является так же Yahoo Messenger (популярного каталога http://www.yahoo.com).

Самым популярным продуктом для Instant Messaging является программа ICQ (установлена на более чем 200 миллионах компьютерах). Для работы в службе ICQ (можно скачать бесплатную программу на http://www.icq.com) необходима только регистрация, в результате которой пользователю присваивается уникальный индивидуальный номер (UIN). Например UIN: 134173098.

Первоначально, ICQ задумывалось как средство поиска собеседника по интересам, но теперь это только лишь одна из функций "Аськи" (жаргонное обозначение ICQ). Трудно перечислить все другие функции (список их постоянно растет), рекомендуем попробовать работу в службе ICQ.

Конкурентом ICQ является программа Odigo (http://www.odigo.com). Эта программа позволяет общаться не только в рамках сети Odigo, но с обладателями ICQ, AIM и Yahoo Messenger. Однако, число пользователей Odigo в сотни раз меньше числа пользователей ICQ.

Основные принципы поиска в информации.

Поисковая система - это программное обеспечение, предоставляющее доступ к коллекции слабоструктурированной информации. Ориентация на слабоструктурированные данные, т.е. данные, которые нельзя представить в виде реляционной таблицы, отличает поисковую систему от СУБД. В данном определении поисковой системы подразумевается информация различного рода, т.е. текст, аудио, видео, изображения и т.п. Однако следует отметить, что именно текстовые данные идеально подходят для описания полной функциональности поисковой системы, т.к. алгоритмы поиска мультимедийной информации, прежде всего, основываются на алгоритмах поиска текста.

Поиск осуществляется тогда, когда в этом возникает потребность. Это информационная потребность часто даже не может быть точно выражена выражена словами, и выражается только в оценке просматриваемых документов - подходит или не подходит. В теории информационного поиска вместо слова "подходит" используют термин "пертинентный документ", а вместо слова "не подходит" - "не пертинентный документ". Субъективно понимаемая цель поиска - найти все пертинентные и только пертинентные документы. Эта цель недостижима.

Мы часто в состоянии оценить пертинентность документа только в сравнении с другими документами. Для этого необходимо некоторое количество непертинентных документов. Эти документы называются - "шум". Слишком большой шум затрудняет выделение пертинентных документов, слишком малый - не дает уверенности в том, что найдено достаточное количество пертинентных документов. Практика показывает, что когда количество непертинентных документов лежит в пределах от 10% до 30%, ищущий чувствует себя комфортно, считая, что количество найденных документов - удовлетворительно. Когда документов много, используется информационно-поисковая система (ИПС). Для общения с ИПС информационная потребность должна быть выражена средствами, которая эта ИПС "понимает" - должен быть сформулирован запрос. Однако, запрос редко может точно выразить информационную потребность. Многие ИПС по разным причинам не могут определить, соответствует ли тот или иной документ запросу. Степень соответствия документа запросу называется релевантностью. Релевантный документ может оказаться непертинентным и наоборот. Например, в случае, когда ищется информация о шлюпочных якорях (кошках), запрос, состоящий из слова "кошка", почти в любой ИПС даст массу релевантных, но непертинентной документов.

Основная задача поисковой системы - минимизировать время, затрачиваемое пользователем на поиск релевантной запросу информации. Традиционно к поисковой системе применяют две основные характеристики: точность и полнота, а точнее, их зависимость. Каждый раз, когда пользователь задает системе запрос, тем самым инициализируя поиск, все документы в коллекции поисковой системы делятся на четыре части, как это показано ниже

ревалентные ненайденные

ревалентные найденные

неревалентные найденные

неревалентные ненайденные

Тогда точность и полнота поиска определяются следующим образом:

Prec=n/N

Rec=n/M ,

где Prec - точность;

n - число найденных релевантных документов;

N - общее число найденных документов;

Rec - полнота;

M - общее число релевантных документов.

Точность определяет один аспект поиска, а именно, насколько хорошо поисковая система способна минимизировать время, затрачиваемое пользователем на поиск релевантной данному запросу информации. Например, если по запросу "Красная площадь" находится 150 документов, в 70 из них содержится словосочетание "Красная площадь", а в остальных просто присутствуют эти слова ("красная баба кричала на всю площадь"), то точность поиска считается равной 70/150 (~0,5). Чем точнее поиск, тем быстрее пользователь находит нужные ему документы, тем меньше "мусора" среди них встречается, тем реже найденные документы не соответствуют запросу.

Полнота определяет другой аспект - насколько хорошо система способна найти релевантную данному запросу информацию. Например, если в сети Интернет имеется 100 страниц, содержащих словосочетание "Красная площадь", а по соответствующему запросу было найдено всего 70 из них, то полнота поиска будет 0,7. Чем полнее поиск, тем меньше вероятность, что пользователь не сможет найти нужный ему документ, при условии, что он вообще существует в Интернете.

Можно подобрать оптимальный запрос(ы), когда каждый найденный документ будет релевантным, и каждый релевантный документ будет найден. Кривая "точность/полнота" для оптимального запроса изображена на рисунке слева, однако для распределения реальных запросов эта кривая для большинства поисковых систем имеет вид, изображенный справа:

Классическая поисковая система состоит из следующих функциональных модулей, совокупность которых и обеспечивает выполнение ее основной задачи:

• Нормализация документа - Как только новый документ попадает в систему, его нужно распознать и привести к виду, являющимся стандартом для данной поисковой системы.

• Индексирование - для достижения приемлемой эффективности поиск производится не напрямую по документам в коллекции, а по информации о них в избыточной индексной структуре. Существует несколько способов индексирования текстов: инвертированный файл, файл сигнатур, хэширование, различные виды деревьев для многомерного индексирования и т.п.

• Поиск - получение и выполнение запросов пользователей. Ранжирование результатов поиска, как правило, основывается на степени релевантности документа запросу. Однако возможно использование других критериев (таких как новизна документа).

Любое расширение основной задачи поисковой системы ведет к надстройке описанного выше каркаса. Вот лишь некоторые виды дополнительной функциональности, которые может включать в себя поисковая система:

• Фактографический поиск - В фактографическом поиске пользователь заинтересован не просто в обнаружении информации на тему, а в обнаружении конкретного ответа на его вопрос, например: "Кто был первым космонавтом?". Обеспечение такой функциональности поисковой системой подразумевает обработку вопроса на естественном языке, его переформулировку в стандартные запросы для данной системы, нахождение документа, содержащего нужный фрагмент и извлечение ответа.

• Персонализация - Использование информации о специфике конкретного пользователя дает возможность лучше обслужить его потребности. Другими словами, при выполнении запросов пользователя можно учитывать информацию о контексте пользователя. В этот контекст могут входить как явно указанные пользователем предпочтения, так и информация, полученная на основе анализа его предыдущего поведения (запросов, просмотренных документов и т.п.).

• Уточнение запросов - Пользователь не всегда способен хорошо сформулировать запрос, поэтому его уточнение может значительно повысить качество поиска. Одним из наиболее известных подходов к уточнению запросов является их расширение за счет добавления новых термов. Это расширение может осуществляться как при помощи пользователя, например, на основе механизма обратной связи (кнопка "найти похожие документы"), так и полностью автоматически, например, путем анализа локального контекста.

• Поиск по категориям - Поиск по категориям является типичным примером сужения области поиска для повышения его качества. Самым распространенным подходом является предоставление пользователю составленной иерархии проиндексированных системой документов, например, по тематическому признаку. Другие подходы основываются на расширении запроса пользователя и фильтрации результатов поиска согласно желаемой категории.

Поисковые ресурсы Internet.

Поисковые средства Internet представлены следующими категориями:

• Справочники

• Каталоги

• Поисковые машины

• Метапоисковые машины

• Порталы

Существуют два вида справочников - онлайн, размещенных в сети, и в печатном виде. В справочниках приводятся URL информационных ресурсов. Наиболее популярным является справочник "Желтые страницы Интернет". В справочнике имеется рубрикатор включающий следующие базовые категории:

• Экономика и финансы

• Услуги

• Торговля

• Сети и телекоммуникации. Интернет.

• Регионы и города

• Производства

• Право и политика

• Отдых и развлечение

• Образование

• Наука и техника

• Медицина и здоровье

• Культура и искусство

• Компьютерные технологии

• Дом и семья

На сайте имеется возможность добавление новых ресурсов, которые впоследствии будут опубликованы в бумажной версии "Желтые страницы". Работает подписка на обновления сайта - передача по почте пользователю ссылок на новые внесенные в каталог ресурсы по выбранным ресурсам.

Все каталоги Internet построены по принципу "от общего - к частному" и обладают удобной древовидной структурой (вложенных категорий). Каталоги позволяют осуществлять поиск по ключевым словам. Однако каталоги обладают существенным недостатком - субъективизмом, т.к. решение о включении того или иного ресурса в каталог принимается работниками службы обслуживающей каталог. Кроме того, каталоги не успевают быстро реагировать на изменения ресурсного содержания сети. Тем не менее каталогов в сети значительно больше чем других поисковых ресурсов. Наиболее популярным является каталог YAHOO (http://www.yahoo.com), который является частью портала Yahoo. Несмотря на громадное количество ресурсов, каждый кандидат на собственную строчку в каталоге Yahoo проходит строжайший отбор, поэтому этот каталог считается самым представительным.

Из русскоязычных каталогов наибольшую популярность заслужил LIST.RU (http://www.list.ru). Кроме каталогов общего назначения в сети присутствует множество тематических каталогов, например, каталог для женщин WWWOMEN ONLINE (http://wwwomen.ru) или детский каталог KINDER.RU (http://www.kinder.ru).

Рейтинги - это каталоги, в которых вывод результатов поиска упорядочен (ранжирован). Пользователь очень редко просматривает больше трех страниц с результатами поиска. Поэтому субъективно он оценивает точность по "верхним" документам. Даже если нужный документ найден, но расположен на двухсотой позиции, скорее всего, он никогда не будет найден пользователем. Характеристикой упорядочения является рейтинг, вычисляемый по двум характеристикам:

• "хиты" - общее количество посещений данного ресурса за определенный период;

• "хосты" - уникальное количество посещений данного ресурса за тот же период.

При каждом посещении ресурса "хиты" увеличиваются на единицу. При этом проверяется IP-адрес посетителя, если за заданный промежуток времени такого адреса на было, то "хосты" увеличиваются на единицу, в противном случае остаются неизменными. Промежуток времени на котором определяется рейтинг может быть различным (сутки, неделя, месяц и т.п.). Рейтинг является службой, которая оказывает услуги пользователю как платные (http://www.spylog.com), так и бесплатные (http://top100.rambler.ru). Для включения ресурса в рейтинг владелец ресурса должен подать в службу рейтинга заявку. Если заявка принимается, то на сайте пользователя размещается значок (баннер) участника рейтинга например:

C этого момента Рейтинг отслеживает посещение сайта (или каких-либо его страниц) вычисляя характеристики упорядочения.

Принцип работы поисковых и метапоисковых машин был рассмотрен выше (раздел "Основные принципы поиска информации в Internet"). Укажем наиболее популярные поисковые машины:

• Google: (http://www.google.com) - наиболее популярная поисковая машина (до 85% всех обращений);

• AltaVista: (http://www.altavista.com) - наиболее популярная до появления Google поисковая машина;

• Yandex: (http://www.yandex.ru) - наиболее популярная поисковая машина в русскоязычном сегменте WWW;

• Rambler: (http://www.rambler.ru) - сервер "все в одном" - есть рейтинговая служба, поисковая машина и другие средства облегчающие работу пользователя;

• Aport: (http://www.aport.ru) - поисковая машина, уступающая по мощности двум предыдущим, но обладающая оригинальным алгоритмом сканирования.

В русскоязычном сегменте WWW среди метапоисковых машин наиболее популярны:

• Poisk: (http://www.informika.ru/windows/intern/poisk/main.html) - позволяет отправить запрос на зарубежные и отечественные поисковые машины (не более пяти);

• Search: (http://search.da.ru) - дает возможность пользователю отбора из 15 русскоязычных поисковых машин.

Под порталом понимают сервер предоставляющий пользователю не только поисковую машину, но и другие услуги Internet, например почтовый ящик и прочее. Блестящим примером портала может cлужить портал (его называют "мультипортал") "Кирилл и Мефодий" (http://www.km.ru).

Часто необходимо обратится к справочной и энциклопедической информации. Для этой цели можно рекомендовать мега-энциклопедический архив "РУБРИКОН" (http://www.rubricon.com), являющегося лучшим (пока платным) энциклопедическим ресурсом Internet.

  1. Язык гипертекстовой разметки HTML: фреймы, создание многооконного интерфейса. использование HTML для определения полей заголовка сообщения протокола http, программирование сценариев просмотра JavaScript; Java, JavaScript и модули расширения, расширение возможностей создания таблиц.

Фреймы. Организация фрейма - это возможность разделить рабочее окно программы просмотра на несколько независимых панелей (или фреймов). В каждый фрейм может быть загружена своя страница HTML. Плавающие фреймы позволяют вставить одну Web-страницу в другую. Тогда как обычные фреймы позволяют лишь разделить область просмотра на несколько частей, плавающий фрейм можно поместить где угодно на странице, указав его размер и отступ справа или слева. Для описания плавающих фреймов используется таг <IFRAME>...</IFRAME>. В каждый фрейм может быть загружена своя HTML-страница, представляющая собой классический HTML-документ.

Пример

<FRAME SRC = booter.phpl NAME = boot>

<FRAMESET COLS = "%30, %70">

<FRAME SRC = menli.phpl NAME = left>

<FRAME SRC = t2.phpl NAME = right>

</FRAMESET>

Создание многооконного интерфейса. С фреймами тесно связана возможность именования окон - любой фрейм может иметь свое собственное имя. Для того, чтобы документ загружался именно в то окно, которое определил автор страницы, в контейнер гипертекстовой ссылки вводится атрибут TARGET. При организации фреймов каждому из них было присвоено имя (атрибут NAME контейнера FRAME). Для загрузки документа в конкретный фрейм (left), автор должен использовать гипертекстовую ссылку вида:

<A HREF = frame.phpl TARGET = left>

В данном случае документ, указанный в атрибуте HREF, будет загружен во фрейм left.

Использование HTML для определения полей заголовка сообщения протокола HTTP. Важным свойством современных версий HTML является возможность записи полей заголовка сообщения протокола HTTP. Реализуется эта возможность через контейнер заголовка HTML - документа <META>. Используя атрибут HTTP-EQUIV, в заголовок HTTP - сообщения можно включить любое поле, которое определено стандартом протокола HTTP.

В примере 6 описан документ, который после своей загрузки будет немедленно заменен документом ref2.phpl.

Пример

<HTML>

<HEAD>

<TITLE> type_Document_ Title_ here </TITLE>

<META HTTP-EQUIV = "Refresh" CONTENT = "0; URL = ref2.php">

</HEAD>

<BODY>

<H1>Document 1</H1>

</BODY>

</HTML>

Программирование сценариев просмотра. JavaScript. Java Script - это язык управления сценарием отображения документа. Все операции, которые можно исполнять в программе на JavaScript, описывают действия над хорошо известными и понятными объектам - элементами рабочей области программы Netscape Navigator и контейнерами языка HTML. Имеются объекты с набором свойств и набор функций над объектами, которые называются методами. Функция пользователя выполняется по наступлении некоторого события: onChange, onClick, onLoad и др., а внутренние функции языка используются непосредственно.

Не вдаваясь в подробности описания Java Script, сконцентрируем внимание на контейнерах Java Script и примерах использования Java Script кодов. Контейнер <SCRIPT LANGUAGE= "Java Script"> ... </SCRIPT> может использоваться как в заголовке, так и в теле документа. Не все программы просмотра способны распознавать и исполнять скрипты, поэтому само тело скрипта помещается в контейнер комментария.

Java, JavaScript и модули расширения. В новой версии языка HTML есть возможность организовать взаимодействие между Java апплетами и JavaScript-скриптами. Достигается это за счет использования атрибута MAYSCRIPT в контейнере APPLET. Собственно, в JavaScript определен объект типа APPLET, к которому можно обращаться либо по имени, либо по индексу в массиве апплетов. У этого объекта имеется только одно свойство - имя. Какие-либо другие свойства или методы для данного типа объектов не определены.

Кроме апплетов JavaScript позволяет работать и с Plug-ins, представляющие собой массив соответствующего типа, для которого определен ряд свойств. Используя эти свойства, можно определить установленные plig-ins и их соответствия MIME-типам. Назначить plug-ins или манипулировать ими нельзя.

Расширение возможностей использования графических объектов. К расширению возможностей следует отнести:

• обтекание графики текстом;

• функция client-site imagemap.

Обтекание достигается за счет использования атрибута ALIGN элемента IMG. ALIGN может принимать значения: TOP, MIDDLE, BOTTOM, LEFT, RIGHT. Поскольку рисунок, встраиваемый по IMG, рассматривается программами просмотра как один большой символ, атрибут ALIGN определяет, где относительно других символов текста в строке будет располагаться этот рисунок. Если задано значение TOP, то картинка отображается как подстрочная - остальные символы строки выравниваются по верхнему краю рисунка, при значении MIDDLE картинка располагается как обычный символ и текст форматируется по центру. Если задано значение BOTTOM, рисунок отображается как надстрочная буква, текст выравнивается по его нижнему краю. Значения LEFT и RIGHT этого атрибута используются для размещения картинки в левой или правой части страницы, что приводит к обтеканию картинки текстом справа или слева соответственно.

Client-site imagemap - это способ избавиться от многообразия реализаций стека графических гипертекстовых ссылок, которые применяются различными HTTP - серверами. Способ организации client-site imagemap состоит из двух частей: определения image как client-site imagemap и определения фрагментов image как гипертекстовых ссылок. Приведем пример:

Существуют так же ФреймВорки для упрощения работы с объектами.

Расширение возможностей создания таблиц. Для организации таблиц используется элемент TABLE, который является контейнером для других элементов описания таблицы. Атрибут BORDER определяет разделяющие линии между графами таблицы, обычно они бывают трехмерные или простые. Сама форма этих линий задается в файле конфигурации программы просмотра.

Элементы TH (Table Header) и TD (Table Data) используются в примере 10 не только для описания граф таблицы, но и для объединения граф при помощи атрибутов ROWSPAN -пропуск строки и COLSPAN - пропуск столбца. Цифра в этих атрибутах определяет количество последовательно расположенных граф таблицы, объединенных в одну.

Пример

<HTML>

<HEAD>

<title>Versions</title>

</HEAD>

<BODY BGCOLOR = #FFbcbc>

<center> <hr>

<h1>Версии HTML</h1> <hr>

<table border = 2>

<tr><TD colspan = 3 align=center>HTML 1.0

<tr><td colspan = 3 align = center> HTML 2.0

<tr><td>HTML+<TD> Netscape Extensions <td> Microsoft Extensions <tr>

<td align = center> HTML 3.0<BR> (Project) <br> Arena

<td align = center> Navigator 2.0 <td align = center> Explorer <tr>

<td colspan = 3 align = center>????? HTML3.0 ?????

</table>

</center>

</BODY>

</HTML>