logo
Теор

Распределенная гипертекстовая информационная система www

Учеными предпринималось немало попыток разработать концепцию универсальной информационной базы данных, в которой можно было бы не только получать информацию из любой точки земного шара, но и иметь удобный способ связи информационных сегментов друг с другом, так чтобы наиболее важные данные быстро могли быть найдены. В 60-е годы исследования в этой области породили понятие «информационной Вселенной» (docuverse = documentation + universe), которая преобразила бы всю информационную деятельность, в частности в области образования. Но только в настоящее время появилась технология, воплотившая эту идею и предоставляющая возможности ее реализации в масштабах планеты.

WWW – это аббревиатура от «World Wide Web» («Всемирная паутина»). Официальное определение World Wide Web звучит как мировая виртуальная файловая система – «широкомасштабная гипермедиасреда, ориентированная на предоставление универсального доступа к документам».

Проект WWW возник в начале 1989 г. в Европейской лаборатории физики элементарных частиц (European Laboratory for Particle Physics (CERN) in Geneva, Switzerland). Основное назначение проекта – предоставить пользователям – непрофессионалам «on-line» доступ к информационным ресурсам. Результатом проекта World Wide Web (WWW) является предоставление пользователям сетевых компьютеров достаточно простого доступа к самой разнообразной информации.

Используя популярный программный интерфейс, проект WWW изменил процесс просмотра и создания информации. Идея заключается в том, что по всему миру хаотично разбросаны тысячи информационных Web-серверов, на которых информация хранится в виде документов – Web-страниц (HTML-страниц). Любую машину, подключенную к Интернет в режиме on-line, можно преобразовать в Web-сервер с определенной информацией. С любого компьютера, подключенного к Интернет, можно свободно установить сетевое соединение с таким сервером и получать от него информацию.

Система включает следующие базовые элементы:

Информационный WWW-сервер использует гипертекстовую технологию, в которой для записи документов в гипертексте используется специальный язык гипертекстовой разметки HTML, позволяющий управлять шрифтами, отступами, вставлять цветные иллюстрации, поддерживать вывод звука и анимации. В стандарт языка также входит поддержка математических формул.

Внешне гипертекст отличается от обычного текста тем, что часть слов или целые строки в нем, будучи выделены особым образом (шрифтом или цветом), оказываются чувствительными к появлению на них указателя манипулятора «мышь». При попадании на такую область текста указатель (часто стрелочка) изменяет первоначальный вид. Щелчок «мыши» в таком положении приводит к инициированию какого-либо события, чаще всего к загрузке в программу просмотра нового документа, привязанного так называемой гипертекстовой ссылкой к выделенной строке текста. В результате у пользователя появляется возможность самому выбирать порядок просмотра тех или иных страниц, двигаясь по перемежающимся между собой нитям – паутинкам ссылок. Если при этом компьютер подключен к глобальной сети Интернет, то в сценарий просмотра могут входить ресурсы всего мира, доступ к которым происходит по протоколу работы с гипертекстом, или HTTP. После сказанного становится понятным представление об этих ресурсах как о всемирной паутине.

Взаимодействие клиента и Web-сервера осуществляется с помощью специальной программы просмотра Web-страниц, называемой броузером (от англ. browse – просматривать). Наиболее распространены броузеры Internet Explorer (Microsoft) и Netscape Navigator (Netscape Communications) – близкие по своим возможностям многопротокольные графические интерфейсы доступа к WWW и другим ресурсам Сети.

Для удобства ввода информации предусмотрены специальные формы, меню. Программы просмотра позволяют получать доступ не только к WWW-серверам, но и к другим службам Интернет. С их помощью можно путешествовать по Gopher-серверам, искать информацию в WAIS-базах, получать файлы с файловых серверов по протоколу FTP. Поддерживается протокол обмена сетевыми новостями Usenet NNTP.

Одно из главных преимуществ WWW над другими средствами поиска и передачи информации – «многосредность»: в WWW можно увидеть на одной странице одновременно текст и изображение, звук и ани-мацию.

WWW – это в настоящее время самый популярный и самый интересный сервис Интернета, самое удобное средство работы с информацией. На долю его приходится больше половины потока данных Интернета. Количество серверов WWW сегодня нельзя оценить сколько-либо точно, но по некоторым оценкам их более 300 тысяч. Скорость роста WWW даже выше, чем у самой сети Интернет.

WWW работает по принципу клиент-сервер, точнее, клиент-серверы: существует множество серверов, которые по запросу клиента возвращают ему гипермедийный документ – документ, состоящий из частей с разнообразным представлением информации, в котором каждый элемент может являться ссылкой на другой документ или его часть.

Организация информации в Web-узле может быть различной. Документы, предназначенные для экрана компьютера, могут содержать большое количество различных средств отображения информации, включая текст, числа, иллюстрации или фотографии, мультипликацию и цифровой аудиовизуальный материал, поэтому хорошо спроектированный интерфейс – основа проектирования WWW-документов и систем.

Диапазон способов организации узлов Web весьма широк: от узлов, имеющих строгую линейную структуру, до узлов, у которых вообще нет четкой структуры. Обычно страницы располагаются в иерархическом или линейном порядке, а также в виде паутины.

Содержание Web-страницы описывается на языке HTML в виде команд. Команды в тексте HTML-документа называются тегами. HTML-тег заключается в угловые скобки, например <TITLE> или <В>. Для более сложных тегов характерно наличие атрибутов, которые могут иметь конкретные значения, определяющие функции тега, например: <Р ALIGN= «JUSTIFY»>. В данном случае <Р> – это тег, ALIGN – один из его атрибутов, a «JUSTIFY» – значение этого атрибута (данный тег определяет начало абзаца, атрибут ALIGN определяет способ выравнивания текста в абзаце, значение «JUSTIFY» задает выравнивание по ширине).

Подробнее работа с HTML-тегами будет рассмотрена детально в [36].

В настоящее время широко применяются разновидности языка HTML, например:

EXtensible markup language (XML) – расширяемый язык гипертекстовой разметки, используемый для создания и размещения документов в среде WWW. Язык XML использует структуру тегов и определяет содержание гипертекстового документа, позволяет автоматизировать обмен данными, не прибегая к существенному объему программирования;

Wireless markup language (WML) – язык гипертекстовой разметки, предназначенный для отображения информации на маленьком экране мобильного телефона в соответствии с протоколом WAP. Для разработки приложений WML позволяет использовать языки XML и HTML.

Универсальный адрес ресурса (URL)

Для того чтобы получить информацию из Интернета, необходимо знать адрес, по которому она расположена. Универсальный адрес ресурса (URL) – это адрес в системе WWW, с помощью которого однозначно определяется любой документ. В общем случае универсальный адрес ресурса имеет следующий формат: протокол://компьютер/путь. Протокол – здесь указывается символ протокола прикладного уровня. Основным протоколом в системе WWW является HTTP – протокол передачи гипертекста, поэтому большая часть адресов начинается следующим образом: http://. Тем не менее могут быть использованы и другие протоколы передачи данных, например протокол передачи файлов – FTP или протокол передачи данных в формате Gopher. Тогда на первое место в универсальном адресе ресурса ставится название используемого протокола. Например: ftp:// или gopher://

Компьютер – это адрес сервера, с которым необходимо установить соединение. Может использоваться как IP-адрес, так и имя сервера в доменной системе имен. Например:

http://www.econ.pu.ru или ftp://194.85.120.66.

Адреса большей части серверов в системе World Wide Web начинаются с префикса www, который используется просто как удобное обозначение того, что на данном компьютере запущен Web-сервер.

Путь представляет собой точное указание месторасположения документа на Web-сервере. Это может быть название директории и файла, как в следующем примере:

http://www.econ.pu.ru/info/history/iubilee.htm

Если ввести в строке «адрес» броузера данный адрес, броузер установит связь с компьютером www.econ.pu.ru по протоколу HTTP и запросит у него документ с названием jubilee.htm из каталога /info/history.

Последняя часть универсального адреса ресурса может включать дополнительную информацию, которую обычно используют для того, чтобы передать Web-серверу параметры запроса пользователя в интерактивных страницах, а также путь и имя той программы на сервере, которая этот запрос будет обрабатывать. Например:

http://www.econ.pu.ru/fs/cbin/main.bat?obet=kit&ida=4

Получив такой запрос, Web-сервер попытается найти программу main.bat в каталоге /fs/cbin/, запустить ее и передать ей параметры obet и ida с соответствующими значениями kit и 4.

В современных версиях броузеров нет необходимости указывать имя протокола в начале каждого адреса ресурса. Если имя протокола не указано, то броузер попытается самостоятельно определить, какой протокол необходимо использовать. Если не указано имя файла, а только каталог, в котором он должен находиться, то пользователю будет передан файл, который администратор Web-сервера определил как файл, передаваемый по умолчанию. Обычно таковым является файл с названием index.htm (index.html) или defautt.htm (default.html). Если в каталоге нет файла по умолчанию, то будет выдано сообщение об ошибке.

Для указания документов на одном и том же сервере в HTML-документах часто используется сокращенное обозначение, называемое относительным адресом. Перед отправкой запроса на Web-сервер броузер преобразует относительный адрес в полный. Например, если документ по адресу http://www.econ.pu.ru/info/index.htm содержит ссылку на документ history/jublilee.htm, то броузер преобразует эту ссылку в http://www.econ.pu.ru/info/history/jubilee.htm .

Основным протоколом является HTTP (Hyper Text Transfer Protocol) – протокол передачи гипертекста. Он используется в службе WWW для передачи гипертекстовых HTML-страниц между серверами и броузерами и работает на 80 порту. При работе по этому протоколу каждый элемент HTML-страницы загружается отдельно, причем соединение между загрузками прерывается и никакой информации о соединении не сохраняется. В данном случае информация к пользователям поступает порциями в порядке общей очереди с целью предотвращения ситуации, когда одна машина получает большое количество данных, а все остальные ждут окончания процесса.

Протокол HTTP позволяет установить соединение между клиентом и сервером. Соединение сохраняется только на время обработки сервером запросов клиента. Запрос клиента и ответ сервера образуют так называемую транзакцию.

Обмен данными по протоколу HTTP происходит следующим образом. Клиент устанавливает соединение с сервером по указанному номеру порта. Если в качестве клиента выступает броузер, то номер порта указывается в URL-запросе. Если номер не указан, то по умолчанию используется порт 80. Затем клиент посылает запрос на документ, указывая HTTP-команду, адрес документа и номер версии HTTP. Например: GET /index.html НТТР/1.0

Команды HTTP-клиента принято называть методами. Метод сообщает серверу о цели запроса. В данном примере используется метод GET, который запрашивает файл index.html, расположенный в корневом каталоге сервера, используя протокол HTTP версии 1.0. Другими, часто используемыми методами являются методы HEAD и POST. Метод HEAD аналогичен GET, но запрашивает не содержимое файла, а информацию о нем. Метод POST позволяет разместить файл на сервере. Кроме того, клиент может послать информацию, называемую заголовком, чтобы сообщить серверу дополнительную информацию о себе. В качестве такой информации могут выступать имя и номер версии клиента, информация о типах данных, которые предпочтительны для клиента, и др.