logo search
Informatics

11.2.3. Спецификация универсального адреса информационного ресурса в internet

Широкое использование компьютерных сетей неспециалистами стало возможно благодаря разработке простых в применении средств доступа к многообразным ресурсам Internet. В первую очередь это относится к появлению специальных программ-клиентов WWW, называемых броузерами, обладающих <дружественным> графическим интерфейсом (т.е. способом взаимодействия пользователя с программой).

Схема адресации в иерархически организованной файловой системе, характерной для таких популярных операционных систем, как DOS и Unix, позволяет однозначно идентифицировать заданный файл путем указания его времени и уникального адресного пути к нему.

Пример.

В DOS C:\DOS\PROGR\FILEI.TXT В Unix /users/data/Letters.html

Важная для избежания ошибок при организации доступа к файлам разница в этих схемах состоит в использовании разных слэшей- прямого (/) в Unix и обратного (\) в DOS, а также чувствительность к верхнему и нижнему регистру, свойственная только Unix. За основу схемы адресации ресурсов в Сети принята нотация Unix, которая претерпела естественные расширения за счет приписывания к существующей схеме слева,- имени протокола доступа к заданному ресурсу, где расположен ресурс; а справа - после служебных символов (#,?) имени метки внутри файла или элементов поискового ресурса. В примерах

http://www.citmgu.ni/users/data/Letters.html#Markl

http://www.citmgu.ru/cgi-bin/proc?com

содержится обращение по протоколу http к компьютеру с доменным именем www.citmgu.ru с попыткой доступа в первом случае к области файла Letters.html с меткой Mark1, а во втором -реализация поискового запроса к программе proc с термином для поиска <corn> на том же сервере.

Отметим, что именно в таком виде и вводятся строки запроса на ресурсе в специально отведенном поле броузера, после чего нажатием клавиши Enter инициируется соединение и загрузка.

Итак, в основу построения адреса ресурса в Сети оказались заложены следующие понятия и принципы:

Расширяемость - новые адресные схемы должны были легко вписываться в существующий синтаксис URI (Uniform Resource Identifier -универсальный индикатор ресурса).

Полнота - по возможности, любая из существующих схем должна описываться посредством URI.

Читаемость - адрес должен быть легко читаем человеком, что вообще характерно для технологии WWW.

Расширяемость была достигнута за счет выбора определенного порядка интерпретации адресов, который базируется на понятии <адресная схема>. Идентификатор схемы стоит перед остатком адреса, отделен от него двоеточием и определяет порядок интерпретации остатка.

Полнота и читаемость порождали коллизию, связанную с тем, что в некоторых схемах используется двоичная информация. Эта проблема была решена за счет формы предоставления такой информации. Символы, которые несут служебные функции, и двоичные данные отображаются в URI в шестнадцатеричном коде и предваряются символом <%>.

Прежде, чем рассмотреть различные схемы представления адресов, приведем еще один пример простого адреса URI:

http://polyn.net.kiae.su/polyn/index.html

Перед двоеточием стоит идентификатор схемы адреса - <http>.

Это имя отделено двоеточием от остатка URI, который называется <путем>. В данном случае путь состоит из доменного адреса машины, на которой установлен сервер HTTP, и пути от корня дерева сервера к файлу <index.html>.

Кроме представленной выше полной записи URI существует упрощенная. Она предполагает, что к моменту ее использования многие параметры адреса ресурса уже определены (протокол, адрес машины в Сети, некоторые элементы пути).

При таких предположениях автор гипертекстовых страниц может указывать только относительный адрес ресурса, т.е. адрес относительно определенных базовых ресурсов.

Схемы адресации ресурсов Internet. В RFC-1630 (Request for Comment - документы с таким названием содержат в себе материалы по Internet-технологии, которые доведены до уровня стандарта или близки к этому уровню) рассмотрено восемь схем адресации Internet и указаны две, синтаксис которых находится в стадии обсуждения.

Схема HTTP. Это основная схема для WWW. В схеме указываются ее идентификатор, адрес машины, ТСР-порт.путь в директории сервера, поисковый критерий и метка.

Следует отличать понятие TCP- порта от физического разъема на задней стенке системного блока компьютера. В Internet принято идентифицировать конкретную прикладную программу с определенным числом, или портом (это понятие абсолютно не связано с названием физического устройства ввода-вывода компьютера). Всякий раз передаваемый по сети от одного компьютера к другому пакет данных содержит информацию о том, какой именно протокол содержит информацию о том, какой именно протокол используется и с какой прикладной программой машины пытается установить связь. Номер порта и обозначает эту прикладную программу.

Приведем несколько примеров URI для схемы HTTP:

http://polyn.net.kiae.su/polyn/manifest.html

Это наиболее распространенный вид URI, применяемые в документах WWW. Вслед за именем схемы (http) следует путь, состоящий из доменного адреса машины и полного адреса HTML-документа в дереве сервера HTTP.

В качестве адреса машины допустимо использование и IP- адреса:

http://144.206.160.40/risk/risk.html

Если сервер протокола HTTP запущен на другой, отличный от 80 порт TCP, то это отражается в адресе:

http://144.206.130.137:8080/altai/index.html

При указании адреса ресурса возможна ссылка на точку внутри файла HTML. Для этого вслед за его именем может быть указана метка внутри документа:

http://polyn.het/kiae.su/altai/volume4.htinl#first

Символ # отделяет имя документа от имени метки. Другая возможность схемы HTTP - дача параметров. Первоначально предполагалось, что в качестве параметров будут передаваться ключевые слова, но по мере развития механизма сервисных программ (скриптов) в качестве параметров стала передаваться и другая информация.

http://polyn.net.kiae/su/isindex.html?keyword1+keyword2

В данном примере предполагается, что документ <isindex.html> документ с возможностью поиска по ключевым словам. При этом в зависимости от поисковой машины (программы, реализующей поиск) знак <+> будет интерпретироваться либо как <AND>, либо как <OR>.

Вообще говоря, <+> заменяет <> (пробел) и относится к классу неотображаемых символов. Если необходимо передать такой символ в строке параметров, то следует передавать в шестнадцатеричном виде его ASCII- код.

Схема FTP. Данная схема позволяет адресовать файловые архивы FTP из программ-клиентов World Wide Web. При этом программа должна поддерживать протокол FTP. В данной схеме возможно указание не только имени схемы, адреса FTP- архива, но и идентификатора пользователя и даже его пароля. Наиболее часто используется для доступа к публичным архивам FTP:

ftp://polyn.net.kiae.su/pub/0index.txt

В этом случае записана ссылка на архив <polyn.net.kiae.su> с идентификатором <anonymous> или <ftp> (анонимный доступ). Если есть необходимость указать идентификатор пользователя и его пароль, то можно это сделать перед адресом машины:

ftp://nobody:password@polyn.net.kiae.su/users/local/plib

Здесь параметры отделены от адреса машины символом <@>, а друг от друга - двоеточием. В некоторых системах можно указать и тип передаваемой информации, но данная возможность не стандартизирована. Следует также учитывать, что употребление идентификатора пользователя и его пароля не рекомендовано, так как данные передаются незашифрованными и могут быть перехвачены. Реальная защита в WWW осуществляется другими средствами и построена на других принципах.

Схема Gopher. Данная схема используется для ссылки на ресурсы распределенной информационной системы Gopher. Схема состоит из идентификатора и пути, в котором указывается адрес Gopher-сервера, тип ресурса и команда Gopher:

gopher:// gopher.kiae.su:70:/7/kuku

В этом примере осуществляется доступ к gopher-серверу gopher.kiae.su через порт 70 для поиска (тип 7) слова <kuku>. Следует заметить, что gopher-тип, в данном случае 7, передается не перед командой, а вслед за ней.

Схема MAILTO. Данная схема предназначена для отправки почты по стандарту RFC-822 (стандарт почтового сообщения). Общий вид схемы выглядит так:

mailto:paul@quest.polyn.kiae.

Схема TELNET. По этой схеме осуществляется доступ к ресурсу в режиме удаленного терминала. Обычно клиент вызывает дополнительную программу для работы по протоколу telnet. При использовании этой схемы необходимо указывать идентификатор пользователя, допускается использование пароля. Реально доступ осуществляется к публичным ресурсам, и идентификатор и пароль являются общеизвестными, например их можно узнать в базах данных Hytelnet.

telnet: //guest:password@apollo.polyn.kiae.^u

Схема FILE. WWW-технология используется как в сетевом, так и в локальном режимах. Для локального режима используют схему FILE.

file:///CI/text/html/inaex.htm

В данном примере приведено обращение к локальному документу на персональном компьютере MS-DOS или MS-Windows.

Из приведенных выше примеров видно, что спецификация адресов ресурсов URI является довольно общей и позволяет адресовать практически любой ресурс Internet. При этом число ресурсов может расширяться за счет создания новых схем. Они могут быть похожими на существующие, а могут и отличаться от них. Реальный механизм интерпретации идентификатора ресурса, опирающийся на URI, называется URL (Uniform Resource Locator), и пользователи WWW имеют дело именно с ним.