Билеты Масевич

Гипертекстовые ссылки

Гипертекстовые ссылки являются ключевым компонентом, делающим WEB привлекательным для пользователей. Добавляя гипертекстовые ссылки (далее - ссылки), вы делаете набор документов связанным и структурированным, что позволяет пользователю получать необходимую ему информацию максимально быстро и удобно.

Ссылки имеют стандартный формат, что позволяет броузеру интерпретировать их и выполнять необходимые функции (вызывать методы) в зависимости от типа ссылки. Ссылки могут указывать на другой документ, специальное место данного. URL может указывать на специальное место по абсолютному пути доступа, или указывать на документ в текущем пути доступа, что часто используется при организации больших структурированных WEB-сайтов.

URL

HTML использует URL (Uniform Resource Locator) для представления гипертекстовых ссылок и ссылок на сетевые сервисы внутри HTML-документа. Первая часть URL (до двоеточия) описывает метод доступа или сетевой сервис. Другая часть URL (после двоеточия) интерпретируется в зависимости от метода доступа. Обычно, два прямых слэша после двоеточия обозначают имя машины:

method://machine-name/path/foo.html

Опишем каждый из компонентов URL:

METHOD

Имя операции, которая будет выполняться при интерпретации данного URL. Наиболее часто используемые методы:

file:

чтение файла с локального диска. Имя файла интерпретируется для локальной машины пользователя. Данный метод используется для отображения какого-либо файла, находящегося на машине пользователя. Например:

file:/home/alex/index.html - отобажает файл index.html из каталога /home/alex на пользовательской машине

http:

доступ к WEB-странице в сети с использованием HTTP-протокола. (Это наиболее часто используемый метод доступа к какому-либо HTML-документу в сети).

ftp:

запрос файла с анонимного FTP-сервера. Например:

ftp://hostname/directory/filename

mailto:

активизирует почтовую сессию с указанным пользователем и хостом. Например:

mailto:info@softexpress.com - активизирует сессию посылки сообщения пользователю info на машине softexpress.com, если броузер поддерживает запуск электронной почты. Заметьте, что метод mailto: не требует указание слэшей после двоеточия (как правило, после двоеточия сразу идет электронный адрес абонента)

telnet:

обращение к службе telnet

news:

вызов службы новостей, если броузер ее поддерживает. Например:

news:relcom.www.support

SERVERNAME

Необязательный параметр, описывающий полное сетевое имя машины. Например:

www.softexpress.com - полное сетевое имя сервера фирмы СофтСервис.

Если имя сервера не указано, то ссылка считается локальной, и полный путь, указанный далее в URL вычисляется на той машине, с которой взят HTML-документ, содержащий данную ссылку. Вместо символьного имени машины может быть использован IP-адрес, однако это не рекомендуется из-за возможного пересечения с фиксированными локальными адресами внутренней сети.

PORT

Номер порта TCP на котором функционирует WEB-сервер. Если порт не указан, то "по умолчанию" используется порт 80. Данный параметр (port) не используется в подавляющем большинстве URL.

PATHNAME

Частичный или полный путь к документу, который должен вызваться в результате интерпретации URL. Различные WEB-сервера сконфигурированы по разному для интерпретации пути доступа к документу. Например, при использовании CGI скриптов (исполняемых программ), они обычно собираются в одном или нескольких выделенных каталогах, путь к которым записан в специальных параметрах WEB-сервера. Для данных каталогов WEB-сервером выделяется специальный логический путь, который и используется в URL. Если WEB-сервер видит данный путь, то запрашиваемый файл интерпретируется как исполняемый модуль. В противном случае, запрашиваемый файл интерпретируется просто как файл данных, даже если он является исполняемым модулем. Например:

http://www.softexpress.com/cgi-win/handle.exe

В данном примере HTTP-сервер должен вызвать CGI-скрипт с именем handle.exe, который находится на машине с сетевым именем www.softexpress.com. Путь к данному скрипту - /cgi-win/ - в действительности является виртуальным путем (выделенным сервером для исполняемых модулей). Заметьте, что при описании пути используется UNIX-подобный синтаксис, где, в отличии от DOS и Windows используются прямые слэши вместо обратных. Если после сетевого имени машины сразу идет имя документа, то он должен находиться в корневом каталоге на удаленной машине или (что чаще) в каталоге, выделенном WEB-сервером в качестве корневого. Если же URL закагчивается сетевым именем машины, то в качестве документа запрашивается документ из корневого каталога удаленной машины с именем, установленным в настройках WEB-сервера (как правило, это index.html).

#ANCHOR

Данный элемент является ссылкой на строку (точку) внутри HTML-документа. Большинство броузеров, встречая после имени документа данный элемент, размещают документ на экране таким образом, что указанная строка документа помещается в верхнюю строку рабочего окна броузера. Точки, на которые ссылается #anchor, указываются в документе при помощи тэга NAME, как это будет описано далее.

Структура ссылок в HTML-документе

Пока что мы рассмотрели только внешний вид URL. Для того, чтобы броузер отобразил ссылку на URL, необходимо отметить URL специальными тэгами в HTML-документе. Синтаксис HTML, позволяющий жто сделать - следующий:

<A HREF="URL"> текст-который-будет-подсвечен-как-ссылка </A>

Тэг <A HREF="URL">открывает описание ссылки, а тэг </A> - закрывает его.

Билет № 8.

Память – оперативная память, дисковая память (единицы измерения памяти).

Первый период истории автоматизированных информационных систем

Первый этап развития ИПС условно можно отнести к 1955 – 1965 гг.

Специалисты уже поговаривали об информационном взрыве, а будущие ключевые фигуры в становлении компьютерной реальности, предвидели, кажется, дальнейший ход событий. Так, еще в 1945 году Ваннавер Буш в книге «Как мы можем думать?» описал MEMEX (MEMory EXtender) – расширитель памяти – прообраз гипертекста. Дж. Лилайдер (1962 год) в описании проекта ARPANET описывает, каким будет то ныне пресловутое электронное, виртуальное киберпространство, в котором будет жить человечество.

Но повседневная информационная жизнь пока еще не менялась или менялась не заметно.

Можно сказать, что это был период накопления технических разработок. Он обозначен многими успехами в области компьютерной техники и программных средств.

Значительно уменьшаются габариты электронно-вычислительных машин.

В это десятилетие впервые появляются жесткий диск (1956), компьютер на транзисторах (1956), создается первая интегральная схема (1958), компьютер с монитором и клавиатурой (1960), первый вариант компьютерной мыши (1963) - пройдет не менее двух десятилетий, прежде чем персональный компьютер сможет поддерживать графический пользовательский интерфейс, и мышь станет повсеместно распространена, появляется первая операционная система (1954), языки программирования Fortran (1954, по другим источникам 1957), Algol (1958), BASIC (1965).

Возникают понятия микропрограммирование (1951), автоматизация программирования (1953), искусственный интеллект (1956).

Появились теоретические разработки, прогнозирующие развитие техники и программных средств, например, закон Мура об удвоении производительности транзисторов в интегральных схемах каждые 18 месяцев.

К началу 60-х годов созданы первые автоматизированные ИПС. Внедрение электронно-вычислительной техники в сферу информационного поиска сулило большие перспективы. Однако, быстро получить полностью автоматизированные поисковые системы не удалось. Началась практическая работа по созданию ограниченных, но полезных поисковых систем.

По-прежнему работали системы, основанные на перфокартах, всевозможные картотеки, а справочно-библиографический аппарат библиотек по-прежнему состоял из карточных каталогов, картотек и печатных библиографических пособий.

Таким образом, компьютерная наука развивалась, но достижения ее больше относились к теории и эксперименту, более или менее удачному, чем к практике информационных работников или пользователей ИПС.

Память – оперативная память, дисковая память (единицы измерения памяти).

Память.

Оперативная память (Random Access memory) – время доступа в ней обычно не зависит от адреса ячейки, к которой обращается программа. В современной технологии память выполнена на полупроводниках.

С технологической точки зрения она делится на память типа ROM (read only) и память R/W (read/write)

PROM – поддающийся программированию ROM

EPROM – стираемый PROM

Дисковая память

Память измеряется в байтах и производных от них единицах, килобайтах, мегабайтах, гигабайтах. Один байт – это примерно 11 знаков, т.е. два-три слова русского языка с пробелами между ними, введенные в компьютерную программу типа MS WORD.

1 Кбайт – 1000 байтов

1 Мбайт – 1000 кбайтов

1 Гбайт – 1000 мбайтов

Билет №9.

Периоды истории автоматизированных информационных систем

Понятие «ТЭГ» в HTML

Первый этап развития ИПС условно можно отнести к 1955 – 1965 гг.

Но повседневная информационная жизнь пока еще не менялась или менялась не заметно.

Значительно уменьшаются габариты электронно-вычислительных машин.

Второй период с известной долей условности можно поместить между серединой 60-х и серединой 70-х годов ХХ в.

Дуглас Энгельбарт (Douglas C.Engelbart) (1968) продемонстрировал использование клавиатуры, манипулятора мышь, системы окон, текстового процессора, гипертекста, динамическую связь файлов, одновременную совместную работу связанных в сеть компьютеров. Белл Лабс (Bell Labs) разрабатывает Unix, операционную систему, ставшую основной для микрокомпьютеров и рабочих станций. Фирма IBM внедряет первый гибкий магнитный диск (8 дюймов)

Завершается 1968 год разработка системы кодов ASCII (American Standard Code for Information Interchange) системы единых кодов представления символов.

Развиваются системы телекоммуникации, сетевые технологии, возникают огромные информационные системы, позже разросшиеся до размеров монстров (OCLC, RLN и т.д.). Именно в это время возникает термин «Информационное общество»

В 1960-е годы начинаются активные разработки проекта глобальной сети. Еще в 1958 году в США инициирован так называемый проект ARPA (Advanced Research Project Agency). Этот проект ведет секретные военные разработки по созданию информационной глобальной сети.

В эти же годы начинается внедрение компьютеров и в работу библиотек.

В середине 60-х годов начинают создаваться массивы электронных библиографических записей (т.е. мета- документов). В 1965-66 годах в библиотеке Конгресса США создаётся первый электронный каталог, а в 1968 году в Великобритании – электронный массив национальной библиографии. В это время, можно сказать, осмысляется и подходит вплотную к реализации принцип многоцелевого использования электронной библиографической записи.

Это ведет к стандартизации электронной библиографической записи. В ходе экспериментов с электронными каталогами разрабатывается формат MARC. Издается первая редакция англо-американских правил каталогизации (1967), внедряется система стандартных номеров издания (ISBN) (1967), принимается решение о создании стандартного библиографического описания (ISBD) (1969), На пленарном заседании ISO в Стокгольме создается рабочая группа (WG-4) "Автоматизация и документация", издается первая редакция международного стандарта ISO 2709 нормирующего структуру электронной библиографической записи (1973).

На завершающем этапе периода начинают создаваться межбиблиотечные проекты – то есть временные организации, созданные для решения определенных технических, организационных и других проблем.

Для данного периода характерен повышенный интерес к информационно-поисковым языкам (ИПЯ) и методам индексирования. Индексирование повсеместно осуществлялось вручную. Типичная ИПС тех лет – это человеко-машинная система, где анализ содержания документов и индексирование выполняются вручную, а поиск проводится машиной. Поиск заключался в автоматическом сравнении поисковых образов документов и поисковых образов запросов, составленных на основе дескрипторных словарей или тезаурусов.

Эти ИПС, как правило, используются в режиме избирательного распространения информации, и функционируют как автономные системы, не связанные с библиотеками. Особенно это характерно для СССР, где в те годы создается Государственная автоматизированная система научно-технической информации (ГАСНТИ).

В целом для работ этого периода развития ИПС и ИПЯ характерно выявление природы ИПЯ через его сопоставление с естественным языком. Большое внимание уделялось разработке конкретных языков, разработке и использованию методик индексирования. Основная тема исследований – это уже не доказательство возможности или невозможности автоматизированного информационного поиска как такового, а выявление и разработка средств и методов, обеспечивающих наиболее эффективное решение задачи нахождения в информационном массиве документов, релевантных запросу.

Большое значение имел так называемый Второй Крэнфилдский эксперимент (1966?) . Его целью была сравнительная оценка эффективности различных средств и стратегий поиска. Было осознано, что многие поисковые средства (фиксация нетривиальных парадигматических и синтагматических отношений, учет синтаксических связей и др.) или не приводят к улучшению показателей поиска, или незначительно улучшая одну из основных характеристик (полнота, точность), заметно ухудшают другую. Еще одна причина «отступления» семантически и синтаксически мощных языков – это переход от ручного интеллектуального индексирования к автоматизированному.

Третий период развития ИПС условно можно отнести на 1975 – 1995 гг.

Начало этого периода отмечено началом активной деятельности таких фигур как Билл Гэйтс и Пол Ален, которые занимаются лицензированием новых разработок в области технических и программных средств компьютера ALTAIR, создают собственную компанию, в этом же году они создают компанию Micro-Soft (дефис в названии позднее убран) (1975). Эд Робертс (Ed Roberts) придумывает термин «персональный компьютер» (1975) для рекламной компании компьютера ALTAIR.

С 1981 года операционная система PC-DOS 1.0 поставляется вместе с новым компьютером IBM PC. Вскоре после этого в том же году корпорация Microsoft выпускает MS-DOS и выдает лицензии на MS-DOS всем желающим.

В 1990 году выходит операционная оболочка WINDOWS 3.0.

По данным, приведенным компьютерным обществом (Computer Society), только за декаду с 1970 по 1980 этой организацией напечатано более 25,000 страниц научных публикаций по разным вопросам компьютерной техники: более 13,500 страниц для the «IEEE Transactions on Computers, более 4,100 страниц для «IEEE Transactions on Software Engineering, более 400 страниц для «IEEE Transactions on Pattern Analysis & Machine Intelligence», and более 8,000 страниц для «Computer». (публикация в Интернет)

Это время характеризуются усилением роста информационных сетей разного уровня. Возникают в большом количестве региональные (например, библиотечные сети Германии и Италии (1980-е), отраслевые (например, сети медицинских и сельскохозяйственных библиотек США) и функциональные сети (университетские сети в Великобритании (1987), Швеция (1980), Австрия (1980) и др.

В библиотеках (особенно национальных библиотеках развитых стран) в этот период уже существуют электронные каталоги на новые поступления, весьма активно осуществляется ретроспективная конверсия карточных каталогов, т.е. ввод содержащейся на карточках информации в электронные информационные системы. К концу рассматриваемого периода (кое-где чуть позднее) в большинстве национальных библиотек развитых стран карточные каталоги вышли из употребления.

В 1977 в целом завершены разработки ARPA, и начинает действовать система ARPANET, которая позднее перерастёт во всемирную сеть Интернет.

Развиваются мощные информационные системы доступные через системы теледоступа, напр. STN (1977).

1989 год – год изобретения языка HTML, протокола HTTP, разработки программ, известных под названием браузер (Tim Berners-Lee в CERN - Centre Européen de Recherche Nucléaire ‑, Женева). 13 ноября 1990 года выпущен первый html документ. В 1992 году начинают работать около 23 серверов World Wide Web, а уже в 1993 году WWW составляет 85% всего времени работы Интернет. Таким образом, если до этого изобретения компьютерная коммуникация была возможной только для специалистов, то теперь она стала возможной для пользователей.

В конце 89-х начале 90-х годов возникают массивы цифровых текстов – отсканированных материалов с последующим распознаванием и без распознания текстов, а также изначально созданных в цифровой форме. Возникает идея массовой оцифровки фондов крупных библиотек, инициируются соответствующие программы и учреждения. В 1995 году создаётся Федерация Цифровых Библиотек (DLF – Digital Library Federation)

В 1995 году в городе Дублине, Огайо, США разрабатывается так называемое «дублинское ядро», т.е. набор метаданных для описания Интернет ресурсов. Этот формат описания отличает компактность, в отличии от традиционного библиографического описания, которое бывает довольно развернутым.

В 1995 же году издаётся протокол Z39.50 (ему предшествовала разработка и публикация серии стандартов ISO (1987 – 1990 годы) по взаимодействию открытых систем, абстрактному синтаксису, общим системам кодирования, и, наконец, общему языку команд) этот протокол становится одним из основополагающих.

Это стандарт который позволяет разделение пользовательского интерфейса и базы данных. Пользователь имеет возможность работать с распределённой базой данных.

Через сайты многих крупных библиотек появился доступ сразу ко многим библиотекам. Возникли также распределенные каталоги.

В эти же годы разрабатывается система кодов UNICODE, позволяющая отображение всех систем письма.

После научных дискуссий и под влиянием внешних технологических факторов, массовое распространение получили системы, названные «бестезаурусными», или системами поиска по свободному тексту (free-text searching systems). Особенностью их является, с одной стороны, отказ от лексического контроля и тем самым отказ от учета парадигматики, а с другой – широкое использование контекста и синтагматических связей.

Внешние технологические факторы заключались в потребности информационной инфраструктуры в обработке большого числа машиночитаемых баз данных (на магнитных лентах). Как правило, эти базы данных (БД) содержали краткое библиографическое описание документов, включая текстовые поля – заглавие, аннотацию, реферат, представленные на естественном языке, и, напротив, не содержали поисковых образов документов с нормализованной лексикой. БД создавались, как правило, в одних местах – в специализированных организациях–генераторах баз данных, а использовались в других, так что процессы первичной семантической обработки документов и обработки запросов оказались разорванными. В этих условиях наиболее оптимальными показали себя вышеназванные системы. Были достигнуты неплохие результаты в области автоматического индексирования. Появились системы, где автоматическое индексирование осуществлялось уже в промышленном режиме (например, в ИПС "Скобки").

Другие направления исследований этого периода – это модели поиска (выбор критерия смыслового соответствия) и способы оценки систем. Несмотря на большое число исследований, посвященных вероятностно-статистическим моделям, на практике, в основном, стали использоваться ИПС с булевскими операторами. Преобладание булевских систем отчасти можно объяснить их простотой. “Прозрачность” булевского поиска совпала с развитием диалоговых средств поиска. Возможность получать промежуточные результаты поиска, возможность корректировать поисковое предписание по данным обратной связи для большинства пользователей оказались достаточными, чтобы удовлетвориться результатами поиска с помощью существующих систем.

Таким образом, к середине 70-х сформировался и на долгие годы стал преобладающим класс систем, получивших наибольшее распространение и работающих в режиме промышленной эксплуатации.

Этот класс систем отличают следующие особенности:

ИПЯ посткоординируемого типа на основе ключевых слов.
Логический критерий смыслового соответствия на основе булевой логики.
Специальные контекстные операторы для учета синтагматики.
Поиск по свободному тексту (как правило, представленному рефератами).
Диалоговый режим поиска.
Оценка эффективности поиска на полноту и точность.
Управление показателями поиска на основе данных обратной связи.
Широкое распространение систем поиска в режиме ИРИ.

Для данного этапа характерно превращение ИПС в “средство производства”: появляются мощные коммерческие информационные службы, осуществляющие генерацию машиночитаемых документальных баз данных и поиски по запросам. Программное обеспечение ИПС начинает распространяться в виде пакетов прикладных программ, сравнительно легко адаптируемых к условиям конкретных пользователей и организаций. Встает и решается вопрос об унификации языковых средств. Эта унификация выражается в создании единых форматов обмена документальными массивами (в СССР был созданы коммуникативные форматы ГКФ (1978-1979 гг.), затем МЕКОФ(1984-1985 гг.)). А в 1997 в России введен в употребление Российский национальный формат RUSMARC.

в попытках унификации языков запросов с целью создания единого командного языка.

Можно сказать, что, в конечном счете, такой язык был создан, но позже, и не как отдельный язык, а в составе поискового протокола Z39.50.

Четвертый период развития ИПС, после 1995

Вряд ли можно сказать, что в этот период появились какие-либо принципиально новые изобретения. Этот период, скорее можно назвать периодом активного совершенствования того, что было изобретено раньше. Так, постоянно совершенствуются элементы аппаратной части компьютера, увеличивая скорость его работы, оперативную и дисковую память, появляются новые периферийные устройства и внешние носители. Стандартные программные средства занимают весьма прочное место в мире, с периодичностью раз в два-три года появляются их новые версии (например, WINDOWS NT, Windows 98, 2000, 2003 и т.д.)

Продолжают развиваться сетевые технологии, прежде всего Интернет. По данным ЮНЕСКО в 2002 году в мире зарегистрировано 605 млн пользователей Интернет, т.е примерно каждый восьмой житель Земли – пользователь Интернет.

Широко распространяются новейшие методы электронной доставки документов.

Все больше возникает объединенных систем, каталогов библиотек.

Усиливается тенденция к кооперации в научных исследованиях, растет число научных объединений ‑ ассоциаций, консорциумов, центров, групп и т.д. в различных отраслях науки, появляются также и межотраслевые объединения. Этот процесс прямо связан с информационными технологиями.

Растёт количество специальных библиотечно-информационных объединений. Все больше возникает проектов – временных объединений ряда организаций.

Такие объединения решают, как правило, специальные задачи – задачи электронной доставки, совместимости данных, представления данных, создание общих информационных систем, разработки систем метаданных.

Массовый характер принимают работы по созданию цифровых документов, содержащих различные типы данных. Причем число проектов, занимающихся такой деятельностью, резко возрастает именно в 1995 году, а концу десятилетия удваивается.

Рост проектов по оцифровке фондов библиотек за 1990-1999 год,

данные IFLA

ГодКоличество проектов 1990319911199221993219945199519199618199724199834199943151

Содержание