_Лекции по теории инф

3. Кодирование текстовой информации

Кодирование текстовой информации двоичным кодом осуществляется посредством обозначения каждого символа алфавита определенным целым числом. Тогда с помощью восьми двоичных разрядов можно закодировать |256 различных символов. Этого количества символов достаточно, чтобы выразить все символы английского и русского алфавитов.

В первые годы развития ЭВМ трудности кодирования текстовой информации были связаны с отсутствием необходимых стандартов кодирования. В настоящее время, напротив, эти трудности вызваны большим количеством одновременно действующих и зачастую противоречивых стандартов.

Для английского языка как для неофициального международного средства общения эти трудности были решены. Институт стандартизации США разработал и ввел в действие систему кодирования ASCII (American Standard Code for Information Interchange — стандартный код информационного обмена США).

Были разработаны несколько кодировок русского алфавита:

Кодировка Windows-1251 была введена • компанией «Microsoft, и с учетом широкого распространения ОС и других программных продуктов этой компании в РФ она нашла широкое распространение;
Кодировка КОИ-8 (Код Обмена Информацией, восьмизначный) является другой популярной кодировкой российского алфавита, распространенной в компьютерных сетях на территории РФ и в российском секторе Интернета;

3) Кодировка ISO (International Standard Organization — Международный институт стандартизации) является международным стандартом кодирования символов русского языка. На практике данная кодировка используется редко.

Ограниченный набор кодов (256) создает достаточное количество трудностей для разработчиков единой системы кодирования текстовой информации. Поэтому было предложено кодировать символы не восьмиразрядными двоичными числами, а числами с большим разрядом, что привело к расширению диапазона возможных значений кодов. Система 16-разрядного кодирования символов получила название универсальной — UNICODE. Шестнадцать разрядов обеспечивают уникальные коды для 65 536 символов, что вполне достаточно для размещения в одной таблице символов большинства языков планеты.

Несмотря на простоту предложенного подхода, практический переход на данную систему кодировки долгое время не мог осуществиться из-за недостатков ресурсов средств вычислительной техники, потому что в системе кодирования UNICODE все текстовые документы становятся автоматически вдвое больше.

В конце 1990-х гг. технические средства достигли необходимого уровня, и стал происходить постепенный перевод документов и программных средств на систему кодирования UNICODE.

Содержание