logo search
Информатика_ЗО

Текстовая информация

При хранении в компьютере любой текст рассматривается как линейная последовательность символов. Пробел, переход на следующую строку, переход на следующую страницу и т. д. рассматриваются как специальные символы. Каждому символу из этой последовательности ставится в соответствие конкретный двоичный код, состоящий из 8 двоичных разрядов. Таким образом, код каждого символа текста занимает один байт памяти. Следовательно, текст целиком занимает столько байт памяти машины, из скольких символов он состоит, включая все символы текста – пробелы, знаки препинания, знаки переходов и т. д.

Списки всех используемых при записи текстов символов и соответствующих им двоичных кодов образуют кодовые таблицы. На практике применяют различные кодовые таблицы. Наиболее часто используется кодовая таблицаASCII (AmericanStandartCodeforInformationInterchange– стандартный американский код для обмена информацией). Всего в ней зафиксированы коды для 128 различных символов. Но один байт может содержать 256 различных двоичных кодов, состоящих из 8 бит. Таким образом, в стандартеASCIIзадействована только половина возможных кодов. Имеются различные расширения основной кодовой таблицыASCII, в которых задаются коды еще для 128 символов, в том числе и для символов различных национальных алфавитов.

Знать кодовую таблицу наизусть не нужно. Все необходимые преобразования от символов к их кодам и назад – от кодов к символам – производятся машиной автоматически.

Существует много различных кодовых таблиц, и различные программы используют для записи текстов различные кодовые таблицы. А в различных кодовых таблицах один и тот же код соответствует разным символам. Следовательно, текст, записанный какой-либо программой в одной кодовой таблице, может быть полностью искажен при его чтении с помощью другой программы.

Существование большого количества кодировочных таблиц объясняется следующим: если учесть все возможные буквы, встречающиеся в национальных алфавитах европейских стран, все возможные символы, которые встречаются в математических и других специальных текстах, в алфавитах азиатских языков, то 256 символов окажется мало.

В последнее время все шире используется кодовая таблица UNICODE(UNIversalCODE– универсальный код), в которой для кода одного символа отводится 2 байта, а не один.Недостаток: требуется в два раза больше места в памяти, чем при записи в однобайтных кодировках. Но в связи с тем, что память становится все более и более дешевой, этот недостаток становится все менее значимым.Преимущество: с помощью 2 байтов, т. е. 16 разрядов, можно закодировать 216 = 65536 различных символов, а не 256. такого количества различных символов вполне достаточно для того. Чтобы представить практически все встречающиеся символы.