Программирование на Java | Модемы | Дипломы по радиотехнике и связи |
Модемы и сетевое оборудование
Кодировки кириллицы
Для русского же языка с его кириллическим алфавитом пришлось изобретать свое особое расширение ASCII. А самое неприятное то, что по историческим причинам распространение получили сразу несколько стандартов кодирования русского языка, различающихся тем, где именно в диапазоне байтов 128-255 располагаются русские буквы. Расцвет глобальных сетей, связывающих компьютеры друг с другом, придает этой проблеме особую остроту — чтобы обмениваться с кем-нибудь текстами на русском языке, вы должны быть уверены в том, что посылаете текст в кодировке получателя (или, по крайней мере, в той кодировке, которую он сможет преобразовать в свою).
Давайте познакомимся с самыми распространенными из кодировок кириллицы. Хронологически одним из первых стандартов кодирования русских букв на компьютерах был КОИ8 («Код обмена информацией, 8-битный», — рис. 4). Эта кодировка применялась еще в доисторические советские времена на компьютерах ЕС ЭВМ, и когда в середине 80-х появились первые русифицированные версии операционной системы UNIX, они переняли эту кодировку у своих «старших братьев». Сеть Релком, с которой начинался российский Интернет в начале 90-х и которая поначалу состояла в основном из к
омпьютеров с UNIX, также приняла кодировку КОИ8 в качестве стандартной. В результате сейчас КОИ8 является единственно допустимой кодировкой в русскоязычной электронной почте и телеконференциях. Если только вы не работаете с UNIX, кодировка КОИ8 для вашего компьютера не является «родной», и вам следует обратить особое внимание на правильную настройку своей почтовой программы (подробнее об этом мы поговорим в гл. 7).
Кодировка КОИ8
Рис. 4
Кодировка КОИ8. Обратите внимание на то. что буквы идут не по алфавиту
Вторая по значению в русском Интернете (и, безусловно, первая по употребимости на персональных компьютерах) кодировка — это стандартная кириллическая кодировка Microsoft Windows, обозначаемая сокращением СР1251 («СР» означает «Code Page», «кодовая страница», — рис. 5). Все Windows-приложения, работающие с русским языком, обязаны понимать эту кодировку без перевода. В русскоязычном WWW исторически утвердилось «двоевластие» кодировок — любой WWW-сервер должен предлагать посетителям версии своих страниц как в кодировке КОИ8, так и в СР1251 (а в идеале — ив остальных кодировках, о которых ниже). Однако в почте и телеконференциях нельзя пользоваться никакой другой кодировкой, кроме КОИ8.
alt="Кодировка СР1251" class="img_senter" />
Рис. 5
Кодировка СР1251
Реликтом эпохи повсеместного господства MS DOS остается так называемая «альтернативная» кодировка, в терминологии фирмы Microsoft — кодировка СР866. Кодировка эта сохраняет определенное значение благодаря тому, что она принята в качестве стандартной в операционной системе OS/2 и в не- коммерческой сети Фидо (стр. 193). Из прочих, реже встреча- ющихся кодировок русского языка следует упомянуть кодировку компьютеров Макинтош, кодировку ISO-8859-5,
применяющуюся на некоторых рабочих станциях, и международный стандарт Unicode, предлагающий единое двухбайтовое кодовое пространство для всех существующих алфавитов мира, включая и кириллицу. Сводка кодов русских букв во всех кодировках кириллицы представлена в приложении
1.
Стоит упомянуть и о еще одной возможности. Если для вас очень важно, чтобы вашу русскоязычную информацию мог прочесть даже тот, у кого на компьютере вообще нет русских букв, стоит воспользоваться еще одной «кодировкой», попросту записав русский текст латиницей — primerno tak. И хотя единых правил такой транслитерации не существует, в Сети можно найти даже специальные утилиты, которые проделают за вас эту работу. Адреса web-страниц со ссылками на всевозможные программы-перекодировщики и с другой полезной информацией на эту тему приведены в приложении 5.

< пред след >
вернуться к содержанию
вернуться к списку источников

перейти на главную страницу