logo
файлы

1.9Кодировка utf-8

Запись потока в байтовой кодировке вызывает трудности с использованием национальных символов, запись потока в Unicode увеличивает длину потока в два раза. Кодировка UTF-8 (Universal Transfer Format) является компромиссом. Символ в этой кодировке записывается одним, двумя или тремя байтами.

Символы Unicode из диапазона '\u0000' —'\u007F', в котором лежит английский алфавит, записываются одним байтом, старший байт просто отбрасывается.

Символы Unicode из диапазона '\u0080' —'\u07FF', в котором лежат наиболее распространенные символы национальных алфавитов, записываются двумя байтами следующим образом: символ Unicode с кодировкой 00000хххххуууууу записывается как 110ххххх10уууууу.

Остальные символы Unicode из диапазона '\u0800' —'\UFFFF' записываются тремя байтами по следующему правилу: символ Unicode с кодировкой xxxxyyyyyyzzzzzz записывается как 1110xxxx10yyyyyy10zzzzzz.

Такой странный способ распределения битов позволяет по первым битам кода узнать, сколько байтов составляет код символа, и правильно отсчитывать символы в потоке.

Так вот, метод writeUTF( string s) сначала записывает в поток в первые два байта потока длину строки s в кодировке UTF-8, а затем символы строки в этой кодировке. Читать эту запись потом следует парным методом readUTF() класса DataInputStream.

Класс DataInputStream преобразует входной поток байтов типа InputStream, составляющих данные простых типов Java, в данные этого типа. Такой поток, как правило, создается методами класса DataOutputStream. Данные из этого потока можно прочитать методами readBoolean(), readByte(), readShort(), readChar(), readInt(), readLong(), readFloat(), readDouble(), возвращающими данные соответствующего типа.

Кроме того, методы readUnsignedByte() и readUnsignedShort () возвращают целое типа int, в котором старшие три или два байта нулевые, а младшие один или два байта заполнены байтами из входного потока.

Метод readUTF(), двойственный методу writeUTF(), возвращает строку типа string, полученную из потока, записанного методом writeUTF ().

Еще один, статический, метод readUTF(DataInput in) делает то же самое со входным потоком in, записанным в кодировке UTF-8. Этот метод можно применять, не создавая объект класса DataInputStream.

Программа записи числа Фибоначчи в файл fib.txt и читение этого файла с выводом на консоль. Для контроля записываемые в файл числа тоже выводятся на консоль.

class DataPrWr{

public static void main(String[] args) throws IOException{

DataOutputStream dos = new DataOutputStream (

new FileOutputStream("fib.txt"));

int a = 1, b = 1, с = 1;

for (int k = 0; k < 40; k++){

System.out.print(b + " ");

dos.writeInt(b);

a = b; b = с; с = a + b;

}

dos.close();

System.out.println("\n");

DataInputStream dis = new DataInputStream (new FileInputStream("fib.txt")) ;

while(true)

try{

a = dis.readInt();

System.out.print(a + " ");

}

catch(IOException e){

dis.close();

System.out.println("End of file");

System.exit (0);

}

}

}