logo search
Коды и шифры

Частоты встречаемости букв в других языках, кроме английского

Для любого языка с алфавитной записью шифр простой замены вскрывается описанным выше методом: подсчетом частот встречаемости знаков с последующим использованием контекстной информации языка. Ясно, что для этого криптоаналитику необходимо по крайней мере неплохо знать язык, хотя в случае шифра простой замены ему не обязательно говорить на нем свободно. Не менее очевидно, что подсчет частот встречаемости знаков в типичном отрывке текста будет для разных языков давать разные результаты, хотя для языков с общей основой, такой как латынь, это отличие будет меньше, чем для языков различного происхождения. Не во всех языках используется 26-буквенный алфавит; в некоторых букв меньше - в итальянском обычно употребляются только 22; в других, например в русском, букв больше, а в третьих (например, в китайском), алфавита вообще нет. Поскольку итальянцы обычно не используют буквы K, W и Y, то их частоты полагают равными нулю, но если в итальянском тексте упоминается Нью-Йорк (New York), то и эти буквы в нем встретятся. Во французском и немецком языках необходимо различать гласные с различными диакритическими знаками (акцентами и умляутами), но ради упрощения приведенных ниже таблиц все формы одной и той же буквы подсчитывались вместе. Так, для французского языка частоты букв E, E, E и E учтены вместе в суммарной частоте буквы E. Числа также исключены из подсчета, кроме тех, которые записаны словами; все неалфавитные символы (пробел, запятая, точка, кавычки, точка с запятой и т.д.) учтены в графе "другие". Заглавные и строчные буквы считались одинаковыми. В таблице 2.6 приведены (с учетом приведенных оговорок) частоты встречаемости букв для четырех европейских языков в расчете на 1000 знаков. Для удобства мы повторяем здесь таблицу частот встречаемости букв английского языка.

Статистический анализ этих подсчетов показывает, что если речь идет о частотах встречаемости одиночных знаков, то английский, французский, немецкий и, в меньшей степени, итальянский языки довольно близки, а их родство с валлийским заметно слабее. Частично это объясняется тем, что в валлийском языке Y - очень частая буква: она является гласной и имеет два различных произношения. В английском языке она встречается гораздо реже, а в других языках и вовсе очень редка. Подсчеты также показывают, что букву N можно назвать "наиболее постоянной буквой", поскольку во всех пяти языках частота ее встречаемости практически одинакова - от 6% до 7% всех букв латинского алфавита. Объяснение сути статистических тестов, применяемых обычно для сравнения частот, подобных приведенным здесь, можно найти в [2.4]; дополнительный комментарий содержится в приложении M20.

Таблица 2.6

английский язык

французский язык

немецкий

язык

итальянский язык

валлийский язык

A

B

C

D

E

F

G

H

I

J

K

L

M

N

O

P

Q

R

S

T

U

V

W

X

Y

Z

Другие

57

9

17

26

116

28

14

46

58

1

5

34

14

57

53

18

3

49

55

91

25

9

11

1

18

1

184

72

13

17

34

143

7

11

9

56

1

0

42

35

54

48

27

5

51

64

64

42

10

0

3

3

1

188

49

18

28

43

129

11

20

42

69

1

8

25

36

58

24

7

0

69

54

64

28

8

12

0

0

11

186

103

4

46

42

95

8

12

11

103

0

0

58

20

58

69

16

3

55

38

52

21

14

0

0

0

7

165

77

13

23

63

55

28

32

43

57

0

0

47

23

58

64

3

0

52

20

31

17

0

31

0

67

0

196