logo search
Высокоцровневые методы информатики и првые методы информатики и программированияограммирования

Универсальное хеширование

Если недоброжелатель будет специально подбирать данные для хеширова­ния, то (зная функцию h) он может устроить так, что все п ключей будут соответствовать одной позиции в таблице, в результате чего время поиска будет равно (n). Любая фиксированная хеш-функция может быть дискредитирована таким образом. Единственный выход из положения – выбирать хеш-функцию случайным образом, не зависящим от того, какие именно данные вы хешируете. Такой подход называется универсальным хешированием (universal hashing). Что бы ни предпринимал ваш недоброжелатель, если он не имеет информации о выбранной хеш-функции, среднее время поиска останется хорошим.

Основная идея универсального хеширования – выбирать хеш-функцию во время исполнения программы случайным образом из некоторого множества. Стало быть, при повторном вызове с теми же входными данными алгоритм будет работать уже по-другому. Как и в случае с алгоритмом быстрой сор­тировки, рандомизация гарантирует, что нельзя придумать входных данных, на которых алгоритм всегда бы работал медленно (в примере с компилято­ром и таблицей символов не сможет получиться, что какой-то определённый стиль выбора идентификаторов приводит к замедлению компиляции: вероятность, что компиляция замедлится из-за неудачного хеширования, во-первых мала, и во-вторых, зависит только от количества идентификаторов, но не от их выбора).

Пусть Н – конечное семейство функций, отображающих данное множество U (множество всевозможных ключей) во множество (0,1,... ,m – 1} (множество хеш-значений). Это семейство называется универсальным (universal), если для любых двух ключей х,уU число функций h  H, для которых h(x) = h(y), равно |H| / т. Иными словами, при случайном выборе хеш-функции вероятность коллизии между двумя данными ключами должна равняться вероятности совпадения двух случайно выбранных хеш-значений (которая равна 1 /m).

Следующая теорема показывает, что универсальное семейство хеш-функций обеспечивает хорошую производительность в среднем.

Теорема 4.3. Пусть нам необходимо поместить n фиксированных ключей в таблицу размера m, где mn, и хеш-функция выбирается случайным образом из универсального семейства. Тогда математическое ожидание числа коллизий, в которых участвует данный ключ х, меньше единицы.

Доказательство. Математическое ожидание числа коллизий данного ключа с данным ключом у равно 1 / m по определению универсального семейства, поскольку всего имеется n – 1 ключей, отличных от х, математическое ожидание числа коллизий с каким-нибудь из этих ключей равно (п – 1) / m, что меньше единицы, поскольку nm.

Как же построить универсальное семейство? Нам поможет в этом элементарная теория чисел. Число m (количество хеш-значений) выберем простым. Будем считать, что каждый ключ представляет собой последовательность r + 1 «байтов» (байт, или символ, это просто двоичное число с ограниченным числом разрядов; мы будем считать, что максимальное значение байта меньше r. Для каждой последовательности а = a0,a1,...,аг, элементы которой являются вычетами по модулю m (то есть принадлежат множеству {0,1,...,m  1} - рассмотрим функцию ha, заданную формулой

(4.2)

где ключ х есть последовательность байтов x0, x1, ... ,xr. Положим

(4.3)

Очевидно, множество H содержит mr+1 элементов.

Теорема 4.4. Семейство функций H, определённое формулами (4.2) и (4.3) является универсальным семейством хеш-функций.

Доказательство. Пусть х = х01,…,хr и у = у0,y1,...,yr два различных ключа;

не ограничивая общности, можно считать, что x0 y0. Если а = а0, a1,...,аг, то ha(x) ha(y) тогда и только тогда, когда

Поскольку x0y0 ≠ 0 (mod m), для каждой последовательности а1,...,аr существует

и единственно значение а0, при котором это равенство выполнено. Количество таких последовательностей равно тr, и таково же, стало быть, количество функций из H, не различающих ключи х и у. Поскольку тr = |Н| / т, всё доказано.

Справедливой будет следующая интерпретация: ненулевой линейный функционал h → h(x у) с равной вероятностью принимает любое из т своих значений, в том числе 0.