Классика баз данных - статьи

       

Распределения данных


Рассмотрим отношение R с n числовыми атрибутами Xi(i = 1.. n). Множество значений Vi атрибута Xi - это множество значений Xi, присутствующих в R. Пусть Vi = {vi (k): 1 ≤ k ≤ Di}, где vi(k) < vi(j) при k < j. Протяженность (spread) si(k) для vi(k) определяется как si(k) = vi(k+1) - vi(k) для 1 ≤ k < Di. (Мы полагаем si(Di) = 1). Частота fi(k) для vi(k)- это число кортежей в R с Xi = vi(k). Площадь (area) ai(k) для vi(k) определяется как ai(k) = fi(k)• si(k).

Распределение данных для Xi - это множество пар Ti = {(vi (1), fi(1)), (vi(2), fi(2)), …, (vi(Di ), fi(Di))}.

Соединенная частота (joint frequency) f(k1, …, kn) комбинации значений < v1(k1), …, vn(kn) >- это число кортежей в R, в которых для всех i атрибут Xi содержит значение vi(ki). Соединенное распределение данных T1,…,n для X1,…,Xn - это полное множество пар (комбинация значение, соединенная частота).

Далее для одномерного случая мы будем использовать введенные обозначения без нижнего индекса i.



Содержание  Назад  Вперед