Классика баз данных - статьи

       

Доступ к данными, ориентированный на множества, обеспечивает параллелизм


Как отмечалось ранее, ученые часто начинают работу с использования массивов данных, полученных от приборов или моделей. Часто эти массивы сопровождаются табличными данными, описывающими экспериментальную установку, параметры моделирования или условия окружающей среды. Данные также сопровождаются документами, разъясняющими эти данные.

Эти массивы являются аргументами многих операций, которые производят новые массивы, но, в конце концов, массивы подвергаются процедуре выделения признаков (feature extraction), которая производит объекты, являющиеся основой дальнейшего анализа. Например, необработанные астрономические данные преобразуются в объекты-каталоги звезд и галактик. Данные, поступающие из прибора для измерения скорости течения воды, преобразуются в данные временных рядов о скорости потока и качестве воды, масс-спектрограммы сыворотки крови преобразуются в записи, описывающие концентрацию пептида и белка, и необработанные данные физики высоких энергий преобразуются в события.

Большинство научных исследований включает изучение и интеллектуальный анализ (data mining) этих объектно-ориентированных табличных наборов данных. Научные форматы файлов HDF, NetCDF и FITS могут представлять табличные данные, но они обеспечивают лишь минимальные инструментальные средства для поиска в табличных данных и их анализа. Основная цель этих стандартов и инструментов состоит в том, чтобы обеспечить возможность размещения таблиц и подмассивов в адресном пространстве программных сред Fortran/C/Java/Python, в которых можно манипулировать данными с использованием языка программирования.

Этот процедурный анализ данных на основе Fortran/C/Java/Python в режиме "файл за файлом" приближается к критической точке. Лавина данных порождает миллиарды файлов и триллионы событий. В подходе, ориентированном на файлы, постулируется, что файлы объединяются в каталоги. Каталог объединяет все данные от некоторого инструмента, или данные за некоторый месяц, или данные из некоторого региона, или из данные некоторой лаборатории.

Содержание  Назад  Вперед