Классический взгляд на OLAP - статья Э. Кодда
В 1993 году Е.Ф. Кодд опубликовал труд под названием
"OLAP для пользователей-аналитиков: каким он должен быть".
(E. F. Codd, см. "CW-M", 1993, 38). В нем он изложил основные
концепции оперативной аналитической обработки и определил 12 правил,
которым должны удовлетворять продукты, предоставляющие возможность
выполнения оперативной аналитической обработки.
Вот эти правила (текст оригинала, по возможности,
сохранен):
1. Концептуальное многомерное представление. (Multi-Dimensional
Conceptual View) Пользователь-аналитик видит мир предприятия многомерным
по своей природе. Соответственно и OLAP-модель должна быть многомерной
в своей основе. Многомерная концептуальная схема или пользовательское
представление облегчают моделирование и анализ так же, впрочем,
как и вычисления.
2. Прозрачность. (Transparency) Вне зависимости от того, является
OLAP-продукт частью средств пользователя или нет, этот факт должен
быть прозрачен для пользователя. Если OLAP предоставляется клиент-серверными
вычислениями, то этот факт также, по возможности, должен быть незаметен
для пользователя. OLAP должен предоставляться в контексте истинно
открытой архитектуры, позволяя пользователю, где бы он ни находился,
связываться при помощи аналитического инструмента с сервером. В
дополнение прозрачность должна достигаться и при взаимодействии
аналитического инструмента с гомогенной и гетерогенной средами БД.
3. Доступность. (Accessebility) Пользователь-аналитик
OLAP должен иметь возможность выполнять анализ, базирующийся на
общей концептуальной схеме, содержащей данные всего предприятия
в реляционной БД, также как и данные из старых наследуемых БД, на
общих методах доступа и на общей аналитической модели. Это значит,
что OLAP должен предоставлять свою собственную логическую схему
для доступа в гетерогенной среде БД и выполнять соответствующие
преобразования для предоставления данных пользователю. Более того,
необходимо заранее позаботиться о том, где и как, и какие типы физической
организации данных действительно будут использоваться. OLAP-система
должна выполнять доступ только к действительно требующимся данным,
а не применять общий принцип "кухонной воронки", который
влечет ненужный ввод.
4. Постоянная производительность при разработке отчетов.
(Consistent Reporting Performance) Если число измерений или объем
базы данных увеличиваются, пользователь-аналитик не должен чувствовать
какой-либо существенной деградации в производительности. Постоянная
производительность является критичной при поддержке для конечного
пользователя легкости в использовании и ограничения сложности OLAP.
Если пользователь-аналитик будет испытывать существенные различия
в производительности в соответствии с числом измерений, тогда он
будет стремиться компенсировать эти различия стратегией разработки,
что вызовет представление данных другими путями, но не теми, которыми
действительно нужно представить данные. Затраты времени на обход
системы для компенсации ее неадекватности - это не то, для чего
аналитические продукты предназначены.
5. Клиент-серверная архитектура. (Client-Server Architecture)
Большинство данных, которые сегодня требуется подвергать оперативной
аналитической обработке, содержатся на мэйнфреймах с доступом через
ПК. Это означает, следовательно, что OLAP-продукты должны быть способны
работать в среде клиент-сервер. С этой точки зрения является необходимым,
чтобы серверный компонент аналитического инструмента был существенно
"интеллектуальным", чтобы различные клиенты могли присоединяться
к серверу с минимальными затруднениями и интеграционным программированием.
"Интеллектуальный" сервер должен быть способен выполнять
отображение и консолидацию между несоответствующими логическими
и физическими схемами баз данных. Это обеспечит прозрачность и построение
общей концептуальной, логической и физической схемы.
6. Общая многомерность. Равноправие измерений. (Generic
Dimensionality) Каждое измерение должно применяться безотносительно
своей структуры и операционных способностей. Дополнительные операционные
способности могут предоставляться выбранным измерениям, и, поскольку
измерения симметричны, отдельно взятая функция может быть предоставлена
любому измерению. Базовые структуры данных, формулы и форматы отчетов
не должны смещаться в сторону какого-либо измерения.
7. Динамическое управление разреженными матрицами.
(Dynamic Sparse Matrix Handling) Физическая схема OLAP-инструмента
должна полностью адаптироваться к специфической аналитической модели
для оптимального управления разреженными матрицами. Для любой взятой
разреженной матрицы существует одна и только одна оптимальная физическая
схема. Эта схема предоставляет максимальную эффективность по памяти
и операбельность матрицы, если, конечно, весь набор данных не помещается
в памяти. Базовые физические данные OLAP-инструмента должны конфигурироваться
к любому подмножеству измерений, в любом порядке, для практических
операций с большими аналитическими моделями. Физические методы доступа
также должны динамически меняться и содержать различные типы механизмов,
таких как: непосредственные вычисления, B-деревья и производные,
хеширование, возможность комбинировать эти механизмы при необходимости.
Разреженность (измеряется в процентном отношении пустых ячеек ко
всем возможным) - это одна из характеристик распространения данных.
Невозможность регулировать разреженность может сделать эффективность
операций недостижимой. Если OLAP-инструмент не может контролировать
и регулировать распространение значений анализируемых данных, модель,
претендующая на практичность, базирующаяся на многих путях консолидации
и измерениях, в действительности может оказаться ненужной и безнадежной.
8. Многопользовательская поддержка. (Multi-User Support)
Часто несколько пользователей-аналитиков испытывают потребность
работать совместно с одной аналитической моделью или создавать различные
модели из единых данных. Следовательно, OLAP-инструмент должен предоставлять
возможности совместного доступа (запроса и дополнения), целостности
и безопасности.
9. Неограниченные перекрестные операции. (Unrestricted
Cross-dimensional Operations) Различные уровни свертки и пути консолидации,
вследствие их иерархической природы, представляют зависимые отношения
в OLAP-модели или приложении. Следовательно, сам инструмент должен
подразумевать соответствующие вычисления и не требовать от пользователя-аналитика
вновь определять эти вычисления и операции. Вычисления, не следующие
из этих наследуемых отношений, требуют определения различными формулами
в соответствии с некоторым применяющимся языком. Такой язык может
позволять вычисления и манипуляцию с данными любых размерностей
и не ограничивать отношения между ячейками данных, не обращать внимания
на количество общих атрибутов данных конкретных ячеек.
10. Интуитивная манипуляция данными. (Intuitive Data
Manipulation) Переориентация путей консолидации, детализация, укрупнение
и другие манипуляции, регламентируемые путями консолидации, должны
применяться через отдельное воздействие на ячейки аналитической
модели, а также не должны требовать использования системы меню или
иных множественных действий с пользовательским интерфейсом. Взгляд
пользователя-аналитика на измерения, определенный в аналитической
модели, должен содержать всю необходимую информацию, чтобы выполнять
вышеуказанные действия.
11. Гибкие возможности получения отчетов. (Flexible
Reporting) Анализ и представление данных являются простыми, когда
строки, столбцы и ячейки данных, которые будут визуально сравниваться
между собой, будут находиться вблизи друг друга или по некоторой
логической функции, имеющей место на предприятии. Средства формирования
отчетов должны представлять синтезируемые данные или информацию,
следующую из модели данных в ее любой возможной ориентации. Это
означает, что строки, столбцы или страницы должны показывать одновременно
от 0 до N измерений, где N - число измерений всей аналитической
модели. В дополнение каждое измерение содержимого, показанное в
одной записи, колонке или странице, должно также быть способно показать
любое подмножество элементов (значений), содержащихся в измерении,
в любом порядке.
12. Неограниченная размерность и число уровней
агрегации. (Unlimited Dimensions and Aggregation Levels) Исследование
о возможном числе необходимых измерений, требующихся в аналитической
модели, показало, что одновременно может использоваться до 19 измерений.
Отсюда вытекает настоятельная рекомендация, чтобы аналитический
инструмент был способен предоставить хотя бы 15 измерений одновременно
и предпочтительно 20. Более того, каждое из общих измерений не должно
быть ограничено по числу определяемых пользователем-аналитиком уровней
агрегации и путей консолидации.
|