Эл Н ФС 77 - 30569. Государственная регистрация N0420800025. ISSN 1994-0408
OLAP, что в имени твоем?
# 4, апрель 2004автор: Артемьев В. .
OLAP
OLAP, что
в
имени твоем?
Когда
речь заходит
об оперативной
аналитической
обработке данных,
можно услышать
разноречивые
мнения.
Некоторые
говорят:
"Это просто маркетинговый
ход производителей
программного
обеспечения."
С
этим утверждением
нельзя согласиться.
Ранние воплощения
OLAP (online analytical
processing) появились в
80-х годах, а бум пришелся
на середину 90-х.
Технология
OLAP успешно преодолела
пик ажиотажа и
стала одной из
важных составляющих
новой,
более широкой
категории методов
и средств бизнес–интеллекта
(business
intelligence) [1].
"Ничего
нового
OLAP не предлагает
– мы уже сами разработали
и используем у
себя подобные
средства." Это
суждение – как
и следующие – верно
лишь отчасти. Возможно,
ваши программисты
уже создавали
интеллектуальные
генераторы отчетов,
информационные
системы для руководителей
и т.п., добиваясь
простоты и гибкости
в
формировании
запросов и отчетов
в конкретной прикладной
области. Однако,
вряд ли
они поднимались
до обобщения, выходящего
за пределы этой
области.
"Мощная
аналитика поможет
справиться с большинством
задач анализа."
Строго говоря,
OLAP не имеет отношения
к какой-либо определенной
ветви анализа
данных, а лишь
помогает проводить
такой анализ, большей
частью визуально,
используя для
расчетов элементарные
математические
функции. "Тип
программного
обеспечения,
которое помогает
бизнес–менеджерам
определить, что
хорошо и что плохо
в их
бизнесе", – эта
характеристика
призвана помочь
составить представление
об
OLAP бизнесмену, далекому
от информационных
технологий [2].
"Это
что-то вроде
электронных таблиц
и не представляет
интереса для программистов
как инструмент."
Средства OLAP поддерживают
функциональность
электронных таблиц,
но, как правило,
не сводятся к ним.
OLAP – инструмент
анализа данных,
ориентированный
на
непрограммистов.
"Это
средство
доступа к базам
данных пользователей-непрограммистов
путем формирования
произвольных
запросов." При
определенных
условиях это справедливо,
однако
возможности OLAP
этим не ограничиваются.
Заметим,
что
вольно или невольно
мы пытаемся сравнивать
OLAP со знакомыми
технологиями
и
средствами, втягиваемся
в обсуждение деталей
реализации. Значительно
реже можно
услышать вопросы
"а зачем новая
технология нужна,
что дает бизнесу,
почему
потребовалась
именно сейчас?"
Попробуем ответить
на именно эти вопросы.
Предпосылки
и причины
появления OLAP
До середины
90-х
годов информационные
системы на основе
баз данных фокусировались,
прежде всего,
на оперативной
обработке транзакций
(online transaction processing, OLTP) в
процессе учета
людских, материальных
и финансовых ресурсов
и регистрации
различных операций
и событий. В последнее
десятилетие пакетные
бизнес–приложения,
технологии электронной
коммерции существенно
улучшили
операционную
эффективность
бизнеса. Однако
автоматизация
учета обеспечивает
решение лишь оперативных,
в меньшей мере
тактических, но
не стратегических
задач, а потому
не удовлетворяет
в полной мере потребности
бизнеса.
Глобализация
экономики, повышение
требовательности
клиентов, усиление
конкурентной
борьбы,
процессы слияния
компаний, появление
молодых, быстро
развивающихся
предприятий
на волне электронной
коммерции – все
это требует маневренности
и
интеллектуализации
бизнеса. Но для
этого компаниям
нужно повышать
качество и
скорость принятия
решений в рамках
своей деятельности,
но также применять
средства бизнес–интеллекта
для периодической
реорганизации
бизнес–процессов.
Вот
почему все более
востребованы
сегодня комплексные
методики анализа
эффективности
бизнеса, подобные
системе сбалансированных
показателей.
Джеффри
Мур в
своей книге Living on
the Fault Line пишет: "В этом
новом мире информация
–
король. Чем больше
информации вы
имеете, чем лучше
и быстрее анализируете
ее,
тем больше вероятность,
что вы сделаете
выигрышные инвестиции".
Данных
много –
отдачи мало
Без
оперативных
учетных систем
не было бы детальных
первичных данных;
нечего было бы
анализировать.
Однако такие системы
порождают новые
проблемы для ИТ–служб,
связанные с необходимостью
управлять разрозненными
источниками данных
и
удовлетворять
потребности бизнес–пользователей
в актуальной отчетности,
которая
строится на экспоненциально
растущих объемах
данных.
В 1999 году
в
Internet содержалось
100 терабайт данных;
оперативно доступная
информация в виде
баз данных и файлов
на серверах, ПК,
в сетях составляла
1 экзабайт (т.е. 1018
байт); информация
на оптических
дисках, магнитных
лентах, в цифровых
камерах –
20 экзабайт. Согласно
некоторым оценкам,
объем данных в
Internet растет на 300%
ежегодно; сравнимыми
темпами будут
увеличиваться
и объемы данных
на других
носителях.
При
этом, как
отмечают многие
исследователи,
доля используемой
для принятия решений
корпоративной
информации из
всего ее накопленного
объема не достигает
и 10%. В
чем причины столь
малой утилизации?
Можно назвать
ряд субъективных
и объективных
причин этого феномена:
·
привычка доверять
ощущениям, а не
фактам;
·
привычка полагаться
на других людей
при получении
информации;
·
малые сроки для
принятия решений;
·
узкий круг пользователей,
вовлеченных в
процесс подготовки
принятия решений;
·
наличие множества
источников данных;
·
организационные
барьеры на пути
распространения
данных;
·
небольшая доля
структурированных
данных из общего
объема оперативно
доступных
данных;
·
ограниченный
доступ к данным;
·
низкое качество
данных.
Согласно
исследованиям,
проведенным под
эгидой компании
Business Objects в США и
Великобритании
в 1998 году [3], 88% менеджеров
в трех из четырех
случаев при
принятии решений
доверяют ощущениям,
а не фактам. Все
менеджеры по продажам
и
маркетингу полагаются
на других людей
при получении
информации, причем
только
25% из них убеждены,
что доступная
информация актуальна.
93% руководителей
разных уровней
находятся под
прессом принятия
решений в ограниченно
короткие
сроки, однако 62%
не получают необходимой
информации в электронном
виде.
Для
большинства
организаций характерно
наличие многочисленных
разрозненных
источников данных;
еще хуже то, что
источники эти
часто содержат
неактуальные,
несогласованные
или
просто недостоверные
данные. А это ведет
к принятию неэффективных,
а то и
неверных решений.
Помимо
чисто
технических проблем
(организация доступа
к разным несогласованным
источникам
данных или консолидация
данных в одном
источнике) имеются
проблемы методические
(классификация
и описание информации
в терминах предметной
области, способы
контроля и очистки
данных), а также
организационные
(владение и санкционирование
доступа к информации).
Не имея
должной
отдачи от хранимых
данных, вы не получаете
преимуществ от
заключенных в
них
знаний о бизнесе
для принятия решений,
а лишь тратите
ресурсы на хранение
груды
невостребованных
данных.
Расширение
круга
участников процесса
подготовки
и принятия решений
Увеличение
отдачи
от накопленных
данных не сводится
к доведению коэффициента
использования
данных
до 100%, да и вряд ли
это возможно. Отдача
определяется
скорее востребованностью,
или ценностью
данных для пользователей.
Известно
некое
эмпирическое
представление
о том, что ценность
данных пропорциональна
квадрату
числа ее пользователей
и количеству областей
бизнеса, в которых
работают
пользователи.
В этой формуле
прослеживается
связь с известным
законом Меткалфа
для компьютерных
сетей, где ценность
сети пропорциональна
квадрату числа
соединенных узлов;
кроме того, учтено
влияние разнообразия
областей применения
данных.
Следовательно,
на
получение отдачи
от данных влияют:
·
стремление руководства
превратить хранимые
данные в информацию
и знаний для
бизнеса;
·
навыки пользователей
по обработке данных,
интерпретации
информации и излечению
знаний для бизнеса;
·
расширение круга
участников процесса
подготовки и принятия
решений;
·
организация коллективного
использования
информации;
·
наличие средств
бизнес–интеллекта.
|
Ключевые понятия
бизнес–анализа
Не
претендуя на общность
определений, постараемся
уточнить основные
понятия, используемые
в процессе аналитической
обработки данных.
Данные
– сведения о реальности,
которые компьютер
записывает, хранит
и
обрабатывает.
Представлены
в закодированном
виде и напрямую
пользователями
практически не
применяются.
Информация
– то, что человек
в состоянии понять
о реальности посредством
обработки
данных и интерпретации
результатов. Представлена
в терминах предметной
области, она позволяет
снизить степень
неопределенности
человека.
Знания
– то, что получено
из информации
и используется
для принятия решений.
Это отклонения,
тенденции, шаблоны
и зависимости,
обнаруженные
в
информации. Средства
бизнес–интеллекта
помогают обрабатывать
"сырые
данные" и представлять
информацию, а также
извлекать из информации
знания.
|
Руководители,
стремящиеся получить
максимальную
отдачу от накопленных
данных, должны
понимать,
что данные представляют
ценность не сами
по себе, а только
в связи с людьми
–
специалистами
конкретной предметной
области, обладающими
навыками по обработке
данных, интерпретации
информации, анализа
и превращения
ее в знания для
принятия
эффективных бизнес–решений.
"Продвинутые"
руководители
в качестве одного
из
важнейших активов
рассматривают
знания, аккумулированные
в информационных
ресурсах и в квалифицированных
кадрах своей организации.
Следовательно,
такие
кадры нужно готовить,
создавая необходимые
условия для получения
ими знаний в
процессе подготовки
и принятия решений.
Расширение
круга
участников в процессе
подготовки и принятия
решений обусловлено
внедрением
процессного подхода
к организации
бизнеса, делегированием
прав принятия
решений;
в этот процесс
вовлекаются не
только руководство
организации, бизнес–аналитики,
но также менеджеры
среднего звена
и просто специалисты.
Новым императивом
для
компаний становится
вооружение всех
категорий лиц,
принимающих решения,
средствами непосредственного
доступа к необходимой
информации.
От информационной
диктатуры к информационной
демократии
Чтобы
расширить
круг участников
процесса подготовки
и принятия решений
и обеспечить коллективное
использование
информации, аналитики
компании Gartner предлагают
организациям
изменить форму
"информационного
правления" (Information
Governance), перейдя от
информационной
диктатуры или
от информационной
анархии к информационной
демократии [4].
При
информационной
диктатуре лишь
немногие имеют
доступ к данным.
Эта
информационная
элита – руководители,
принимающие решения,
и аналитики, их
подготавливающие.
Сотрудники нижнего
и среднего звеньев
не востребованы
в этом
процессе, они могут
участвовать в
сборе данных. Для
принятия решений
наверху
оперируют укрупненными
показателями.
Зачастую недостаточная
проработка и
информационная
поддержка не позволяют
принимать обоснованно
не стратегические
и
не тактические
решения. Характерны
такие инструменты,
как информационные
системы
руководителей
и специализированные
системы поддержки
принятия решений.
Отдача от
накопленных данных
мала, скорость
и эффективность
принятия решений
низка.
Информационная
анархия
складывается
в результате самостоятельного
удовлетворения
своих информационных
нужд отдельными
подразделениями
и специалистами:
когда каждый создает
собственную информационную
систему, в итоге
получаем "хаос
данных". В подготовку
и принятие тактических
решений вовлечены
менеджеры среднего
звена и специалисты.
Такая форма "правления"
возникла на гребне
персонализации
вычислений вследствие
неудовлетворенности
централизованной
ИТ–службой; ее
особенности –
разнообразие
средств анализа
данных, ослабленный
контроль доступа
пользователей
внутри
подразделений
и чрезмерно жесткий
контроль – для
других подразделений.
При
принятии решений
оперируют достаточно
детальными показателями
в своей области
бизнеса, но возникает
проблема получения
и согласования
данных из других
областей. Если
в каждом подразделении
локально удается
повысить достоверность
и
адекватность
своей информации,
то расхождения,
возникшие в отчетах
разных
департаментов,
могут обнаружиться
лишь наверху [5].
Эффективным такой
уклад
оказывается для
подготовки и принятия
тактических решений
в отдельном
подразделении
(или области бизнеса)
при условии его
слабой информационной
зависимости от
других подразделений
(областей).
При
информационной
демократии информация
распространяется
свободным, но
управляемым путем
(конечно же, с учетом
корпоративной
политики безопасности).
Многие компании
осознали, что важно
расширение доступа
к информации для
всех
сотрудников, минуя
организационные
барьеры. Чтобы
стать более маневренными
и
эффективными,
они не могут позволить
своим сотрудникам
принимать решения
вслепую, полагаясь
лишь на ощущения.
Для этой формы
"правления" характерны
консолидация
информационных
ресурсов, коллективный
доступ к ним при
децентрализации
подготовки и принятия
решений в отдельных
областях бизнеса
на
различных организационных
уровнях и координации
принятия общих
тактических и
стратегических
решений. Такая
модель увеличивает
число пользователей
данных и
количество обслуживаемых
областей бизнеса,
а значит, увеличивает
ценность и
отдачу от корпоративных
данных.
Получив
отдачу от
накопленных данных
внутри организации,
можно идти дальше,
предоставлять
информацию бизнес–партнерам,
продавать информационные
услуги в Internet, образуя
"информационные
посольства".
Недоверие
к
аналитическим
"черным ящикам"
Чтобы
доверять
результатам анализа,
пользователь
должен понимать
используемые
аналитические
методы, уметь интерпретировать
результаты в практической
плоскости. Известно
немало методов
и средств, относящихся
к категории аналитических,
–
статистический
анализ, анализ
временных рядов,
нейронные сети,
прогнозные
модели, добыча
данных и др. Однако
все они являются
"черными ящиками":
на их
вход подаются
определенные
данные и параметры,
получая на выходе
результаты
анализа, причем
взаимосвязь входа
и выхода далеко
не очевидна. Моделирование
и
развитый анализ
требуют специальной
подготовки пользователей,
калибровки или
обучения модели
на исторических
данных. Кроме того,
существуют объективные
трудности при
создании самих
моделей.
Все
это вызывает
естественные
психологические
барьеры. Вот почему
более востребованы
понятные
численные модели,
сценарии "что
если" и, наконец,
средства OLAP.
Неудовлетворенные
потребности в
способах анализа
данных
Как
бы там ни
было, существуют
объективные потребности
в бизнес–аналитике
со стороны высших
руководителей
и менеджеров предприятий.
Они готовы преодолевать
психологические
барьеры, если анализ
накопленных данных
повысит эффективность
принимаемых
решений.
Потребность
в
средствах, учитывающих
опыт
и интуицию специалистов
На бизнес–процессы
влияет множество
экономических,
юридических, социальных
и политических
факторов.
Из-за динамичности
экономической
ситуации и невозможности
целенаправленных
экспериментов
практически отсутствуют
адекватные модели
в сфере управления
бизнесом [6]. Цепочка
познания от гипотезы
через модель к
решению претерпевает
разрывы. Однако
здесь может выручить
опыт и интуиция
специалистов
при
формировании
частных, более
простых гипотез
и моделей, если
предоставить
им
средства исследования
данных для поиска
отклонений, тенденций
и закономерностей
для принятия неформальных
и улучшенных бизнес–решений.
Для
того чтобы
аналитик мог использовать
свою интуицию
и накопленный
опыт, ему необходима
возможность формулировать
запросы к данным
в терминах своей
предметной области,
выбирая из описания
данных нужные
показатели и задавая
определенные
условия для
реквизитов, а также
определять групповые
вычисления над
предметными
показателями.
Это требует специальных
семантических
описаний данных,
так
называемых метаданных
– важной составляющей
информационного
обеспечения OLAP.
Межтематический
анализ, сводные
отчеты и анализ
динамики
Выявление
причин
отклонений при
анализе нередко
требует привлечения
дополнительного
контекста.
Несмотря на кажущуюся
обособленность
аналитиков по
отдельным темам
анализа, все
чаще возникает
потребность в
межтематическом
анализе, и как
следствие в
коллективном
разделении данных.
На практике не
редки случаи, когда
департамент,
заказавший сбор
и обработку определенных
данных, является
не самым активным
их
потребителем.
Межтематический
анализ
данных, служащий
основой принятия
стратегических
решений, отражает
разные
сферы деятельности
организации (производство,
продажи, услуги,
маркетинг, кадры,
финансы и реклама)
и разных участников
бизнес–процессов
(клиенты, поставщики
и
продавцы). Подобный
анализ требует,
как правило, неограниченного
доступа лиц,
принимающих решения,
к консолидированной
информации, согласованной
с точки
зрения однозначности
фактов и единства
классификации
и кодирования,
а также
полностью специфицированной
в метаданных.
Полноту
анализа
обеспечивают
обобщенные и производные
от них отчеты,
например, сводные
отчеты,
балансовые отчеты
и расшифровки,
консолидированная
отчетность группы
предприятий
или филиалов. Так,
менеджеру регионального
подразделения
интересно знать,
как
его регион выглядит
на фоне других.
Аналитикам, занимающимся
рекламой, важно
знать не только,
на какие из рекламируемых
товаров вырос
спрос, а на какие
упал,
но и выявлять более
сложные тенденции,
например, рост
продаж одних товаров
за
счет других [7].
Сводный
отчет
(pivot table) является способом
компактного оформления
табличного отчета
путем
развертывания
данных по горизонтали
в виде групп повторяющихся
реквизитов и
промежуточных
итогов. Такой отчет,
наиболее подходящий
для представления
агрегатных данных,
широко применяется
на практике. Однако,
его автоматическое
составление до
появления OLAP было
затруднительно.
Анализ
динамики
как разновидность
сводного анализа,
важен для выявления
тенденций и шаблонов
поведения во времени,
требует не менее
десятка точек
(а для прогноза
– в
несколько раз
больше). Обычно
историческая
ретроспектива
накопленных данных
охватывает не
менее пяти лет.
Но практически
глубина анализа
составляла две,
реже три точки
из-за усложнения
формирования
такого отчета
с ростом числа
точек
во времени.
Потребность
в
многоаспектном
анализе данных
Межтематический
анализ данных,
сводные отчеты
и анализ динамики
вовлекают в обработку
большие
объемы данных.
Для целей анализа
с обеспечением
обозримости требуется
рассматривать
данные с разных
точек зрения, сужая
или расширяя обзор
или
ограничивая множество
анализируемых
данных. Эта потребность
на практике
удовлетворяется
введением аспектов
анализа – разрезов
и уровней
детальности.
Разрезы
представляют
собой группы реквизитов,
объединенных
общим назначением,
которые
позволяют упорядочить
или классифицировать
факты. Примеры
разрезов: календарный,
административно-территориальный
(или географический),
демографический,
организационный,
финансовый, операционный
(или функциональный).
Часто простые
разрезы одного
назначения, но
разной степени
детальности компонуют
в
иерархические
разрезы с несколькими
уровнями детальности.
Уровни детальности
определяют группы
агрегирования
значений фактов
(промежуточные
и общие итоги)
в
направлении данного
разреза. Скажем,
при анализе деятельности
сети магазинов
можно выделить
следующие разрезы
и соответствующие
им уровни детальности
(в
скобках указано
число уровней
детальности):
·
период:
все годы – год
– квартал – месяц
– день (5);
·
магазин:
страна – территория
– район – торговая
точка (4);
·
продукт:
все категории
– категория – группа
– фирма производитель
– товар (5);
·
реклама:
все виды – вид
рекламы – рекламная
акция (3).
В зависимости
от
целей анализа
выбирается состав
разрезов, для каждого
из них свой уровень
детальности, а
затем определяется
значение реквизита.
Например,
заинтересовавшись
товарооборотом
обуви за III квартал
2002 года в Н–ском
районе,
можно задать следующие
установки для
разрезов:
·
период:
уровень = "квартал",
наименование
= "III квартал 2002 года";
·
магазин:
уровень = "район |