Инструменты для анализа корпоративных данных или Как превратить информацию в деньги?

С середины прошлого десятилетия в мире стремительно растет интерес компаний к программным продуктам, позволяющим руководителям и аналитикам работать с большими объемами информации, накопленными в учетных системах и хранилищах данных, и извлекать из них полезные сведения. Cегодня можно говорить о появлении целого направления в области программного обеспечения - Business Intelligence (BI).

Ни одна учетная система, какой бы универсальной она ни была, не в состоянии покрыть все потребности бизнеса. Огромный объем циркулирующих данных требует привлечения все новых трудовых ресурсов (IТ-специалистов, аналитиков и др.) для подготовки материалов о конкурентной среде компании и отчетов, необходимых руководителям в повседневной деятельности. Информационная составляющая превращается в важнейший элемент управления бизнесом, поэтому способность предприятий обеспечивать своих менеджеров всем необходимым для принятия взвешенных решений становится конкурентным преимуществом компании.

Оперативный анализ данных, моделирование и прогнозирование динамики макроэкономических и территориальных индикаторов социально-экономического развития не менее актуальны и в государственном секторе.

Сегодня руководителю уже нужно нечто большее, чем просто графики и таблицы. Необходимы инструменты, обеспечивающие безопасный доступ к источникам корпоративных данных и обладающие развитыми возможностями консолидации, анализа, представления информации и рассылки готовых аналитических документов как внутри организации, так и за ее пределами. Тенденция последних лет - интеграция программных продуктов и переход от специализированных аналитических решений к многоцелевым BI-платформам.

Нередко можно увидеть статьи, в которых BI сводят к OLAP-технологиям, что несколько неправильно. OLAP действительно является аналитическим инструментом, но далеко не единственным способом анализа данных.

В состав BI-платформ входят средства для построения хранилищ и витрин данных, обработки произвольных запросов (Ad-hoc query) и выпуска отчетов (Reporting), инструменты OLAP, Data Mining (интеллектуального анализа данных) и KDD (Knowledge Discovery in Databases - поиска знаний в БД), средства рассылки отчетов и т. д.

Термин Business Intelligence неоднозначен. Проблема в том, что многие понимают под ним совершенно разные вещи. Это не технология и не какая-то отдельно взятая методика. Как правило, под Business Intelligence понимается комплекс средств, который позволяет извлекать полезные сведения из разнородных источников, включая различные информационные базы, специализированные бизнес-приложения, системы электронного бизнеса, и представлять их в виде, удобном для бизнес-аналитики.

Термин Business Intelligence в широком смысле слова определяет:

• процесс превращения данных в информацию и знания о бизнесе для поддержки принятия решений
• информационные технологии (методы и средства) сбора данных, консолидации
информации и обеспечения доступа бизнес-пользователей к знаниям
• знания о бизнесе, полученные в результате подробного изучения данных и консолидированной информации

В своем развитии продукты BI прошли несколько стадий:

• OLAP-продукты СУБД
• системы предоставления базовой отчетности
• специализированные пакеты аналитических приложений
• корпоративные BI-платформы

Очень важным этапом при использовании Business Intelligence является построение хранилища данных (datawarehouse). Конечно, корпоративные BI-платформы можно реализовать и без использования специальных хранилищ данных, но это крайне неэффективно и непроизводительно. Хранилища данных, в которых данные преобразованы и структурированы в виде, удобном для аналитики, являются необходимой частью корпоративных аналитических систем.

В настоящее время среди лидеров корпоративных BI-платформ можно выделить MicroStrategy, Business Objects, Cognos, SAS и другие. Но когда речь заходит о корпоративной системе с возможностью одновременной работы тысяч пользователей и обработки практически неограниченного объема данных, а также с серьезными требованиями по защите информации, то наиболее эффективным решением является выбор BI-платформы MicroStrategy.

В качестве технологии для построения системы Business Intelligence корпорацией MicroStrategy был выбран подход ROLAP (relational on-line analytical processing), таким образом, многомерный анализ данных реализуется посредством SQL-запросов к реляционной базе данных. Этот подход позволил избежать проблемы "взрыва данных", присущей многомерному OLAP или MOLAP (multidimensional on-line analytical processing), что, впрочем, не накладывает никаких ограничений на объем обрабатываемой информации. Кроме того, ROLAP является более гибким по сравнению с MOLAP и имеет большую аналитическую функциональность, поскольку не предполагает создания громоздких физических кубов данных, а оперирует виртуальными структурами.

Для обеспечения масштабируемости по количеству пользователей компания MicroStrategy впервые реализовала систему Business Intelligence в трехзвенной конфигурации, то есть с сервером приложений, называемом MicroStrategy Intelligence Server, а также четырехзвенной конфигурации - как полнофункционального интернет-приложения.

Архитектура MicroStrategy
На рисунке 1 показана архитектура информационной системы, построенной с использованием технологий MicroStrategy. MicroStrategy Intelligence Server через Web-сервер принимает запросы от пользователей, формирует запросы к базе данных и метаданных. Получая ответ на эти запросы, он производит вычисления, которые не может произвести сервер баз данных, формирует и форматирует отчет, а затем через Web-сервер отсылает его пользователю. Другая возможность - формирование запроса по расписанию или условию на Narrowcast-сервере, с последующей рассылкой полученных отчетов через почтовый сервер, а также через любые другие средства доставки электронных сообщений: SMS, PDA и т. д.



Рисунок 1.

MicroStrategy Narrowcast Server позволяет проводить упреждающую доставку персонифицированной информации посредством электронной почты, беспроводных и голосовых систем пользователям. Он доставляет адресную информацию пользователям как по расписанию, так и при наступлении критических событий, через наиболее удобные средства коммуникации.

MicroStrategy Web предоставляет возможности получения отчётности и анализа с использованием Интернет-технологий. Данный инструмент обладает простым интуитивным web-интерфейсом, требующим минимального обучения и позволяет производить быстрое развёртывание системы. При этом MicroStrategy обладает широким спектром возможностей построения отчётов и подготовки аналитической информации, от простого просмотра данных до запросов типа «Что, если» с развитыми средствами форматирования.

MicroStrategy Architect предоставляет графический интерфейс для моделирования приложений Business Intelligence. Созданное широкомасштабное приложение может поддерживаться при помощи MicroStrategy Administrator, инструмента, позволяющего выполнять миграцию проектов и анализ производительности работы системы.

MicroStrategy SDK дает возможность разработчикам интегрировать функциональность MicroStrategy в другие приложения на Unix и NT с использованием технологий Java, XML, MDX, COM. Эти технологии положены в основу API и полностью обладают всей функциональностью MicroStrategy.
Ядром платформы MicroStrategy является Intelligence Server, о нем будет рассказано далее.

MicroStrategy Intelligence Server
Раньше пользователи должны были изучать сложные языки программирования, чтобы получать отчеты, необходимые для работы. К тому же, они должны были изучать модель данных, содержащихся в исходной базе. Платформа MicroStrategy значительно упрощает создание отчетов для конечных пользователей, причем генерация и просмотр отчетов осуществляется как на обычном, "толстом" клиенте, так и на "тонком", при помощи Web-браузера. Какие возможности предлагает MicroStrategy Intelligence Server для генерации отчетов? Первое - он позволяет делать приглашения. Приглашение MicroStrategy Intelligence Server включает в себя более обширный функционал, чем мы привыкли видеть в других продуктах, где самое большее, о чем вас могут попросить, - это задать период, за который вы предполагаете получить отчет, или продукт, продажи которого хотите увидеть. Приглашения разрешают пользователю создавать свои собственные отчеты путем ответа на простые вопросы. Например, Вам могут предложить выбрать бизнес-метрику, которую Вы хотите посмотреть либо измерения, в которых Вы предпочитаете ее увидеть. После того, как пользователь определил, какой отчет ему нужен, MicroStrategy Intelligence Server вырабатывает набор оптимизированных SQL-запросов для генерации этого отчета. Получив ответ на свои запросы, MicroStrategy Intelligence Server формирует отчет и пересылает его пользователю.

В отличие от MicroStrategy другие средства Business Intelligence часто предполагают передачу всех данных, а не отчета, по сети на клиентскую машину. В случае если нужно проанализировать гигабайты информации, такое решение приведет к недопустимой нагрузке на сеть.

MicroStrategy Intelligence Server учитывает диалекты, присущие различным СУБД, и автоматически генерирует SQL-запросы, наиболее оптимальные для каждой СУБД.

Логическая модель данных
Проведение аналитических вычислений при помощи MicroStrategy Intelligence Server базируется на логической модели данных (метаданных), отражающей как структуру хранилища информации, данные из которого необходимо анализировать, так и структуру аналитических отчетов, которые нужно получать. MicroStrategy Intelligence Server предоставляет возможность построить всеобъемлющую логическую модель данных, позволяющую каждому отделу компании решать свои специфические задачи, не создавая собственной модели для каждого департамента. Более того, MicroStrategy Intelligence Server, в отличие от других продуктов Business Intelligence, не заставляет изменять структуру исходных данных. Хранилище данных может и не иметь структуры "звезда" или "снежинка". Такие структуры оптимальны для любой системы Business Intelligence, в том числе и для MicroStrategy, но преимущество MicroStrategy в том, что она может работать с базой данных, имеющей произвольную структуру. Именно для этого необходимо построить некоторый метаслой, обеспечивающий простую и быструю навигацию в хранилище при построении отчетов.

В MicroStrategy объектами метабазы становятся отчеты, представляющие собой комбинацию уже перечисленных объектов. Отчеты формируются визуально, путем переноса (drag and drop) объектов в рабочую область. При этом средства визуального построения отчетов реализованы не только на "толстом" клиенте, но и через Web-браузер с использованием Dynamic HTML.
Отчеты могут быть в форме таблиц или графиков. Конечный продукт MicroStrategy - это объект (документ), сочетающий отчеты в табличной и графической форме, картинки и тексты и т. д.

Аналитические возможности
Ключевая черта MicroStrategy Intelligence Server – это мощный аналитический функционал, обладающий продвинутыми возможностями по детализации полученной информации. Другими словами, имея отчет, пользователь может провести его детализацию (drilling) для получения более подробной информации. Детализация может производиться как в рамках иерархии, так и в любом другом направлении (рисунок 2).



Рисунок 2.

Как и в десктопе, так и на Web-клиенте доступна сортировка по любому столбцу - с помощью правой кнопки мыши. Агрегация - простейший вид анализа, используемый MicroStrategy.

Анализ временных рядов также является весьма важным типом анализа. Компаниям нужно знать, как их бизнес изменяется во времени, например, как параметры текущего года отличаются от параметров предыдущего. Необходимо иметь возможность производить регрессионный анализ и некоторые простые прогнозы. MicroStrategy Intelligence Server имеет специальные средства для анализа подобных временных рядов.

Кроме агрегации и анализа временных рядов, критическим для бизнес-нужд становится и сегментационный анализ. Компании важно разбить базу клиентов на сегменты по разным признакам, чтобы правильно находить заказчиков на свои продукты. MicroStrategy Intelligence Server обеспечивает проведение сегментационного анализа с помощью системы фильтров. Таким образом можно проводить разбиение на сегменты, например, если нужно выделить клиентов старше 50 лет, живущих не в Москве.

Анализ условий позволяет связывать различные атрибуты в одном запросе. Скажем, надо проанализировать даты заказа и отгрузки и определить, какие товары были отгружены не позднее, чем через 7 дней после заказа. MicroStrategy Intelligence Server предоставляет такие возможности, обладая функциональностью сравнения значений атрибутов.

Другой особенностью MicroStrategy Intelligence Server является способность находить статистические корреляции и проводить анализ рыночной корзины, или анализ связей, то есть определить, как часто разные продукты попадают в один заказ. В частности, на рис. 3 видна ясная связь между покупками курицы и пива.



Рисунок 3.

Одна из важнейших возможностей MicroStrategy Intelligence Server - проверка гипотез. Обычно для решения таких задач использовались Microsoft Excel или специализированные статистические пакеты. При этом приходилось вручную получать информацию из баз данных, что, как правило, приводило к множеству ошибок. В результате только продвинутые аналитики могли пользоваться подобным анализом. MicroStrategy Intelligence Server дает возможность проверки гипотез всем пользователям, без необходимости копирования данных. На рис. 4 показан средний отклик различных категорий клиентов на мероприятие прямого маркетинга. В данном случае удалось выяснить, что девушки и зрелые мужчины легче поддаются прямому маркетингу, чем молодые люди и взрослые женщины.



Рисунок 4.

Анализ поведения различных типов клиентов позволил предложить четыре различных стратегии, направленные на каждый сегмент рынка.

Анализ гипотез необходим в различных отраслях. Например, аналитик предприятия розничной торговли может предположить, что какие-то цвета лучше продаются в разных городах, а банкир может предложить своему клиенту различный набор услуг в зависимости от величины дохода клиента.

Необходимо подчеркнуть, что все эти варианты анализа предназначены для решения типичных задач повседневного бизнеса. MicroStrategy Intelligence Server представляет собой платформу для их решения.

Решение проблемы масштабируемости
MicroStrategy Intelligence Server позволяет применять сложную аналитику для обработки больших массивов информации. Например, известно, чтоYahoo собирает один терабайт данных еженедельно. Существуют три основные проблемы, связанные с гигантскими объемами информации.

1. Проблема, связанная с трафиком сети при анализе больших объемов данных
2. Проблема работы с большими таблицами

Для решения первой проблемы архитектура должна минимизировать количество данных, передаваемых по сети. Поэтому MicroStrategy Intelligent Server производит все вычисления либо самостоятельно, либо с использованием сервера базы данных, передавая по сети только результаты запросов.

Для решения проблемы обработки гигантских таблиц MicroStrategy Intelligence Server генерирует оптимизированный SQL-запрос к любой СУБД. SQL-запросы формируются без участия разработчика. При этом используются разбиения (partition) таблиц, создание индексов, производные и общие таблицы, а также возможности стандарта ANSI 92 - скользящие и динамические вычисления.

Наиболее эффективным способом увеличения скорости аналитических вычислений является предварительное выполнение наиболее трудоёмких вычислений, связанных с агрегаций данных и хранение их в вспомогательных (агрегатных) таблицах. MicroStrategy Intelligence Server позволяет использовать все созданные агрегатные таблицы для ускорения вычислений. При этом он позволяет автоматически выбрать наименьшую таблицу, которая может удовлетворить требованиям пользователя, и сгенерировать соответствующий SQL-запрос.

MicroStrategy является масштабируемой платформой и по количеству пользователей, которые через Интернет запрашивают необходимую им информацию. Одновременно система Business Intelligence должна обеспечить высокую производительность, а также предоставить возможности легкого управления, обеспечивая различные уровни доступа каждому пользователю и защиту системы от пиковых нагрузок.

Поэтому в системах, предназначенных для работы тысяч людей, MicroStrategy Intelligence Server поддерживает кластерную конфигурацию с общим кэшем, а специальное ПО обеспечивает распределение нагрузки по серверам. Сложные системы обычно требуют, чтобы некоторые жизненно важные для бизнеса отчеты исполнялись максимально быстро, в то время как другие можно производить гораздо медленнее. Такая функциональность реализуется в MicroStrategy Intelligence Server системой приоритетов, которые присваиваются группе пользователей, проекту, отчёту и т.д. . Вы можете присвоить пользователю, проекту или отчету более высокий приоритет, - соответственно система для него будет выделять большее количество ресурсов, от которых зависит время выполнения запросов.

MicroStrategy Intelligence Server позволяет выполнять отчеты по расписанию и кэшировать их перед тем, как они могут потребоваться. Функциональность выполнения отчетов по расписанию достаточно обширная и гибкая, в частности, отчеты могут формироваться как по жесткому временному расписанию, так и по событию (триггеру).

Сам по себе продукт достаточно новый, он разрабатывался специально для ниши крупных клиентов. MicroStrategy не имеет никаких ограничений на объем обрабатываемых данных и действительно используется для этих целей, став фактическим монополистом, если судить по информации агенства OLAP Servey (рисунок 5).



Рисунок 5. Монополия MicroStrategy Intelligence Server.

Защита данных
MicroStrategy Intelligence Server предлагает возможности многоуровневой защиты данных. Это означает, что каждый уровень архитектуры предполагает свои средства защиты. Основные принципы защиты данных MicroStrategy Intelligence Server:

• 128-битное нелинейное шифрование
• поддержка firewall
• отсутствие прямого доступа Web-пользователей к базе данных

Другой важный компонент системы безопасности - аутентификация пользователя. MicroStrategy Intelligence Server интегрирован c LDAP, системой защиты базы данных. Также существует поддержка электронной подписи.

Главным компонентом безопасности является защита приложений. Права доступа устанавливаются для всех объектов: атрибутов, метрик, отчетов, документов. Вводятся ограничения на функциональность пользователей по более чем 120 позициям - от возможности просмотра отчетов и их детализации до создания и сохранения отчетов, кубов и их компонентов.

Также обеспечивается защита данных с помощью механизма фильтров безопасности, которые накладываются на все SQL-выражения, генерируемые аналитической машиной при выполнении запросов пользователей. Таким образом, каждый пользователь имеет свой набор фильтров безопасности, которые ограничивают его возможности просмотра данных.

Комбинация этих средств безопасности обеспечивает защиту данных, составляя многоуровневую систему безопасности.

Последней частью системы является способность к самонастройке. MicroStrategy Intelligence Server может настраиваться с целью удаления проблемных точек и повышения производительности. Также имеется возможность настройки при помощи IBM Tivoli или CA Unicenter.

Средства управления и администрирования
Как уже упоминалось, MicroStrategy Intelligence Server обрабатывает метаданные централизованно. Прошло то время, когда пользователи путались из-за различия данных, предлагаемых различными отчетами. MicroStrategy Intelligence Server поддерживает единый централизованный репозиторий метаданных, из которого все пользователи могут получить необходимую им информацию согласно правам доступа. Стандартизируются как бизнес-понятия, так и бизнес-метрики. Имея метрику "Объем продаж", можно использовать ее многократно для решения других задач бизнеса.

Администрирование MicroStrategy Intelligence Server реализуется при помощи интерфейса с использованием функциональности drag and drop.

Заключение
Применение продуктов Business Intelligence в современном бизнесе стало потребностью номер один. Как показывают данные международных консалтинговых агентств, программное обеспечение данного класса относится к продуктам с самым высоким показателем возврата инвестиций (Return On Investment). Среди прочих BI-платформ MicroStrategy выделяется как наиболее масштабируемая по количеству пользователей и объему обрабатываемой информации.