Feed on Posts or Comments

Exadata &Oracle Database &ORDM &Ликбез &Общее Андрей Пивоваров on 21 Apr 2010 06:07 pm

Методологии, Best Practices и сайзинг ХД и BI на платформе Oracle

В последние несколько месяцев, чуть ли не каждый день меня стали спрашивать о наличии у Oracle методологий внедрения хранилищ данных и BI систем. А также того, что называется best practices (не знаю устоявшегося перевода, наверное лучшие практики, но это как-то криво звучит по-русски)

Я не знаю почему эти вопросы стали часто возникать именно сейчас, но решил записать здесь ответы на самые часто встречающиеся из них. Может быть кому-то пригодится. Так как вопросы на самом деле не всегда простые.

Проблема имеет несколько слоев.

Первый слой – это как вообще проектировать хранилище данных и BI систему, какие составные части должны быть?

То есть здесь нас интересуют, скажем, не какие-то фичи базы, а именно как спроектировать архитектуру системы?

На самом деле на эту тему написано много книг. Но вопрос такой широкий, что однозначного ответа нет. Есть разные подходы.

На странице Data Warehousing можно найти всякие интересные документы. В том числе Enabling Pervasive BI through a Practical Data Warehouse Reference Architecture
В этом документе описана т.н. референсная архитектура Oracle, то есть мнение Oracle о том, как нужно строить ХД и BI даже без привязки к конкретным продуктам. То есть, вы можете построить систему, включающую все, что описано в документе или только какие-то части. И даже построить систему так, чтобы она включала в себя уже сущестсвующие у вас на предприятии системы, в том числе и не построенные на технологиях Oracle.

Стоит добавить, что в этом документе вкратце описано то, что расскаывалось на мастер-классе в декабре. Так что, кто не попал – может прочитать о чем там говорилось. Кстати, основной автор этого документа – Doug Cackett. Он был одним из докладчиков на этом мастер-классе.

Следующий вопрос – это не как абстрактно организовать структуру ХД, а как и какие фичи базы или других продуктов можно и рекомендовано использовать?

Для ответа на этот вопрос можно пойти на страницу Oracle Database for Business Intelligence and Data Warehousing.

На этой странице есть ссылка на документ Best practices for a Data Warehouse on Oracle Database 11g

На этой странице собраны и другие полезные документы по разным фичам базы данных, полезных для хранилищ.

Существует также документ Data Warehousing on Oracle RAC Best Practices. Как видно из названия, он посвящен особенностям построения хранилищ с ипользованием Oracle Real Application Clusters.

Похожим образом, если мы пойдем на страницу Oracle Data Integrator можно найти документ Oracle Data Integrator Best Practices for a Data Warehouse

Следующий вопрос. Мы знаем какие возможности Oracle можно использовать, но не хочется строить хранилище с нуля. Есть ли какие-нибудь готовые индустриальные модели хранилищ?

На текущий момент у Oracle (насколько мне известно) есть две таких модели данных:
Oracle Retail Data Model и
Oracle Communications Data Model

Как видно из названий – первая относится к сфере розничной торговли, а вторая к телекоммуникациям.
Про Oracle Retail Data Model я довольно подробно писал тут.

Можно еще вспомнить про Oracle Business Intelligence Applications. Это готовые BI приложения, в основе которых лежат модели данных. Данные в них могут закачиваться, например из ERP систем.

Еще вопрос. Как спланировать какое железо нужно для нашего хранилища?

То есть, как провести сайзинг хранилища? Это вопрос очень тонкий. Какое нужно будет железо зависит от кучи параметров: Сколько будет данных? Сколько будет пользователей? Какой сложности будут запросы? И т.д.

Поэтому заказчики с большими, сложными и ресурсоемкими системами обычно обращаются к вендорам железа или их партнерам и просят собрать для них тестовый сервер, на котором можно будет протестировать реальную нагрузку. Тогда вероятность ошибки будет меньше.
Oracle, как софтовая компания (Про Sun чуть дальше), непосредственно рекомендаций по сайзингу не дает.

Потому что, в противном случае пришлось бы отслеживать особенности функционирования и производительности продуктов Oracle в зависимости от десятков параметров вендоров железа. А у вендоров железа к тому же есть десятки и сотни моделей серверов. Так что это задача очень сложная и не особо осмысленная.

Какой тут может быть ответ? У Oracle есть так называемые Oracle Optimized Warehouse Reference Configurations. Что это такое? Oracle, совместно с вендорами железа предлагает конкретные аппаратные решения для типовых хранилищ разного размера. Вендоров, участвующих в этой партнерской программе сейчас 6: Dell, EMC, HP, IBM, NEC и Sun

По вышеприведенным ссылкам находятся материалы о рекомендованных конфигурациях для хранилищ Oracle, построенных на аппаратных платформах конкретных вендоров.

Альтернативно прикинуть размеры сервера можно используя сайт http://tpc.org/. Различные производители СУБД и железа представляют там свои конфигурации и тестируют их на стандартных тестах для OLTP и DWH нагрузки. И дальше строится рейтинг, какая конфигурация быстрее, энергоэффективнее, дешевле и т.д.

Для тестов, эмулирующих нагрузку, характерную для хранилищ данных, используется тест TPC-H и зайдя по этой ссылке можно посмотреть сколько стоит конкретная конфигурация для хранилищ данных для требуемого объема данных.

Некоторые аналитики и даже вендоры критикуют тесты TPC за искусственность и условность, но тем не менее, на них можно ориентироваться для прикидочных оценок.

И, конечно, нельзя не сказать о Sun Oracle Database Machine – специализированном аппаратно-программном решении Oracle для хранилищ данных (и не только)

В этой статье я попытался собрать наиболее часто встречающиеся вопросы по темам проектирования, сайзинга и проч., связанных с построением хранилищ и BI. Если что-то забыл – пишите в комментариях или письмах.

Рекомендация – активнее используйте поисковые системы. Сайт Oracle очень большой, так как и сама компания очень большая и продуктов очень много. Но на сайте можно найти много очень полезной информации, причем иногда в неожиданных местах.

__________________________________
Читайте также:
А еще можно почитать мой твиттер @apivovarov

2 Responses to “Методологии, Best Practices и сайзинг ХД и BI на платформе Oracle”

  1. on 22 Apr 2010 at 1:35 pm 1.OlegL said …

    Отлично!
    Уже наклевывается FAQ.

    >>Рекомендация – активнее используйте поисковые системы.
    А зачем? У нас есть oraclebi.ru – точка входа в мир BI. (шутка)

  2. on 22 Apr 2010 at 8:18 pm 2.Андрей Пивоваров said …

    Спасибо, Олег :)
    Если бы все было так просто :)

Trackback This Post | Subscribe to the comments through RSS Feed

Leave a Reply