Hive: Hadoop для BI и Data Mining

Ранее я рассуждал о применимости Hadoop и HBase для корпоративного рынка, и вот подтверждение моих мыслей.

В презентации которая была на саммите Hadoop в марте представители Facebook рассказывали про Hive — data warehouse на основе Hadoop’а.

Меня более всего впечатлили цифры — 22 террабайта плюс 200 гигабайт новых данных в день. При том что учитывая распределённую модель Hadoop оборудование для кластера может быть любым, нет необходимости в закупке дорогостоящих мейнфреймов.

Разумеется для полноценного BI нехватает MDX, веб интерфейса и многих других возможностей, но что-то мне подсказывает что до них недолго ждать осталось. Как только появится первый MDX совместимый или близкий по возможностям движок поверх Hadoop’а, то рынок BI может существенно преобразится. Особенно в части маштабных проектов на десятки гигабайт данных.

Ссылка на презентацию:

  • Hive: Joydeep Sen Sarma / Ashish Thusoo, Facebook — Slides
About This Author

Яндекс.Метрика