Vertica: быстрая аналитика для больших данных и большого бизнеса
Повсеместная цифровизация бизнеса своей главной целью имеет получение вполне практических и измеримых результатов. Повышение эффективности компании, дающее ей реальные конкурентные преимущества на рынке, основано на автоматизации бизнес-процессов и широком внедрении инструментов Business intelligence (BI). Это азбука. При этом методы BI показывают себя тем лучше, чем больше данных может получить аналитическая система.
Еще 10-15 лет назад казалось, что для любых объемов информации всегда найдется достаточно емкая и быстрая реляционная СУБД. Но информационный поток быстро рос, термин «большие данные» прочно вошел в нашу жизнь, и классические «строчные» СУБД начали сдавать позиции «колоночным». Именно последние оказались наиболее подходящими не только для хранения, но и очень быстрого анализа информации.
Одним из самых ярких представителей «колоночных» СУБД, которые еще часто называют «аналитическими», является Vertica от компании Micro Focus. Отвечающая высоким запросам компаний уровня Enterprise, она отличается от прочих СУБД не только принципом организации хранилища, но и рядом других особенностей, позволяющих добиться недостижимой для классических решений производительности и надежности.
Среди них, например, более высокая, чем у «строчных» СУБД, степень сжатия хранящихся в колонках данных и архитектура с массовым параллелизмом. Кроме того, Vertica может быть развернута на линейно масштабируемом кластере одноранговых серверов и независима от инфраструктуры. Она одинаково успешно может функционировать на серверах общего назначения, в облачных средах, и демонстрировать высокие показатели надежности.
Последнее достигается за счет использования подхода K-safety – взаимного резервирования в соседних нодах, которое позволяет сохранить доступность данных даже при выходе из строя нескольких узлов кластера.
Еще больше повысить производительность СУБД, и так способной обрабатывать миллионы колонок данных в секунду, помогает и возможность организации двухкомпонентного хранилища, часть которого размещается в оперативной памяти. При этом работа с Vertica может быть быстро освоена инженерным персоналом, имеющим навыки использования SQL.
Современные крупные компании хотят извлечь дополнительную ценность из своих огромных корпоративных хранилищ, заметную долю содержимого которых составляют так называемые Dark data. И им жизненно необходим подобный инструмент, для того чтобы получить максимум от своих BI-практик или научиться эффективно использовать доступные «большие данные».
Список клиентов Vertica подтверждает, что понимающих важность этого направления компаний много.
Vertica и «СИБУР Холдинг»
Примером успешной интеграции «колоночной» СУБД Vertica в инфраструктуру уровня Enterprise может служить проект «СИБУР Холдинг» – крупнейшей интегрированной нефтегазохимической компании России.
Перед ней стояла задача организации сквозной аналитики разнородных данных, поступающих из множества источников:
-
Производственных систем и оборудования;
-
Учетных систем;
-
Новых систем, появившихся в процессе цифровизации;
-
Мобильных приложений;
-
Инфраструктуры IoT и прочих.
В данном случае коммерческое решение Vertica было выбрано в силу наличия у него понятного интерфейса доступа к данным. В компании планировали создать аналитические инструменты, позволяющие принимать сложные управленческие решения, но при этом достаточно интуитивные, чтобы непосредственно использовать его могли представители разных департаментов.
Кроме того, «Демократизация аналитики» требовала от СУБД возможности гибкой конфигурации и интеграции с другими программными продуктами, внедряемыми в рамках цифровизации бизнеса. В этой роли выступали, например, платформа SAP, специализированные решения MES (Manufacturing Execution System), CRM, закупочные системы и пр. Возможности Vertica позволили реализовать эти планы в полной мере.
Сейчас «СИБУР Холдинг» подключает к СУБД все больше источников данных и уже получает ценные результаты, например, рыночного анализа, анализа логистики, а в целом рассчитывает в процессе цифровизации добиться повышения показателя EBITDA на 10 %.
Vertica и «Авито»
Не понаслышке знает о том, что такое «большие данные» и «Авито». Этот сайт объявлений регистрирует около миллиарда пользовательских действий в сутки, а периодически данный показатель достигает 2-3 млн в минуту. При этом компания держит твердый курс на максимально эффективное использование этой информации, для чего идет по пути внедрения самых передовых практик BI.
Помимо «кликстрима» с сайта в инфраструктуру «Авито» попадают большие объемы информации и из других источников: рекламных систем, соцсетей, источников маркетинговых данных и банков, не говоря уже о самих объявлениях клиентов.
В определенный момент прежние системы, основанные на PostgreSQL и Microsoft Excel, перестали отвечать требованиям к скорости сбора и обработки информации, так что компания решила перейти на Vertica.
Для этого она поэтапно развернула кластер из нескольких десятков узлов, построенных на базе стандартных серверов архитектуры x86 от разных производителей. Еще несколько серверов MongoDB было выделено под кеширование кликстрима, а также задачи извлечения, преобразования и загрузки данных (ETL).
Главным результатом проекта стало создание аналитической системы на базе платформы Vertica, которую в настоящее время широко используют в повседневной деятельности несколько десятков сотрудников подразделения BI.
С ее помощью они управляют ценообразованием на платные услуги компании, модерируют объявления, оптимизируют рекламные кампании, формируют таргетированные рассылки и многое другое. Не обходится без привлечения возможностей Vertica и создание отчетов и прогнозов для инвесторов.
Vertica и «Делимобиль»
Когда бизнес достигает определенных размеров, обойтись без развитого набора аналитических инструментов просто невозможно. Это поняли и в «Делимобиле» — одном из крупнейших в стране сервисов поминутной аренды автомобилей с парком более 12 тыс. машин, колесящих по дюжине российских городов.
До внедрения Vertica компания не имела собственной аналитической платформы. При этом она уже собирала большие объемы данных, в том числе и множество параметров телеметрии от каждого автомобиля. Выбирая новое решение, специалисты «Делимобиле» оценивали не только возможности линейного масштабирования и высокой производительности, но и стоимость сопровождения системы.
Благодаря полной поддержке SQL не возникло никаких проблем с формированием рабочей команды, в руки которой и перешла новая платформа. Достаточно сказать, что с внедрением и настройкой Vertica справился один человек. Развертывание было проведено на виртуальных машинах коммерческого хостинг-провайдера.
Опираясь на собственные интерфейсные модули, написанные специально для Vertica и сопрягаемых с ней систем, специалисты компании получают данные от любых прикладных систем, в которых есть необходимость. Среди них транзакции, телеметрия, геолокация и все тот же «кликстрим».
Сейчас аналитическая платформа широко используется в «Делимобиле» для подготовки всех видов отчетности, анализа и принятия решений в области ценообразования и даже машинного обучения. С помощью специальных библиотек на Python удалось создать инструменты, в автоматическом режиме помогающие проводить скоринг клиентов, выявлять случаи опасного вождения и предотвращать мошенничество. Уже одно это помогло компании сэкономить большой объем средств.