Июн 13, 2015 - 0 Comments - Интересно -

LinkedIn открыл код распределённого OLAP-хранилища Pinot

13.06.2015 19:49 LinkedIn открыл код распределённого OLAP-хранилища Pinot

LinkedIn открыл исходные тексты хранилища Pinot, предназначенного для выполнения аналитических запросов. Хранилище ориентировано на работу в условиях постоянного добавления новых данных (изменение уже сохранённой информации не поддерживается) и рассчитано на обеспечение минимальной задержки и возможности их обработки в реальном времени. Данные в хранилище могут загружаться из разных источников, начиная Hadoop и обычных файлов и заканчивая получением информации от online-источников, таких как Kafka. Код проекта написан на Java и распространяется под лицензией Apache.

Заявлено обеспечение горизонтальной масштабируемости и возможность хранения огромных объёмов данных. Например, в LinkedIn в Pinot хранится около ста миллирдов записей и ежедневно добавляется более миллиарда новых записей. Ежедневно выполняется около 100 миллионов аналитических запросов, интенсивность которых доходит до тысяч запросов в секунду. Отзывчивость при выполнении запросов составляет около 10 мс. Pinot используется в LinkedIn уже два года и лежит в основе реализации более 25 клиентских и 30 внутренних сервисов, таких как предоставление данных о пользователях посмотревших профиль и сообщение.

В системе предусмотрены средства обеспечения отказоустойчивости и сохранения живучести при возникновении программных и аппаратных ошибок. Pinot подразумевает встраивание репликации и резервного копирования непосредственно в цикл обработки добавляемых в хранилище данных. С одной стороны такой подход позволяет значительно упростить архитектуру, но, с другой стороны, приводит к возникновению секундной задержки между добавлением данных и их доступностью для запросов. Для управления Pinot-кластером применяется Apache Helix.

Обращение к хранилищу производится через привычный SQL-подобный интерфейс, поддерживающий типовые операции фильтрации выборки, агрегирования, сортировки и группировки данных. Для обеспечения предсказуемого времени выполнения запроса не поддерживаются операции слияния таблиц (JOIN). Данные размещаются в таблицах базы данных, ориентированной на столбцы (column-oriented). Поддерживаются различные схемы сжатия и возможность размещения нескольких значений в одном поле. Pinot предоставляет подключаемую систему индексов, в которой можно применять различные технологии индексации.

  1. Главная ссылка к новости (https://engineering.linkedin.com/pinot/o…)
  2. OpenNews: Выпуск распределённого отказоустойчивого хранилища LeoFS 1.1.2
  3. OpenNews: Основатели ClamAV представили LibreS3, открытую реализацию хранилища Amazon S3
  4. OpenNews: Facebook открыл код распределённого SQL-движка для петабайтных хранилищ
  5. OpenNews: Открыты исходные тексты БД Aerospike
  6. OpenNews: Выпуск СУБД RethinkDB 2.0
Тип: К сведению
Ключевые слова: pinot, (найти похожие документы)
При перепечатке указание ссылки на opennet.ru обязательно
 
 
+1 +/
Эластик например хочет 60% от хост памяти, залочить её(mlock) и неистово гонять.
до 200 миллионов документов на low end машине 4цпуХ8рамы будет вполне отзывчиво гонять поиском. С агрегацией уже будет по сложнее.
И он очень не любит конкурении по цпу с чем либо. Считаю, это довольно неплохой результат.
 
 
+2 +/
Как смешно анон ты оверхед назвал незаметным. Спорить не буду про перформансы(это больная тема), только ты еще забыл добавить про хайпу и танцы со сборщиком мусора(дада, там это админ крутит) и xmx xms на каждом проекте. Jvm это не просто оверхед, это отдельная история которая затребует грамотный подход и некоторое количество возни.
 
 
+/
Грамотный подход тут очень простой — как только становится важно «быстро» (и данных более-менее много), сборщик мусора сразу же идёт нафиг и начинаются те еще танцы вприсядку. Гуглить по словам off-heap, heap-offloading.
 
+1 +/
Какая-то странная статистика: хранится 100 миллиардов записей, ежедневно добавляется более 1-го миллиарда. Если верить этой информации, то напрашиваются интересные выводы, как-то:

— похоже, это хранилище в работе чуть дольше трёх месяцев (100 миллиардов / 1 миллиард в день = 100 дней),
— как это хранилище использовалось 19 месяцев до тех самых пресловутых трёх, если оно в работе уже целых два года,
— что же было до этого хранилища три месяца назад и почему же записи из старого хранилища не импортировали в новое

Даже перепроверил в оригинале — в переводе ошибки нет.

 
 
 
+1 +/
Crazy Alex,

вот я и говорю, какая-то странная статистика.

> Или со временем агрегируют и сырые удаляют

Думаете, «забыли» сказать, что регулярно удаляют записи

> Возрастающая нагрузка? Убедились, что работает хорошо, и валят всё новые данные…

или, что добавление чуть больше миллиарда записей в день происходит лишь последние две недели, а до этого было около 4.5 миллиардов в месяц или что-нибудь подобное?

 
 
+/
«считающие и думающие» чаще обманывают самих себя, чем их обманывает какая-то реклама. ибо у каждого «считающего и думающего» обычно своя, единственно верная правда. 🙂 правда, другие «считающие и думающие» с этим не согласны 🙂
 

Ваш комментарий
 

This entry passed through the Full-Text RSS service — if this is your content and you’re reading it on someone else’s site, please read the FAQ at fivefilters.org/content-only/faq.php#publishers.


Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Человек ? *