Читаем Ценность ваших данных полностью

Когда данные доходят до потребителя, начинается их обработка с целью извлечения из них скрытой полезной информации и знаний. На этой стадии используются методы из области машинного обучения, статистики и прикладной математики. Необходимые для работы алгоритмы предоставляются инструментами, входящими в среду инфраструктуры машинного обучения.

С целью обеспечения всем заинтересованным системам (вне зависимости от их внутренней организации) унифицированный доступ к создаваемым приложениям, их реализуют в виде сервисов. Для этого используют специальные инструменты программирования и стандарты реализации (см. главу 12).

Для автоматизации повторяющихся операций и запуска заданий по событиям используются инструменты планирования заданий, созданные специально для работы с большими данными.

Инфраструктуру, обрабатывающую большие объемы данных, необходимо оптимизировать (это может принести существенную экономию). Оптимизация осуществляется с помощью инструментов сравнительного анализа конфигураций.

Развертывание новых приложений в кластерах больших данных можно облегчить с помощью инструментов, обеспечивающих автоматизацию установки и настройки.

Наконец, средства обеспечения безопасности, поддерживают функционирование приложения в рамках единой централизованной системы управления доступом.


14.3.4. Архитектурные компоненты аналитической среды организации и роли работающих с ними специалистов

Схема на рисунке 14.10 отражает архитектуру аналитической среды организации в более упрощенном виде, чем схема на рисунке 14.4. На ней выделено пять слоев.

Слой источников данных включает системы оперативной обработка транзакций (OLTP), поддерживающие операционную деятельность организации. Кроме того, в него могут входить различные приложения, подключаемые по API, а также датчики, внешние устройства и другие источники данных, подключаемые напрямую или с помощью сетевых протоколов.


* Управление данными в госсекторе. Навигатор для начинающих / под ред. О. М. Гиацинтова, В. А. Сазонова, М. С. Шклярук. – М.: РАНХиГС, 2022.


Слой обработки данных выделен для обозначения операций, осуществляемых в пакетном режиме (с перерывами): ETL (извлечение – преобразование – загрузка) и ELT (извлечение – загрузка – преобразование), либо в потоковом (непрерывно).

Слой хранения может включать традиционное хранилище данных – Data Warehouse (DW), хранилище больших данных – озеро данных, либо современное хранилище, объединяющее DW и озеро данных, – платформу данных.

DW и озеро данных имеют схожую основную функцию (хранение данных для анализа), но различаются по своему назначению, структуре, видам хранящихся данных, а также их источникам и пользователям (см. табл. 14.2).

В DW собираются данные из бизнес-приложений для использования с конкретными целями. Перед хранением они должны быть очищены и упорядочены. При записи данные структурируют по предопределенной схеме (schema-on-write), что облегчает в дальнейшем доступ у ним.

Поскольку сведения, хранящиеся в DW, уже обработаны, их легче использовать для высокоуровневого анализа. Инструменты BI могут с ними легко оперировать, что упрощает использование хранилищ специалистами, не являющимися профессионалами в области работы с данными.


* Управление данными в госсекторе. Навигатор для начинающих / под ред. О. М. Гиацинтова, В. А. Сазонова, М. С. Шклярук. – М.: РАНХиГС, 2022.


Озеро данных – это обширное хранилище, в котором собираются необработанные данные в изначальном собственном формате. Одно из преимуществ озера данных – то, что оно может хранить данные различной структуры. Каждый сохраненный элемент данных помечен уникальным идентификатором и снабжен метаданными, чтобы при необходимости его можно было легко запросить. Данные в озере хранятся без предопределенной схемы – аналитики структурируют их только в момент чтения для конкретной задачи (schema-on-read). При построении озер данных целесообразно следовать существующим на сегодня передовым практикам[484].

Сравнительная характеристика хранилища данных и озера данных представлена в таблице 14.2.

Для наполнения хранилища применяются процессы ETL или ELT, тогда как для озера данных – преимущественно ELT или потоковая обработка данных (стриминг).


* Управление данными в госсекторе. Навигатор для начинающих / под ред. О. М. Гиацинтова, В. А. Сазонова, М. С. Шклярук. – М.: РАНХиГС, 2022.


Если говорить о построении современной платформы данных, то в настоящее время известно несколько перспективных архитектурных концепций. В частности, выделяются подходы Modern Data Architecture, Lambda Architecture и Data Mesh Architecture[485].

Modern Data Architecture объединяет преимущества DW и озера данных. При этом следует заметить, что у Modern Data Architecture отсутствует четкий дизайн с точки зрения внедрения тех или иных решений. Концепция реализации во многом зависит от видения главного инженера проекта.

Перейти на страницу:

Похожие книги

100 абсолютных законов успеха в бизнесе
100 абсолютных законов успеха в бизнесе

Почему одни люди преуспевают в бизнесе больше других? Почему одни предприятия процветают, в то время как другие терпят крах? Известный лектор и писатель по вопросам бизнеса нашел ответы на эти очень трудные вопросы. В своей книге он представляет набор принципов, или `универсальных законов`, которые лежат в основе успеха деловых людей всего мира. Практические рекомендации Трейси имеют вид 100 доступных для понимания и простых в применении законов, относящихся к важнейшим сферам труда и бизнеса. Он также приводит примеры из реальной жизни, которые наглядно иллюстрируют, как работает каждый из законов, а также предлагает читателю упражнения по применению этих законов в работе и жизни.

Брайан Трейси

Деловая литература / Маркетинг, PR, реклама / О бизнесе популярно / Финансы и бизнес
Охота за идеями. Как оторваться от конкурентов, нарушая все правила
Охота за идеями. Как оторваться от конкурентов, нарушая все правила

Строго придерживаясь традиционных методов менеджмента и требуя неукоснительного подчинения от сотрудников, не ждите, что ваша компания будет бурлить от новых идей. При этом без постоянного поиска и реализации новых возможностей ни одна компания эффективно развиваться не может. Если же вы хотите создавать интересные продукты, стимулировать творческий потенциал сотрудников, искать новые пути развития компании, то вам просто необходимо взглянуть на старый менеджмент по-новому. Роберт Саттон, профессор теории управления Стэнфордского университета, признанный авторитет в сфере менеджмента, предлагает 11,5 экстравагантных идей, которые помогут вашей компании оставаться в авангарде перемен и двигаться к новым вершинам.

Роберт Саттон

Деловая литература
От нуля к единице. Как создать стартап, который изменит будущее
От нуля к единице. Как создать стартап, который изменит будущее

Как создать компанию с нуля, привести ее к успеху, сделав лидером рынка? Питер Тиль, предприниматель, создавший платежную систему PayPal, и первый инвестор Facebook, считает, что основа любого успешного стартапа – уникальный продукт, дающий компании выигрышный статус монополии. Поэтому одно из важных условий выживания любого проекта – умение основателей смотреть на мир по-новому, чтобы заметить выигрышную идею, которую никто еще не развил. Именно эти идеи, впервые озвученные на лекциях в Стэнфордском университете, легли в основу книги Питера Тиля. На примере Facebook, Microsoft, eBay, Twitter, LinkedIn и многих других компаний, а главное – на собственном уникальном опыте работы в PayPal Питер поясняет, какую стратегию нужно выбрать начинающему бизнесмену, чтобы преуспеть при создании собственного стартапа.

Блейк Мастерс , Питер Тиль

Деловая литература