Читаем Ценность ваших данных полностью

Lambda Architecture – решение, построенное в том числе на концепции озера данных, которое позволяет решать задачи, связанные с обработкой в режиме реального времени, обрабатывая данные за миллисекунды.

Data Mesh Architecture активно использует стриминг-технологии, объединяет пакетную и потоковую обработки данных, а хранит данные в облаке. Благодаря этому у организаций появляется возможность анализировать данные в режиме реального времени, снизив при этом затраты на управление инфраструктурой хранилища.

Два последних слоя на рисунке 14.10 выделены для обозначения деятельности в области науки о данных (ее осуществляют ученые по данным и инженеры машинного обучения) и деятельности в области BI (ей занимаются BI-инженеры).

В таблице 14.3 описаны основные роли специалистов, работающих с аналитической средой организации.

Деятельность в рамках слоев обработки и хранения данных обычно осуществляется инженером данных. Коротко рассмотрим ее на примере операций, выполняемых в ходе процесса ETL[486].


Извлечение данных

На этом этапе данные извлекаются из одного или нескольких источников и подготавливаются к преобразованию. Отметим, что для корректного представления данных после их загрузки в хранилище из источников должны извлекаться не только сами данные, но и информация, описывающая их структуру, из которой будут сформированы метаданные для хранилища,


Преобразование данных

Чаще всего преобразование включает следующие шаги:

● Преобразование структуры данных

Данные из различных источников могут отличаться своей структурной организацией: соглашениями о назначении имен полей и таблиц, порядком их описания, форматами, типами и кодировкой данных. Перед передачей в хранилище их нужно свести к единой структуре.

● Агрегирование данных

Наибольший интерес для анализа представляют данные, обобщенные по некоторому интервалу времени, по группе клиентов или товаров. Такие обобщенные данные называются агрегированными (иногда агрегатами), а сам процесс их вычисления – агрегированием.

● Перевод значений

Часто данные в источниках хранятся с использованием специальных кодировок, которые позволяют сократить избыточность данных и тем самым уменьшить объем памяти, требуемой для их хранения. Так, наименования объектов, их свойств и признаков могут храниться в сокращенном виде. В этом случае перед загрузкой данных в хранилище требуется выполнить перевод сокращенных значений в более полные и понятные.

● Создание новых данных

В процессе загрузки в хранилище может понадобиться вычисление некоторых новых данных на основе существующих, что обычно сопровождается созданием новых полей.

● Очистка данных

Наличие «грязных» данных – одна из важнейших и трудно формализуемых проблем аналитических технологий. Очистка данных – это процедура корректировки данных, которые в каком-либо смысле не удовлетворяют определенным критериям качества, т. е. содержат нарушения структуры данных, противоречия, пропуски, дубликаты или неправильные форматы.


Загрузка данных

Процесс загрузки заключается в переносе данных из промежуточных таблиц в структуры хранилища данных. От продуманности и оптимальности процесса загрузки данных во многом зависит время, требуемое для полного цикла обновления данных в хранилище, а также их полнота и корректность.


Следует заметить, что описанный здесь спектр операций, выполняемых на этапе преобразования данных, часто расширяется. Особенно при работе с большими объемами быстро поступающих данных, когда процесс ETL заменяется на ELT (сначала данные извлекаются и загружаются в конечную систему, и лишь после этого происходит их преобразование).

В частности, в ходе преобразования может возникнуть необходимость в группировке или разгруппировке данных (объединение или разъединение данных по какому-либо признаку), нормализации (преобразование диапазона изменений числового признака в другой, более удобный для применения в процессе анализа) и квантовании (разбиение диапазона возможных значений числового признака на заданное количество интервалов и присвоение попавшим в них значениям номеров интервалов или иных меток).


14.3.5. Контекстная диаграмма функциональной области «Большие данные и наука о данных» и уровни зрелости работы с большими данными

Контекстная диаграмма функциональной области «Большие данные и наука о данных» представлена на рисунке 14.11. Процесс осуществления деятельности в области науки о данных представляет собой последовательность итераций. Результаты предыдущей итерации служат исходными данными для следующей. Каждая итерация включает следующие работы[487].

Перейти на страницу:

Похожие книги

100 абсолютных законов успеха в бизнесе
100 абсолютных законов успеха в бизнесе

Почему одни люди преуспевают в бизнесе больше других? Почему одни предприятия процветают, в то время как другие терпят крах? Известный лектор и писатель по вопросам бизнеса нашел ответы на эти очень трудные вопросы. В своей книге он представляет набор принципов, или `универсальных законов`, которые лежат в основе успеха деловых людей всего мира. Практические рекомендации Трейси имеют вид 100 доступных для понимания и простых в применении законов, относящихся к важнейшим сферам труда и бизнеса. Он также приводит примеры из реальной жизни, которые наглядно иллюстрируют, как работает каждый из законов, а также предлагает читателю упражнения по применению этих законов в работе и жизни.

Брайан Трейси

Деловая литература / Маркетинг, PR, реклама / О бизнесе популярно / Финансы и бизнес
Охота за идеями. Как оторваться от конкурентов, нарушая все правила
Охота за идеями. Как оторваться от конкурентов, нарушая все правила

Строго придерживаясь традиционных методов менеджмента и требуя неукоснительного подчинения от сотрудников, не ждите, что ваша компания будет бурлить от новых идей. При этом без постоянного поиска и реализации новых возможностей ни одна компания эффективно развиваться не может. Если же вы хотите создавать интересные продукты, стимулировать творческий потенциал сотрудников, искать новые пути развития компании, то вам просто необходимо взглянуть на старый менеджмент по-новому. Роберт Саттон, профессор теории управления Стэнфордского университета, признанный авторитет в сфере менеджмента, предлагает 11,5 экстравагантных идей, которые помогут вашей компании оставаться в авангарде перемен и двигаться к новым вершинам.

Роберт Саттон

Деловая литература
От нуля к единице. Как создать стартап, который изменит будущее
От нуля к единице. Как создать стартап, который изменит будущее

Как создать компанию с нуля, привести ее к успеху, сделав лидером рынка? Питер Тиль, предприниматель, создавший платежную систему PayPal, и первый инвестор Facebook, считает, что основа любого успешного стартапа – уникальный продукт, дающий компании выигрышный статус монополии. Поэтому одно из важных условий выживания любого проекта – умение основателей смотреть на мир по-новому, чтобы заметить выигрышную идею, которую никто еще не развил. Именно эти идеи, впервые озвученные на лекциях в Стэнфордском университете, легли в основу книги Питера Тиля. На примере Facebook, Microsoft, eBay, Twitter, LinkedIn и многих других компаний, а главное – на собственном уникальном опыте работы в PayPal Питер поясняет, какую стратегию нужно выбрать начинающему бизнесмену, чтобы преуспеть при создании собственного стартапа.

Блейк Мастерс , Питер Тиль

Деловая литература