Эта категория данных на рисунке 8.1 не отражена, поскольку она тесно связана с категорией публичных данных. Термин «открытые данные» появился в 1995 году в американском научном сообществе в виде призыва свободно обмениваться данными. Несмотря на общую открытость публичных и открытых данных, между ними существует принципиальная разница. Она заключается в том, что использование публичных данных определяется законом – доступ к ним можно получить, например, по специальному запросу. Суть открытых данных в обратном – данные должны быть опубликованы еще до того, как кому-то понадобятся[323]
,[324].8.2. Классификация данных
На практике при организации управления данными их обычно классифицируют по следующим признакам.
По назначению и области применения обычно выделяют:
● метаданные
– данные, описывающие структуру и характеристики данных;● справочные данные
– данные из справочников, международных, общероссийских и отраслевых классификаторов и т. п.;● основные данные
– структурированные данные об объектах учета;● транзакционные данные
– сведения, отражающие результат изменения данных, относящиеся к фиксированному моменту времени, не изменяющиеся в будущем;● данные контроля и аудита
– сведения, фиксируемые в различных журналах регистрации[325],[326],[327].Часто в отдельную категорию относят аналитические данные
– эти данные фактически образуются из основных, справочных и транзакционных данных. Они используются в аналитической деятельности организации (рис. 8.2).На рисунке 8.2 отражены взаимоотношения перечисленных категорий данных в процессе деятельности организации.
* Van Gils B. Data Management: a Gentle Introduction: Balancing Theory and Practice. Van Haren Publishing, 2020.
На рисунке 8.3 отражены роли, которые играет каждая из категорий данных в информационном обеспечении процессов организации. Следует обратить внимание на фундаментальную роль справочных и основных данных и на важность поддержания высокого уровня их качества. Например, при наличии ошибок в данных о номере товара или типе клиента цена заказа на доставку может быть определена некорректно (см. связи, отраженные пунктирными стрелками), что может привести к серьезным финансовым последствиям.
* McGilvray D. Executing Data Quality Projects: Ten Steps to Quality Data and Trusted Information (TM). Morgan Kaufmann, 2008.
* Deng Z. MIS2502: Data Analytics: Semi-structured Data Analytics. Fox School of Business. Temple University, 2019. – URL: https://slidetodoc.com/mis-2502-data-analytics-semistructured-data-analytics-zhe/
.По степени структурированности можно выделить:
● структурированные данные
– данные, имеющие строго фиксированную структуру, определяемую формальной моделью данных (например, реляционной схемой[328]);● полуструктурированные данные
– данные, не имеющие строго определенной структуры, но предполагающие наличие установленных правил, позволяющих выделять семантические элементы при их интерпретации (прежде всего, правил расстановки тегов и других маркеров, отмечающих и выделяющих элементы данных);● неструктурированные данные
– данные, произвольные по форме, не имеющие строго определенной структуры и не организованные по определенным правилам.Схемы, представленные на рисунках 8.2 и 8.3, в основном отражают взаимосвязи между структурированными данными. Однако в деятельности предприятий и учреждений не менее важны данные полуструктурированные и неструктурированные (в частности, к ним относятся отмеченные выше данные контроля и аудита). Они могут быть самыми разнообразными по назначению и области применения. C каждым годом роль этих данных становится все более заметной и существенной.
На рисунке 8.4 приведены примеры форматов хранения и передачи данных по каждой из перечисленных категорий.
* Smith P., Edge J., Parry S., Wilkinson D. Crossing the Data Delta: Turn the data you have into the information you need. Entity Group Limited, 2016.
С точки зрения управления данными полезно представить их в виде диаграммы (рис. 8.5), укрупненно отражающей соотношения между основными категориями[329]
.Данные, относящиеся к категориям, расположенным сверху, как правило, являются базовыми для формирования данных, относящихся к категориям, расположенным ниже (данные верхних категорий участвуют в формировании данных нижних категорий). Поэтому по мере продвижения вверх по списку категорий требования к качеству соответствующих данных возрастают.
Также по мере продвижения вверх по списку категорий увеличивается продолжительность жизненного цикла данных. При этом при продвижении вниз по списку категорий увеличивается объем самих данных, а также частота их изменений.