Озеро данных и хранилище данных – в чем разница?
Автор: Фил Саймон, автор, спикер и признанный эксперт по технологиям
За последние несколько лет вы, возможно, слышали от кого-то термин «озеро данных». Концепция получила большое распространение, поскольку объемы данных увеличились и продолжают увеличиваться в геометрической прогрессии, потоковых данных стало больше, а неструктурированные данные продолжают затмевать своего структурированного аналога.
Что же такое озеро данных? Это просто маркетинговый хайп? И вообще, чем оно отличается от традиционного хранилища данных?
Понимание традиционного хранилища данных
Есть хранилище данных – инструмент, который стал синонимом процесса извлечения, преобразования и загрузки (ETL). На высоком уровне хранилище данных содержит огромные объемы данных, структурированных строго регламентированными способами. Они требуют, чтобы перед загрузкой данных была проведена строгая схема. (Это почти всегда схема «звезда» или «снежинка».) Схема в хранилище данных определяется «по записи». Процессы ETL должным образом выводят отчеты об ошибках, создают файлы регистрации и отправляют ошибочные записи в файлы исключений и таблицы, в которые можно заглянуть с течением времени.
В связи с таким четким подходом хранилища данных поддерживают частичный или инкрементный ETL. Другими словами, в зависимости от серьезности проблемы, организация может загружать или перезагружать части своего хранилища данных, когда что-то идет не так.
Организации периодически заполняют хранилища данных. Данные обновляются с помощью регулярных циклов. Например, в 3 часа утра каждый день, когда сотрудникам вряд ли понадобится доступ к данным и связанным системам. А когда они приходят на работу, все свежие данные уже загружены.
Безусловно, данные, которые хранятся в традиционных хранилищах данных, остаются ценными сегодня. Тем не менее, компаниям и их руководителям стоит начать переосмысливать подход к интеграции данных. Например, Интернет вещей и аналитика. Датчики на транспортных средствах, сельскохозяйственном оборудовании, носимых устройствах, термостатах и даже растениях непрерывно поставляют огромный объем данных.
Узнайте больше об озерах данных от TDWI
Ознакомьтесь с новыми рекомендациями, которые включают в себя технологии и реальные приложения для озер данных. Лучшие практики представлены в бесплатном официальном документе.
Скачать официальный документ
Появление озера данных
В нынешних условиях мы наблюдаем рост популярности озера данных. Это не синоним хранилищ данных или витрин данных. Да, все эти объекты хранят данные, но озеро данных принципиально отличается. Как пишет Дэвид Лошин (David Loshin): «Идея озера данных состоит в том, чтобы хранить необработанные данные в их оригинальном формате до тех пор, пока они не понадобятся».
При доступе к озерам данных пользователи должны знать:
- Конкретные типы данных и источники, в которых они нуждаются.
- Сколько данных им нужно.
- Когда им это нужно.
- Методы аналитики, которые будут применяться к этим данным.
Возможно ли это в хранилище данных? Скорее нет. И даже если бы было возможно, маловероятно, что бизнес-пользователей устроит период исполнения, особенно в современных быстро меняющихся условиях. Кроме того, одна конкретная схема почти наверняка не будет соответствовать всем потребностям бизнеса. То есть, в конечном итоге, данные могут оказаться практически бесполезными для целей сотрудника.
Различный вид схемы
По этой причине схема озера данных определяется «по чтению». Да, для озера данных все еще требуется схема, но она не предопределена. Это ad hoc. Данные используются по плану или схеме, когда пользователи извлекают их, а не когда загружают. Озера данных сохраняют данные в неизмененном (естественном) состоянии; оно не определяет требования до тех пор, пока пользователи не запросят данные.
При правильном использовании озера данных предоставляют бизнес-пользователям и техническим пользователям возможность запрашивать меньшие, более актуальные и более гибкие наборы данных. В результате время запросов может сократиться до работы как в витрине данных, хранилище данных или реляционной базе данных.
Организации будут продолжать интегрировать «малые» данные с большими, и глупо считать, что одно приложение может обрабатывать все, независимо от того, насколько оно дорогое или надежное. Фил Симон (Phil Simon) Автор, спикер, эксперт по технологиям
Увеличенная гибкость озера данных
Озеро данных подчеркивает гибкость и доступность данных. Оно может предоставлять пользователям и последующим приложениям данные без схемы. Другими словами, данные в «естественном» формате независимо от происхождения.
Многие, если не большинство приложений озера данных не поддерживают частичную или инкрементную загрузку. (Таким образом озеро данных отличается от хранилища данных.) Организация не может загружать или перезагружать части своих данных в озеро данных. Как правило, это все или ничего.
Аналогия озера данных
Если вы все еще не понимаете, что такое озеро данных, возможно, следующая аналогия прояснит ситуацию. Думайте о витрине данных или хранилище данных как о хранилище с изобилием бутилированной воды. Она появляется не по волшебству в одночасье. Люди и машины сначала собирали, затем очищали воду. Только когда вода будет разлита в бутылки, тогда и будет пригодна для покупки и питья.
Теперь представьте, что озеро данных – это большой массив природной воды, которую вы будете пить, только если умираете от жажды. Если вам нужно 50 галлонов воды, чтобы потушить огонь, вам не нужно покупать ящики с водой в бутылках и выливать их один за другим.
В соответствии с этой аналогией, «вода» в озере данных появляется из разных мест: рек, притоков и водопадов. Иными словами, озеро данных не содержит только один тип воды (то есть данные). Озера данных могут содержать все типы данных: структурированные, полуструктурированные и неструктурированные. Однако обратите внимание, что заполнение озера данных структурированными данными означает, что оно потеряет хотя бы часть своей структуры и - как вы уже догадались - часть ее значения. С этой целью, если вас интересуют только структурированные данные, хранилище данных подходит лучше.
Я не сомневаюсь, что озеро данных будет занимать более важное место в будущем управления данными.
Два мнения про озеро данных
Поскольку мы все еще находимся на ранних стадиях, сегодняшнее мнение об озерах не является универсальным. Одно мнение, что озеро данных – это не только важное, но и обязательное условие для компаний, которые управляют данными. Эта группа людей понимает ограничения современных хранилищ данных - они не были созданы для обработки огромных потоков неструктурированных данных. Более того, разница между схемами «по записи» и «по чтению» не просто вопрос семантики. Напротив, последняя схема поддается значительно более быстрому времени отклика и, соответственно, аналитике.
Это одна точка зрения, и я с ней согласен. Другое мнение, что озеро данных – это модное слово или хайп поставщиков программного обеспечения, которые серьезно заинтересованы в этом. Более того, некоторые считают озеро данных новым названием для старой концепции с ограниченной возможностью применения для компаний.
Добавляя к этой путанице, немногие люди используют термин «озеро данных» последовательно. Некоторые люди называют любую среду подготовки, хранения или обнаружения данных озером данных.
Параллели с Hadoop и реляционными базами данных
При осмыслении потребности в озерах данных, лучше всего подумать о Hadoop – распределенной файловой системе с открытым исходным кодом, которую использует все больше организаций. Hadoop вырос по многим причинам. В первую очередь из-за того, что он удовлетворял подлинную потребность, которую не могли удовлетворить системы управления реляционными базами данных (RDBMS). Честно говоря, его открытый исходный код, отказоустойчивость и параллельная обработка также занимают важное место в списке.
RDBM просто не были предназначены для обработки гигабайтов или петабайтов неструктурированных данных. Попробуйте загрузить тысячи фотографий, видео, твитов, статей и электронных писем на свой традиционный сервер SQL или базу данных Oracle, а еще запустить отчеты или писать в SQL. Удачи.
В течение десятилетий хранилища данных обрабатывали даже большие объемы структурированных данных исключительно хорошо: списки сотрудников, продажи, транзакции и тому подобное. Они предоставляют бесчисленное множество приложений для бизнес-аналитики и корпоративной отчетности. Однако нецелесообразно ожидать, что одни и те же хранилища данных будут эффективно обрабатывать принципиально разные объемы, скорости и типы данных.
Примечание о метаданных
Озера данных полагаются на онтологии и метаданные, чтобы иметь смысл из загруженных данных. Опять же, методологии различаются. Но, вообще говоря, каждый элемент данных в озере наследует уникальный идентификатор, которому присвоены обширные метаданные (теги). Вывод: озеро данных останется с нами надолго.
Светлое будущее озера данных
Я не сомневаюсь, что озеро данных будет занимать все более важное место в будущем управления данными. Организации будут продолжать интегрировать «малые» данные с большими, и глупо считать, что одно приложение может обрабатывать все, независимо от того, насколько оно дорогое или надежное.
Пользователям все чаще нужны ответы быстрее, чем могут обеспечить традиционные хранилища данных и привычные отчеты. При правильном использовании озера данных позволяют пользователям анализировать небольшие наборы данных и быстро отвечать на важные вопросы.
Об авторе
Фил Саймон является ключевым спикером и признанным экспертом по технологиям. Он удостоен наградами за авторские 8 книг по менеджменту, последняя из которых «Аналитика: Agile Way». Он консультирует организации по вопросам, связанным со стратегией, данными, аналитикой и технологиями. Его материалы были опубликованы в журнале The Harvard Business Review, CNN, Wired, The New York Times и др. Осенью 2016 года он пришел работать в Школу бизнеса им. В. Кэри в Аризонском государственном университете (факультет информационных систем).
Рекомендуем прочитать
- Article The opportunity of smart grid analyticsWith smart grid analytics, utility companies can control operating costs, improve grid reliability and deliver personalized energy services.
- Article The future of IoT: On the edgeFrom cows to factory floors, the IoT promises intriguing opportunities for business. Find out how three experts envision the future of IoT.
- Charlie Brown's Teacher Speaks Hadoop. Do you?Ever felt like you and your big data specialist were speaking different languages? Learn how a non-geek can speak big data.
- Canada Post on the (careful) commercialization of dataAs a common data point across databases, address data is an integral part to any master data management strategy. It’s powerful when it’s right; frustrating when it’s not. Could Canada Post turn a seemingly ordinary data point into a profitable business line?