4 совета по тегированию данных
Автор: Джим Харрис, The Data Roundtable
Чем больше данных вы можете применить к бизнес-проблеме, тем лучше ее потенциальные решения. Несмотря на то, что сегодня компании не испытывают недостатка в данных, зачастую трудно узнать, какие именно данные уже есть и как их можно использовать. Поэтому не нужно упускать из виду метаданные и их важное значение в экосистеме данных. Способность разрозненных данных подключаться и объединяться (даже если они находятся в одном и том же озере данных или облачном хранилище) в значительной степени зависит от метаданных, которые характеризуют сами данные. Тегирование данных — это только один аспект, связанный с метаданными, но при этом очень важный.
Многие знакомы с тегами вне контекста управления корпоративными данными. Посты в блоге, онлайн-статьи, видео, фотографии, подкасты и социальные сети — все это примеры неструктурированных или полуструктурированных данных, которые в значительной степени зависят от тегов при привязывании их к материалу. Тегирование также играет большую роль в поиске по ключевым словам и в поисковой оптимизации (SEO). Бывают случаи, когда теги используются преднамеренно неправильно и тем самым побуждают нас кликать по определенной ссылке только чтобы обнаружить, что это был кликбейт.
В контексте управления корпоративными данными тегирование дает множество преимуществ. Например, оно может:
- Помочь определить, сколько нужно заниматься подготовкой данных в новых источниках данных.
- Повысить возможность эффективного нахождения данных. Когда данные понадобятся для конкретных бизнес-целей, можно будет легко и быстро найти наиболее соответствующие данные.
- Улучшить качество больших данных, особенно благодаря повышению пригодности для использования неструктурированных и полуструктурированных больших данных.
- Помочь идентифицировать конфиденциальные личные данные, чтобы можно было надлежащим образом контролировать и регулировать доступ к ним.
- Помочь отметить и отфильтровать этически сомнительные или иные спорные данные, прежде чем какие-либо из них будут использоваться при принятии решений или в решениях для искусственного интеллекта.
Рассмотрим четыре совета по тегированию данных.
Стандартизировать теги
Тегирование данных — это подмножество основных метаданных, составляющих бизнес-глоссарий. Список терминов бизнес-данных в бизнес-глоссарии образует авторитетный словарь, который способствует общему пониманию между заинтересованными сторонами в организации. Без установления стандартных значений тегирование часто выдает омонимы (одни и те же теги, используемые с разными значениями) и синонимы (несколько тегов для одного и того же понятия). Это может привести к связям с несоответствующими данными и неэффективному поиску данных по конкретной теме.
Использовать все применимые теги
Как и во многих задачах по управлению метаданными, можно попробовать продвинуться вперед, выполняя минимум и применяя только один или два тега. Но поскольку большинство данных можно использовать для разных целей, важно использовать все применимые теги. Это может привести к неожиданным полезным результатам. Например, определить бизнес-группу, наиболее заинтересованную в тегировании конкретного источника, что может сделать эту группу логичным кандидатом в стюарды данных.
Не перегружать тегами
Эта рекомендация звучит как противоречие предыдущей рекомендации по тегированию данных, но теги могут потерять свое значение, если вы станете жертвой искушения и настолько увлечетесь их применением. Анализ по частотному распределению значений тегов, как по отдельности, так и в различных комбинациях, может помочь сократить посторонние теги для оптимальной эффективности. Этот анализ также в дальнейшем может помочь стандартизировать теги, выявляя часто используемую комбинацию тегов, которая должна быть доступна в качестве дополнительного стандартного значения тега. Иногда это уместнее, чем назначение нескольких отдельных тегов.
Пересмотреть теги с течением времени
Важно помнить, что бизнес-терминология и бизнес-контекст редко остаются неизменными. Хотя многие теги остаются применимыми в течение длительного времени, не думайте, что так будет всегда. Кроме того, если тегирование не всегда дает преимущества, описанные выше, выясните почему. Может оказаться, что вам необходимо повторно стандартизировать и повторно применить существующие теги.
Рекомендуем прочитать
- Реагировать, восстанавливать, переосмысливатьПотрясения в нашей жизни случаются регулярно, хотя большинство из них не такие далеко идущие, как пандемия COVID-19. Какова бы ни была их природа, полезно иметь план, как выйти из кризиса, пока вы еще в игре. Узнайте о трехфазном подходе, который рекомендует SAS для смягчения широко распространенных последствий.
- Спасти жизнь в период пандемии, оптимизируя медицинские ресурсыCleveland Clinic внедряет аналитику для борьбы с COVID-19, создавая инновационные модели, которые помогают прогнозировать количество пациентов, коек, доступность медицинского оборудования и многое другое.
- The transformational power of evidence-based decision making in health policyState health agencies are under pressure to deliver better health outcomes while minimizing costs. Read how data and analytics are being used to confront our biggest health care challenges head on.
Подпишитесь на рассылку инсайтов SAS сейчас.