Ключевые вопросы для запуска ваших проектов по аналитике данных
Автор: Фил Саймон, автор, спикер и эксперт по технологиям
Я всю свою профессиональную жизнь работаю с данными. Все мои книги так или иначе связаны с данными. В течение 10 лет я работал консультантом по корпоративным системам, затем ушел в образовательную среду. Я преподаю курс аналитики в Университете штата Аризона, где курирую более 50 групповых проектов по аналитике данных и около 200 индивидуальных. Сейчас мне нравится думать, что я хоть что-то знаю о применении аналитики.
Вот, пожалуй, самое важное: нет единого плана по работе над проектом по аналитике данных.
Тем не менее, я обнаружил, что некоторые вопросы помогают специалистам и компаниям структурировать проекты по аналитике данных. Используйте эти вопросы как руководство к действию.
Как ни странно, я борюсь с самой идеей аналитического проекта. Я даже возражал против такого подхода в прошлом, потому что важнее наделить аналитику культурой, а не одноразовыми проектами. Однако ради этой статьи я закрыл глаза на свои семантические придирки.
Это первый опыт вашей компании в проекте по аналитике данных?
Когда дело доходит до таких проектов, возникает вопрос культуры.
Рассмотрим Netflix, Google и Amazon. Эти организации успешно завершили проекты по аналитике данных. Более того, они построили аналитику в рамках своей культуры и стали компаниями с управляемыми данными. Они будут лучше, чем дилетанты. К счастью, новичкам не предначертан провал. Им нужно просто придержать свои ожидания.
Стать организацией с управляемыми данными: что, почему и как
Управление данными, аналитика и визуализация помогут вам повысить прибыльность, производительность и долю рынка, а также улучшить работу. Читайте, как преодолеть сложности на пути и лучшие практики других компаний.
Как вы думаете, какую бизнес-проблему вы пытаетесь решить?
Это может показаться очевидным, но многие люди забывают задать этот вопрос, прежде чем начать действовать. Обратите внимание на формулировку. Я спросил, «как вы думаете». Иногда проблемой является не то, что мы считаем; другими словами, часто это не то, что мы сначала думаем.
В любом случае вам не нужно решать все сразу. На самом деле, вы не должны придерживаться такого подхода. Методологии проекта (например, agile) позволяют организациям принимать итеративный подход и в меру использовать силу.
Какие типы и источники данных вам доступны?
Разумеется, большинство, если не все организации, хранят огромное количество корпоративных данных. Рассмотрение внутренних баз данных и источников данных имеет смысл.
Внешние источники данных в виде открытых наборов данных (например, data.gov) продолжают размножаться. Существуют простые методы для извлечения данных из Интернета и получения их обратно в удобном для использования формате – например, скремблирование. Эта тактика может хорошо работать в академической среде, но скремблирование может быть признаком незрелости данных для бизнеса. Всегда лучше, если можно получить исходный источник данных.
Важно. Если организация хранит данные, это не значит, что вы можете легко получить к ним доступ. Чрезмерная внутренняя политика заглушает большинство аналитических усилий.
Какие типы и источники данных вы можете использовать?
Из-за сегодняшней шумихи по поводу конфиденциальности и безопасности будет глупо не задать этот вопрос. За последнее время некоторые руководители ритейла узнали, что их компания заставляет клиентов чувствовать неловкость в отношении конфиденциальности своих покупок, несмотря на полное соблюдение закона. Или, возьмите в пример организацию здравоохранения - она технически не может нарушать Закон о переносимости и подотчетности медицинского страхования от 1996 года (HIPAA), однако все равно могут быть проблемы с конфиденциальностью. Другим примером является GDPR. Соблюдение этого правила означает, что организации не всегда смогут использовать персональные данные, которые они ранее могли использовать, по крайней мере, не таким же способом.
Какое качество данных вашей компании?
К числу распространенных ошибок здесь относятся допущение, что ваши данные полные, точные и уникальные. Во время моей консалтинговой карьеры мне хватит пальцев одной руки, чтобы посчитать количество раз, когда клиент предоставлял мне «идеальный» набор данных. Важно очистить данные. Изначально они такие вам не нужны. Как сказал Вольтер: «Идеал - враг добра».
Какие инструменты доступны для извлечения, очистки, анализа и представления данных?
Это 2018 год, а не 1998 год. Пожалуйста, не говорите мне, что ваши аналитические усилия ограничены электронными таблицами.
Несомненно, Microsoft Excel работает со структурированными данными, если набор данных не настолько велик. Помните: каждая из любимых программ электронных таблиц страдает от множества ограничений, таких как:
- Обработка полуструктурированных и неструктурированных данных.
- Отслеживание изменений / контроль версий.
- Работа с ограничениями по размеру.
- Обеспечение управления.
- Обеспечение безопасности.
Если вы пытаетесь проанализировать большие и сложные наборы данных, есть много инструментов, которые стоит изучить. То же самое могу сказать и про визуализацию. Никогда ранее мы не видели такой массив мощных, доступных и удобных для пользователя инструментов, предназначенных для представления данных интересными способами. Например, SAS® Visual Analytics, SAS Visual Data Mining and Machine Learning и несколько инструментов с открытым исходным кодом - это всего лишь некоторые приложения и фреймворки, которые делают визуализацию данных мощной и, смею сказать, крутой.
Важно 1: Хотя поставщики программного обеспечения часто пересекаются с возможностями друг друга, не думайте, что каждое приложение может делать все, что могут делать другие.
Важно 2: Помните, что «бесплатное» программное обеспечение можно сравнить с уличным щенком. Несмотря на открытый исходный код, рассчитывайте время и силы на обучение.
Что сделает человек, группа, отдел или компания с новыми идеями в ваших проектах по аналитике данных? Будет ли результат реальным действием? Или будет просто отчет в чьем-то почтовом ящике? Фил Саймон Автор, спикер и эксперт по технологиям
Имеют ли ваши сотрудники правильные навыки для работы над проектом по аналитике данных?
Администратор базы данных вполне может ловко владеть SQL. Это не значит, что он может легко анализировать гигабайты неструктурированных данных. Многие из моих учеников должны изучить новые программы в течение семестра. То же самое относится и к сотрудникам. Фактически, организации часто считают, что им необходимо:
- Обеспечить обучение существующих сотрудников.
- Взять новых сотрудников.
- Нанять консультантов по контракту.
- Разместить проект на сайте (например, Kaggle).
- Все вышеперечисленное.
Не думайте, что ваши сотрудники освоят программы и фреймворки за 15 минут. Нет, они этого не сделают.
Что будет с результатами вашего анализа?
В книге «Аналитика: «Путь Agile»» я привел пример, как руководитель рекрутинга одной компании попросил меня проанализировать данные о кандидатах в 1999 году. Компания регулярно тратила миллионы долларов на привлечение в МВА в школах Лиги Плюща, а затем наблюдала, как оттуда уходят в течение двух лет. В MBA Ратгерского университета, например, оставались намного дольше.
Несмотря на мои выводы, компания продолжала настаивать на своем. Они оставили Гарвард, Корнелл и другие MBA из-за их престижа. По словам руководителя рекрутинга, ему просто «понравилось» в этих школах, и плевать на данные.
Пища для размышлений: что сделает человек, группа, отдел или компания с новыми идеями в ваших проектах по аналитике данных? Будет ли результат реальным действием? Или будет просто отчет в чьем-то почтовом ящике?
Какие трудности вы можете ожидать?
Вы можете подумать, что люди всегда и охотно принимают результаты анализа данных. И вы бы эффектно ошиблись.
В качестве примера: Судьи Главной лиги бейсбола (MLB) дают неверные сигналы чаще, чем вы думаете. Почему бы им не улучшить свою работу при представлении объективных данных? Оказывается, многие этого не делают. В некоторых случаях человеческая природа заставляет людей отказаться от данных и аналитики, которые находятся в контрасте с их мировоззрением. Несколько лет назад, прежде чем модель подписки стала чрезвычайно популярной, некоторые руководители Blockbuster не хотели верить, что существуют более удобные способы просмотра фильмов.
Важно: игнорируйте силу внутреннего сопротивления на свой страх и риск.
Какова цена бездействия?
Конечно, это вопрос высокого уровня, и ответы зависят от множества факторов. Например, фармацевтическая компания с многолетней патентной защитой будет реагировать иначе, чем стартап с новой идеей, и конкуренты, преследующие его по пятам. Интересные подтексты:
- Проекты по аналитике данных утверждают только то, что мы уже знаем?
- Действительно ли цифры показывают что-то убедительное?
- Можем ли мы собрать ложные позитивные и негативные результаты?
Подумайте об этих вопросах перед проведением проектов по аналитике данных
Эти вопросы – не универсальная инструкция для всех случаев. По большому счету, опыт показывает, что они хорошо решают проблему и помогают компании добиться успеха или, по крайней мере, минимизируют вероятность катастрофы.
Об авторе Фил Саймон является ключевым спикером и признанным экспертом в области технологий. Он является удостоенным наград автором восьми книг управления, его недавняя книга «Analytics: Agile Way». Он консультирует организации по вопросам, касающимся стратегии, данных, аналитики и технологий. Его вклад был представлен в The Harvard Business Review, CNN, Wired, The New York Times и на многих других сайтах. С осени 2016 года он работает на факультете в Университете штата Аризона W.P. , кафедра информационных систем.
Ссылки
1.Umps get 1 in 3 close pitches wrong, HBO story shows.
Рекомендуем прочитать
- Why banks need to evolve their approach to climate and ESG riskManaging environmental, social and governance (ESG) risk is important to banks, regulators, investors and consumers – yet there are many interpretations of how to do it. To thrive, organizations must evolve their risk management practices – including those affected by ESG risk.
- Model risk management: Vital to regulatory and business sustainabilitySloppy model risk management can lead to failure to gain regulatory approval for capital plans, financial loss, damage to a bank's reputation and loss of shareholder value. Learn how to improve model risk management by establishing controls and guidelines to measure and address model risk at every stage of the life cycle.
- Online payment fraud stops hereBillions of dollars each year are lost to online payment fraud through channels that provide convenient – yet vulnerable – ways to shop and bank. See how to fight back and win with advanced analytics.