Взгляд дата-сайентиста на data literacy
Кирк Борн о ценности универсального понимания данных и его влиянии на общество
Джефф Алфорд, редактор SAS Insights
Поскольку мы продолжаем бороться с коронавирусом, нас постоянно информируют о новых фактах и цифрах. И трудно вспомнить время, когда с нами делились большим количеством статистики. Статистические кривые (и ожидаемое их сглаживание), уровни инфицирования и, к сожалению, уровни смертности трудно сравнивать и анализировать.
Это означает, что грамотность в области данных важна как никогда. Без понимания того, как данные могут быть представлены, трудно отличить хороший анализ от плохого. Например, как узнать, какому из различных отчетов следует верить, где говорится о том, как долго вирус живет на разных типах поверхностей или даже в воздухе? Грамотность в использовании данных дает нам еще одно оружие, которое можно использовать для борьбы с COVID-19 и его последствиями.
Станьте сертифицированным дата-сайентистом
Интересуетесь data curation, углубленной аналитикой, искусственным интеллектом и машинным обучением? Дата-сайентисты востребованы в постоянно расширяющемся мире данных. Мы можем помочь вам подготовиться к тому, чтобы стать сертифицированным специалистом в этой области.
Недавно у нас была возможность поговорить с Кирком Борном о data literacy - что это такое, почему это важно в нашей жизни и как можно жить лучше будучи более грамотными в использовании данных.
Он дата-сайентист и астрофизик. С 2015 года Кирк работает в глобальной технологической и консалтинговой фирме Booz Allen Hamilton. Он является идейным лидером, занимается наставничеством, обучением и консультированием в области data science, машинного обучения и искусственного интеллекта в различных дисциплинах. Ранее Кирк был профессором астрофизики в Университете Джорджа Мейсона - в течение 12 лет преподавал в магистратуре и бакалавриате по программам data science. До этого он потратил почти 20 лет на поддержку систем данных для программ NASA в области космической науки, также проработал в качестве научного сотрудника проекта архива данных NASA для космического телескопа Хаббл и в качестве менеджера по контрактам в центре астрономических данных NASA и операционном управлении данными космических наук.
Что такое data literacy?
Data literacy состоит из нескольких компонентов, которые в совокупности позволяют человеку стать грамотным в области данных. Одно из формальных определений гласит, что data literacy - это «способность читать, работать с данными, анализировать и спорить с ними». Быть грамотным в области данных означает обладать пониманием того, что такое данные и их характеристики (источники, типы, форматы и особенности данных), приложения данных (для анализа, бизнес-аналитики, data science, поддержки принятия решений, искусственного интеллекта, автоматизации и аналитики), методы обработки данных (например, обнаружение закономерностей, распознавание и прогнозирование шаблонов) и передача данных (например, сторителлинг, обоснование доказательств, поддержка принятия решений и визуализация).
Первое, что нужно сделать, — это признать, что данные есть повсюду, что почти все вокруг является цифровым и эти цифровые устройства производят и потребляют данные. Kirk Borne Data Scientist
Почему data literacy приобретает все большее значение и почему мы слышим об этом сейчас все больше?
Data literacy приобретает все большее значение по многим причинам. Я сгруппирую эти причины в три категории:
Физические лица. Для карьерного роста существует огромное количество возможностей и множество вакансий. Мой собственный преподавательский опыт также показывает мне, что большинство студентов увлекаются этой темой, когда понимают, что это такое и почему это важно.
Организации. Компании испытывают огромное давление - их заставляют использовать огромные запасы данных для поиска бизнес-инсайтов, инноваций и создания ценности. Данные организации теперь являются одним из ее самых ценных активов, и это возобновляемый актив, то есть одни и те же данные могут использоваться повторно в различных приложениях для поддержки различных проектов и обогащения нескольких потоков создания ценности.
Рыночные силы. Более того, рыночные силы вознаграждают компании, которые руководствуются данными и у которых есть персонал, умеющий грамотно использовать данные. Организации, которые отстают в этих областях, также начинают отставать в конкурентоспособности, нанимая лучших специалистов и обеспечивая рыночную стоимость.
Какие первые шаги нужно сделать, чтобы грамотно использовать данные?
Первое, что нужно сделать, — это признать, что данные есть повсюду, что почти все вокруг является цифровым и эти цифровые устройства производят и потребляют данные.
Например, чат-боты, онлайн-рекомендации, автономные транспортные средства, прогнозное моделирование, предиктивное техобслуживание, обнаружение мошенничества, обработка заявок, анализ социальных настроений, обнаружение фальшивых новостей, распознавание лиц (удобная функция для бесконтактного входа в систему на вашем смартфоне) и автоматические текстовые сообщения. И это лишь некоторые из них. Осведомленность о том, как много данных и приложений для их обработки пронизывают нашу повседневную жизнь, — это первый шаг к data literacy.
Следующим шагом является осознание того, что почти каждый человек, вещь и деятельность в мире производят данные, и эти источники данных являются входными данными для процессов, которые создают ценность (например, продукты, решения и действия) для человека или организации, и практически для каждой отрасли, работы и рынка. Надеюсь, люди могут представить себя авторами и потребителями данных.
Третий шаг к тому, чтобы стать грамотными в использовании данных, — это то, что люди должны увидеть, что они могут узнать о цифровой трансформации мира и стать ее участниками. Я преподаю широкие концепции data science, машинного обучения и искусственного интеллекта широкой аудитории, сравнивая эти «сложные» вещи с аналогичными нормальными когнитивными способностями обнаружения закономерностей, распознавания образов и принятия решений на основе фактов.
Моя аудитория поражена тем, что им действительно так просто достичь первого уровня понимания того, что ранее казалось недоступной и сложной темой. Если эти шаги будут осуществлены, у людей появится мотивация узнать больше. Если это не сработает, тогда я постараюсь дать мотивацию к чтению и просмотру целевого контента в рамках этой темы в контексте вещей, которые их лично волнуют. Это может быть здоровье, финансы, покупки в интернете, спорт, развлечения, отдых, путешествия, наука и т.д. Например, когда я читал выпускной курс по data science в Университете Джорджа Мейсона, у меня был блок по геопространственным базам данных и пространственной аналитике. В рамках материала я рассмотрел географические информационные системы (ГИС). ГИС могут быть высокотехничной темой для тех, кто с ней не знаком, поэтому я попросил студентов выполнить простое упражнение: открыть веб-браузер и выполнить поиск по запросу «ГИС геопространственный» плюс все, что их интересует (желательно в рамках темы науки и техники), а затем сообщить, что они нашли. Я преподавал этот курс каждый год более 10 лет — и каждый год я и мои студенты всегда удивлялись тому, что мы находили.
Как мы можем использовать data literacy как ответственные граждане?
Я читал курс по этике данных в Университете Джорджа Мейсона. Я мог бы легко переименовать курс в «Data Literacy». В его краткий обзор я включил отрывки из трех книг «Как лгать с помощью статистики», «Как лгать с помощью карт» и «Визуальное и статистическое мышление». Идея, лежащая в основе выбора этих книг, заключалась в том, чтобы продемонстрировать, как мы можем намеренно или случайно быть производителями и потребителями необъективных данных.
Я использовал хорошие и плохие примеры диаграмм, графиков и статистических результатов, чтобы продемонстрировать ученикам, как стоит думать о них и подходить к этому ответственно. Гражданская ответственность в наши дни зависит от наличия некоторых данных, статистической и информационной грамотности, чтобы бороться с необъективностью, неверными интерпретациями и вводящими в заблуждение гипотезами, связанными с использованием данных.
Знаменитый писатель Х. Г. Уэллс сказал об этом лучше всего более 100 лет назад: «Статистическое мышление однажды станет таким же необходимым для граждан, как и умение читать и писать». Это утверждение теперь будет включать data literacy и аналитическое мышление. Одно из моих самых забавных упражнений в этом курсе по этике данных было в первый день обучения. Я попросил студентов высказать свою реакцию на заявление от известного политика, которое я услышал в новостях более 20 лет назад. Он сказал: «Я шокирован тем, что половина студентов в этой стране показывает результаты ниже среднего в своих стандартных тестах». Это упражнение в классе привело к очень интересным беседам о статистике и средних (значениях, медианах и режимах) в различных видах дистрибуции данных.
Я должен признать, что всякий раз, когда ко мне подходил новый студент, спрашивая (я нахожусь в роли консультанта по программе обучения data science для бакалавриата), следует ли ему посещать мой курс этики данных или общий университетский курс этики, я отвечал им, что общий курс этики хороший, но на моем курсе я буду учить их лгать, и говорил это с юмором. Их это зацепило, они каждый раз записывались на мое занятие! В частности, я учил студентов различным способам, с помощью которых люди и организации могут лгать и лгут с помощью статистики, намеренно или непреднамеренно. Я объяснил своим ученикам, что делаю это по трем причинам:
- Чтобы помочь студентам распознать статистические ошибки и заблуждения в мире.
- Чтобы показать им, как решать эти проблемы, когда они с ними сталкиваются.
- Чтобы продемонстрировать, как избежать подобных проблем в своей деятельности, связанной с данными.
В этих упражнениях статистическая грамотность сочетается с data literacy, поскольку существуют общие предубеждения в применении данных для статистики, data science, машинного обучения и искусственного интеллекта.
Как data literacy влияет на успех компании?
Data literacy - важный компонент более широкой концепции демократизации данных. Демократизация данных влияет на успех организаций как минимум в пяти аспектах:
Осведомленность о данных - сотрудники все больше узнают о повсеместном распространении и типах данных, которые использует организация (или может использовать).
Актуальность данных - сотрудники начинают видеть связь между данными и своей ролью в бизнесе.
Data literacy - сотрудники учатся читать, работать, анализировать и спорить с соответствующими источниками данных.
Data science - большинство (если не все) сотрудников затем узнают, как получать инсайты и делать выводы на основе данных (обнаружение закономерностей, распознавание шаблонов, исследование закономерностей и их использование).
Необходимость данных - сотрудники в конечном итоге осознают, что неспособность использовать и анализировать данные наносит ущерб бизнесу (и, возможно, их собственной продолжительности карьеры).
Считаете ли вы, что компании действительно понимают важность data literacy? Предлагают ли они возможности обучения data literacy своим сотрудникам?
Многие организации сейчас находятся на этой стадии, но гораздо больше - нет. К счастью, такие программы появляются повсюду. Тем, кто еще не работает над этим, необходимо увидеть все преимущества, которые могут быть получены от сотрудников, грамотно владеющих данными. У меня есть прямой личный опыт. Несколько лет назад небольшая компания (менее 100 сотрудников) пригласила меня провести двухдневный учебный курс по data science, который фактически охватывал пять аспектов демократизации данных, которые я описал ранее. В этом мероприятии меня впечатлило то, что владельцы компании потребовали, чтобы на нем присутствовал каждый сотрудник, а не только технический и деловой персонал. Больше всего на этом обучении было интересно администратору ресепшна, которой нравилось все новое, чему она училась. Владельцы этого бизнеса действительно понимали важность этой возможности обучения data literacy для своих сотрудников и для их бизнеса. Это подтвердилось через пару лет, когда они успешно продали свою компанию более крупной корпорации.
Какие культурные изменения должны произойти в обществе для решения проблемы data literacy?
Во-первых, общество должно осознать ценность данных. Что я имею в виду: данные часто представляются как нечто инвазивное, деструктивное или слишком сложное для обычного человека. Во-вторых, должно быть больше положительных примеров. Например, data-хакатоны для общественного блага, бизнес-аналитические примеры и примеры на смартфонах. Данные следует пропагандировать в образовании, новостях, деловом общении и обычном общении. В-третьих, необходимо обсудить, как компании создают рабочие места, рынки, возможности и новые полезные продукты для общества с помощью данных. В-четвертых, система образования должна вводить числа, статистику, данные, обнаружение закономерностей и формирование научных гипотез на основе фактов гораздо более интенсивно, сознательно и креативно во все курсы и учебные программы (на соответствующем возрасту уровне, конечно), потому что мир является цифровым, и он станет только еще более цифровым.
Финальная мысль
Данные пронизывают нашу повседневную жизнь с помощью всех мыслимых цифровых технологий, портативных устройств, бизнес-задач и личных действий. С помощью данных мир вычислим. Data literacy не должна фокусироваться на математике, алгоритмах или инженерии. Вместо этого следует сосредоточиться на демонстрации того, что data science и аналитика универсальны, data literacy доступна, а data fluency достижима для всех. Демократизация активов данных и data literacy важны для всех организаций. Команды профессионалов в области data literacy обладают способностью понимать многочисленные и разнообразные источники данных, понимать, о чем они говорят, и обеспечивать новые результаты, успехи и ценность для любой компании. Data literacy - это не математический, а жизненный навык.
Рекомендуем прочитать
- Спасти жизнь в период пандемии, оптимизируя медицинские ресурсыCleveland Clinic внедряет аналитику для борьбы с COVID-19, создавая инновационные модели, которые помогают прогнозировать количество пациентов, коек, доступность медицинского оборудования и многое другое.
- Борьба с коронавирусом: 4 аналитических способа, которые помогут изменить ситуацию в лучшую сторонуКоронавирус отделил нас от семьи, друзей, культурных и религиозных сообществ. К сожалению, изоляция необходима для замедления распространения вируса. Что еще можно сделать? Узнайте, как используется аналитика для борьбы с последствиями COVID-19.
- Визуализация данных для отслеживания распространения коронавирусаSAS считает, что в такое нестабильное время очень важно иметь надежные источники информации о вирусе. Поэтому SAS создал отчет, который отображает состояние, местоположение, распространение и анализ тенденций развития коронавируса.
Готовы подписаться на инсайты сейчас?