Знакомьтесь, Патрик Холл, data scientist

Автор: Стефани Робертсон, редактор SAS Insights

Спустя всего несколько лет после получения степени магистра по аналитике в Университете штата Северная Каролина, Патрик Холл уже входил в состав команды, которая запатентовала алгоритм, решивший фундаментальную проблему data mining: определение количества кластеров в наборе данных. Сейчас Патрик работает в компании SAS. В рамках серии публикаций о data scientists мы взяли у него интервью.

Расскажите о вашем опыте и образовании.
Патрик:
Моя первая академическая степень — бакалавр математики в университете штата Северная Каролина. Я хотел продолжить обучение в аспирантуре по направлению «физическая химия» в университете штата Иллинойс, но понял, что это не мое. Поэтому я начал развивать навыки программирования, работая в небольших стартапах Северной Каролины в «Треугольнике науки». Через несколько лет я возобновил обучение в магистратуре университета штата Северная Каролина по направлению «аналитика». Теперь я работаю в SAS.

Патрик Холл, Data Scientist
Патрик Холл, Data Scientist

Какие навыки для вас как для data scientist оказались наиболее полезными?
На мой взгляд, понятие «data scientist» плохо поддается определению. Для меня ключевым отличием data scientist от представителей более традиционных профессий – аналитика или статистика – является способность обрабатывать большие объемы информации. Чтобы объединить разрозненные источники данных, обычно нужно разрабатывать собственные программные инструменты. Но после преобразования данных в подходящий формат становится намного проще их анализировать, визуализировать и работать с ним дальше.

Когда вы поняли, что хотите быть data scientist? Что подтолкнуло вас к выбору этой профессии?
Когда я учился в старших классах школы и в университете, самого понятия «data scientist» еще не было. Я осознал, что люблю анализировать и визуализировать данные, когда изучал химию в аспирантуре. Меня все больше увлекали методы углубленного анализа данных и очень нравилось создавать визуализации для обмена результатами наших экспериментов.

В каком отделе вы работаете? Кто ваш непосредственный руководитель?
Я работаю в научно-исследовательском отделе решения SAS Enterprise Miner. Мой руководитель — Сьюзан Холлер, директор по углубленной аналитике.

Как давно вы работаете в этой должности? Вас нанимали именно как специалиста data scientist?
Я работаю в SAS с середины 2012 года. Официально я главный научный сотрудник. Вот еще одно хорошее определение data scientist: это человек, который разбирается в статистике лучше, чем большинство программистов, а в программировании — лучше, чем большинство статистиков. По-моему, именно этого и ожидают от меня на работе.

Вы работаете в команде? Если да, то кто в нее входит?
Я работаю в команде со множеством замечательных и талантливых людей. Многие из них статистики, математики и программисты, специализирующиеся в узких областях. Наши навыки являются взаимодополняющими, и вместе мы способны на многое.

Расскажите о вашей работе. Можно ли описать свой обычный рабочий день? Или у вас каждый день приносит что-то новое? Расскажите в общих чертах, чем вы занимаетесь и над какими проектами работаете.
Каждый день происходит что-то новое. Иногда я работаю над программным кодом. Иногда — над прототипами аналитических методов, которые наши клиенты, возможно, никогда не увидят. Иногда — над книгами и статьями. Иногда — непосредственно над задачами клиентов.

В чем состоит самая сложная для вас задача?
Все самое сложное обычно связано с конкретными задачами наших клиентов. Решение этих задач бывает весьма непростым и отнимает много времени, но для нас очень важно взаимодействовать с клиентами, чтобы совершенствовать инструменты, которые мы для них создаем.

Какое ваше самое большое достижение?
Я сделал это со своими коллегами. Это была заявка на патент для алгоритма, который оценивает количество кластеров в наборе данных. Определение количества кластеров в модели данных — это фундаментальная проблема data mining и CRM.

Чем вы любите заниматься в свободное время?
Я самый настоящий ботан. Много времени трачу на Kaggle — платформу для соревнований по data mining — и на изучение новых технологий, например, Bokeh (пакет для визуализации данных в Python). Еще мне нравится кататься на велосипеде, особенно по горам Северной Каролины.

Назовите вашу любимую новую технологию или приложение.
Их три: Quora, Strava и Github. Ни один из этих инструментов нельзя назвать совсем уж новым.

Data scientist series

Back to Top