Путешествуя сквозь текстовые айсберги

Лонни Миллер, ведущий индустриальный консультант SAS по энергетике и промышленности

Недавно я парковался у отеля, возвращаясь с ужина с заказчиками. Было темно и дождливо, а я был уставший после путешествия. Я уже почти ничего не соображал, когда услышал резкий звук «бип бип бип», исходящий от моей арендованной машины. Я взглянул в камеру заднего вида и увидел, что почти врезался в светящееся поле. Я нажал на тормоз и вернул машину на место. «Сегодня бампер будет цел», - подумал я. Должен признать, я чувствовал себя уменьшенной и более везучей версией Эдварда Смита, капитана Титаника.

Моя «усталая» парковка, этот практически произошедший несчастный случай, заставила меня задуматься обо всех типах анализа, подразумевающих использование неструктурированных данных.

  • Я получил пользу от камеры, которая увидела то, что я пропустил.
  • Я обнаружил что-то, что было там все время, но чего я сначала не увидел.

Статистик и автор Нэт Сильвер сказал: «Каждый день, трижды в секунду, мы производим столько же данных, сколько содержится во всех изданиях в библиотеке Конгресса, так? Но в основном это что-то вроде видео с котиками на YouTube или SMS-ки тринадцатилетних подростков, говорящих о следующих Сумерках».

Комментарий Нэта имеет отношение к огромному количеству информации, с которой мы так или иначе соприкасаемся, и огромному количеству бизнес-процессов. Если смотреть на это с точки зрения бизнеса, то организации стараются учитывать, что говорят их заказчики, а для этого приходится разбирать массивы беспорядочных и неструктурированных данных. Короче говоря, текстовые данные могут доставлять массу хлопот.       

Наши клиенты из производственного сектора утверждают, что изучение текстовых данных помогает им более успешно справиться с текущими задачами. Рассмотрим следующие вопросы, составленные текстовыми аналитиками:

Инженеры по качеству товаров:

  • Как мы можем узнать больше о дефектах товара до того, как они нагрузят избыточной работой нашу гарантийную службу?
  • Что приводит к недовольству нашим продуктом?

Специалисты, анализирующие цифровой маркетинг:

  • Какие ключевые слова нам использовать в описаниях продуктов для того, чтобы улучшить результаты поиска?
  • Как мы можем улучшить нашу стратегию поисковой оптимизации?

Команды запуска товаров /Менеджеры продуктов:

  • Что говорят о наших автомобилях в социальных сетях?
  • Стоит ли нам изменить хэштеги в твиттере?

Отдел по работе с персоналом:

  • Какие комментарии, из полученных в ходе нашего ежегодного исследования степени удовлетворенности сотрудников, отражают мнение большинства?
  • Как комментарии наших сотрудников, оставленные на определенных сайтах, влияют на риск оттока клиентов?
  • Команды, занимающиеся послепродажным обслуживанием:
  • Что наши дилеры пишут в разделе заметок на сервисе или в тех частях заказа, которые объясняют, почему клиент заказал именно эту деталь?
  • Можем ли мы улучшить набор товарных категорий для наших дилеров для того, чтобы они лучше обслуживали своих клиентов?

Что объединяет все эти вопросы?

  1. Данные существуют для общения. Комментарии от различных пользователей, заказы на ремонт автомобилей, новые опросы среди покупателей, исследования удовлетворенности сотрудников и онлайн посты или заметки, придают дополнительное значение цифровому анализу. Данные нужны именно для этого!
  2. Анализ данных способствует росту проактивности. Специалисты по digital-маркетингу хотят заранее спланировать лучшие позиции для своих товаров с соответствующим контентом, уменьшив количество денег, потраченных на спонсирование/оплату объявлений и т.д. Руководство отделов по работе с персоналом хочет знать смысл и последствия пользовательских комментариев, чтобы избежать потери высококвалифицированного персонала. Команды по сервисному обслуживанию хотят точнее прогнозировать потребности в запчастях для своей дилерской сети.
  3. Данные приводят к финансовой выгоде. Снижение объема претензий по гарантиям или предотвращение сбоев продукта напрямую повлияет на баланс предприятия в части доходов.

Текст для прогнозирования.

Раньше я работал в сфере маркетинговых исследований. Я занимался анализом и моим источником данных были опросы потребителей. Обычно я разрабатывал и анализировал исследования, проведенные среди клиентов в автомобильной сфере.

Например, я отвечал на такие вопросы: «Каковы настроения покупателей, впервые приобретающих автомобили?» или «Чего ожидают онлайн-покупатели автомобилей от дилера, ставшего онлайн-лидером?» Тогда мне хотелось, чтобы кто-нибудь научил меня тому, что комментарии из опросов действительно могут быть использованы для прогнозирования результатов, а не просто сообщать актуальные темы или дословно цитировать открытые вопросы опроса.

Сравним влияние этих 2 утверждений. Для наглядности предположим, что источником данных был опрос потребителей, в ходе которого изучался их опыт в сфере онлайн-покупок.

Что касается использования текстовых данных для выделения тематик: «Многочисленные комментарии от респондентов указывают на высокий уровень недоверия процессу онлайн-покупок». (Ну и что, верно?)

Что касается использования текстовой аналитики для создания предикторных переменных для модели логистической регрессии: «Когда онлайн-покупатели упоминают «Это занимает слишком много времени» или «Они не перезвонили мне», их шансы на переход к другому производителю возрастают на 12%. (Славно, мы уже дошли до чего-то полезного.)

Текстовая аналитика – это мощный инструмент, позволяющий создавать добавленную стоимость. Рассмотрим следующие два сценария:

  1. Обработка высказываний клиентов во время сессии в чате. Подсчет комментариев во время «живого» чата обращает внимание на рост потребностей. Представитель службы поддержки клиентов может связаться с менеджером или ссылаться на новую запись для наилучшего разрешения определенных дискуссий или транзакций, основанных на чатах в режиме реального времени.
  2. Сокращение текучки персонала. Комментарии работников из ежегодного опроса удовлетворенности работой нужно сопоставить с набором признаков, которые свидетельствуют о вероятности ухода из компании. Ключевые слова и заголовки можно трансформировать в независимые переменные, которые будут служить индикаторами для предсказания ухода сотрудников из компании. Это дает работодателям возможность оперативно решать возникающие проблемы и сохранить ценных сотрудников.

Технологии, которые нам сегодня доступны, упрощают и ускоряют процессы сбора данных и создания предсказательных моделей. Если ваши ИТ‑платформы не включают в себя возможность использования разрозненных, неструктурированных текстовых данных, то по факту вы упускаете шанс лучше обслуживать ваших клиентов и создавать комфортные условия труда для ваших сотрудников.

Я призываю вас посмотреть этот вебинар. Там показано, как в машинном обучении помогают методы текстовой аналитики.

Ну и в качестве завершения: почему утонул «Титаник»? Потому что команда не увидела проблему. Дисциплинарные подходы к пониманию текстовых данных уже не являются удобными. Они не дают ни глубины понимания, ни оперативности. Не будьте капитаном Смитом вашей компании. Смотрите шире и глубже.