Все, что нужно знать
о мошенничестве и машинном обучении
Майк Эймс (Mike Ames), старший руководитель отдела исследования данных и развития новых технологий компании SAS
Обнаружить мошенничество — задача не из легких. На самом деле мошеннические транзакции довольно редки и затрагивают лишь чрезвычайно малую часть деятельности организации. Но даже незначительный процент таких операций может быстро привести к огромным финансовым потерям, если у компании отсутствуют необходимые инструменты и системы. И в этом проблема. Преступники весьма изобретательны. Как только привычные схемы становятся неэффективными, они немедленно меняют тактику. Правда, есть и хорошие новости — благодаря развитию технологий машинного обучения системы могут учиться, приспосабливаться и находить новые способы предотвращения мошенничества.
Большинство организаций до сих пор использует алгоритмы на основе правил в качестве основного инструмента обнаружения мошенничества. Правила легко выявляют известные закономерности, но они совершенно неэффективны, когда речь идет о новых, пока неизвестных схемах; они не умеют адаптироваться к новым условиям и не способны противостоять действиям мошенников, которые становятся все более изощренными. Справиться с этим под силу только системам машинного обучения.
Сегодня машинное обучение очень популярно. Большинство поставщиков заявляют, что так или иначе используют его в своих решениях для обнаружения мошенничества. Компания SAS была одной из первых, кто использовал машинное обучение еще в 80-х годах прошлого столетия, когда нейронные сети впервые были применены для борьбы с мошенничеством с кредитными картами. Однако не стоит думать, что раз мы были пионерами в этой области, то теперь спокойно почиваем на лаврах. На самом деле все совершенно наоборот.
Машинное обучение — критически важный компонент в наборе инструментов для обнаружения мошенничества. Итак, что вам потребуется в самом начале?
Данные, конечно!
Объемы данных растут, а задача выявления мошенничества усложняется. Когда речь идет о создании систем машинного обучения, залог успеха — это именно данные. Чем больше данных, тем лучше модель, и модель обнаружения мошеннических действий — не исключение. В условиях роста объемов информации и уровня сложности специалистам по безопасности нужны масштабируемые платформы машинного обучения. Хотя традиционные инструменты вполне эффективны при работе с тысячами записей и несколькими мегабайтами данных, в реальном мире проблемы измеряются гигабайтами или даже терабайтами данных.
Преимущества разнообразия
Не существует одного-единственного алгоритма или метода машинного обучения, который стопроцентно сработает во всех случаях. Залог успеха — в возможности опробовать множество отдельных алгоритмов и их комбинации, а также протестировать их на различных наборах данных. Специалистам по исследованию данных требуется набор самых разнообразных контролируемых и неконтролируемых методов обучения, а также различные технологии конструирования признаков. И наконец, нельзя упускать из виду креативный аспект использования машинного обучения для выявления мошенничества. Речь о новых и необычных способах применения машинного обучения — например, комбинирование различных контролируемых и неконтролируемых методов обучения в рамках одной системы, что гораздо более эффективно, чем использование отдельных методов.
Anti-fraud technology benchmarking report
According to a survey by ACFE and SAS, the use of artificial intelligence (AI) and machine learning in anti-fraud programs is likely to triple over the next two years. Explore how organizations are fighting spiraling fraud trends with these technologies and others, including traditional analytics, generative AI, case management tools and biometrics.
Get the report
Интеграция в рабочую среду
Казалось бы, все очевидно, однако это — сложнейшая задача для многих организаций. После разработки модели машинного обучения ее необходимо интегрировать в рабочую среду. Если ваши данные хранятся в Hadoop, имеет смысл разрабатывать такую модель машинного обучения, которую впоследствии можно будет без проблем интегрировать в Hadoop. Аналогичным образом в случае потоковой передачи данных в режиме реального времени потребуется система машинного обучения, способная работать в режиме реального времени или обрабатывать потоки данных. Возможность переноса модели и интеграция логики принятия решений в операционные системы имеет первостепенную важность для предотвращения мошенничества в самых широких масштабах — учитывая размах мошеннических операций.
«Белые ящики»
Очень важно уметь объяснить, что конкретно делает система машинного обучения. Систему или решение, принципы работы которых ясны пользователю, обычно называют «белыми ящиками». Как правило, методы и модели машинного обучения представляют собой непроницаемые «черные ящики» — пользователь не знает, как именно они работают. Очень трудно (почти невозможно) объяснить аналитикам, почему они получили тот или иной результат или вариант решения. Существует множество подходов к добавлению оценочных карточек с учетом локальной линейной аппроксимации, а также создания текстовой части и графических визуализаций. Все это лишь приблизительные значения, однако они дают пользователям представление о модели машинного обучения, а также полезные рекомендации по изучению мошеннических действий.
Постоянный мониторинг
Все меняется, и нам нужно уметь приспосабливаться к изменениям. Постоянный мониторинг в рамках систем обнаружения мошенничества на основе машинного обучения — бесспорный залог успеха. По мере того как модели и лежащие в их основе данные меняются, качество входных данных ухудшается, и в результате снижается производительность системы в целом. Такая проблема свойственна не только системам машинного обучения, но и системам на основе правил. Однако новые методы машинного обучения способны эффективно приспосабливаться к новым, пока еще неизвестным закономерностям. Это позволяет снизить количество необходимых мероприятий (хотя и не исключить их все) по переобучению и оценке работы системы машинного обучения.
Эффективная система мониторинга активно исследует данные, которые попадают в систему, оценивает прогнозы и разъяснения, созданные моделью машинного обучения, а также оповещает администраторов об изменении тенденций в данных и статистике, прежде чем радикальные изменения повлияют на работу всей компании.
Каким образом это затрагивает ваших клиентов?
Для одного из финансовых учреждений борьба с мошенническими операциями была неразрешимой проблемой. Нужно было не только выявлять незаконные операции, но и обеспечивать высокий уровень обслуживания клиентов. Эффективная система обнаружения мошенничества не должна блокировать легитимные транзакции клиентов.
Финансовая организация стремилась модернизировать существующую систему на основе правил и достичь оптимального баланса между функциями контроля и обслуживанием клиентов. Для этого его представители обратились к SAS. Их целью было использовать возможности нейронных сетей для создания двух отдельных систем оценки мошеннических действий:
- Система подсчета вероятности того, что учетная запись клиента находится под контролем мошенников.
- Система подсчета вероятности того, что отдельная транзакция является мошеннической.
Благодаря такому подходу финансовому учреждению удалось выявить операции на сумму почти в 1 млн долларов США за месяц, которые были ошибочно определены, как мошеннические, а также идентифицировать операции на сумму в 1,5 млн долларов США за месяц, которые как раз и являлись мошенническими, но не были обнаружены предыдущей системой. Наше решение не только помогло компании эффективнее обнаруживать мошенничество, оно также позволило в значительной мере повысить удовлетворенность клиентов за счет ослабления напряженности в их отношениях с компанией. Как? Благодаря существенному улучшению процедур подтверждения транзакций и повышения эффективности обнаружения фактов мошенничества.
Мыслите нестандартно
Успешные программы машинного обучения всегда в той или иной степени предполагают непрерывный эксперимент. Недостаточно просто создать модель машинного обучения и отправить ее «в свободное плавание». Мошенники умны, а технологии постоянно меняются. Наличие изолированной среды, «песочницы», в которой специалисты по исследованию данных могут свободно экспериментировать с различными методами, данными и технологиями борьбы с мошенничеством, в этом случае становится критическим условием реализации самых важных программ. Инвестиции, которые направлены на оптимизацию работы и повышение производительности специалистов по исследованию данных, занимающихся выявлением и предотвращением фактов мошенничества, окупятся практически мгновенно.
There is a creative aspect or “art” to machine learning for fraud detection. It’s applying fraud analytics in new and novel ways, like combining a variety of supervised and unsupervised machine learning methods in one system to be more effective than any single method alone.
Итак, что же такое машинное обучение?
Проще говоря, машинное обучение позволяет автоматизировать процесс извлечения известных и неизвестных закономерностей из данных. Алгоритм машинного обучения выражает эти закономерности в виде формулы или инструкции, которые можно применить к новым и ранее неизвестным данным. Алгоритм изучает результаты и адаптирует свою работу в соответствии с новыми выявленными закономерностями. Такое обучение может выполняться контролируемо или неконтролируемо.
Контролируемые методы машинного обучения предполагают обучение на основе набора так называемых размеченных данных. Модель обучается, используя записи как о мошеннических, так и о легитимных операциях. После этого она пытается выработать набор функций или инструкций, способных подтвердить или опровергнуть факт мошенничества в новых образцах. Стандартные методы контролируемого машинного обучения включают логистическую регрессию, нейронные сети, дерево принятия решений, градиентный бустинг, случайные леса, опорные векторы (SVM) и т. д.
Неконтролируемое машинное обучение строится по другим принципам. Поскольку заранее неизвестно, какие данные относятся к мошенническим операциям, модель должна сама создать функцию, которая описывает структуру данных. Таким образом алгоритм помечает все данные, которые не вписываются в эту модель, как аномальные. Для обучения такой модели достаточно просто предоставить ей данные, и она попытается создать набор функций или инструкций, описывающих базовую структуру и параметры данных. Этот набор функций или инструкций затем можно применить к новым и ранее неизвестным данным.
С неконтролируемым методом обучения связана следующая сложность: зачастую очень трудно оценить, насколько точна схема обнаружения, пока данные не будут проверены вручную. К стандартным методам этого машинного обучения можно отнести самоорганизующиеся карты, метод k-средних, алгоритмы dbscan, ядерное сглаживание, одноклассовые SVM, метод главных компонент и т. д.
Давайте перейдем к искусственному интеллекту
Мы прошли долгий путь от статистического анализа до машинного обучения, и сегодня потенциал машинного обучения и искусственного интеллекта поистине огромен. Тем не менее, внедрение ИИ вызывает ряд опасений и сложностей, но вместе с тем на него возлагают большие надежды. Для получения дополнительных сведений ознакомьтесь с результатами исследования The Enterprise AI Promise. Оно основано на опросе руководителей 100 европейских организаций из различных индустрий: банков, страховых компаний, производственных предприятий, розничных компаний, государственных организаций и т. д. Исследование проводилось в августе 2017 года. Оно позволило оценить восприятие руководителями компаний потенциала технологий ИИ и понять, как компании используют такие технологии сегодня и планируют использовать в будущем, а также узнать о проблемах, с которыми они сталкиваются.
Рекомендуем прочитать
- Article Инновационные технологии с помощью Интернета вещей и искусственного интеллектаКто знал, что анализуя данные Интернета вещей можно найти лучший способ пробурить скважину? Или найти более быстрый способ остановить мошенничество в сфере здравоохранения?
- Article What do drones, AI and proactive policing have in common?Law enforcement and public safety agencies must wrangle diverse data sets to be effective in their operations. Intelligence analysts are using that data to apply machine learning and AI for more proactive policing.
- Article Stopping the Zika virus: The potential of big data, analyticsHow do you stop global outbreaks? The answer may be in the data about the disease and how it spreads.
- Are you covering who you think you’re covering? How rigorous are you in determining membership eligibility? If you are not diligent enough, you may be letting money slip out the door. In fact, by some estimates, between 4 and 18 percent of all health plan benefits are paid out in error due to eligibility fraud issues.