예측 분석

개념과 중요성

예측 분석은 데이터, 통계 알고리즘 및 머신 러닝 기술을 사용하여 과거 데이터를 기반으로 미래 결과의 발생 가능성을 식별합니다. 이 기술의 목표는 이미 일어난 일을 파악하는 것을 넘어, 미래에 어떤 일이 발생할지를 예측해 최선의 판단을 제공하는 것입니다.

예측 분석의 역사 및 현재 발전 단계

예측 분석은 수십 년 동안 활용되어 왔지만, 현재는 본격적인 기술 확산의 단계에 접어들었습니다. 점점 더 많은 조직이 높은 수익 창출과 경쟁 우위 확보를 위해 예측 분석에 의존하고 있습니다. 그렇다면 왜 지금일까요?

  • 데이터의 양과 유형이 증가
  • 데이터를 활용해 가치 있는 인사이트를 도출하려는 관심이 확대됨
  • 더 빠르고 저렴한 컴퓨터의 보급
  • 사용하기 쉬운 소프트웨어의 등
  • 경제 환경의 불확실성 증가와 경쟁력 있는 차별화의 필요성 대두

또한 인터랙티브하고 사용하기 쉬운 소프트웨어가 널리 보급되면서, 예측 분석은 더 이상 수학자와 통계학자만의 영역이 아닙니다. 오늘날에는 비즈니스 분석가와 사업 부문 전문가들도 예측 분석 기술을 활용하고 있습니다.

 

 


예측 분석이 중요한 이유는 무엇일까요?

많은 조직이 어려운 문제를 해결하고 새로운 기회를 발견하기 위해 예측 분석에 집중하고 있습니다. 예측 분석의 일반적인 용도는 다음과 같습니다.

사기 탐지. 다양한 분석 방법을 결합하면 패턴 감지를 개선하고, 범죄 행위를 식별하며, 사기를 방지할 수 있습니다. 사이버 보안에 대한 우려가 커지고 있는 가운데, 고성능 행동 분석은 네트워크의 모든 작업을 실시간으로 검사하여 사기, 제로데이 취약점 및 지능형 지속 위협의 가능성을 나타내는 이상 징후를 탐지합니다.

마케팅 캠페인 최적화. 예측 분석은 고객 반응이나 구매 가능성을 판단하고 교차 판매 기회를 촉진하는 데 사용됩니다. 예측 모델은 기업이 가장 수익성이 높은 고객을 유치하고 유지하며 늘리는 데 도움이 됩니다. 

운영 개선. 많은 회사가 예측 모델을 사용하여 재고를 예측하고 자원을 관리합니다. 항공사는 예측 분석을 사용하여 항공권 가격을 정합니다. 호텔은 특정 숙박 기간의 예상 투숙객 수를 예측하여 객실 점유율을 극대화하고 수익을 높입니다. 조직은 예측 분석을 통해 보다 효율적으로 운영 기능을 수행할 수 있습니다.

리스크 감소. 신용 점수는 구매자의 채무 불이행 가능성을 평가하는 데 사용되며, 예측 분석의 대표적인 예입니다. 신용 점수란 예측 모델이 개인의 신용도와 관련된 모든 데이터를 통합하여 생성해 낸 수치입니다. 그 외에도 보험 청구 및 추심 등 리스크와 관련하여 다양하게 사용됩니다.

오늘날의 예측 분석

예측 분석을 사용하면 무슨 일이 왜 일어났는지 알아내는 것을 넘어 미래에 대한 인사이트를 발견할 수 있습니다. 예측 분석이 우리가 살고 있는 세상을 어떻게 변화시키고 있는지 알아보세요.

Training

예측 분석 기술의 격차가 있나요?

원시 숫자를 가치 있는 인사이트로 전환하기 위해서는 AI, 머신 러닝 및 데이터 분석에 능숙한 전문가의 손길이 필요합니다. 하지만 인재는 늘 부족합니다. 이 딜레마를 해결하기 위한 전략을 확인해 보세요.

리포트 읽어보기

예측 분석 제대로 활용하기

조직의 데이터를 활용하여 동향을 살펴보고 예측해 봄으로써 무엇을 알게 될지 궁금하신가요? 분석을 통해 고객 인사이트를 확보하고, 더 나은 의사 결정을 내리며, 비즈니스를 성장시키고 있는 7개 조직의 사례를 읽어보세요.

E-Book 다운로드

Blue blog icon

통제할 수 없는 것을 예측하는 방법

자연재해는 언제나 발생합니다. 하지만 홍수와 같은 재해를 예측하고 대비함으로써 파괴적인 결과를 최소화할 수 있습니다. 조직이 AI와 예측 분석을 사용하여 세상을 보다 안전하게 만드는 방법을 알아보세요.

블로그 게시물 읽기

분석을 통한 가동 시간 개선 

검사실에서 의사, 임상의, 연구원에게 결과를 보내야 할 때 가동 중지 시간이 발생하면 감당하기가 어렵습니다. Siemens Healthineers가 SAS를 사용하여 시스템 가동 시간을 36% 향상시키는 예측 유지 보수 솔루션을 개발한 사례를 확인해 보세요.

사례 읽기


 

예측 분석

SAS의 데이터 마이닝은 가장 까다로운 분석 과제를 해결하는 데 도움이 되도록 설계된 검증된 최첨단 알고리즘을 사용합니다.

SAS의 데이터 마이닝 소프트웨어에 대해 자세히 알아보기

어떤 산업에서 예측 분석을 활용하나요?

예측 분석은 다양한 산업에서 리스크를 줄이고 운영 효율을 높이며 수익성을 개선하는 데 활용되고 있습니다.

은행 및 금융 서비스

막대한 양의 데이터와 자금이 걸려 있는 금융 업계는 오래전부터 예측 분석을 도입하여 사기를 감지하고 줄여 왔으며, 신용 리스크를 측정하고, 교차/상향 판매 기회를 극대화하고, 고수익의 고객을 유지해 왔습니다. Commonwealth Bank는 분석 기술을 사용하여 트랜잭션이 승인되기 직전 40밀리초 이내에 사기 활동이 일어날 가능성을 예측합니다.

소매업

기저귀를 사는 남성들이 맥주를 동시에 구매한다는 유명한 연구 결과가 나온 이후, 전 세계 소매업체들은 수요 계획과 가격 최적화를 위해 예측 분석을 사용함으로써 프로모션 이벤트의 효과를 분석하고 소비자에게 가장 적합한 서비스를 결정하고 있습니다. Staples는 행동 분석을 통해 고객을 전반적으로 파악할 수 있는 고객 인사이트를 확보하여 137%의 ROI를 실현했습니다.

제조업

제조업체에 있어 품질 및 생산 실패를 초래하는 요인을 파악하고 부품, 서비스 자원 및 유통을 최적화하는 작업은 매우 중요합니다. Lenovo는 예측 분석을 사용하여 보증 클레임을 보다 잘 이해한 제조업체 중 하나로, 이 이니셔티브를 통해 보증 비용을 10~15% 절감할 수 있었습니다.

정부 및 공공 부문

정부는 컴퓨터 기술 발전과 관련하여 핵심 역할을 해왔습니다. 미국 인구조사국은 수십 년 동안 인구 동향을 파악하기 위해 데이터를 분석해 왔습니다. 정부는 이제 다른 많은 산업과 마찬가지로 예측 분석을 사용하여 서비스와 성능을 개선하고, 사기를 탐지 및 방지하며, 소비자 행동을 더 잘 이해하게 되었습니다. 또한 사이버 보안을 강화하기 위해 예측 분석을 사용합니다.

의료 서비스 산업

의료 업계는 클레임 사기를 감지하는 일 외에도 만성 질환의 위험이 가장 높은 환자를 식별하고 최선의 개입 지점을 찾기 위한 조치를 취하고 있습니다. 대형 약제 관리 기업인 Express Scripts는 분석을 통해 처방된 치료법을 준수하지 않는 환자를 식별하여 환자당 1,500~9,000달러를 절약하는 성과를 거두었습니다.

이 기술을 사용하는 산업에 대해 자세히 알아보십시오.

Magic 팀에 마법 같은 효과를 선사하다

Nate Silver와 토너먼트 예측 덕분에 스포츠 분석은 주목받는 분야가 되었습니다. NBA의 Orlando Magic 팀은 SAS 예측 분석을 사용하여 수익을 개선하고 선발 라인업을 결정합니다. Orlando Magic 조직의 비즈니스 사용자는 즉각적으로 정보에 액세스할 수 있습니다. 이제 Magic 팀은 경기와 좌석까지 가장 최신의 데이터를 시각적으로 탐색할 수 있습니다.

Orlando Magic 전체 사례 읽기

예측 텍스트 분석

전체 데이터의 약 90%는 비정형입니다. 이 모든 데이터에서 예측 분석을 활용해 인사이트를 도출하고 계신가요?

SAS의 텍스트 분석 소프트웨어에 대해 자세히 알아보기

작동 원리

예측 모델은 알려진 결과를 사용하여 다양한 데이터나 새로운 데이터의 값을 예측하는 데 사용할 수 있는 모델을 개발하거나 훈련합니다. 모델링은 입력 변수 집합에서 추정된 유의성을 기반으로 목표 변수(예: 수익)의 확률을 나타내는 예측 형태의 결과를 제공합니다.

이는 일어난 일을 이해하는 데 도움이 되는 설명 모델이나 주요 관계를 파악하고 어떤 일이 왜 일어났는지 알아내는 진단 모델과는 다릅니다. 분석 방법과 기법을 중점적으로 다루는 책은 수없이 많습니다. 이 주제를 심화하여 가르치는 전체 대학 커리큘럼도 있습니다. 하지만 여기서는 우선 몇 가지 기본 사항을 살펴보겠습니다.

예측 모델에는 두 가지 유형이 있습니다. 분류 모델은 클래스 멤버십을 예측합니다. 예를 들어, 누군가가 이탈할 가능성이 있는지, 권유에 응할지, 신용 리스크 상태가 양호한지 불량한지 등을 분류하려고 할 때 사용할 수 있습니다. 일반적으로 모델 결과는 0 또는 1의 형태로 나타나며, 1은 목표로 하는 이벤트입니다. 회귀 모델은 고객이 향후 1년 동안 얼마나 많은 수익을 창출할지, 또는 기계 부품이 고장 나기까지의 개월 수와 같은 수치를 예측합니다.

가장 널리 사용되는 예측 모델링 기법 세 가지는 의사결정트리, 회귀, 신경망입니다.

 

회귀(선형 및 로지스틱)는 통계학에서 가장 많이 사용되는 방법 중 하나입니다. 회귀 분석은 변수 간 관계를 추정합니다. 정규분포를 따른다고 가정할 수 있는 연속형 데이터에 적합하며, 대규모 데이터 세트에서 주요 패턴을 찾아내고 가격과 같은 특정 요인이 자산의 움직임에 얼마나 영향을 미치는지 결정하는 과정에 자주 사용됩니다. 회귀 분석을 통해 반응 변수 또는 Y 변수라고 불리는 숫자를 예측합니다. 선형 회귀 분석에서는 하나의 독립 변수를 사용하여 Y의 결과를 설명하거나 예측합니다. 다중 회귀 분석에서는 두 개 이상의 독립 변수를 사용하여 결과를 예측합니다. 로지스틱 회귀 분석에서는 다른 변수의 알려진 값을 기반으로 이산 변수의 알려지지 않은 변수를 예측합니다. 반응 변수는 범주형이므로 제한된 수의 값만 가정할 수 있습니다. 이진 로지스틱 회귀 분석에서는 반응 변수가 0 또는 1과 같은 두 가지 값만 갖습니다. 다중 로지스틱 회귀 분석에서 반응 변수는 낮음, 중간, 높음 또는 1, 2, 3과 같은 여러 수준을 가질 수 있습니다.

의사결정트리는 입력 변수의 범주에 따라 데이터를 서브셋으로 분할하는 분류 모델입니다. 이는 누군가의 의사 결정 경로를 이해하는 데 도움이 됩니다. 의사결정트리는 하나의 나무처럼 보이며, 각 가지는 여러 대안 중 선택지를 나타내고 각 잎은 분류 또는 결정을 나타냅니다. 이 모델은 데이터를 살펴보고 데이터를 가장 다른 논리적 그룹으로 나누는 하나의 변수를 찾으려고 합니다. 의사결정트리는 이해와 해석이 쉽기 때문에 널리 사용됩니다. 또한 누락된 값을 잘 처리하므로 예비 변수 선택에도 유용합니다. 따라서 누락된 값이 많거나 빠르고 쉽게 해석할 수 있는 답을 원한다면 트리부터 시작할 수 있습니다.

 

 

 

신경망은 매우 복잡한 관계를 모델링할 수 있는 정교한 기술입니다. 강력하고 유연하기 때문에 자주 사용됩니다. 데이터에서 비선형 관계를 처리할 수 있는 능력으로 인해 각광 받고 있으며, 데이터를 더 많이 수집할수록 점점 더 흔해지는 경향이 있습니다. 회귀 및 의사결정트리와 같은 간단한 기법으로 도출한 결과를 확인하는 데 자주 사용됩니다. 신경망은 패턴 인식과 일부 AI 프로세스를 기반으로 하며, 이는 매개변수를 그래픽으로 '모델링'합니다. 입력과 출력을 연결하는 수학적 공식이 알려지지 않거나, 예측이 설명보다 더 중요하거나, 훈련 데이터가 많을 때 효과적입니다. 인공 신경망은 원래 인간 뇌의 신경 생리를 모방하려는 연구자들에 의해 개발되었습니다.

그밖에 자주 언급되는 유명한 기술

베이지안 분석. 베이지안 방법은 매개변수를 무작위 변수로 취급하고 확률을 '믿음의 정도'로 정의합니다. 즉, 사건의 확률은 사건이 참이라고 믿는 정도를 의미합니다. 베이지안 분석을 수행할 때는 알 수 없는 매개변수의 확률 분포에 대한 사전 믿음으로 시작합니다. 데이터에서 정보를 알아낸 후에는 미지의 매개변수에 대한 믿음을 변경하거나 업데이트합니다.

앙상블 모델. 앙상블 모델은 여러 유사 모델을 훈련하고 그 결과를 결합하여 정확도를 높이고, 편향을 줄이며, 분산을 감소시키고, 새로운 데이터와 함께 사용할 최적의 모델을 식별하기 위해 생성됩니다.

그래디언트 부스팅. 그래디언트 부스팅은 데이터 세트를 여러 번 리샘플링하여 리샘플링된 데이터 세트의 가중 평균을 형성하는 결과를 생성하는 부스팅 접근 방식입니다. 의사결정트리와 마찬가지로 부스팅은 데이터 분포에 대한 가정을 하지 않습니다. 부스팅은 단일 의사결정트리보다 데이터에 과적합될 가능성이 적으며, 의사결정트리가 데이터에 상당히 잘 맞는 경우 부스팅이 적합도를 향상시키는 경우가 많습니다. (데이터를 과적합한다는 것은 변수를 너무 많이 사용해 모델이 지나치게 복잡해지는 것을 의미합니다. 과소적합은 그 반대를 의미합니다. 즉 변수가 충분하지 않아 모델이 지나치게 간단한 경우입니다. 두 경우 모두 예측 정확도가 떨어집니다.)

증분 응답(순 리프트 또는 업리프트 모델이라고도 함). 이러한 모델은 행동에 의해 발생하는 확률 변화를 모델링합니다. 이탈을 줄이고 다양한 마케팅 프로그램의 효과를 찾기 위해 널리 사용됩니다.

K-최근접 이웃(KNN). 이는 예측하려는 데이터로부터 가장 가까운 'k'개의 학습 예제를 기반으로 객체의 값이나 클래스 멤버십을 예측하는 비모수적 분류 및 회귀 방법입니다.

메모리 기반 추론. 메모리 기반 추론은 관찰 내용을 분류하거나 예측하는 k-최근접 이웃 기법입니다.

부분최소제곱법. 유연한 통계 기법으로서 모든 형태의 데이터에 적용할 수 있습니다. 입력이 상관관계가 있고 노이즈가 많거나, 출력이 여러 개이거나, 입력이 관측치보다 많을 때도 입력과 출력 간의 관계를 모델링합니다. 부분최소제곱법은 반응과 예측 변동을 모두 설명하는 요인을 찾습니다.

주성분분석. 주성분분석의 목적은 원래 변수에 가능한 한 많은 정보를 유지하는 일련의 변수에 대한 소수의 독립적인 선형 조합(주성분)을 도출하는 것입니다.

서포트 벡터 머신. 이 감독형 머신 러닝 기법은 관련 학습 알고리즘을 사용하여 데이터를 분석하고 패턴을 인식합니다. 분류와 회귀 모두에 사용할 수 있습니다.

시계열 데이터 마이닝. 시계열 데이터는 특정 간격(월별 매출, 일별 통화 건수, 시간당 웹 방문 수 등)으로 시간에 따라 타임스탬프가 부여되고 수집됩니다. 시계열 데이터 마이닝은 기존의 데이터 마이닝과 예측 기법을 결합합니다. 샘플링, 클러스터링, 의사결정트리와 같은 데이터 마이닝 기법은 예측을 개선하기 위해 시간이 지나며 수집된 데이터에 적용됩니다.

예측 분석을 시작하려면 무엇이 필요할까요?

분석 라이프사이클 활용 방법 자세히 알아보기

step1

예측 분석을 시작하기 위해서는 무엇보다도 해결해야 할 문제가 있어야 합니다. 과거를 바탕으로 미래의 무엇을 알고 싶으신가요? 무엇을 이해하고 예측하기 원하시나요? 예측을 어떻게 활용할지도 고려해야 합니다. 인사이트를 가지고 내려야 할 의사 결정은 무엇인가요? 어떤 조치를 취할 예정인가요?

step2

둘째, 데이터가 필요합니다. 오늘날의 세계에서는 다양한 출처의 데이터를 의미합니다. 트랜잭션 시스템, 센서로 수집된 데이터, 타사 정보, 콜센터 노트, 웹 로그 등이 이에 해당됩니다. 데이터 정리 및 분석 준비를 도와줄 데이터 전문가나 데이터 관리 경험이 있는 사람이 필요합니다. 예측 모델링 연습을 위해 데이터를 준비하려면 데이터와 비즈니스 문제를 모두 이해하는 사람이 있어야 합니다. 목표를 어떻게 정의하느냐는 결과를 해석하는 데 있어 필수적입니다. (데이터 준비는 분석 과정에서 가장 많은 시간이 소요되는 단계 중 하나라고 할 수 있습니다. 따라서 이에 대비해야 합니다.)

step3

그 후에 예측 모델 구축이 시작됩니다. 점점 더 사용하기 쉬운 소프트웨어가 나온다는 것은 더 많은 사람이 분석 모델을 구축할 수 있다는 의미입니다. 하지만 여전히 모델을 다듬고 최고의 성능을 내는 데 도움을 줄 수 있는 데이터 분석가가 필요합니다. 또한 모델을 배포하는 데도 도움을 줄 수 있는 IT 담당자가 필요할 수 있습니다. 즉, 선택한 데이터에 모델을 적용하는 것을 의미하며, 이를 통해 결과를 얻게 됩니다.

step4

예측 모델링에는 팀 접근 방식이 필요합니다. 해결해야 할 비즈니스 문제를 이해하는 사람들과 함께해야 합니다. 분석을 위해 데이터를 준비하는 방법을 아는 인재, 모델을 구축하고 다듬을 수 있는 인재, 모델 구축 및 배포에 적합한 분석 인프라를 갖추도록 도움을 줄 수 있는 IT 담당자가 필요하며, 이를 지원할 경영진은 분석 목표를 실현하는 데 도움을 줄 수 있습니다.