Machine Learning

기계 학습의 정의와 중요성

Machine Learning(기계 학습)은 분석 모델 구축을 자동화하기 위한 데이터 분석 기법의 일종으로, 데이터 반복 학습 알고리즘을 이용해 데이터에 감추어져 있는 인사이트를 정확히 찾아낼 수 있도록 해줍니다. 결국 이 말은 “명시적으로 프로그래밍(explicitly programmed) ”하지 않아도 컴퓨터가 스스로 학습할 수 있다는 것을 의미합니다.

Machine Learning의 반복적 측면이 중요한 이유는, 모델이 새로운 데이터에 노출되더라도 독자적으로 적응할 수 있기 때문입니다. 모델은 이전 계산을 활용한 학습을 통해 신뢰할 수 있는—그리고 지속적으로 활용할 수 있는—의사결정과 결과를 산출합니다. 비록Machine Learning이 신기술은 아니지만, 근래 들어 새로이 탄력을 받고 있는 것은 분명합니다.

새로운 컴퓨팅 기술이 속속 등장하는 덕분에, 오늘날의 Machine Learning은 과거의Machine Learning과는 상당히 다른 면모를 보이고 있습니다. 오랜 기간 다양한 Machine Learning 알고리즘이 사용되어 왔지만, 복잡한 수학적 계산을 빅데이터에 자동으로 적용하는 능력은 최근 들어서 개발된 것입니다. 다음은 널리 알려진 기계 학습 기술의 응용 사례입니다.

  • 대대적으로 보도되고 있는 Google 무인 자동차 - 기계 학습의 정수
  • Amazon과 Netflix 등의 온라인 상품 추천 시스템 - 일상 생활에서의 기계 학습 응용 사례
  • 회사/제품에 대한 Twitter 이용 고객들의 반응 파악 - 기계 학습과 언어 규칙 생성의 결합
  • 사기 적발 - 최근 들어 크게 이목을 끌고 있는 기계 학습의 대표적인 활용 사례

Machine Learning 에 대한 관심이 고조되고 있는 이유

Machine Learning에 대한 관심이 되살아나고 있는 이유는 무엇일까요? 바로 데이터 마이닝과 Bayesian 분석의 인기가 그 어느 때보다 높아진 것에서 그 원인을 찾아볼 수 있습니다. 즉, 이러한 현상은 가용 데이터의 크기와 다양성이 증가하고, 저비용으로 강력한 계산 처리가 가능해졌고, 데이터 스토리지 비용이 절감되는 등 제반 환경의 변화에 따른 것입니다.

이 모든 요인이 결합되어 더 크고 복잡한 데이터를—종종 초 대규모의—분석하고 더 신속 정확한 결과를 산출하는 모델을 빠르게—그리고 자동으로—생성할 수 있게 되었습니다. 그 결과, 인력의 개입 없이도 더 효과적인 의사결정과 현명한 행동을 실시간으로 이끌어낼 수 있는 고도의 예측이 가능해졌습니다.

실시간으로 현명한 행동을 도출할 수 있는 비결은 바로 모델 구축 자동화에 있습니다. 저명한 분석 전문가 Thomas H. Davenport는 The Wall Street Journal에서 “데이터의 변화무쌍함과 급증하는 양을 따라잡기 위해서는 빠른 속도의 모델링 스트림이 필요하다”고 말했는데, 이것을 가능하게 해주는 것이 바로 기계 학습입니다. “인력을 활용하면 보통 일주일에 한두 개의 양질의 모델을 생성할 수 있지만, 기계 학습은 같은 기간에 수천 개의 모델을 생성할 수 있습니다.”

기계 학습에 관한 추가 정보

     

    딥 러닝(Deep Learning)이란?

    딥 러닝은 기계 학습의 한 영역으로, 특히 음성/텍스트/이미지 인식 분야에서 획기적인 발전을 거듭하며 급성장하고 있습니다. 기본 원리는 다수의 히든 레이어를 갖춘 신경망을 통해 컴퓨터가 태스크를 학습하고 정보를 체계화하여 스스로 패턴을 찾아낼 수 있게 하는 것입니다. 최근에 SAS는 기계 학습의 해묵은 과제인 MNIST 데이터베이스(수천 개의 필기체 숫자 이미지를 포함하는 데이터세트)에 대한 연구에 착수한 바 있습니다.

    웨비나: 생각하는 기계 – 딥 러닝의 실험에서 SAS의 연구 내용을 소개하고 딥 러닝의 미래를 전망해 봅니다.

    기계 학습 활용 분야

    고객이 관심을 가질 만한 상품을 즉석에서 제시하는 온라인 소매업체. 그리고 대출 문의에 준 실시간으로 응답하는 대출 기관. 이것이 어떻게 가능할 수 있을까요? 다음은 우리의 일상 활동에 도움을 주는 다양한 기계 학습 알고리즘입니다.

    • 사기 적발.
    • 웹 검색 결과.
    • 웹 페이지와 모바일 기기를 활용한 실시간 광고.
    • 텍스트 기반의 감성 분석.
    • 신용 평가 및 NBO(Next-Best Offers).
    • 설비 고장 예측.
    • 새로운 가격 결정 모델.
    • 네트워크 침입 탐지.
    • 패턴 및 이미지 인식
    • 이메일 스팸 필터링.

    Video Timeout – 패턴 인식

    오늘날 기계 학습은 패턴 인식에 널리 사용되고 있는데, 그 이유는 다양한 유형의 이미지를 인식할 수 있기 때문입니다. 일례로, 미국 우정청(US Postal Service)은 필기체 인식에 기계 학습 기법을 사용하고 있습니다. 이 짧은 동영상은 SAS® Enterprise Miner를 이용해 손쉽게 패턴 인식을 구현하는 방법을 보여줍니다.

    가장 널리 사용되는 기계 학습 기법

    가장 널리 사용되는 기계 학습 방법은 지도 학습(supervised learning)비지도 학습(unsupervised learning)입니다. 기계 학습의 대부분(약 70%)이 지도 학습이며, 자율 학습은 약 10~20%를 차지합니다. 이 밖에도 반지도(semi-supervised ) 및 강화 학습(reinforcement learning)이 가끔씩 사용됩니다.

    • 지도 학습: 알고리즘은 트레이닝에 labeled 샘플을 사용합니다(가령, 목표 출력값이 있는 입력). 예를 들어, 임의의 장치는 “F”(failed) 또는 “R”(runs)이라는 목표값이 있는 데이터 포인트를 가질 수 있습니다. 학습 알고리즘은 일련의 입력값과 그에 상응하는 목표 출력값을 수신하고, 실제 출력값과 목표값을 비교하는 학습을 통해 오류를 찾아냅니다. 그런 다음 이 결과를 근거로 모델을 수정합니다. 지도 학습은 분류, 회귀, 예측, 변화도 부스팅 등의 기법을 적용하고 패턴을 사용해서 추가의 unlabeled 데이터에 대한 목표값을 예측합니다. 지도 학습은 과거의 데이터로 미래 이벤트를 예측해야 하는 경우에 주로 사용되는데, 실제로 신용 카드 거래의 사기성 여부나 보험 가입자의 보험금 청구 가능성을 미리 예측할 수 있습니다.
    • 비지도 학습: 사전 정보가 없고 입력에 대한 목표치가 주어지지 않으며, “정답”이 없는 데이터를 학습에 이용합니다. 따라서 알고리즘은 현재 보여지고 있는 이미지가 무엇인지 알아내고, 궁극적으로 데이터를 탐색하여 내부 구조를 파악해야 합니다. 자율 학습은 특히 트랜잭션 데이터에서 효과를 발휘합니다. 예를 들어 유사한 속성을 지닌 고객 세그먼트를 파악한 후, 그 유사성을 근거로 하여 마케팅 캠페인에서 고객 세그먼트를 관리할 수 있습니다. 또는, 각각의 고객 세그먼트를 구분 짓게 해주는 주된 속성을 찾을 수도 있습니다. 널리 사용되는 기법에는 자기 조직화 맵(Self-Organizing Map), Nearest Neighbor 매핑, K-means 클러스터링, 특이값 분해 등이 있는데, 이 알고리즘들은 텍스트 토픽을 분류하고, 품목을 추천하고, 데이터 이상점을 파악하는 데에도 활용됩니다.
    • 반지도 학습(Semi-Supervised Learning): 지도 학습과 동일한 응용 분야에 사용되지만, labeled 데이터와 unlabeled 데이터를 모두 트레이닝 에 사용한다는 점에서 차이가 있습니다. labeled 데이터는 소규모로, unlabeled 데이터는 대규모로 사용되는 것이 일반적인데, 그 이유는 unlabeled 데이터를 확보하는데 비용과 노력이 덜 들기 때문입니다. 이런 유형의 학습 기법은 분류, 회귀, 예측 등의 기법과 함께 사용할 수 있습니다. 특히 labeling 비용이 너무 높아서 labeled 트레이닝 프로세스가 불가능한 경우에 반지도 학습이 유용합니다. 이 기법을 응용한 초기 사례로는 웹 캠을 이용한 개인 안면 인식 기술이 있습니다.
    • 강화 학습(Reinforcement Learning): 로보틱스, 게임, 내비게이션 등에 사용되며, 알고리즘이 시행착오를 거쳐 어떤 행동이 최대의 보상을 산출하는지 알아냅니다. 이 유형의 학습은 에이전트(학습자 또는 의사 결정자), 환경(에이전트가 상호작용하는 모든 대상), 행동(에이전트가 수행할 수 있는 일) 등 세 가지 주요 요소로 구성됩니다. 목표는 에이전트가 주어진 특정 시간 동안에 기대되는 보상을 극대화하는 행동을 선택하도록 하는 것입니다. 에이전트가 효과적인 정책을 따른다면 훨씬 더 빨리 목표점에 도달하게 됩니다. 따라서 강화 학습의 목표는 최선의 정책을 학습하는 것이라고 할 수 있습니다.

    데이터 마이닝, 기계 학습, 그리고 딥 러닝의 차이점

    기계 학습과 기타의 통계적·수학적 접근법(데이터 마이닝을 포함한) 간의 차이가 또 다른 논쟁거리를 만들어내고 있습니다. 간단히 말하면, 기계 학습은 데이터 마이닝과 마찬가지로 다양한 알고리즘과 기법을 사용하지만, 예측하는 대상에서 차이가 납니다.

    • 데이터 마이닝은 지금까지 알려지지 않았던 패턴과 지식을 발견합니다.
    • 기계 학습은 알려진 패턴과 지식을 복제하고, 이를 다른 데이터에 자동 적용한 다음, 다시 그 결과를 의사결정 및 행동에 자동 적용합니다.

    오늘날 데이터 마이닝 기법을 기계 학습에 사용할 수 있게 된 것은 컴퓨터의 성능 향상 덕분이라고 할 수 있습니다. 일례로, 신경망이 데이터 마이닝 애플리케이션에 사용된 지는 이미 오래 되었지만, 컴퓨팅 능력이 향상되면서 다수의 계층을 가진 신경망을 생성할 수 있게 된 것입니다. 이것을 기계 학습 용어로 ‘딥 신경망(deep neural networks)’이라고 합니다. 자동화 학습을 위해 다수의 신경망 계층을 빠르게 처리할 수 있게 된 것은 컴퓨팅 능력이 향상된 덕분입니다.

    여기서 한 단계 더 발전한 형태인 ANN(Artificial Neural Networks)은 우리 인간의 뇌 구조를 본뜬 알고리즘들로 구성되어 있습니다. 이론적으로 ANN은 데이터 세트 내의 어떠한 유형의 상관 관계도 모델링할 수 있지만, 실제로는 신경망에서 신뢰할 수 있는 결과를 얻어 내기란 쉽지 않습니다. 1950년대까지 거슬러 올라가는 인공 지능 연구는 신경망의 성공과 실패로 점철되어 왔습니다.

    하지만 오늘날에 와서는 딥 러닝(deep learning)으로 알려진 새로운 신경망 연구 분야가 과거에 수많은 인공 지능 기술이 실패를 겪었던 영역에서 엄청난 성공을 거두고 있습니다.

    딥 러닝은 컴퓨팅 능력과 특수한 유형의 신경망에서 이룩한 발전을 접목시켜 대규모 데이터에서 복잡한 패턴을 학습합니다. 현재 이 기술은 이미지에서 사물을, 사운드에서 단어를 식별하는 첨단 기술로 각광받고 있습니다. 또한 연구자들은 패턴 인식에서 거둔 성공을 더욱 복잡한 태스크(자동 언어 번역, 의학적 진단, 기타의 여러 사회/비즈니스 문제 등)에 적용하는 방법을 모색 중에 있습니다.

    혹시 알고 계셨나요?

    • 기계 학습에서는 목표값을 레이블(label)이라고 합니다.
    • 통계에서는 목표값을 종속 변수라고 합니다.
    • 통계에서 말하는 변수를 기계 학습에서는 피처(feature)라고 합니다.
    • 통계에서 말하는 변환을 기계 학습에서는 피처 생성이라고 합니다.

    우수한 기계 학습 시스템을 만들려면 무엇이 필요한가?

    1. 데이터 준비 능력.
    2. 알고리즘 – 기본 및 고급.
    3. 자동화/반복 프로세스.
    4. 확장성.
    5. 앙상블 모델링.

    기계 학습 알고리즘과 프로세스

    알고리즘

    SAS 그래픽 유저 인터페이스는 사용자가 쉽게 기계 학습 모델을 생성하고 반복 기계 학습 프로세스를 구현할 수 있도록 도움을 줍니다. 통계 전문가가 아니라도 무방합니다. 또한 SAS가 엄선해서 제공하는 다양한 기계 학습 알고리즘(다수의 SAS 제품에 포함)이 빅데이터를 즉각 활용할 수 있게 해줍니다. SAS 기계 학습 알고리즘은 다음과 같습니다.

    • 신경망.
    • 의사결정 트리.
    • 랜덤 포레스트.
    • 조합 및 수열 탐색.
    • 그래디언트 부스팅 및 배깅.
    • SVM(Support Vector Machines).
    • Nearest Neighbor 매핑.
    • K-means 클러스터링.
    • 자기 조직화 맵(Self-Organizing Maps).
    • 지역 검색 최적화 기법 (예: 유전 알고리즘).
    • EM 알고리즘 (Expectation Maximization).
    • MARS (Multivariate Adaptive Regression Splines).
    • 베이지안 네트워크 (Bayesian Network).
    • 커널 밀도 추정.
    • 주성분 분석.
    • 특이값 분해.
    • 가우스 혼합 모델.
    • 순차적 커버링(Sequential Covering) 규칙 구성.

    툴과 프로세스

    단지 알고리즘의 문제가 아니라는 것을 이제 우리는 알고 있습니다. 궁극적으로, 빅데이터의 가치를 극대화하기 위해서는 당면 과제를 해결하기 위한 최적의 알고리즘을 다음과 같은 능력에 결합할 수 있어야 합니다.

    • 종합 데이터 품질 관리.
    • 모델 생성과 프로세스 플로를 위한 GUI.
    • 대화형 데이터 탐색과 모델 결과의 시각화.
    • 최상의 모델을 신속히 파악하기 위한 다양한 기계 학습 모델의 비교.
    • 최상의 모델을 파악하기 위한 자동화 앙상블 모델 평가.
    • 손쉬운 모델 배치 - 지속적으로 사용 가능하고 신뢰할 수 있는 결과를 신속히 얻을 수 있도록 해줍니다.
    • Data-to-Decision 프로세스의 자동화를 위한 통합 엔드 투 엔드 플랫폼.

    기계 학습과 관련한 SAS의 풍부한 경험과 기술력

    SAS는 항시 신기술을 개발하고 평가하는 데 전념하며, 고객들이 직면한 문제를 해결할 수 있도록 최고의 통계 기법을 구현하는 일에 오랫동안 혼신의 힘을 쏟아 왔습니다. 당사는 통계와 데이터 마이닝 분야에서 축적한 풍부한 경험과 고도의 기술력, 그리고 최첨단 아키텍처를 한데 결합하여 고객이 분석 모델을—심지어 대기업 환경에서도—최대한 신속하게 가동할 수 있도록 도움을 제공합니다.

    Time-to-Value 를 단축하기 위해서는 단지 빠르고 자동화된 모델 성능뿐 아니라—특히 빅데이터가 관련된 경우—플랫폼 간의 데이터 이동에 시간이 낭비되지 않도록 해야 한다는 것을 우리는 잘 알고 있습니다. 이에 SAS는 하이 퍼포먼스 분산 분석 기술을 적용, Hadoop을 비롯한 모든 주요 데이터베이스에 통합된 대규모 병렬 프로세싱 기술을 최대한 활용할 수 있도록 하고 있습니다. 또한 사용자는 데이터 이동 없이 모델링 프로세스 전 단계를 신속하게 수행할 수 있습니다.

    SAS 기계 학습 솔루션

    더 다양한 인사이트를 원하십니까?

    Big Data Insights

    Big Data (영문)

    보도자료, 리서치, 리소스 등, 빅데이터에 관한 다양하고 유용한 정보가 준비되어 있습니다.

    Fraud & Risk Insights

    리스크 & 사기 (영문)

    리서치, 기사 등 각종 유용한 정보를 통해 리스크와 사기에 관한 새로운 인사이트를 알아보세요.

    Marketing Insights

    마케팅 (영문)

    저명한 마케팅 연구 기관이 최신 이슈들에 관한 연구조사를 실시했습니다. 리서치 보고서를 통해 값진 인사이트를 얻어보십시오.

    Back to Top