NEWS
보도자료
특집기사
SAS Intelli-Zine
SASCOM 매거진
뉴스레터 신청

Text Analytics 101

비구조화 데이터(즉, 텍스트와 이미지)와 분석 프로세스 통합에 의한 의사결정 능력 강화

지금 조직들은 데이터라는 거대한 홍수에 파묻혀 있다. 기가바이트, 테라바이트, 페타바이트 규모의 데이터들이 매일같이 운영/거래 시스템에서 대량으로 쏟아져 나오고 있으며, 수많은 데이터들이 데이터베이스를 통해 유입되어 분석과 보고의 형태로 전달된다. 이제 엑사바이트, 제타바이트, 요타바이트의 시대의 도래도 머지않아 보인다.

하지만 문제는 이것이 빙산의 일각이라는 사실이다. 일각에서는 이 같은 구조화 데이터(가령 수치 데이터)가 조직에서 통용되는 전체 정보 중 약 25% 정도만을 차지한다고 주장한다. 결국 나머지 70% 이상은 온라인과 오프라인 소스에서 수집된 비정형 텍스트, 이미지, 오디오, 비디오 같은 비구조화 데이터가 차지하고 있는 셈이다. 더욱이 2~3년 내에 이런 유형의 데이터가 35~45% 더 증가할 것으로 예상된다.

비구조화 데이터는 웹 문서, 통신문, 고객지원 센터 기록, 소셜 미디어, 블로그, 클레임, 고객 불만 사항 등 다양한 소스를 통해 수집된다. 나머지 5%의 정보는 비정형 데이터와 구조화 데이터가 혼합된 반구조화 데이터인 것으로 여겨진다. 가령 이메일이 구조화 데이터인 헤더와 비구조화 텍스트인 본문으로 구성되는 것을 예로 들 수 있겠다.

방대한 텍스트와 이미지 속에 숨겨진 통찰을 제대로 활용할 경우 조직은 과연 어떤 이점을 누릴 수 있을까? 서너 배나 더 많은 정보를 이용할 경우 얼마나 풍부한 통찰을 획득할 수 있을지 한 번 상상해 보라. 또, 유용한 컨텐츠를 손쉽게 찾아서 활용하고 이를 분석 프로세스에 자동으로 포함시킬 수 있다면 지식 공유와 의사 결정의 질은 획기적으로 개선될 것이다.

이 시점에서 필요한 것이 바로 텍스트 분석이다. 텍스트 분석은 관련 정보를 추출, 해석, 마이닝, 구조화하여 문서들 간의 패턴과 정서(또는 심리) 및 관계를 밝혀내는 역할을 한다. SAS Text Analytics 프레임워크는 크게 다음 네 가지의 요소로 구성된다.

• 자동 컨텐츠 분류 – 수작업보다 훨씬 빠르고 효과적으로 정보를 검색할 수 있다.

• 온톨로지 관리 - 관계를 일관성 있고 체계적으로 정의함으로써 텍스트 리포지토리의 연계를 가능하게 한다.

• 정서(sentiment) 분석 - 인터넷 상의 소셜 네트워킹 사이트, 코멘트, 블로그 등 온라인 자료와 내부 전자 문서에서 정서에 관한 정보를 자동 추출한다.

• 텍스트 마이닝 - 비구조화 데이터를 조사하여 감추어져 있던 개념과 패턴을 발견할 수 있게 해주는 강력한 수단을 제공한다.

과연 기계가 인간의 언어와 비정형 데이터의 뉘앙스를 해석하고 이를 유의미한 구조화 분석에 활용할 수 있을 것인가? 이것이 바로 Applying Business Analytics 시리즈 SAS 웨비나에서 다룬 주제였다. SAS의 글로벌 제품 마케팅 매니저 Fiona McNeill이 텍스트 분석에 대해 자세히 설명하고 여러 분야 기업들의 기술 응용 사례를 제시한다. 또, SAS Business Analytics Practice 비즈니스 담당 상무이사인 Kathy Lange은 자연어 처리의 작동 원리를 설명하고 주요 텍스트 분석 기능을 부분적으로 시연해 본다.

텍스트 분석의 다섯 가지 기본 개념

1. 가용 데이터의 70%가 비구조화 데이터이고 일부는 구조화 데이터와 비구조화 데이터가 혼재되어 있는 현실을 감안할 때, 보다 효과적이고 정확하게 컨텐츠를 관리하고 비즈니스를 파악하기 위해서는 이 데이터를 제대로 활용할 수 있어야 한다.

2. 텍스트 분석에는 컴퓨터 소프트웨어가 사용되고, 그 용도는 다음과 같다.

• 비구조화 데이터 소스로부터 정보를 추출하고 주석을 단다.
• 자료에 담긴 엔티티, 개념, 사실, 속성, 태도(또는 견해)를 파악한다.
• 문서에서 새로운 주제와 패턴을 발견한다.
• 문서를 분류?연계하여 검색 시 연관성의 신뢰도를 높인다.

3. 텍스트 분석에는 데이터를 조사하여 그 안에 담긴 지식을 밝혀내는 발견 주도형(discovery-driven) 기법과, 이미 알고 있는 지식(knowledge)이 문서의 어느 곳에서 드러나는 지 파악하는 도메인 주도형(domain-driven) 기법이 있다.

4. 텍스트 분석은 다음의 여러 분야와 연관성을 갖는다.

• 인공 지능(AI) 분야의 한 분과인 자연어 처리는 컴퓨터 과학과 언어학을 결합함으로써 음성 언어 또는 문자 언어에서 유의미한 개념, 속성, 견해를 파악해낸다.
• 구조화 데이터에 사용되는 것과 같은 정밀한 분석 프로세스(모델 생성, 테스트, 검증, 배포, 평가)를 통해 고급 언어 규칙을 문서에 적용한다.
• 텍스트 마이닝은 컴퓨터 언어와 정보 검색을 포함한 몇 가지 분야의 기법을 활용함으로써 텍스트를 전통적인 데이터 마이닝 및 예측 분석에 사용할 수 있는 숫자 표현 방식으로 구조화한다.

5. 텍스트 분석 툴을 사용하면 언어 규칙을 발견하고 형식화하여 자동으로 일관성 있게 문서를 판독할 수 있을 뿐 아니라 조사를 위한 질문에 대한 보다 정확한 답을 제시할 수 있다.

실무에서의 텍스트 분석

텍스트 분석은 다음의 두 가지 방향으로 접근이 가능하다고 McNeill은 설명한다.

• 발견 주도형. 어디서 시작해야 할지 모를 경우 발견 주도형 접근법은 비구조화 데이터에서 핵심 패턴과 속성을 파악하는 데 도움을 준다. 그리고 이러한 조사 방식을 통해 새로운 통찰을 얻고, 이를 바탕으로 사용할 범주나 개념 같은 구조를 정의할 수 있다.

• 도메인 주도형. 어떤 어구와 문구가 유의미한지 관련 데이터나 도메인 지식을 이미 파악하고 있는 경우, 어느 자료에 이 지식(knowledge)이 위치하고 있는 지 찾아낼 수 있다.

McNeill은 “두 방식 모두 타당한 근거가 있는데, 더 중요한 것은 이 두 가지가 서로 보완적 관계를 갖는다는 사실이다” 라고 설명하면서 다음과 같이 덧붙였다. “개념 발견은 데이터 구조나 분류법(taxonomy)을 정의하는 데 이용할 수 있다. 한편, 사전 정의된 구조에 들어맞지 않는 컨텐츠의 경우 추가의 발견 주도형 조사를 통해 지금까지 모르고 있던 정보를 찾아낼 수 있다.”

McNeill은 공공/민간부문, 제조, 금융, 보건의료 등을 망라한 다양한 분야의 조직들이 이러한 접근법을 저마다 창의적인 방식으로 사용하고 있다고 얘기하면서 십여 개 조직의 성공 사례를 소개한다.

제조업

위스콘신주 매디슨 시의 Sub-Zero는 신속하게 결함을 확인하여 (궁극적으로는) 고객 만족도를 높일 목적으로 품질 보증 분석 프로세스를 실행하였습니다(8페이지 참조). 그러나 신뢰성 엔지니어

• 어느 고급 주방기구 제조업체는 텍스트 분석 기법을 활용, 품질보증 청구 데이터를 자동으로 분석하고 문제 발생의 소지가 있는 패턴들을 찾아낸다. 그리고 회사는 사전 예방 차원에서 이 정보를 제품 엔지니어에게 보내어 조사를 의뢰한다. 이 같은 조기 경보 시스템은 초기 단계서부터 문제를 적극적으로 해결함으로써 다른 고객에게 부정적인 영향이 미치지 않도록 한다.

• 어느 일류 IT 제조업체는 텍스트 분석 기법을 사용하여 수백만 개의 소스에서 수집된 정보를 자동으로 분류한다. 원래 콜 센터에만 300,000여 개 이상의 레코드가 존재하고, 여기에 더해 이메일, 고객 설문조사, 청구, 피드백 등의 데이터가 지속적으로 증가하고 있었다. 정보 규모가 너무나 방대하기에 이를 수동으로 분석한다는 것은 마치 <전쟁과 평화> 500부의 분량을 읽는 것처럼 거의 불가능한 일이었다. 하지만 자동화된 컨텐츠 분류 기술 덕분에 종래에는 수시간이 걸리던 작업을 이제는 95%의 정확도로 수분 내에 처리할 수 있게 되었다.

“저장된 문서를 수동으로 읽어서 정보를 찾아내던 시절은 이제 끝났다. 이 같은 성과는 텍스트 분석 기법이 있기에 가능했다. 더욱이 수집된 자료들을 전체적 맥락에서 조사할 수 있으므로 각 문서를 따로 검토할 때 드러나지 않는 패턴까지도 발견할 수 있게 되었다.”
- SAS 제품 마케팅 매니저 Fiona McNeill

정부기관과 리서치

• 한 아시아 정부 기관의 능률팀(efficiency unit)에서는 텍스트 분석을 사용하여 매년 접수되는 250만 건 이상의 전화문의와 100,000건에 가까운 이메일, 불만, 문의 건을 분석한다. 현재 이 부서는 관련 정부 부서에 영향을 줄 소지가 있는 사회 또는 공공 보건 문제를 사전에 파악함으로써 서비스 질을 개선하고 있으며, 그 결과 이 기관은 “Best Public Service Information and Communications Technology” 상을 수상하기도 했다.

• 한 연방 기관의 국가 안보 R&D 팀이 텍스트 분석 기술을 사용하여 날로 규모가 증가하는 리서치 및 과학 논문에서의 정보 검색 방식을 획기적으로 개선했다. 이제 사용자는 원하는 문서를 빠르고 정확하게 액세스할 수 있음은 물론 부서가 보유한 지식 베이스의 가치가 크게 상승하고 있다.

보건 및 생명 과학

• 한 건강 보험 회사는 텍스트 분석 기술을 활용해서 보험금 청구 정보를 분석함으로써 여러 직종의 보건·안전 문제를 보다 정확하게 파악하고 사업장 상해 및 사고를 미연에 방지하고 있다. 실제로 텍스트 분석으로 보다 효과적인 예방 조치가 가능해졌고, 종래의 코드 매칭이나 다른 어떤 구조화 분석을 통해서도 찾아낼 수 없었던 600건의 사건을 새로 규명할 수 있었다.

• 대규모 제약회사 한 곳은 디지털 정보 스토어의 컨텐츠를 자동으로 분류하여 자료를 최신 상태로 유지하는 데 소요되는 시간을 획기적으로 단축할 수 있게 되었다. 동시에 건강 상태, 치료법, 진행 중인 리서치와 관련된 중요 정보의 검색이 매우 용이해졌다.

미디어/출판

• 20여 개 이상의 주요 시장에서 활동하는 한 신문사는 텍스트 분석 기술을 활용하여 뉴스 피드와 사용자 제작 컨텐츠를 바탕으로 신문의 컨텐츠와 토픽을 항시 최신 상태로 유지하고 있다. 특히 이 언론사는 웹사이트 네트워크 내의 전자 문서 조직을 완전 자동화함으로써 헤드라인에 중요 검색어가 나타나지 않을 때에 조차 검색 엔진에서의 게재 순위를 높일 수 있었다.

• 한 글로벌 출판사는 텍스트 분석 기술을 활용해서 전세계 3,000만 명 이상의 사용자들을 대상으로 서비스를 제공하고 있으며, 십여 개의 언어로 작성되고 각각 수백만 개의 레코드를 포함하고 있는 20개 문서 데이터베이스에 대한 액세스 품질을 획기적으로 개선할 수 있었다. 또한 텍스트 분석 기술은 제품 라인 관리 개선, 지속적인 정보 추적, 통합 검색 지원 등을 가능하게 해주었다.

금융

• 텍스트 분석 기술을 활용하는 유럽의 한 금융 서비스 회사는 전통 방식의 신용 평가 기관 평점 데이터에서 더 많은 유용한 정보를 추출하고, 이를 바탕으로 자사의 온라인 소셜 렌딩(social lending) 네트워크에서 대출자와 차입자의 요구사항을 보다 효과적으로 조율할 수 있게 되었다. 또한 이 회사는 소셜 네트워크 프로파일의 데이터가 대출 신청자의 신용을 평가하는 데 큰 도움이 된다는 사실을 알게 되었다.

• 텍스트 분석을 활용하는 세계 유수의 한 은행이 자금 지원 프로그램 지원을 위해 십여 가지 언어로 된 수백만 건의 문서들을 체계화하고 있다. 요청 지원을 자동화함에 따라 문서 검색 능률이 시간당 3건에서 50,000건으로 대폭 향상되었다.

e-비즈니스

• 한 온라인 잡서치 업체의 직원들은 더 이상 많은 수작업과 시간을 들여 채용 정보를 정리하고 이를 이력서와 짜맞출 필요가 없게 되었다. 텍스트 분석 기술은 문서들이 Word, PDF, HTML 등 서로 다른 스타일로 작성되었거나 서로 다른 포맷으로 저장된 경우라도 95% 이상의 정확도로 이력서와 채용 정보를 자동으로 매치시켜 준다. 또한 관련 Notification Trigger 기능을 이용하여 원하는 후보자와 더 신속하게 접촉할 수 있다.

• 어떤 메타 검색 회사(여러 다른 검색 엔진에서 최상의 검색 결과를 수집하는)는 텍스트 분석 기술을 통해 크롤링, 색인, 매칭, 스펠링 오류 수정, 정보 분류 등과 같은 작업을 수행한다. 텍스트 분석 덕분에 검색 속도와 결과의 연계성이 개선되었으며, 이는 다시 광고주에 대한 회사의 가치를 획기적으로 높이는 계기가 되었다.

자연어 처리에 대한 심층적 고찰

자연어 처리(NLP)는 컴퓨터 과학과 언어학을 결합하여 음성 언어 또는 문자 언어에서 유의미한 개념과 속성을 파악해내는 작업으로, 텍스트 분석의 맥락에서 보면 이 분석은 대부분의 전자 문서에 적용된다고 할 수 있다. 가장 단순한 형태의 자연어 처리의 경우 다음과 같은 다양한 유형의 규칙을 따른다.

• 스타일 컨벤션(style conventions)은 단어나 문장의 시작과 끝을 나타내며, 각 언어별로 고유한 규칙을 가지고 있다. 예를 들어, 영어에서는 문장의 첫 글자를 대문자로 표기하지만, 독일어에서는 모든 명사를 대문자로 표기한다. 또, 영어에서는 공백과 구두점으로 단어를 분리하지만 중국어에서는 이런 규칙이 적용되지 않는다.

• 문장의 구조는 명사, 형용사, 부사 등과 같은 품사를 결정한다. 예: “the team can service eight cars per hour”와 “the team has enhanced its service protocol”에서 service의 용도 차이.

• 자동차 수리 서비스(car repair services)와 종교 의식(religious services), 또는 아마존(Amazon) 강과 전자 상거래 업체 아마존(Amazon)의 경우처럼 구별하기가 모호한 어구는 문맥에 따라 해석을 해야 한다.

■ 텍스트 분석은 전자 텍스트 자료로부터 통찰을 도출해내고 이를 연계시킴으로써 올바른 사용자와 장소에 전달될 수 있도록 한다. 그런 다음, 필요한 후속 작업 단계가 무엇인지—가령, 복잡한 검색 문제를 해결하거나, 내/외부 웹 사용자에게 관련성 있는 컨텐츠를 제시하거나, 어떤 문구가 정서나 심리에 가장 큰 영향을 미칠 지 예측하는 등— 알 수 있도록 인텔리전스를 제공한다.

• 내장 리스트에는 다음과 관련된 정보가 저장된다: 엔티티(인식 가능한 사람, 장소, 조직, 화폐 유형 등), 어간(단어의 복수, 과거 및 미래 시제 변형 등), 동의어(동일한 의미를 지닌 서로 다른 단어들), 맞춤법(필요에 따라 자동 수정 기능을 사용 또는 미사용), 필터링(접속사와 같이 관련성이 없는 단어는 무시).

일부 초기 형태의 자연어 처리에서는 범주화된 데이터의 구조화 필드에서 엄격한 if-then 규칙을 생성하는 의사결정 트리 같은 기계 학습(machine learning) 알고리즘을 사용되었다. 그런 다음 우도 통계치(likelihood statistics)와 개연성을 근거로 범주에 가중치가 할당된다.

요즘의 텍스트 분석 기술은 단순히 관계형 필드로 구조화된 단어를 카운팅하고 비교하는 작업에만 그치지 않는다. 대신, 비정형 비구조화 텍스트에서 단어 상호간의 관계를 평가하여 보다 심층적인 수준에서 컨텍스트를 파악한다. 예컨대, 텍스트 분석은 다음과 같은 작업을 수행할 수 있다.

• 실제로 죽음과는 관련이 없는 “blue screen of death(죽음의 파란 화면)”와 같은 추상적 개념을 파악한다.

• 팩트를 추론해냄으로써 “Driver A was hit by Driver B”와 “Driver A hit Driver B” 간의 차이를 구별한다.

• 컨텐츠가 긍정, 부정, 혼합, 중립 등 어떤 정서를 표현하는지 가리키는 태도의 극성(polarity)을 식별한다.

이러한 능력에 보다 진보된 처리 능력이 더해짐으로써 방대한 데이터에 대한 텍스트 분석을 통해 현실 세계의 문제를 해결하는 것이 가능해졌다.

Text Analytics 가이드

이제부터 Lange가 전하는 SAS Text Analytics의 기능을 일부 살펴보도록 하자. 솔루션의 주요 특징을 소개하고 있는 Text Analytics 101 웨비나는 www.sas.com/reg/web/corp/907006에서 온디맨드로 볼 수 있다.

다음은 Lange의 데모에 소개된 기능 중 일부이다.

단어 용도의 트렌드 파악

텍스트에서의 탐색적 데이터 분석은 수치 데이터에 대한 탐색적 데이터 분석과 상당히 유사하다고 Lange은 설명한다. 이 프로세스는 “모델 생성, 테스트, 검증, 배포, 평가”라는 동일한 체계적 단계를 따르고 있다.

먼저, 특정 문서에 하나의 단어가 나타나는 횟수를 조사한다. 사용 빈도수가 가장 높은 단어가 화면에 표시되는데, 플러스 기호가 표시된 단어를 확장하면 어간(단어의 동의어 또는 변형)을 볼 수 있다.

■ 텍스트 분석은 컴퓨터 소프트웨어를 사용해서 전자 텍스트 소스에서 정보를 추출하고 주석을 첨부하여 핵심 개념, 패턴, 사실을 찾아내고 이 정보를 비즈니스 용도로 분석하는 작업이다.

각 단어의 사용 빈도수, 단어가 발견된 문서의 수, 단어의 가중치, 역할(품사), 속성(알파 특성 유무), 그리고 분석에 단어를 포함?유지할지 여부 등을 조사한다.

동일한 정보 중 일부는 그래픽 형태로 표시될 수 있는데, 여기서 단어의 크기와 색은 빈도와 중요성을 나타내며 단어간의 간격은 연관 관계를 나타낸다.

Lange는 “아주 드물게 나타나는 단어를 찾으려는 경우에는 역으로 특이점을 그래픽으로 표시한 부분을 살펴볼 수도 있다. 이 기법은 주로 웹사이트에서 단어 용도를 파악하기 위해 사용되지만, 최근 들어 정치적 연설 내용을 분석하여 그 속에 숨은 의미를 이해하기 위해 사용되는 경우가 늘고 있다”고 설명한다.

분석을 위한 데이터 준비

전통 방식의 데이터 분석과 마찬가지로, 결과의 품질을 높이려면 양질의 데이터를 준비하는 것이 무엇보다 중요하다. Lange는 “구조화 데이터 분석의 경우처럼 데이터 준비에 최대 80%의 시간이 소요될 수 있다”고 얘기한다.

텍스트 분석에서 흔히 볼 수 있는 문제는 철자법 오류의 비율이 높다는 점이다. 가령, 분석 중인 문서에서 “service”의 철자법 오류는 29가지의 형태로 나타날 수 있는데, 분석가는 철자 오류가 있거나 없는 문서의 수, 그리고 각 단어의 역할 등을 살펴볼 수 있다.

Lange는 “어떤 이들은 분석을 시작하기에 앞서 이런 불일치 문제를 먼저 해결하기를 원한다”고 얘기하면 다음과 같이 덧붙였다. “철자법 오류를 자동으로 고치는 것을 원할 수도 있고 또 원하지 않을 수도 있다. 왜냐하면 분석 종류에 따라서는 철자 오류를 고칠 경우 중요한 정보를 잃게 될 수도 있기 때문이다. 이 경우, 모든 유형의 ‘service’를—철자법이 맞든 틀리든— 동의어로 취급한다면 추후 분석에서 이 단어들을 놓치는 일은 없을 것이다.”

동의어로 간주되는 개념들의 연결

Lange는 “추후의 분석에서 동일하게 취급할 개념들을 한데 연결할 수 있다”고 설명하면서 다음과 같이 덧붙인다. “예를 들어, 고객 지원 및 서비스 문제를 파악하고자 하는 경우 애플리케이션이 ‘service’와 ‘support’를 동의어로 취급하도록 지시할 수 있다.”

“마찬가지로, 약어를 완전한 단어로 변환할 수도 있다. 가령 UPR은 ‘updated patient records’와 같은 의미이고 LVM은 ‘left voice mail’과 같은 의미라고 시스템에 지시할 수 있다. 또 고객 지원 센터의 레코드를 분석하는 경우, LVM, ‘left voice mail,’ ‘no answer,’ ‘wrong number,’ ‘no longer in service’ 등을 모두 ‘unsuccessful attempts to contact the customer(고객 연락 불능)’의 하위 개념으로 분류하도록 명령할 수도 있다.”

문맥(context) 속에서의 단어 용도 파악

“service”라는 단어에만 초점을 맞춘다면 단어가 어떻게 사용되고 있고 모델 규칙에서 그것이 의미하는 바가 무엇인지 이해할 수 있는 중요한 문맥적 실마리를 놓치게 될 것이라고 Lange은 얘기한다. “나의 경우 ‘service’와 관련된 모든 개념, 즉 ‘service’라는 단어뿐 아니라 ‘service’ 앞에 위치한 문자와 ‘service’와 연관된 모든 어구를 빠짐없이 검색한다.”

단어가 어떻게 사용되고 있는지 알아보기 위해 검색어를 둘러싼 정황(맥락)의 실마리를 제공하는 텍스트 단편이 표시되도록 할 수 있는데, 이 정보는 규칙을 정밀하게 수정하는 데 도움이 된다. 자동 분석에서는 특히 “good service,” “bad service,” “not bad service,” “very bad service,” “oh, I’m so bad, service tech came on time but I wasn’t home” 등을 구별할 수 있어야 하고, 이런 경우 검색, 필터링, 그리고 문맥 파악을 통해 어떤 어구가 분석에 적합하고 또 어떤 것이 적합하지 않은지 결정할 수 있다.

모델 개발 및 검증

다음 단계로, 조사 중인 어구와 개념을 제대로 분류하기 위해 비즈니스 규칙과 연계된 통계 모델을 구축해야 한다. 이 규칙에는 맥락 상에서의 단어 파악을 위해 “if,” “and,” “or,” “not” 등의 불(Boole) 논리가 사용될 수 있고, 이 때 도메인(domain) 전문가와 주제(subject) 전문가가 모델을 활용하여 언어 규칙과 업종별 화법을 식별할 수 있다.

모델을 일련의 샘플 문서에 적용하여 “훈련”을 거치도록 한 다음, 유사한 문서 집합을 대상으로 모델을 테스트하여 정확도를 검증한다. 이제 이와 유사한 별개의 문서 집합에 모델을 적용했을 때 일관된 결과가 산출되었는가?

Lange는 “모델 생성, 테스트, 그리고 검증은 일종의 반복 프로세스의 특성을 띤다”라고 지적하면서 다음과 같이 덧붙였다. “모델을 테스트했는데 원하는 방식으로 문서가 분류되지 않을 경우 다시 돌아가 스펙을 추가로 생성하면 모델의 정확도를 높일 수 있다.”

트렌드 발견

텍스트 분석은 전통적인 수치 분석의 완성도를 높여줌으로써 행여 간과될 수도 있는 트렌드를 밝혀낸다. 일례로 9 페이지 그림은 이전에는 문제가 없었던 특정 자동차 브랜드의 급가속에 관한 고객 불만 건수가 증가하고 있음을 보여준다.

Lange는 “고객 서비스 콜에 의한 사후 보고의 경우 현재 보고되고 있는 상위 10대 결함 같은 패턴을 발견할 수 있지만, 예측 모델링과 텍스트 마이닝을 활용하면 신규 문제가 10위권에 진입하기 전에 조기 발견이 가능하다”고 강조한다.

제조업체명

차종

모델

자동차 화재 발생 여부
(Y 또는 N)

사망자 수

특정
부품
설명

발생
횟수

요약

연식

GENERAL MOTORS CORP.

CHEVROLET 트럭

ASTRO

N

0

연료:
스로틀 연결 및 제어

1

급가속으로 인한 사고 *LDG

1990

GENERAL MOTORS CORP.

CHEVROLET 트럭

BLAZER

N

0

연료:
스로틀 연결 및 제어

3

급가속으로 인한 사고/
부상 *LDG

1991

FORD MOTOR COMPANY

FORD 트럭

AEROSTAR

N

0

연료:
스로틀 연결 및 제어

1

후진 급가속으로 인한
사고 *TW

1989

FORD MOTOR COMPANY

FORD 트럭

AEROSTAR

N

0

연료:
스로틀 연결 및 제어

1

후진 급가속으로 인한
사고 *AJ

1991

FORD MOTOR COMPANY

FORD 트럭

AEROSTAR

N

0

연료:
스로틀 연결 및 제어

1

급가속으로 인한 사고 *LDG

1991

FORD MOTOR COMPANY

FORD 트럭

F250

N

1

연료:
스로틀 연결 및 제어

1

ESTATE VVS BOX 1545, AK의 대리인이 조사한 급가속

1990

마찬가지로, 설문조사나 서비스 담당자와의 대화에서 고객이 사용하는 특정 단어가 50% 더 높은 고객 이탈률과 관련이 있다는 사실—즉, 수치적 맥락—을 발견할 수도 있다. 이 지식을 예측 모델에 포함시키면 이탈 가능성이 높은 다른 고객을 식별하여 사전에 적절한 예방 조치를 취할 수 있을 것이다.

Lange는 “텍스트와 수치 데이터는 물론 모든 유형의 데이터를 통합하면 보다 정확한 모델을 구축할 수 있다. 모델에서 얻은 정보를 학습한 다음 이 정보를 다른 유형의 모델에 투입해서 개량하고, 정보를 다시 탐색해서 가져오는 것이다. 즉, 이 작업은 모델을 테스트, 학습, 업데이트하고 결과를 확인한 다음 모델을 처음부터 다시 개량하는 반복적 프로세스의 특성을 띠는 것이다”라고 설명한다.

자동 컨텐츠 분류

텍스트 분석을 단순히 의사결정에 더 많은 정보를 투입하기 위한 수단으로만 인식해서는 안 된다. 오히려 텍스트 분석은 대다수의 조직에 있어서 핵심적 역할을 수행한다. 검색 엔진 사이트, 미디어 회사, R&D 그룹, 대형 웹사이트를 운영하는 조직들 모두 인력 개입 없이 신속히 컨텐츠를 추적하고 찾아내어 이를 사용자에게 전달할 수 있어야 한다. 따라서 텍스트 분석이라는 것은 웹사이트에서 개인화된 컨텐츠와 관련 주제에 대한 하이퍼링크, 오늘의 인기 검색어 목록 등을 제공할 때 배후에서 중요한 역할을 수행하는 기술이다.

이 때, 모델은 특정 개념을 찾아내고 관심을 끌만한 주제별로 컨텐츠에 태그를 지정한다. 그리고, 뉴스피드 소식, 방대한 리서치 보고서, 웹 검색 결과, 수백만 건의 블로그와 소셜 미디어 사이트의 게시물, 수십억 개의 트위터 글 등, 잠재적 유용성을 지닌 이 모든 컨텐츠들이 초당 수천 건의 속도로 처리된다.

맺는 말

Lange는 다음과 같이 얘기한다. “텍스트 분석이란 마치 두 세계가 하나로 합쳐진 것과도 같다. 즉, 텍스트와 수치가 통합 분석에서 하나로 합쳐지고, 비즈니스 규칙과 도메인 전문지식은 통계 모델에서 하나로 합쳐진다. 인간의 지식과 컴퓨터 기술이 하나로 합쳐짐으로써 어느 하나만 이용해서는 찾을 수 없는 개념을—인간이 감히 도달할 수 없는 속도로—밝혀내는 것이다.”

SAS Text Analytics는 텍스트 문서에서 유용한 정보를 찾아내어 추출할 수 있도록 하는 독창적인 툴 스위트를 제공한다. 이 솔루션을 이용하면 텍스트 기반 정보를 구조화 데이터 및 예측 분석과 통합하여 복잡한 문제를 더 효과적으로 해결할 수 있다.

또한, 고급 통계 모델링, 자연어 처리, 고급 언어 분석이 한데 접목된 SAS는 대량의 다국어 컨텐츠를 빠르게 자동 판독하여 텍스트 컨텐츠에 숨겨져 있던 트렌드와 패턴, 정서를 규명할 수 있도록 해준다.

고객지원
기술문의, 구입문의, 일반문의
자료실
E-브로셔, White paper
데모 & 투어
뉴스레터
SAS Intelli-Zine
뉴스레터 신청
Events
이벤트와 세미나 정보
특별할인이벤트
대표전화 : 02-2191-7000
교육문의 : 02-2191-7002
기술문의 : 02-2191-7003
Global Contact List