Products & Solutions / Text Mining

SAS®Text Miner를 이용한 텍스트 마이닝

텍스트 정보에 숨어 있는 가치를 재발견하는 아주 특별한 솔루션

SAS Text Miner는 텍스트 문서에서 유용한 정보를 찾아내어 추출할 수 있도록 하는 독창적인 툴 스위트를 제공합니다. 이 솔루션은 텍스트 데이터를 이해하기 쉽고 유용한 형식으로 변환함으로써 사용자가 문서 분류, 문서 간의 연관성 파악, 카테고리별 문서 클러스터링을 용이하게 할 수 있도록 도와줍니다. 최초의 마이닝 솔루션인 SAS Text Miner는 텍스트 기반 정보를 구조화된 데이터와 완벽하게 통합함으로써 분석 및 의사결정 능력을 극대화합니다.

도입 효과

  • 의사결정에 소요되는 시간을 획기적으로 단축하고 조직의 시야를 더욱 투명하게 해줍니다.
  • 트렌드를 파악하고 비즈니스 기회를 예측할 수 있게 해줍니다.

자세히

주요 특징

  • 광범위한 데이터 액세스 능력
  • 다양한 언어 지원
  • 자체 문서화가 가능한 인터페이스
  • 종합적인 텍스트 전처리 능력
  • 광범위한 특성 추출 능력
  • 차원 축소(Dimension Reduction) 기법
  • 텍스트 클러스터링 알고리즘

자세히

" 이처럼 광범위하고 깊이 있는 통계 기능을 제공하는 소프트웨어는 처음입니다.

Patricia Cerrito 박사

수학 박사

루이빌대학교

스크린샷

통합 비즈니스 인텔리전스 플랫폼을 이용해 문서 더미에 숨어 있는 특별한 가치를 발굴해냄으로써 예측 모델의 정확도를 획기적으로 높여줍니다.

통합 비즈니스 인텔리전스 플랫폼을 이용해 문서 더미에 숨어 있는 특별한 가치를 발굴해냄
더 많은 스크린샷 보기확대 이미지 보기
 

SAS® 는 어떻게 다른가?

  • 다국어로 작성되는 다양한 문서 형식(예: PDF, ASCII, HTML, Microsoft Word, WordPerfect)을 지원합니다.
  • 독창적인 통합 인터페이스를 채용하고 있으며, 복수의 관련 데이터베이스(구조화 데이터)와 연계하여 텍스트(비구조화 데이터)를 분석합니다.
  • 정교한 텍스트 파싱 기능을 제공합니다.
  • 데이터를 컴팩트하고 풍부한 정보가 담긴 구조로 변환시켜 줍니다.
  • 대화형 결과 브라우저가 인터랙티브 방식으로 문서 간의 연관성과 개념을 분석, 동적으로 수정함으로써 추가의 세부 분석을 가능하게 해줍니다.

도입 효과

  • 의사결정에 소요되는 시간을 획기적으로 단축하고 조직의 시야를 더욱 투명하게 해줍니다. SAS Text Miner는 구조화 데이터와 비구조화 텍스트의 통합, 그리고 데이터 분석 프로세스 자동화를 통해 조직이 심오한 통찰력을 확보하고 비즈니스를 성공적으로 이끌 수 있도록 도와줍니다.
  • 트렌드를 파악하고 비즈니스 기회를 예측할 수 있게 해줍니다. 고객 의견이나 콜 센터 기록에 관한 정보 분석이 고객 불만 또는 서비스/제품 니즈를 꿰뚫어 볼 수 있게 하는 양질의 정보를 제공해줍니다. 또한 SAS Text Miner는 다양한 예측 모델링 툴을 제공하므로 사용자는 정확한 분석 기회를 포착할 수 있습니다.

주요 특징

광범위한 데이터 액세스 능력
  • 다양한 텍스트 데이터 형식(PDF, 확장 ASCII 텍스트, HTML, Microsoft Word)을 지원합니다.
  • 웹 크로울링(Web Crawling) 기능.
  • 마이닝 작업을 위해 텍스트 데이터를 SAS 데이터 세트로 추출, 변환, 로딩합니다.
다양한 언어 지원
  • 전체 지원 언어: 덴마크어, 네덜란드어, 영어, 핀란드어, 프랑스어, 독일어, 이탈리아어, 일본어, 한국어, 노르웨이어(Bokmal), 포르투갈어, 스페인어, 스웨덴어, 중국어 번체/간체.
  • Latin-1, 2 Byte 문자 및 UTF-8 인코딩 지원.
  • 유럽어(Latin-1 인코딩): 덴마크어, 네덜란드어, 영어, 핀란드어, 프랑스어, 독일어, 이탈리아어, 노르웨이어(Bokmal), 포르투갈어, 스페인어, 스웨덴어.
  • 동아시아 언어(2 Byte 문자 지원): 일본어, 한국어, 중국어 간체/번체.
  • Unicode UTF-8 인코딩 지원.
자체 문서화가 가능한 인터페이스
  • 사용자 친화적 인터페이스가 비주얼 다이어그램으로 수동 코딩 작업의 필요성을 일소시켜 줍니다.
  • 프로세스 플로 다이어그램에 대한 수정, 저장, 공유가 가능합니다.
  • 유연한 리포팅 기능이 지원되므로 사용자는 결과물을 간결한 HTML 형식으로 내보낼 수 있습니다.
종합적인 텍스트 전처리 능력
  • 문서 더미에서 숨겨져 있는 중요 정보를 찾아내어 추출합니다.
  • 각 언어별로 기본 또는 사용자정의 불용어 리스트가 제공되므로 사용자는 정보 차원에서 유용하지 않은 용어들을 제거할 수 있습니다.
  • 자동 철자 교정 기능.
  • Stemming 기능을 이용한 어근 파악.
  • 문장 컨텍스트 기반의 품사 태깅.
  • 구(句) 단위 개념(예: "competitive intelligence") 파악을 위한 명사구 추출 기능.
  • 사용자정의 기능을 지원하는 복합어 토큰(예: "point and click").
  • 기본 동의어 목록(사용자정의 기능 지원)
  • 합성어를 개별 하위 용어로 분리.
광범위한 특성 추출 능력
  • 광범위한 사용자정의 데이터 사전 - 인명, 제품, 조직, URL, 주소 등 항목별로 특정 정보를 추출할 수 있게 해줍니다.
  • 추출한 항목을 통일하여 행렬 테이블에 삽입할 수 있습니다.
  • 영어, 프랑스어, 독일어, 스페인어 언어로 엔티티 추출이 가능합니다.
차원 축소(Dimension Reduction) 기법
  • 텍스트 데이터를 Information-Rich(정보가 풍부한) 행렬로 전처리할 수 있으며, 이를 강력한 차원 축소 기법 애플리케이션에 활용할 수 있습니다.
  • 롤업 용어가 자동으로 문서에서 n 최고 가중치 용어를 식별해줍니다.
  • SVD(Singular value decomposition)가 각 문서를 n-차원 부분공간으로 변환하여 줍니다.
텍스트 클러스터링 알고리즘
  • 각 콘텐트를 기반으로 하는 그룹 문서.
  • EM(expectation-maximization) 클러스터링 - 공간 클러스터링 기법을 이용해 문서를 그룹화합니다.
  • 계층적 클러스터링 - Ward의 집괴법을 이용해 문서를 분류학적으로 자동 그룹화할 수 있습니다. 이 때, 계층적 클러스터로 그룹화된 문서들은 하나의 말단 군집에 속하게 됩니다(그 상위 클러스터와 마찬가지로).
  • K-means 또는 SOM/Kohonen 클러스터링을 이용해 클러스터 문서를 Process Flow Diagram으로 다운스트림할 수 있습니다.
  • 프로파일 클러스터가 원본 문서의 추가 구조화 데이터(연령, 구매 성향 등)를 이용합니다.

스크린샷

통합 비즈니스 인텔리전스 플랫폼을 이용해 문서 더미에 숨어 있는 특별한 가치를 발굴해냄

통합 비즈니스 인텔리전스 플랫폼을 이용해 문서 더미에 숨어 있는 특별한 가치를 발굴해냄으로써 예측 모델의 정확도를 획기적으로 높여줍니다.

확대 이미지 보기

시스템 요구사양

클라이언트 환경
  • Windows(x86-32 비트): Windows 2000 Professional, Windows XP Professional, Windows NT 4 Workstation
  • Internet Explorer 5.5 또는 6
서버 환경
  • AIX: 릴리즈 5.1, 5.2, 5.3(POWER)
  • Solaris(SPARC용): 버전 8, 9, 10
  • Solaris(X64용): 버전 10
  • Windows(x86-32 비트): Windows NT 4 Server, Windows 2000 Professional, Windows Server 2003
필요한 기타 소프트웨어

기술 요구사항에 관한 자세한 정보는 SAS 대리점에 직접 문의하시기 바랍니다.

더 자세한 내용을 원하세요?

관련 상세 정보는 아래 연락처(SAS 코리아) 로 문의하여 주시거나 일반문의 페이지에 문의하여 주세요.

대표전화 : 02-2191-7000
교육문의 : 02-2191-7002
기술문의 : 02-2191-7003