Products & Solutions / Content Categorization

SAS® Content Categorization

자동 콘텐트 분류 기능을 이용하여 정보 구성, 액세스, 탐색의 효율성과 속도를 개선합니다.

Teragram 기술이 보강된 SAS Content Categorization은 자연 언어 처리 및 고급 언어 기법을 통해 획득 생성되거나 리포지토리에 존재하는 대용량의 다국어 콘텐트를 자동으로 분류해줍니다. 이 솔루션은 엔티티와 이벤트의 콘텐트를 정확하게 파싱 분석하며, 이는 다시 메타데이터를 생성하고 비즈니스 프로세스를 추진하는 데 사용됩니다. 따라서 사용자는 정보 구성, 액세스, 탐색의 속도와 효율성을 높일 수 있을 뿐 아니라 콘텐트 분류 작업으로 인해 발생하는 간접비를 획기적으로 줄일 수 있습니다.

도입 효과

  • 복수의 기업 리포지토리에 산재된 콘텐트의 혼잡을 일소합니다.
  • 사용자가 필요한 정보를 신속히 찾을 수 있도록 해줍니다.

자세히

주요 특징

  • 택소노미(분류기법) 생성
  • 카테고리 분류
  • 엔티티 추출
  • 30여 가지 이상의 언어 지원
  • 협업

자세히

스크린샷

SAS Content Categorization이 엔티티와 이벤트 콘텐트를 파싱 분석합니다. 그리고 이는 다시 메타데이터를 생성하고 비즈니스 프로세스를 추진하는 데 사용됩니다.

SAS Content Categorization이 엔티티와 이벤트 콘텐트를 파싱, 분석합니다
더 많은 스크린샷 보기확대 이미지 보기
 

SAS®는 어떻게 다른가?

  • Teragram 기술이 보강된 SAS Content Categorization은 대용량의 콘텐트를 처리하고 수작업이 요구되는 과도한 콘텐트 태깅 작업을 생략함으로써 정보 구성 및 액세스의 속도와 효율성을 높여줍니다.
  • 고급 언어 및 자연 언어 처리 기법을 활용하는 SAS Content Categorization은 30여 가지가 넘는 언어의 품사를 인식 분석함으로써 다국어 콘텐트를 보다 효과적으로 관리할 수 있게 해줍니다.
  • SAS를 이용하면 콘텐트 자산을 최대한 활용할 수 있을 뿐만 아니라 콘텐트 소유자나 출처에 관계없이 다양한 부서의 리포지토리에서 재사용이 가능합니다.

도입 효과

  • 복수의 기업 리포지토리에 산재된 컨텐트의 혼잡을 일소합니다. 기업 정보는 서로 다른 유형의 데이터, 스토리지, 특징 등에 근거해 사일로에서 관리되는 경우가 대부분입니다. 하지만 콘텐트가 특정한 유용성을 지닐 수 있으려면 반드시 자동화된 콘텐트 분류 기능을 통해 통합, 구성, 관리되어야 합니다. SAS Content Categorization은 고유의 식별 조건에 대해 언어 규칙을 적용케 하는 유연성과 카테고리 규칙을 정의해줄 뿐 아니라 해당 규칙에 일치하는 문서를 분류하는 능력을 제공하므로 사용자는 콘텐트 분류 작업의 간접비를 획기적으로 줄일 수 있습니다.
  • 필요한 정보를 신속히 찾을 수 있습니다. 파인더빌리티(findability)는 언제 어디서든 필요한 정보를 찾을 수 있는 능력을 말합니다. 효과적인 파인더빌리티라면 문맥 속에서 콘텐트를 검색하고 사용자와 콘텐트 간에 직관적인 상호작용이 이루어질 수 있도록 해야 하는데, 여기에는 다양한 맞춤형 검색 기법과 필수적인 보안 기능이 포함됩니다. SAS Content Categorization은 대용량의 콘텐트를 처리하고 수작업으로 이루어지는 과도한 콘텐트 태깅 작업을 생략함으로써 정보 구성 및 액세스의 속도와 효율성을 높여줍니다..

주요 특징

택소노미(분류기법) 생성
  • 직관적 인터페이스 택소노미 개발. 그리고 택소노미 노드 구분을 위한 카테고리 규칙/개념 정의 생성.
  • 생성된 카테고리와 개념을 대량의 입력 문서에 적용하는 무제한의 택소노미 노드.
  • 관련 주제들을 하나로 묶어주는 계층(hierarchical) 택소노미, 또는 택소노미 트리의 노드들 간에 관련성이 존재하지 않는 수평(flat) 택소노미의 개발.
  • 언론/출판 기관, 도서관 및 기업을 위해 사전 구성된 택소노미.
  • 택소노미 서비스에는 다음 항목이 포함됩니다:
    • 메타데이터 생성 및 개발 분석을 위한 튜토리얼.
    • 택소노미 생성, 문서 분류를 위한 규칙, 그리고 엔티티 추출을 위한 정의 등과 관련된 서비스.
    • 작업 흐름 분석 및 구현을 포함하는 통합 요구사항.
    • 각 고객의 환경에서 수행되는 벤치마크 및 쓰루풋 분석.
    • 투자수익률(ROI) 분석.
카테고리 분류
  • 규칙에 일치하는 문서는 포함시키고 일치하지 않는 텍스트는 제외시키는 카테고리 규칙 정의.
  • 자연 언어 처리 및 고급 언어 기술을 자동으로 적용하여 주요 정보를 분류 식별.
  • 정확성 향상에 도움이 되는 언어 규칙 및 부울(Boolean) 연산자.
  • 단순하거나 복잡한 카테고리 규칙 및 개념 정의의 생성.
  • 각 카테고리 규칙에 대해 고유한 식별 조건의 목록 생성.
  • 보다 고급의 멤버십 요구사항을 생성하기 위한 가중 선별 조건 또는 카테고리.
  • 배치(batch), 전체 또는 콘텐트 구성요소에 적용되는 규칙과 정의를 검증하기 위한 테스트와 문서 인터페이스.
  • C, C++, C#.NET, Java, Perl, Python 등의 클라이언트 API를 통해 들어오는 텍스트에 규칙과 정의를 자동으로 적용.
엔티티 추출
  • 방대한 양의 정보를 이해하기 쉬운 소량의 정보로 추출.
  • 관련 데이터의 검색 과정을 간소화시켜 주는 사전 기반, 문법 기반, 정규식(regular expression) 기반의 개념.
  • 복잡한 정보 태스크 수행을 위한 직관적 GUI.
  • 대량의 다국어 콘텐트에 대한 맞춤형 분류 및 엔티티 적용 자동화.
30여 가지 이상의 언어 지원
  • 언어 툴: 본 솔루션의 고급 언어 기술이 지원하는 기능은 다음과 같습니다:
    • 품사 인식 및 태깅: 명사, 동사, 형용사 등 인식.
    • 스테밍(Stemming): 다양한 형태의 입력 명사 또는 동사를 검색.
    • 대소문자 구분: 개념에 대한 대문자/소문자 인식.
  • 게르만어와 아시아 언어를 위한 복합어 인식 및 분석.
  • 아시아 언어를 위한 분절 기능.
협업
  • 개인 또는 팀 단위로 작업을 수행하는 분류학자(taxonomist)와 개발자가 안전하게 프로젝트에 액세스할 수 있습니다.
  • 복수 사용자가 개발중인 프로젝트에 액세스할 수 있습니다.
  • 허가 레벨에는 읽기, 쓰기, 카테고리 규칙 및 개념 정의가 포함됩니다.

스크린샷

SAS Content Categorization이 엔티티와 이벤트 콘텐트를 파싱, 분석합니다

SAS Content Categorization 솔루션은 엔티티와 이벤트의 컨텐트를 정확하게 파싱 분석합니다. 그리고 이는 다시 메타데이터를 생성하고 비즈니스 프로세스를 추진하는 데 사용됩니다. 또한 직관적인 GUI가 메타데이터를 손쉽게 정의 테스트할 수 있게 해줍니다. 그림에서 보듯이 메타데이터와 일치하는 어휘가 적색으로 강조 표시됩니다.

확대 이미지 보기

시스템 요구사양

Teragram 기술이 보강된 SAS Content Categorization은 다른 SAS 모듈이 필요치 않은 독립형 제품입니다.

클라이언트 환경
  • Microsoft Windows(x86-32비트): Windows 2000 Professional, Windows XP Professional, Windows Vista*, Windows Server 2003 계열

서버 환경
  • AIX: POWER 아키텍처용 버전 4.3(x86-32비트), 버전 5.3 및 6.1(x64)
  • FreeBSD 4.8(x86-32비트) 및 6.0(x64)
  • HP-UX PA-RISC: HP-UX 11iv2 (11.23), 11iv3 (11.31)
  • HP-UX Itanium: HP-UX 11iv2 (11.23), 11iv3 (11.31)
  • Linux(x86-32비트): RHEL 4, SuSE SLES 9
  • Linux(x64용, EM64T/AMD64): RHEL 4, SuSE SLES 9
  • Macintosh: Mac OS X 10.4.8 이상
  • Microsoft Windows(x86-32비트): Windows 2000, Windows XP Professional, Windows Server 2003, Windows Vista*
  • Microsoft Windows(64비트용, EM64T/AMD64): Windows XP Professional, Windows Vista*, Windows Server 2003(64비트용)
  • Solaris(SPARC용): 버전 6, 8, 9, 10
  • Solaris(X64용): 버전 8,10

*주: 지원되는 Windows Vista Editions에는 Enterprise, Business 및 Ultimate가 포함되어 있습니다.

더 자세한 내용을 원하세요?

관련 상세 정보는 아래 연락처(SAS 코리아) 로 문의하여 주시거나 일반문의 페이지에 문의하여 주세요.

대표전화 : 02-2191-7000
교육문의 : 02-2191-7002
기술문의 : 02-2191-7003