웹 기반 개발 환경에서 구현되는 인터랙티브 프로그래밍
- 전체 분석 라이프사이클 프로세스를 위한 시각적 인터페이스
- 드래그 앤 드롭 방식의 인터랙티브 인터페이스는 코딩이 필요 없습니다.
- 파이프라인의 각 노드마다 자동 코드 생성을 지원합니다.
- 여러 모범 사례 템플릿(기본, 중급, 고급)을 이용하여 머신 러닝 작업을 빠르게 시작할 수 있습니다. 이 템플릿은 SAS의 자동화된 모델링 프로세스에도 유용합니다.
- PD, LIME, ICE, 커널 SHAP와 같은 해석가능성 리포트를 제공합니다.
- 아울러 PDF 보고서를 이용하여 모델링 인사이트를 공유할 수 있습니다.
- Model Studio 내에서 데이터를 탐색한 다음, SAS Visual Analytics에서 곧바로 실행할 수 있습니다.
- Model Studio의 SAS Visual Analytics에서 가져온 모델을 편집합니다.
- Model Studio에서 각 노드 내의 데이터가 표시됩니다.
- Model Studio에서 SAS® Enterprise Miner™ 14.3 일괄 코드를 실행할 수 있습니다.
- 서로 다른 페르소나 간에 데이터, 코드 스닛펫, 주석, 모범 사례를 손쉽게 공유할 수 있는 협업 환경을 제공합니다.
- 콘텐츠를 생성, 관리, 공유하고, SAS Drive를 통해 콘텐츠 권한을 관리합니다.
- SAS Lineage Viewer는 여러 모델, 데이터 간의 관계를 시각적으로 표시하여 보여줍니다.
사람이 직접 감독하는 지능형 자동화
- 데이터 랭글링부터 피처 엔지니어링, 알고리즘 선택, 배포 단계까지 머신 러닝 모델 구축에 필요한 많은 수동적이고 복잡한 모델링 단계를 자동화하는 공용 API를 제공합니다.
- 모델의 피처를 자동으로 정제, 변환, 선택하기 위한 Automatic Feature Engineering 노드를 제공합니다.
- 다양한 기술에 걸쳐 여러 최적화 및 자동 조율 루틴을 사용하여 최상의 모델을 자동으로 선택할 수 있는 Automatic Modeling 노드를 제공합니다.
- 의사결정 트리 노드의 가지치기와 분할을 대화형으로 조정합니다.
- 메타 학습을 통해 자동으로 데이터 준비를 제안합니다.
- 완전한 사용자 정의 기능을 갖춘 자동화된 파이프라인 생성을 지원합니다.
자연어 생성
- 결과가 알기 쉬운 언어로 표시되므로 모델 평가 및 해석가능성이 포함된 보고서를 쉽게 이해할 수 있습니다.
Python 및 R 언어에 대한 임베디드 지원
- 분석에 오픈소스 코드를 임베드하고 Model Studio 내에서 오픈소스 알고리즘을 호출합니다.
- Model Studio의 Open Source Code 노드는 Python 또는 R의 버전에 구애받지 않습니다.
- Model Studio 내 공통 리포지토리에서 Python 모델을 관리합니다.
Deep learning with Python(DLPy)
- Jupyter Notebook을 사용하여 이미지, 텍스트, 오디오, 시계열 데이터에 대한 딥 러닝 모델을 구축합니다.
- 상위 수준 API는 GitHub에서 다음 용도로 사용 가능합니다.
- 테이블 형식 데이터에 대한 심층 신경망
- 이미지 분류 및 회귀
- 개체 감지
- RNN 기반 작업 – 텍스트 분류, 텍스트 생성, 시퀀스 레이블 지정
- RNN 기반 시계열 처리 및 모델링
- LeNet, VGG, ResNet, DenseNet, Darknet, Inception, ShuffleNet, MobileNet, YOLO, Tiny YOLO, Faster R-CNN, U-Net 등의 사전 정의된 네트워크 아키텍처를 지원합니다.
- ONNX 형식으로 딥 러닝 모델을 가져오고 내보낼 수 있습니다.
- 다양한 환경에서 Analytic Store(ASTORE)를 활용한 ONNX 모델을 통해 새로운 데이터셋에 스코어를 부여합니다.
SAS 프로시저(PROCs) 및 CAS 작업
- IT 부서 또는 개발자가 프로그래밍 인터페이스(SAS Studio)를 통해 CAS 서버에 액세스하거나, CAS 서버에서 직접 데이터를 로드 및 저장하거나, CAS 서버에서 로컬 및 원격 프로세싱을 지원할 수 있습니다.
- Python, Java, R, Lua, Scala 프로그래머나 IT 직원은 CAS 서버를 대상으로 데이터에 액세스하고, 기본적인 데이터 조작을 수행하거나, PROC CAS를 사용하여 CAS 작업을 실행할 수 있습니다.
- CAS 작업은 해석가능성, 피처 엔지니어링, 모델링을 지원합니다.
- REST API를 사용하여 SAS의 강력한 기능을 다른 애플리케이션에 통합 및 추가할 수 있습니다.
뛰어난 확장성을 가진 분산 인-메모리 분석 프로세싱
- 대용량 데이터 세트에서 분산 인-메모리 프로세싱으로 복잡한 분석 계산을 수행하여 답변 지연 시간을 최소화합니다.
- 분석 작업이 단일 인-메모리 작업으로 함께 연결되어 데이터를 다시 로드하거나 중간 결과를 디스크에 작성할 필요가 없습니다.
- 여러 사용자가 동일한 메모리 데이터에 동시에 액세스하여 효율성이 향상됩니다.
- 데이터와 중간 결과를 필요한 만큼 메모리에 저장하기 때문에 지연 시간이 줄어듭니다.
- 기본적으로 제공되는 워크로드 관리 기능으로 컴퓨팅 리소스를 효율적으로 사용할 수 있습니다.
- 기본적으로 제공되는 장애 조치 관리 기능으로 항상 최적의 결과물로 작업을 마칠 수 있습니다.
- 향상된 메모리 관리를 위해 자동화된 I/O 디스크 스필오버를 지원합니다.
최신 머신 러닝 알고리즘을 사용한 모델 개발
- 강화 학습:
- Fitted Q-Network(FQN), Deep Q-Network(DQN) 등의 기법을 기본으로 제공
- FQN은 해당 환경과 통신하지 않고도 미리 수집된 데이터 포인트를 통해 모델 학습 가능
- 리플레이 메모리 및 타겟 네트워크 기법을 사용하여 non-IID 데이터 상관관계를 제거하고, 학습 과정을 안정화합니다.
- 상태-액션 쌍 및 보상을 위한 사용자 정의 환경 지정 가능
- 의사결정 예측:
- 단일 타겟을 예측할 수 있는 의사결정트리의 앙상블 자동화
- 독립된 트레이닝 세트의 자동 분산
- 모델 파라미터에 대한 지능형 오토 튜닝을 지원합니다.
- 제품 스코어링을 위한 SAS 코드 자동 생성
- 그래디언트 부스팅:
- 선택한 레이블 변수에 대해 데이터 분할을 최적화하기 위한 자동 반복
- 잔차에 따른 조정 가중치를 사용하여 인풋 데이터를 여러 차례 자동으로 재추출
- 최종 지도 모델에 대한 가중 평균을 자동으로 생성
- 이진, 명목 및 구간 레이블 지원
- 성장시킬 트리 수, 적용할 분할 기준, 서브 트리의 깊이, 컴퓨팅 리소스 등에 대한 다양한 옵션으로 사용자가 트리훈련 정의 가능
- 과적합을 방지하기 위해 유효성 검사 데이터 스코어링을 기반으로 중지 기준의 자동화 지원
- 제품 스코어링을 위한 SAS 코드 자동 생성
- 널리 사용되는 오픈소스 모델링 패키지인 lightGBM 액세스 가능
- 신경망:
- 파라미터 세트의 지능형 튜닝 자동화를 통해 최적의 모델 식별
- 계수 데이터의 모델링 지원
- 대부분의 신경망 파라미터에 적용되는 지능형 기본값
- 신경망 아키텍처 및 가중치에 대한 사용자 지정
- 심층 신경망(DNN), 컨볼루션 신경망(CNN), 순환 신경망(RNN), 오토인코더 등의 기법을 기본 제공합니다.
- 임의의 은닉층(Hidden Layer) 수를 사용하여 딥 러닝 지원 가능
- 합성곱, 풀링과 같은 다양한 유형의 레이어 지원
- 인풋 및 타겟 변수의 자동 표준화
- 확인용 데이터 하위집합의 자동 선택 및 사용
- 조기에 중단하여 과적합을 방지하기 위한 자동 OOB(Out-Of-Bag) 확인
- 모델 파라미터에 대한 지능형 오토 튜닝 지원
- 제품 스코어링을 위한 SAS 코드 자동 생성
- 서포트 벡터 머신:
- 이진 타겟 레이블 모델
- 모델 트레이닝을 위한 선형 및 다항식 커널 지원
- 연속형 및 범주형 입/출력 특징 추가 가능
- 입력 피처의 자동 스케일링 지원
- 내부점 방법과 활성 세트 방법 적용 가능
- 모델 검증을 위한 데이터 분할 지원
- 페널티 선택을 위한 교차 검증 지원
- 제품 스코어링을 위한 SAS 코드 자동 생성
- 인수분해 머신:
- 사용자 ID 및 상품 등급으로 구성되는 희소 행렬을 기반으로 추천 시스템 개발 지원
- 페어와이즈 인터랙션 텐서 인수분해 전체 적용 가능
- 더욱 정확한 모델을 위해 범주형 인풋 기능과 숫자형 인풋 기능 추가
- 타임스탬프, 인구 통계 데이터 및 컨텍스트 정보를 모델에 최대한 공급
- 웜 리스타트(전체를 다시 트레이닝할 필요 없이 모델을 새로운 트랜잭션으로 업데이트) 지원
- 제품 스코어링을 위한 SAS 스코어 코드 자동 생성
- 베이지안 네트워크:
- 나이브, TAN(Tree-Augemented Naive), BAN(Bayesian network-Augmented Naive), 상위-하위 베이지안 네트워크 및 마르코프 블랭킷 등을 포함해 다양한 베이지안 네트워크 구조 학습
- 독립성 검정을 통해 효율적으로 변수 선택
- 지정된 파라미터에서 최상의 모델 자동 선택
- 데이터 점수를 매기기 위해 SAS 코드 또는 분석 스토어 생성
- 여러 노드에서 데이터를 로드한 후 병렬 방식으로 계산 실행
- 디리클레 가우시안 혼합 모델(GMM):
- 클러스터링 병렬 실행 가능 및 멀티 스레드 성능 우수
- 소프트 클러스터링을 수행하여 예측된 클러스터 스코어뿐만 아니라 각 관측치의 클러스터에 대한 확률 분포도 함께 제공
- Dirichlet 프로세스에서 지원하는 클러스터링 프로세스 실행 시, 최적의 클러스터 수 학습
- 모델 추론 방법으로 병렬 실행되는 변분 베이즈(VB) 방법 사용 (이 방법은 까다로운 사후 분포를 근사화한 다음, 모델 파라미터가 수렴에 도달할 때까지 반복적으로 업데이트 수행)
- 반지도 학습 알고리즘:
- 고도로 분산 및 멀티 스레드 처리
- 레이블이 지정되지 않은 데이터 테이블과 레이블이 지정된 데이터 테이블 모두에 대한 예측 레이블 반환
- t-분포 확률적 임베딩(t-SNE):
- 고도로 분산 및 멀티 스레드 처리
- t-SNE 알고리즘의 병렬 구현을 기반으로 작동하는 저차원 임베딩 반환
- 생성적 적대 신경망(GAN)
- 이미지 데이터용 StyleGAN, 테이블 형식 데이터용 GAN 등의 기법을 기본으로 제공
- 딥 러닝 모델을 위한 합성 데이터 생성
분석 데이터 준비
- 피처 엔지니어링 모범 사례 파이프라인에는 최상의 변환이 포함됩니다.
- 비주얼 프론트엔드를 통해 제공되는 분산 데이터 관리 루틴을 지원합니다.
- 대용량 데이터 탐색 및 요약
- 카디널리티 프로파일링:
- 인풋 데이터 소스의 대용량 데이터 프로파일링
- 변수 측정 및 역할을 위한 지능형 추천
- 표본 추출:
- 임의 및 층화확률 표집, 드문 이벤트에 대한 과표본추출, 표집된 레코드에 대한 표시자 변수 지원
데이터 탐색, 피처 엔지니어링, 차원 축소
- t-분포 확률적 임베딩(t-SNE)
- 기능 비닝
- 기능 결측값을 비결측값의 사용자 지정 값, 평균값, 의사 중앙값 및 임의값으로 고성능 대체
- 기능 차원 축소
- 이동 기간 및 로버스터 PCA를 포함한 대규모 주성분 분석(PCA)
- 클러스터 분석과 혼합형 변수 클러스터링을 포함한 비지도 학습
- 클러스터링을 위한 세그먼트 프로파일
통합 텍스트 분석
- 다음 33개 언어를 기본으로 지원합니다.
- 영어
- 아랍어
- 중국어
- 크로아티아어
- 체코어
- 덴마크어
- 네덜란드어
- 페르시아어
- 핀란드어
- 프랑스어
- 독일어
- 그리스어
- 히브리어
- 힌두어
- 헝가리어
- 인도네시아어
- 이탈리아어
- 일본어
- 카자흐어
- 한국어
- 노르웨이어
- 폴란드어
- 포르투갈어
- 루마니아어
- 러시아어
- 슬로바키아어
- 슬로베니아어
- 스페인어
- 스웨덴어
- 타갈로그어
- 터키어
- 태국어
- 베트남어
- STOP 리스트는 자동으로 포함되며 모든 언어에 적용되어 있습니다.
- 자동화된 파싱, 토큰화, 품사 태그 지정, 표제어 추출을 지원합니다.
- 사전 정의된 컨셉은 이름, 날짜, 통화 가치, 측정치, 사람, 장소 등과 같은 공통 엔터티를 추출합니다.
- 머신 생성 주제(단일값 분해, 잠재적 디리클레 할당)로 자동화된 피처 추출이 가능합니다.
- 단일 프로젝트 내에서 머신 러닝과 규칙 기반 접근법을 동시에 지원합니다.
- BoolRule을 사용한 자동 규칙을 생성합니다.
- 딥 러닝(순환 신경망) 적용으로 문서를 보다 정확하게 분류합니다.
모델 평가
- 지도 학습 모델 성능 통계를 자동으로 계산합니다.
- 구간 및 범주 타겟에 대한 아웃풋 통계를 산출합니다.
- 구간 및 범주형 타겟에 대한 리프트 테이블을 생성합니다.
- 범주형 타겟에 대한 ROC 테이블을 생성합니다.
- 클래스 대상을 가진 지도 학습 모델에 대해 이벤트 분류 및 명목형 분류 그래프를 생성합니다.
모델 스코어링
- 모델 스코어링을 위해 SAS 데이터 스텝 코드를 자동으로 생성합니다.
- 스코어링 로직을 트레이닝 및 홀드아웃 데이터와 새로운 데이터에 적용합니다.
SAS® Viya® 인-메모리 엔진
- SAS 클라우드 분석 서비스(CAS)는 메모리 내에서 데이터를 처리한 후 처리 결과를 클러스터 노드로 분산시킵니다.
- 사용자 요청(프로시저 언어로 표현됨)은 분산 환경에서 처리하는 데 필요한 파라미터를 통해 작업으로 변환됩니다. 그런 다음 결과 집합과 메시지가 다시 프로시저로 전달되어 사용자가 작업을 시작할 수 있습니다.
- 데이터는 블록 단위로 관리되며, 온디맨드 방식으로 메모리에 로드할 수 있습니다.
- 테이블의 메모리 용량이 초과되면 서버가 데이터 블록을 디스크에 캐싱합니다. 데이터와 중간 결과는 작업 및 사용자 경계를 따라 필요한 만큼 메모리에 저장됩니다.
- 높은 효율성을 가진 노드 간 통신 기능이 포함되어 있습니다. 알고리즘이 임의 작업에 따른 최적의 노드 수를 결정합니다.
- 통신 계층이 내고장성을 지원하며, 서버가 실행 중일 때도 서버에서 노드를 제거하거나 추가할 수 있도록 해줍니다. 모든 성분은 고가용성을 위해 복제가 가능합니다.
- 레거시 SAS 코드 및 SAS 9.4M6 클라이언트와의 직접적인 상호운용성을 지원합니다.
- 멀티 테넌트 배포를 지원하므로 공유 소프트웨어 스택이 격리된 테넌트를 안전한 방식으로 지원할 수 있습니다.
SAS Viya Copilot
- 코드 작성 보조:
- 사용자 입력을 기반으로 SAS 코드를 생성하도록 하여 정확성과 일관성을 보장합니다.
- 기존에 작성된 SAS 코드에 대한 설명을 명확하고 알기 쉬운 방식으로 제공합니다. 이를 통해 복잡한 스크립트도 간단히 파악할 수 있으며, 보다 효율적인 코드 유지보수 및 인수인계가 가능해집니다.
- 코드 내 의미 있는 대목에 주석을 생성하여 가독성과 문서화 수준을 향상시킵니다. 이 기능은 타인이 작성한 레거시 코드를 유지보수해야 할 때 특히 유용합니다.
- AI 기반의 모델 파이프라인 개발
- 모델 파이프라인의 각 단계에서 모델이 출력한 결과물을 명확하게 설명함으로써 사용자의 더 정확한 의사결정을 지원합니다.
- 파이프라인의 현재 상태와 데이터를 분석하여 파이프라인에 적절한 노드를 제안하고 자동으로 추가합니다.
- 질문에 대한 답을 제공하고, 사용자 문서 활용을 용이하게 하여 모델 개발 작업을 가속화하며, 기술적인 세부 정보를 손쉽게 탐색하고 이해할 수 있도록 보조합니다.
합성 데이터 생성
- 멀티테이블 관계형 데이터 생성 기능으로 사용자가 복잡한 데이터 모델을 처리할 수 있도록 지원합니다. 예를 들어, 고객, 계좌, 거래 테이블이 서로 일관성을 유지하도록 합성된 금융 데이터 세트를 생성하여 현실적인 엔드 투 엔드 데이터 시뮬레이션을 수행하는 것이 가능해집니다.
- 시계열 데이터 생성 기능을 통해 시간 경과에 따른 센서 검출값, 주가 등락, 환자 바이탈 수치와 같은 합성 순차 데이터를 생성할 수 있습니다.
- 로우코드/노코드 인터페이스를 통해 코딩 없이도 누구나 간편하게 합성 데이터를 생성할 수 있습니다.
- 개인정보를 철저히 보호하는 거버넌스 및 평가 툴을 통해 실존 인물에 대한 개인정보 침해 위험 없이 현실적인 데이터를 활용하여 혁신을 이룰 수 있습니다. SAS Data Maker에는 거버넌스 및 감사 기능이 기본 내장되어 있어 생성한 합성 데이터의 신뢰성이 보장됩니다.
- 데이터의 프로파일링 및 모델링 방식부터 합성 데이터의 생성, 검증, 배포 방식까지 프로세스가 투명하고 제어가 용이하므로, 합성 데이터 생성 프로세스 전반에 대한 완벽한 가시성과 통제력이 확보됩니다.
- 혁신을 위해 가속화된 데이터 환경이 프로비저닝 주기를 획기적으로 단축함으로써 사용자에게 모델을 유연하게 개발하고 테스트할 수 있는 자유를 제공합니다.
- 엔터프라이즈급 확장성과 성능으로 여러 개의 테이블을 가진 수백만 개 레코드를 생성하는 수준까지 효율적으로 확장할 수 있습니다.
- SAS Viya와의 유기적인 통합 덕분에 데이터 준비, 모델 구축, 의사결정 등이 이루어지는 플랫폼과 동일한 곳에서 합성 데이터 생성을 수행하는 것이 가능합니다.
AutoML
- 간편한 모델 설정을 위해 베스트 프랙티스 파이프라인을 모아 둔 저장소를 제공합니다.
- SAS 또는 사용자가 미리 제작해 둔 모델을 활용하여 모델 파이프라인을 신속하게 구축 가능합니다.
- 데이터를 동적으로 프로파일링합니다.
- 머신 러닝 기술을 적용하여 데이터 품질 문제를 자동으로 해결합니다.
- 데이터 변환 작업을 자동으로 수행합니다.
- 해당 프로젝트에 가장 적합한 모델을 추천하고 스스로 구축합니다.
- 모든 모델에 걸쳐 성능과 속도를 최적화합니다.
- 블랙박스 없이 모델을 완전히 투명하게 편집할 수 있습니다.