
SAS Visual Data Mining and Machine Learningの機能リスト
Webベースの開発環境における対話操作型のプログラミング
- 分析ライフサイクル・プロセス全体をカバーするビジュアル・インターフェイス
- コーディング不要のドラッグ&ドロップの対話操作型インターフェイス(コーディングはオプション)
- パイプライン内の各ノードで自動コード作成をサポート
- 機械学習タスクを迅速に開始できるベストプラクティス・テンプレート(基本、中間、高度)の選択、またはSASの自動化モデリング・プロセスの活用
- PD、LIME、ICE、Kernel SHAPなどの解釈可能性レポート
- モデリングのインサイトをPDFレポートで共有
- Model Studio内からデータを探索し、SAS Visual Analyticsを直接起動
- Model StudioでSAS Visual Analyticsからインポートしたモデルを編集
- Model Studioで各ノード内のデータを表示
- Model Studio内でSAS® Enterprise Miner™ 14.3のバッチコードを実行
- さまざまなペルソナ間でデータ、コードスニペット、注釈、ベストプラクティスを容易に共有できるコラボレーション環境を提供
- コンテンツを作成/管理/共有し、SAS Drive経由でコンテンツの権限を管理
- SAS Lineageビューアで複数の意思決定間、モデル間、そしてデータと意思決定の関係性をビジュアルに表示
人間による監視付きのインテリジェントな自動化
- データ・ラングリングから特徴量エンジニアリング、アルゴリズムの選択、展開に至るまでの機械学習モデルの構築に向けた複雑な多数の手動モデリング手順を自動化するパブリックAPI
- モデルの特徴を自動的にクレンジング、変換、選択する自動特徴量エンジニアリング・ノード
- 複数の手法にわたる一連の最適化/自動チューニング・ルーチンで最適なモデルを自動的に選択する自動モデリングノード
- 意思決定ツリーノードの剪定と分割を対話操作で調整
- メタ学習からの自動データ準備提案
- 完全なカスタマイズ機能を備えた自動パイプライン生成
自然言語生成
- 結果を簡単な言葉で表示し、モデルアセスメントや解釈可能性を始めとするレポートの理解を促進
PythonおよびRの埋め込みサポート
- 分析内へのオープンソース・コードの埋め込み、およびModel Studio内でのオープンソースのアルゴリズム呼び出し
- PythonやRのバージョンに依存しないModel Studioのオープンソースコードノード
- Model Studio内の共通リポジトリでのPythonモデルの管理
DLPy(Deep learning with Python)
- Jupyter Notebookを使用して、画像、テキスト、音声、時系列データのディープ・ラーニング・モデルを構築
- GitHubの高レベルAPIで以下を実現可能:
- 表形式データ用のディープ・ニューラルネットワーク
- 画像の分類と回帰分析
- オブジェクトの検出
- RNNベースのタスク – テキスト分類、テキスト生成、シーケンスのラベリング
- RNNベースの時系列処理とモデリング
- LeNet、VGG、ResNet、DenseNet、Darknet、Inception、ShuffleNet、MobileNet、YOLO、Tiny YOLO、Faster R-CNN、U-Netなどの事前定義済みのネットワークアーキテクチャのサポート
- ONNX形式でのディープ・ラーニング・モデルのインポート/エクスポート
- ONNXモデルを使用し、分析ストア(ASTORE)の活用によってさまざまな環境の新しいデータセットをスコアリング
SASプロシジャ(PROC)とCASアクション
- IT担当者や開発者はプログラミング・インターフェイス(SAS Studio)を利用することで、CASサーバーへのアクセス、およびCASサーバーからのデータのロードと保存を行い、CASサーバーでのローカル/リモート処理をサポート
- Python、Java、R、Lua、ScalaのプログラマーやIT担当者は、CASサーバーに対するデータアクセスや基本的なデータ操作、またはPROC CASを用いたCASアクションを実行可能
- 解釈可能性、特徴量エンジニアリング、モデリングをサポートするCASアクション
- REST APIを使用してSASのパワーを他のアプリケーションに統合/追加
拡張性の高いインメモリ分析処理
- 大規模なデータセットを対象とした複雑なアナリティクス計算を分散インメモリ処理できるため、答えが得られるまでの待ち時間が大幅に短縮
- 複数のアナリティクス・タスクを単一のインメモリ・ジョブとしてつなぎ合わせることができ、データの再読み込みやディスクへの一時書き出しは不要
- メモリ内の同じデータに多くのユーザーが同時アクセスできるため、効率性が向上
- データと中間結果は必要な間、メモリ内に保持されるため遅延が低減
- 標準装備のワークロード管理機能により、コンピューティング・リソースの効果的な利用を確保
- 標準装備のフェイルオーバー管理機能により、サブミットしたジョブが常に完了することを保証
- 自動I/Oディスク・スピルオーバーでメモリ管理を改善
最先端の機械学習アルゴリズムを用いたモデル開発
- 強化学習:
- Fitted Q-Network(FQN)とDeep Q-Network(DQN)などの手法
- FQNは、環境と通信する必要なく、事前収集されたデータポイントでモデルをトレーニング可能
- 再生メモリ手法とターゲット・ネットワーク手法を使用して非i.i.d.データ ポイントを非相関化し、トレーニング・プロセスを安定化
- 状態とアクションのペアとリワードのカスタム環境を指定可能
- ディシジョンフォレスト:
- 複数の決定木を自動アンサンブル学習させて、1つのターゲットを予測
- 独立した学習実行の自動分布
- モデル・パラメータのインテリジェントな自動チューニングのサポート
- 本稼動環境でのスコアリング用のSASコードを自動生成
- 勾配ブースティング:
- 選択したラベル変数に関連するデータの最適な分割を行うための自動反復検索
- 残存に基づいて調整された重み付けでの入力データの複数回の自動リサンプリング
- 最終教師ありモデルの加重平均の自動生成
- バイナリ、名義、および間隔ラベルのサポート
- 成長するツリーの数、適用する分割基準、サブツリーの深さ、計算変数リソースに関するさまざまなオプションを使用してツリー・トレーニングをカスタマイズ可能
- 過剰適合の回避を目的とした検証データ・スコアリングに基づく終了基準の自動設定
- 本稼動環境でのスコアリング用のSASコードを自動生成
- 広く使われているオープンソース・モデリング・パッケージであるlightGBMへのアクセス
- ニューラルネットワーク:
- パラメータ設定のインテリジェントな自動チューニングにより、最適なモデルを特定
- カウント・データのモデリングのサポート
- ほとんどのニューラルネットワーク・パラメータ向けのインテリジェントなデフォルト値
- ニューラルネットワークのアーキテクチャと重み付けのカスタマイズ
- ディープ・フォワード・ニューラルネットワーク(DNN)、畳み込みニューラルネットワーク(CNN)、リカレント・ニューラルネットワーク(RNN)、オートエンコーダなどの手法
- ディープ・ラーニングをサポートするために、不特定数の隠れレイヤーを利用することが可能
- 畳み込みやプーリングなどのさまざまな種類のレイヤーのサポート
- 入力およびターゲット変数の自動標準化
- 検証データのサブセットの自動選択および使用
- 早期終了のための設定済みの自動検証機能により、過学習/過剰適合を回避
- モデル・パラメータのインテリジェントな自動チューニングのサポート
- 本稼動環境でのスコアリング用のSASコードを自動生成
- サポートベクターマシン:
- 2値変数ターゲット・ラベルのモデル化
- モデル・トレーニング用の線形カーネルと多項式カーネルのサポート
- 連続特徴量とカテゴリー特徴量入出力のサポート
- 入力特徴量の自動スケーリング
- 内点法、有効制約法(active-set method)という2つの最適化手法を適用可能
- モデル検証用のデータ分割のサポート
- ペナルティ選択を目的としたクロス バリデーションのサポート
- 本稼動環境でのスコアリング用のSASコードを自動生成
- ファクタライゼーション・マシン:
- ユーザーIDやアイテム・レーティングの疎行列に基づくレコメンダ・システムの開発のサポート。
- 完全なペアワイズ相互作用テンソル分解の適用
- より正確なモデルを構築するために、入力用のカテゴリー変数や数値変数を追加搭載
- タイムスタンプ、人口統計データ、コンテキスト情報でモデルを強化
- ウォーム・リスタートのサポート(完全な再学習を行わなくても新しいトランザクションでモデルを更新可能)
- プロダクションスコアリング用のSASスコアコードを自動生成
- ベイジアン・ネットワーク:
- ナイーブ、ツリー拡張ナイーブ(TAN)、ベイジアン・ネットワーク拡張ナイーブ(BAN)、親子ベイジアン・ネットワーク、マルコフ・ブランケットを始めとする多様なベイズ分析ネットワーク構造を学習。
- 独立性検定による効率的な変数選択の実行
- 指定したパラメータからの最適なモデルの自動選択
- データをスコアリングするためのSASコードまたはアナリティクス・ストアの生成
- 複数のノードからデータの読み込みと並列計算の実行
- ディリクレ・ガウス混合モデル(GMM):
- クラスタリングの並列実行が可能で、高度なマルチスレッド化を実現
- 予測されたクラスタースコアだけではなく各オブザベーションのクラスター全体の確率分布も提供するソフト・クラスタリングの実行
- ディリクレ・プロセスでサポートされているクラスタリング・プロセス中に最適なクラスター数を学習
- モデル推定法として並列変分ベイズ(VB)法を使用。この手法では、(扱いにくい)事後分布を近似し、収束に達するまでモデル・パラメータを繰り返し更新します。
- 半教師あり学習アルゴリズム:
- 高度な分散/マルチスレッド化
- ラベルなしデータ・テーブルとラベル付きデータ・テーブルの両方の予測ラベルの取得
- t分布型確率的近傍埋め込み法(t-SNE):
- 高度な分散/マルチスレッド化
- t-SNEアルゴリズムの並列実装に基づく低次元の埋め込みの取得
- 敵対的生成ネットワーク(GAN)
- 画像データ用のStyleGANと表形式データ用のGANなどの手法
- ディープ・ラーニング・モデルの合成データの生成
分析用データの準備
- 最良の変換を含む特徴量エンジニアリングのベストプラクティス・パイプライン
- ビジュアル・フロントエンド経由で提供される分散データ管理ルーチン
- 大規模データの探索・集計
- カーディナリティ・プロファイリング:
- 入力データソースの大規模なデータ・プロファイリング
- 変数の尺度と役割に関するインテリジェントなレコメンデーション機能
- サンプリング:
- ランダムおよび層別サンプリング、まれなイベントのオーバーサンプリング、サンプリングされたレコードのインジケータ変数のサポート
データ探索、特徴量エンジニアリング、次元削減
- t分布型確率的近傍埋め込み法(t-SNE)
- 特徴量のビニング
- ユーザー指定値、および既存値の平均値、疑似中央値、ランダム値での特徴量内の欠損値のハイパフォーマンス補完
- 特徴量次元削減
- 移動窓と堅牢なPCAを含む大規模な主成分分析(PCA)
- クラスター分析と混合変数クラスタリングによる教師なし学習
- クラスタリングのセグメント・プロファイル
統合テキスト分析
- そのまま使用できる33の言語のサポート:
- English
- アラビア語
- 中国語
- クロアチア語
- チェコ語
- デンマーク語
- オランダ語
- ペルシア語
- フィンランド語
- French フランス語
- German ドイツ語
- ギリシャ語
- Hebrew ヘブライ語
- ヒンディー語
- ハンガリー語
- インドネシア語
- イタリア語
- 日本語
- カザフ語
- 韓国語
- ノルウェー語
- ポーランド語
- Portuguese ポルトガル語
- ルーマニア語
- Russian ロシア語
- スロバキア語
- スロベニア語
- スペイン語
- スウェーデン語
- タガログ語
- トルコ語
- タイ語
- ベトナム語
- 自動的に含まれ、すべての言語に適用される停止リスト
- 自動解析、トークン化、形態素解析(品詞タグ付け)、見出し語化
- 事前定義済みコンセプトによる名前、日付、通貨値、測定値、人、場所などの一般的なエンティティの抽出
- 機械生成トピックによる自動特徴量抽出(特異値分解と潜在ディリクレ配分)
- 単一のプロジェクト内での機械学習とルールベースのアプローチのサポート
- BoolRuleによる自動ルール生成
- ディープ・ラーニング(リカレント・ニューラルネットワーク)によるドキュメントのより正確な分類
モデルの評価
- 教師あり学習モデルのパフォーマンス統計量の自動計算
- 間隔尺度のターゲット変数とカテゴリカルなターゲット変数の出力統計量の作成
- 間隔ターゲットおよびカテゴリカル・ターゲット用のリフトテーブルを作成
- カテゴリカル・ターゲット用のROCテーブルを作成
- 分類尺度のターゲット変数を持つ教師あり学習モデルのイベント分類チャートと名義分類チャートの作成
モデルのスコアリング
- モデル・スコアリング用のSAS DATAステップコードを自動生成
- 学習データ、入力データ、新規データにスコアリング・ロジックを適用
SAS Viyaインメモリ・エンジン
- CAS (SAS Cloud Analytic Services) がメモリ内で処理を実行し、クラスター内のノードに処理を分散
- ユーザーの要求(手続き型言語で表現されたもの)は分散環境での処理に必要なパラメータを設定したアクションに変換される。結果セットとメッセージは、ユーザーによる後続アクションのために当該プロシジャに返される
- データはブロック単位で管理され、必要に応じてメモリ内にロードされる
- テーブルのサイズがメモリ容量を超える場合は、サーバーがブロック単位でディスクにキャッシングする。データと中間結果は、必要に応じて(ジョブやユーザーの境界をまたいで)メモリ内に保持される
- 極めて効率的なノード間通信。ジョブに最適なノード数はアルゴリズムによって判断される
- 通信レイヤーはフォールト・トレランス機能をサポートしており、また、サーバー実行中のノードの削除/追加に対応している。高可用性のために全てのコンポーネントを複製することができる
- レガシーSASコードとSAS 9.4M6クライアントとの直接の相互運用のサポート
- マルチテナントをサポートしており、共用ソフトウェア・スタックにおいて個々の独立したテナントをセキュアにサポートすることができる