SAS Data Preparationの特長
データとメタデータへのアクセス
データとメタデータへのアクセス
- アクセス権限のある内部ソース、アクセス可能な外部データソース、SAS Viyaがインメモリ方式で保持しているデータを自在に活用
- 作業するデータを視覚的に確認するためにサンプルを表示することが可能。SAS Viyaのインメモリ・エンジンにロード済みのテーブルやファイル、あるいはSAS/ACCESSを用いて登録済みのデータソースのテーブルやファイルからのサンプル取得に対応
- 外部データソースへの接続や外部データソース間の接続を素早く作成
- 物理メタデータ情報(列名、データタイプ、エンコーディング、列数、行数など)を表示し、データに対する深いインサイトを取得
- 対応するデータソースとデータタイプの例:
- Amazon S3
- Amazon Redshift
- DNFS/HDFS/各種ファイル(CSV、SAS、Excel、区切り形式)
- DB2
- Hive
- Impala
- SAS LASR™
- ODBC
- Oracle
- Postgres
- Teradata
- Twitter、YouTube、Facebook、Google Analytics、Google Drive、Esriからのフィード、およびローカルファイル
- SAS Cloud Analytic Services(CAS)
データのプロビジョニング
データのプロビジョニング
- 利用したいデータソースを選択するだけでメモリ内へのデータロードが並列処理されるため、コードの記述やETLツールの経験は不要(Twitter、YouTube、Facebook、Google Analytics、Esriのデータソースについてはデータの書き戻しは不可能で、読み込みのみが可能)
- データロードを行う前に、行または列のフィルタリングを実行しておくことで、コピーされるデータの量を削減
- SAS In-Database(オプションで利用できるアドオン)を組み込むことにより、ビッグデータを元の場所に保持したままで、処理の実行をソースシステム側にプッシュすることが可能
ガイド付きの対話的なデータ準備
ガイド付きの対話的なデータ準備
- データ準備プロセスの各ステップを順にガイドしてくれる対話操作型のビジュアルな環境で、データの変換、結合、整形、クレンジング、標準化を行うことが可能
- SAS Viyaの分散インメモリ処理により、視覚的なフィードバックがニア・リアルタイムで得られるため、変換操作の結果を容易に把握することが可能
機械学習とAIの提案
機械学習とAIの提案
- AIと機械学習を活用してデータをスキャンし、インテリジェントな変換を提案
- 提案を受け入れ、ボタンをクリックするだけで変換が完了高度なコーディングや複雑なコーディングは不要
- 自動化された提案には以下が含まれます。
- 大文字と小文字の区別
- 性別分析
- マッチコード
- 解析
- 標準化
- 数値変数の欠損値補完
- 1つのホット・エンコーディング
- 列の削除
- 空白のトリミング
- 列のデータ型の変換
- センタリングとスケーリング
- 重複排除
- 一意のIDの作成
- スパース・データの列の削除
列変換
列変換
- 列変換の機能を使用して、データの標準化/修正/整形を実行(細かな設定作業は不要)。以下のことが可能です。
- 大文字と小文字を変更
- 列の変換
- 名前の変更
- 削除
- 分割
- スペースの削除
- カスタム計算
- 幅の広い(列数の多い)テーブルのサポートにより、迅速なデータ準備ジョブのためのデータ・プランを保存することが可能
行変換
行変換
- 行変換の機能を使用して、データのフィルタリング/整形を実行
- 転置変換を使用してAnalytical Base Table(ABT:分析モデルの作成時に使われる、横幅が極端に広いテーブル)を作成することにより、アナリティクス/レポーティング用のデータを準備
- 単純または複雑なフィルターを作成することにより、不要なデータを除去
コード変換
コード変換
- カスタムコードを記述することにより、データの変換/整形/結合/修正/標準化を実行
- 計算項目を作成する単純な式の記述、高度なコードの記述、あるいはコード・スニペットの再利用を行うことにより、より柔軟に変換を実行することが可能
- 他のユーザーが作成したカスタムコードをインポートし、ベストプラクティスの共有、コラボレーションによる生産性向上を促進
複数入力変換
複数入力変換
- 複数入力変換の機能を使用して、データの結合/整形を実行
- ガイド付きのインターフェイスを使用して、1つまたは複数のデータセットを結合または整形することが可能(SQLやSASの知識は不要)。以下のことが可能です。
- データの追加
- データの結合
- データの転置
データ・プロファイリング
データ・プロファイリング
- データ・プロファイリングの機能を使用して、列単位やテーブル単位で基本的または高度なプロファイル指標を作成
- テーブル・レベルのプロファイル指標により、データ品質の問題を究明し、データ自体に関するインサイトを深めることが可能
- 列レベルのプロファイル指標の画面で各列の詳細をドリルダウンし、パターン分布や頻度分布の結果をビジュアルなグラフで把握することにより、隠れたインサイトを明らかにすることが可能
- 幅広いデータタイプ/データソースを利用可能(リストは上記を参照)Twitter、Facebook、Google Analytics、YouTubeから取得したデータをプロファイリングするためには、最初にデータをSAS Viyaインメモリ環境に明示的にインポートする必要があります。
データ品質処理
データ品質処理
SAS Data Preparationには、SAS Data Quality in SAS Viyaが同梱されています。
データ・クレンジング
データ・クレンジング
- ロケールやコンテキスト固有の解析およびフィールド抽出定義を使用することで、データを再整形し、さらなる洞察を導き出すことが可能
- 抽出変換の機能を使用して、指定した列に含まれるコンタクト情報(氏名、性別、個人識別情報(例:米国の社会保障番号)、電子メールアドレス、電話番号など)を特定および抽出
- 解析の機能を使用して、指定した列のデータを部分文字列にトークン化(例:フルネームを性、名、敬称、ミドルネーム、としてそれぞれ別項目に切り出し)
- 同一性判定のためのマッチコードを使った一意の識別子で複数のデータソースを紐付け(名寄せなどの同一判定に使用)
- ロケールやコンテキスト固有の定義を使ってデータを標準化することにより、データを共通のフォーマットに変換。例:ケーシング(大文字/小文字の変更)
同一性の判定
同一性の判定
- ロケール固有のルールを使って列データを分析することにより、性別やコンテキストを判定
- 識別分析により、データを分析してコンテキストを判定(この機能は、データの内容や出自が不明な場合に特に効果を発揮する)
- 性別分析により、ロケール固有のルールを使って名前から性別を判断(この機能を利用すると、データのフィルタリングまたはセグメント化が容易になる)
- ユニークID生成機能を用いて、各行にユニークIDを作成
- 識別分析を用いて、各列の主題データを識別
- 列やテーブルでデータにタグ付けする機能により、データの識別、発見、並べ替えを実行
データ・マッチング
データ・マッチング
- ロケールやコンテキスト固有の定義にもとづき、一致するレコードを判定
- 25種類以上のコンテキスト固有のルール(日付、住所、名前、電子メールアドレスなど)を用いて、一致するレコードを簡単に特定することが可能
- マッチコード変換の結果を利用して、重複除去、ファジー(曖昧)検索、ファジー結合を実行
- 類似したレコードを発見し、論理的にグループ化
システムとジョブのモニタリング
システムとジョブのモニタリング
- システムレベルとジョブレベルのプロセスに関して、統合モニタリング機能を使用することが可能
- 実行中のプロセス数、継続時間、実行者を把握
- ジョブのステータス(実行中、成功、失敗、保留中、キャンセル済み)に基づき、すべてのシステムジョブを簡単にフィルタリング
- ジョブのエラーログにアクセスし、原因調査やトラブルシューティングに利用(ご注意:モニタリング機能を利用するためには、SAS Environment Managerとジョブ・モニタリング・アプリケーションを使用します)
データ・インポート/データ準備ジョブのスケジューリング
データ・インポート/データ準備ジョブのスケジューリング
- 自動生成されるコードからデータインポート・ジョブを作成することにより、統合スケジューラーを利用してデータ更新を実行することが可能
- データ・エクスプローラー機能によるインポート処理をジョブとしてスケジューリングすることにより、反復可能な自動プロセスが実現
- ジョブ実行の時刻、日付、頻度および/または間隔を指定することが可能
データリネージ
データリネージ
- アクセス可能なデータソース、データ・オブジェクト、ジョブの間の関係を探索
- 関係グラフを用いてオブジェクト間の関係を視覚的に表示できるため、データの発生元/出所の把握や、処理履歴の追跡が容易
- 異なる複数のタブを用いて複数のビューを作成し、それらのビューの編成状態を保存
プラン・テンプレートとプロジェクト・コラボレーション
プラン・テンプレートとプロジェクト・コラボレーション
- 1つまたは複数のデータソースに適用される一連の変換ルールから成るデータ準備プラン(テンプレート)を使用することで、生産性が向上(=データ準備にかかる時間が短縮)
- テンプレートの再利用(=作成済みのテンプレートを別のデータセットに適用すること)により、データが常に一貫した方法で変換され、全社的なデータ基準やデータポリシーに準拠している状態を確保
- SAS Viyaプロジェクトで使用されるプロジェクト・ハブを通じて、チームベースのコラボレーション機能を活用。プロジェクトのアクティビティ・フィード機能は「誰が、何を、いつ行ったか」を通知し、チームメンバー間のコミュニケーションに利用可能
バッチ方式のテキスト分析
バッチ方式のテキスト分析
- ドキュメントのコンテンツを素早く抽出し、テキストの識別と抽出を実行(特定フォルダのPDFファイルやPowerPointドキュメントに含まれるテキスト情報を一括抽出)