SAS Visual Text Analytics 功能清單

資料準備和視覺化

資料準備和視覺化

  • 擷取、清理和轉換資料以進行分析,透過本機或遠端檔案系統、關聯式資料庫和雲端儲存,輕鬆接受多種檔案格式。
  • 提供直覺化使用者介面,考量本地化/國際化和可存取性等重要因素。
  • 能夠使用網路圖或路徑分析,視覺化呈現擷取的實體、事實和關係。
  • 能夠從概念節點擷取資料,轉換為可立即用於 SAS Visual Analytics 的格式。
  • 詞彙對應讓您能以視覺化方式識別詞彙之間的關係。
  • 圖形化使用者介面提供視覺化程式設計流程。
  • 模型判讀性會針對所有輸出,提供自然語言產生 (NLG) 描述。

剖析

剖析

  • 以所有支援語言版本立即可用功能的形式,提供剖析動作。
  • 文字剖析支援分散式累積,藉由將累積流程的各個層面完全分散在網格上,實現更快的資料處理。
  • Token 化會將字元序切割為個別句子、單字或詞素,然後可用做詞性標記的輸入。
  • 詞形還原會將單字與其基本詞形相關聯。
  • 拼字錯誤分析會將拼錯的單字與一組變數相關聯,其中會包含正確拼字。
  • 詞性標記會根據單字的定義和上下文,依文法將單字分類。
  • 句子邊界消歧義會判定句子的起頭和結尾。
  • 相依性剖析會透過套用深度學習演算法,指定句子中單字之間的語法關係。

趨勢分析

趨勢分析

  • 自動主題探索使用兩種非監督式機器學習方法 (奇異值分解和潛在 Dirichlet 分配),根據常見主題將文件分組。
  • 相關性評分會計算每個文件歸屬到每個主題的適當程度,而二進位旗標則會顯示超過指定臨界值的主題成員數量。
  • 對機器自動產生的主題進行合併或分割 (非監督式機器學習),以建立使用者定義的主題 (主題專業知識,以精簡自動化 AI 輸出)。

資訊擷取

資訊擷取

  • 使用實體辨識、關係擷取和指代消解等任務,自動從非結構化或半結構化資料類型中提取出結構化資訊,以建立新的結構化資料。
  • 使用預先定義的概念,擷取常見實體,例如名稱、組織、位置、時間/日期/數量/百分比的運算式等。
  • 使用支援機器學習的具名實體識別 (NER) 模型,對文字資料進行評分,以從文字中擷取資訊,進而改善和加快決策制定。
  • 可讓您使用關鍵字、布林運算子、規則運算式、述詞邏輯和各種語言運算子,建立自訂概念。
  • 讓您能引用分類規則中的預先定義或自訂概念,以增加語境特定性或觸及範圍。
  • 根據概念的現有規則,自動產生相關概念規則和事實規則。
  • 使用與每個預先定義和自訂概念相關聯的沙盒,針對您對文件集合所建立的模型,快速測試新規則和子集。
  • 在包含多種語言的一組文件中,識別其中語言並將語言分組,以進行更快、更準確的語境分析。

混合建模方法

混合建模方法

  • 使用基於 BERT 的分類,以擷取文字單字的語境和意義,進而改善相較於傳統模型的準確性。除了一般分類,基於 BERT 的分類還可用於進行情緒分析。
  • NLP 功能包含自動化剖析、Token 化、詞性標記、詞形還原和拼字錯誤偵測。
  • 可讓您套用開始和停用清單。
  • 使用語言規則中的特殊標記、限定詞和運算子,充分利用剖析動作以實現更精確或更好的回收/抽象化功能。
  • 使用以規則為基礎的語言方法,以擷取關鍵概念。
  • 自動剖析功能可與深度學習演算法 (遞迴類神經網路) 搭配使用,以更準確分類文件和情緒。
  • 透過非監督式機器學習,自動產生主題。
  • 監督/概率機器學習模型包括 BoolRule、條件隨機域和概率語意。
  • BoolRule 能自動為文件分類產生規則。
  • 條件隨機域和概率語意用於為資料指定標籤和排定序列,並可藉由學習特定實體的語境規則,自動化實體和關係擷取。自動規則產生器會透過監督機器學習,將主題推廣至類別。

情緒分析

情緒分析

  • 使用機器學習或以規則為基礎的方法,識別文字中的主觀資訊,並標記為正面、負面或中性。將該資訊與某個實體相關聯,然後透過情緒指示器顯示,賦予視覺化描述。
  • 識別並分析暗示情緒的詞彙、詞組和字元字串。
  • 透過文件或主題層級的情緒指示器顯示,以視覺化方式描述情緒。
  • 根據 BERT 開放式架構,提供針對情緒的現代化機器學習方法。

語料庫分析

語料庫分析

  • 執行語料庫分析動作,以建立一組包含計數和摘要統計資料的輸出表格。
  • 檢視並瞭解關於資訊複雜性、字彙多樣性、資訊密度以及對比預先定義參考語料庫的比較指標的洞察。
  • 在 SAS Visual Analytics. 建立的報表中,進一步分析或視覺化這些統計資料 (使用計數)。

靈活的部署

靈活的部署

  • SentiConcepts、情緒、主題和類別節點提供在外部資料集上部署模型所需的評分程式碼
  • 評分程式碼為原生執行緒形式,能執行分散式處理,即使是在極大型資料集上,依然可充分利用運算資源,以減少結果延遲。
  • 分析儲存區 (ASTORE) 是二進位檔案,代表來自特定模型或演算法的評分邏輯。這種精實的資產有助於輕鬆移動評分程式碼,以及將其程式碼整合至現有的應用程式架構中。ASORE 支援「概念」、「情緒」和「類別」節點。

對 33 種語言提供原生支援

對 33 種語言提供原生支援

  • 自動偵測多種語言語料庫 (文件) 中的表示語言。
  • 支援 33 種語言的立即可用文字分析:
    • 阿拉伯文。
    • 中文。
    • 克羅埃西亞文。
    • 捷克文。
    • 丹麥文。
    • 荷蘭文。
    • 英文。
    • 波斯文。
    • 芬蘭文。
    • 法文。
    • 德文。
    • 希臘文。
    • 希伯來文。
    • 印地文。
    • 匈牙利文。
    • 印尼文。
    • 義大利文。
    • 日文。
    • 哈薩克文。
    • 韓文。
    • 挪威文。
    • 波蘭文。
    • 葡萄牙文。
    • 羅馬尼亞文。
    • 俄文。
    • 斯洛伐克文。
    • 斯洛維尼亞文。
    • 西班牙文。
    • 瑞典文。
    • 他加祿文。
    • 土耳其文。
    • 泰文。
    • 越南文。
  • 應用程式支援每種語言版本預設停用清單。
  • 內建語彙支援剖析動作,例如,Token 化、詞形還原、拼字錯誤分析、詞性標記、相依性剖析,以及句子邊界消歧義。

開放式平台

開放式平台

  • 與現有系統和開放式程式碼技術順暢整合。
  • 藉由使用 REST API,將 SAS Analytics 的強大功能新增至其他應用程式。
  • 開放式 API 和微服務架構讓您能略過原生 GUI,使用自己的 UI 或建立自訂搜尋應用程式。
  • 快速輕鬆地將選定文字資料分析模型發布至微資料分析服務 (MAS) API,您可以將 API 內嵌至 Web 應用程式,以進行隨選分類和概念擷取。
  • 立即可用的分析程式設計介面可用於文字摘要、文字資料區段劃分、文字剖析和採礦、主題建模、文字規則開發和評分、文字規則探索、詞彙對應和主題詞彙對應、條件隨機域和搜尋。
  • 支援從資料到探索和部署的整個資料分析生命週期。
  • 可使用各種程式設計語言編寫程式碼,包括,SAS、Python、R、Java、Scala 和 Lua。