資料科學家還在自己做資料清理與特徵工程?怎麼不讓 AutoML 來幫你!

作者: SAS台灣業務顧問部顧問陳新銓
原文刊登自:TechOrange 科技報橘

未來,每個人都可以是資料科學家!這句話不是一個噱頭,隨著 AutoML 問世,資料科學平民化的世界即將到來。

由 AutoML 做資料前處理與模型最佳化,加速完成 AI 建模作業

就像攪拌機/麵包機可以取代傳統麵包製作過程中最費力的、手揉麵糰的那道工序,讓一般人即使不是麵包師傅,也能自己製作麵包。AutoML 也有著相同的概念,透過系統自動化建模,節省了資料科學家的作業時間,也讓不具資料科學背景的一般產業專家也能自行建構符合應用情境的 AI 模型。

機器學習「建模」流程可以分成四大步驟,從最初資料取得資料前處理(又分成資料清理、特徵工程)、模型最佳化(包含參數最佳化及結構最佳化)、到實際應用(包含進行預測與模型解釋)。在這過程中,讓資料科學家們耗費最多時間和精力、也最需要 AutoML 代勞的部分,就是資料前處理與模型最佳化。

根據《富比士》統計註1,分析過程中,資料科學家花費約 80% 時間在進行資料的處理和清理,因為只有乾淨、良好的數據用於機器學習,資料科學家才能確保自己建造的模型能夠預測出有價值的東西,所以資料前處理這個步驟可說至關重要。也因此在導入 AI 的公司裡,花在「取得訓練用的數據(Training Sets)」的時間才是佔絕大多數。

過往若有資料不夠乾淨或是偏態分布的狀況,資料科學家們只能自行觀察,再做係數的校正與轉換,而這通常得花上許多時間才能完成,尤其資料量越大、所需的時間就越長,如今藉由 AutoML 中的 Auto Clean、 Auto Feature Engineering 等功能設計,一鍵就診斷出每個特徵變數各自的品質問題,並由系統提出最佳建議的清理、轉換方式,如此對症下藥更能提高機器學習對資料的配適度。

再就模型最佳化來看,SAS 業務顧問部副總經理陳新銓指出,SAS 過往曾協助某製造業進行模型最佳化的工作,相關參數的排列組合高達 9 萬個,若以人工方式一一測試這些排列組合的運算結果與準確度,最快也需要兩個月的時間才能找出準確度最高的模型,但 AutoML平台內建各種演算法,可以自動執行相關作業,將時間大幅縮短到 15 分鐘就可以找出最佳模型。

「不只是效率提升,AutoML 還能克服模型最佳化過程中常見的人為誤差或偏頗,」陳新銓進一步說明,由於資料科學家對方法論的理解不同,在進行反覆試誤(Trial-and-Error)時,容易受到主觀意識引導而影響找到的答案,但 AutoML 是系統自動化作業,就不會有此疑慮。

借助 AutoML,讓人人都是資料科學家

由於 AutoML 讓建置 AI 模型變得快速、容易上手,成為推動企業 AI 應用發展的一大助力,也因此, Google 在 2018年發布了 Cloud AutoML 技術後,市場上 AutoML解決方案如雨後春筍般出現,看似降低企業導入機器學習的門檻,但實際上,企業在導入過程中還是反覆遇到許多問題。

「因為一個 ML 模型的成功,除了靠 AutoML 加速完成資料前處理與模型最佳化的步驟,其實還包含了一個關鍵要素:『專家知識(Expert Knowledge)』」陳新銓點出關鍵所在,因此未來 AI 應用趨勢將走向資料科學平民化,由產業專家操作 AutoML 來解決企業題。

被譽為 AI 大神的 Google深度學習研究團隊聯合創始人吳恩達亦曾經指出,機器學習的應用,基本上就是一個特徵工程,而要提取哪些特徵,則需仰賴專家知識(Expert Knowledge)來做判斷。

由此可知,機器學習應用中,特徵工程結合產業知識的重要性,但在傳統機器學習流程中,要將兩者結合其實不太容易,因為,資料科學家的產業知識深度比不上產業專家,而機器學習應用的複雜度、資料前處理和模型最佳化兩道程序曠日廢時、易有人為誤差等諸多挑戰,也讓領域專家不易轉型資料科學家。

所幸 AutoML 克服了這些挑戰,替產業專家省去了建模過程中自行寫程式碼、理解各種方法論的作業時間,即便領域專家不具資料科學相關背景,也能根據自身業務情境輕鬆駕馭機器學習模型。

因此,陳新銓建議企業,除了將模型建立的工作交給 AutoML,更要思考如何培育內部的領域專家,讓他們實際執行數據分析專案並轉型為資料工程師,遇到無法解決的應用情境,再交由資料科學家來負責,如此才能將領域知識融進自動化生成的模型當中,創造AI應用的最大效益。

AutoML 方案怎麼選?掌握這三大挑選重點

目前各家 AutoML 解決方案的運算邏輯皆不盡相同,各自有不同的優缺點,但若要實現資料科學平民化的終極目標,企業在選擇時便應該關注以下三個重點:

第一、能否提供多元層次的自動化

各家 AutoML 的自動化程度不同,陳新銓建議要判斷各家解決方案在自動化上的差異性,先看是否自動化層次夠多元:除了可以自動清洗、產出高品質的資料外,在建模初期、中期到後期模型解釋,都有相應的自動化流程。

建模初期的特徵工程階段:可讓特徵工程的生成更為快速與自動化,這在機器學習過程中十分重要,唯有挖掘並建構數據之間的相關特徵,甚至還要增強某些特定的特徵,才能讓模型有最優異的表現。

建模中期的模型訓練和選擇階段:是否可從模型調參(model tuning)以及模型訓練(model training)兩個面向進行最佳化,模型調參主要針對模型結構進行最佳化的調整,模型訓練則是基於特定結構下的參數權重最佳化,由系統來決定每一個參數的比重,避免不必要的人為介入與誤差,才能找到準確度最高的模型。

產出最佳化模型階段:不只會自動產生流程圖(pipeline)、產出最佳化模型運算框架,還能解釋在模型生成時,如何從資料中看出各個參數間的關聯(pattern)。

第二、使用者介面(UI)友善度

無論哪一種系統,操作介面友善度,絕對是能否快速上手、願意持續使用的關鍵。

市面較領先的系統,特徵擷取、模型與演算法上是可使用下拉式選單的設計,讓使用者可以自行選擇要如何進行自動化的資料分析。陳新銓強調,Low code 或 No code 是 AutoML 很重要的設計,透過降低人力撰寫程式的作業需求,才能讓有領域知識的人可以自行操作建模、發揮分析力,這也是 AutoML 真正效益所在。

第三、系統設計能否兼顧效率與未來擴充性

在建構ML模型過程中, AutoML 需要反覆進行運算,才能找出品質最佳的模型。而運算所需的時間是長或短,除了取決於硬體設備的規格等級,也和 AutoML 系統框架有關,同樣一份資料倒入不同 AutoML 解決方案中,產出模型的時間有些只要 30 分鐘、有些卻要跑 3 天,這就是系統框架不同的緣故。

框架設計得好,AutoML 能進行分散式、平行化和 in-memory 多種運算方式,不只大幅加快運算速度,還能依據應用需求,彈性地選擇要垂直或水平擴充硬體註2,就能充分運用硬體資源;相反的,如果框架設計不夠完善,即便有很高規的硬體,也可能無法發揮良好的運算效能。

將建模「外包」給 AutoML,更能養成企業內部分析人才

迎向人工智慧新未來,陳新銓認為,企業將建構模型的工作交給 AutoML 就像「把資料工程外包」,讓資料科學家能夠將工作重點放在探索問題本質、問題框架、最終決策等更有價值的作業上,同時也藉由AutoML減輕對機器學習人才的需求壓力,並培訓具備產業知識的人轉型成為資料科學家,最大化與最佳化導入機器學習應用的價值。

註1:CrowdFlower,2016
註2:垂直擴充:直接於同一伺服器內添加運算資源;水平擴充:增加運算伺服器的數量

carousel-wide5

獲得更多洞察


想要從SAS獲取更多洞察? 訂閱我們的洞察時訊。亦可回顧往期以獲得更多您所關心的主題洞察,包括分析大數據商業智能數據管理欺詐和安全營銷以及風險管理