預測分析
它是什麼以及為什麼重要
預測分析是利用資料、統計演算法及機器學習技術,根據歷史資料判斷未來結果的可能性。其目標不僅是了解過去發生了什麼,更在於提供對未來可能情況的最佳評估。
預測分析 歷史與當前進展
雖然預測分析已存在數十年, 但如今已成為大放異彩的技術。越來越多的組織開始運用預測分析,以提升營收和競爭優勢。為什麼是現在?
- 資料量與類型持續增長,且對利用資料產生有價值洞察的興趣日益增加。
- 更快速且成本更低的電腦。
- 更易於使用的軟體。
- 嚴峻的經濟環境以及對競爭差異化的需求。
隨著互動性高且易於使用的軟體日益普及,預測分析已不再只是數學家和統計學家的專利。商業分析師與各業務領域的專家也開始使用這些技術。
為什麼預測分析很重要?
組織正在運用預測分析來 解決棘手 問題並發掘新機會。常見應用包括:
偵測詐欺。結合多種分析方法可以提升模式偵測能力、識別犯罪行為,並防止詐欺。 隨著網路安全問題日益受到關注,高性能行為分析能夠即時檢查網路上的所有操作,以偵測可能指示詐欺、零日漏洞及進階持續威脅的異常活動。
優化行銷活動。預測分析可用於預測客戶的反應或購買行為,並促進交叉銷售機會。預測模型可幫助企業吸引、留住並拓展最具價值的客戶。
改善營運。 許多公司利用預測模型來預測庫存並管理資源。航空公司利用預測分析來制定機票價格。飯店試圖預測特定夜晚的入住人數,以最大限度地提升住房率並增加收入。預測分析使組織能更有效地運作。
降低風險。信用評分用於評估買家在購買時違約的可能性,是預測分析的一個眾所周知的示例。信用評分是由預測模型產生的數值,該模型綜合了與個人信用價值相關的所有資料。其他與風險相關的應用包括保險理賠與催收。
預測分析 在現今世界的應用
透過預測分析,您可以不僅了解過去發生了什麼及原因,還能洞察未來的趨勢與可能性。了解預測分析如何塑造我們所生活的世界。


透過分析提升運作時間
實驗室在將檢測結果傳送給醫師、臨床醫生及研究人員時,無法承受系統停機的情況。了解 Siemens Healthineers 如何運用 SAS 開發預測性維護解決方案,將系統運作時間提升了 36%。
誰在使用它?
任何產業都能運用預測分析來降低風險、優化營運並提升收益。以下是幾個示例。
銀行與金融服務
金融行業擁有龐大的資料與資金,一直以來皆採用預測分析來偵測與降低詐欺風險、評估信用風險、最大化交叉銷售與加值銷售機會,並留住重要客戶。Commonwealth Bank 運用分析技術,在交易授權 前預測其發生詐欺的可能性 —— 自交易啟動起僅需 40 毫秒即可完成判斷。
政府與公共部門
政府一直是電腦科技進步的重要推動者。美國人口普查局數十年來一直在分析資料,以了解人口趨勢。如今,政府部門也像其他產業一樣運用預測分析 – 以提升服務與效能、偵測及防範詐欺,並更深入了解民眾行為。他們也運用預測分析來強化網路安全。
醫療保健
除了偵測理賠詐欺外,醫療保健產業也在採取措施,積極識別最有慢性疾病風險的患者,並找出最佳干預手段。大型藥品福利管理公司 Express Scripts 運用分析技術識別未依醫囑治療的患者,從而每位患者節省 1,500 至 9,000 美元。
Learn More About Industries Using This Technology
為魔力注入魔法
體育分析是一個熱門領域,部分原因要歸功於 Nate Silver 及其對賽事的預測。美國職籃 NBA 的奧蘭多魔術隊(Orlando Magic)運用 SAS 預測分析來提升收益並決定先發陣容。奧蘭多魔術隊組織內的業務使用者能即時取得所需資訊。魔術隊現在能夠直觀地探索最新資料,甚至細化到每場比賽和每個座位。
運作方式
預測模型利用已知結果來建立(或訓練)模型,以用於預測不同或新資料的數值。建模會以預測的形式提供結果,這些預測代表了基於一組輸入變數的估計重要性得出的目標變數(例如收益)的概率。
這與幫助您了解發生了什麼的描述性模型,以及幫助您理解關鍵關係並確定為何發生某事的診斷性模型不同。有整本書專門探討各種分析方法與技術。完整的大學課程也深入探討這一主題。但作為入門,以下是一些基本概念。
預測模型主要分為兩種類型。分類模型 預測類別歸屬。例如,您可能想判斷某人是否可能離職、是否會回應邀約、或其信用風險是好是壞等。通常,模型結果以 0 或 1 的形式呈現,其中 1 表示您所關注的事件。迴歸模型 預測數值,例如預測某位客戶在未來一年將帶來的收益,或機器零件在多少個月後可能出現故障。
三種最廣泛使用的預測建模技術是決策樹、迴歸和神經網路。
迴歸(線性迴歸與邏輯斯迴歸) 是統計學中最受歡迎的方法之一。迴歸分析用於估計變數之間的關係。迴歸分析適用於可假設呈常態分佈的連續資料,它能在大型資料集中找出關鍵模式,並常用於判斷價格等特定因素對資產變動的影響程度。透過迴歸分析,我們希望預測一個數值,稱為反應變數或 Y 變數。在線性迴歸中,使用一個自變數來解釋和/或預測 Y 的結果;多元迴歸則使用兩個或以上的自變數來預測結果。在邏輯斯迴歸中,根據其他已知變數的值來預測離散變數的未知值。回應變數是分類變數,這意味著它只能取有限數量的值。在二元邏輯斯迴歸中,回應變數只有兩個可能值,例如 0 或 1。在多元邏輯斯迴歸中,回應變數可以有多個層級,例如低、中、高,或 1、2、3。
決策樹 是一種分類模型,根據輸入變數的類別將資料分割成子集。這有助於您了解某人的決策路徑。決策樹的外觀類似樹狀結構,每個分支代表在多個選項間的抉擇,每個葉節點則代表一個分類或決策。此模型會分析資料,並嘗試找出能將資料分成差異最大、最具邏輯性的群組的變數。決策樹之所以受歡迎,是因為它們易於理解與解釋。它們也能有效處理缺失值,並適用於初步變數篩選。因此,如果資料中有大量缺失值,或您希望快速且易於解釋的結果,可以先從決策樹開始。
您可能聽過的其他熱門技術
貝葉斯分析貝葉斯方法將參數視為隨機變數,並將機率定義為「信念程度」(也就是事件發生的機率代表您相信該事件為真的程度)。在進行貝葉斯分析時,您會先對未知參數的機率分佈建立先驗信念。在從現有資料中獲得資訊後,您會對未知參數的信念進行修改或更新。
集成模型。 集成模型是透過訓練多個相似模型,並將它們的結果結合,以提高準確性、降低偏差與變異,並找出最適合用於新資料的模型。
梯度提升法。這是一種提升方法,透過多次重抽樣資料集,產生結果並形成重抽樣資料集的加權平均值。與決策樹類似,提升方法對資料分佈不做任何假設。與單一決策樹相比,提升方法較不容易對資料過度擬合;如果單一決策樹已能相當符合資料,提升方法通常能進一步改善擬合效果。(資料過度擬合表示您使用了過多變數,導致模型過於複雜。欠擬合則相反 – 變數過少,模型過於簡單。兩者都會降低預測準確性。)
增量反應模型(也稱為淨提升模型或提升模型)這些模型用來模擬某個行動所造成的機率變化。它們廣泛用於降低客戶流失率,並分析不同行銷方案的效果。
K 近鄰(KNN)。這是一種用於分類和回歸的非參數方法,根據距離最近的 k 個訓練樣本來預測物件的數值或類別。
基於記憶的推理。基於記憶的推理是一種 K 近鄰(KNN)技術,用於對觀察值進行分類或預測。
偏最小二乘法。這種靈活的統計技術可以應用於任何形式的資料。即使輸入之間存在相關性與雜訊、有多個輸出,或輸入變數多於觀測值時,它仍能對輸入與輸出之間的關係進行建模。偏最小二乘法尋找能同時解釋反應變數與預測變數變異的因子。
主成分分析。主成分分析(PCA)的目的,是從一組變數中推導出少數彼此獨立的線性組合(主成分),並儘可能保留原始變數中的資訊。
支持向量機。這種監督式機器學習技術使用相關的學習演算法來分析資料並辨識模式。它可用於分類與迴歸兩種任務。
時間序列資料挖掘。時間序列資料是帶有時間標記並依特定時間間隔收集的資料(例如每月銷售量、每日來電數、每小時網站訪問量等)。時間序列資料挖掘結合了傳統資料挖掘與預測技術。資料挖掘技術,例如抽樣、分群與決策樹,會應用於隨時間收集的資料,目標是提升預測的準確性。
要開始使用預測分析(Predictive Analytics),您需要什麼?

開始使用預測分析的第一件事,就是要有一個要解決的問題。您想根據過去的資料預測未來的什麼情況?您想要了解並預測什麼?您還需要考慮這些預測結果將如何被應用。哪些決策將會依據這些洞察而做出?將會採取哪些行動?

第二,您需要資料。在現今世界,這意味著需要來自多個來源的資料。交易系統、感測器收集的資料、第三方資訊、客服中心紀錄、網站日誌等。您需要一位資料整理員,或者具有資料管理經驗的人,幫助您清理並準備資料以進行分析。要為預測建模準備資料,還需要一位同時了解資料與業務問題的人。您如何定義目標,對於您如何解讀結果至關重要。(資料準備被認為是分析過程中最耗時的部分之一。因此,務必要為此做好準備。)

接下來,就開始進行預測模型的建立。越來越容易使用的軟體,意味著更多人可以建立分析模型。但您仍可能需要某種資料分析師,協助您優化模型並找出表現最佳的模型。接著,您可能還需要 IT 人員協助部署您的模型。這意味著將模型應用到您選定的資料上 – 這也是您獲得結果的地方。

預測建模需要團隊合作。您需要了解要解決的業務問題的人。需要懂得如何為分析準備資料的人。需要能建立並優化模型的人。需要 IT 人員,確保您擁有適合模型建立與部署的分析基礎架構。而一位高階主管贊助人可以幫助將您的分析願景變為現實。
閱讀更多關於此主題
- Are you covering who you think you’re covering? Payers often don't focus enough on healthcare beneficiary fraud in public and private healthcare plans. Before paying a claim, payers need to ensure beneficiaries are eligible. Advanced analytics applied to a broad range of data can help them accurately detect and prevent beneficiary fraud.
- How to drill a better hole with analyticsFrom drilling holes to preventing health care fraud, learn about some of the new technologies SAS has patented with IoT and machine learning technologies.
- Nerd in the herd: protecting elephants with data scienceA passionate SAS data scientist uses machine learning to detect tuberculosis in elephants. Find out how her research can help prevent the spread of the disease.
- 後Cookie時代,以AI打造「客戶決策平台」追緊消費者足跡疫情加快數位轉型的腳步,讓全世界意識到數據蒐集的重要性,過去我們同步仰賴第三方cookies跨網站追蹤,然而,隨著消費者隱私意識逐漸覺醒,與GDPR及個資保護法規日益嚴格,至2022年底前,瀏覽器將會陸續停用第三方cookies。