Prediktiv analys
Vad är det och varför är det viktigt
Prediktiv analys använder data, statistiska algoritmer och maskininlärning för att förutspå framtida beteenden baserat på historiska data. Målet är att gå bortom vad som händer just nu till att få insikter i vad som kommer att hända i framtiden.
Prediktiv analys: Historia och nutida utveckling
Även om prediktiv analys har funnits i decennier är metoden idag helt rätt i tiden. Allt fler organisationer använder nämligen prediktiv analys som en konkurrensfördel och för att förbättra sina resultat. Varför just nu?
- Större volymer och datatyper samt ett ökat intresse i att använda data för att få värdefulla insikter.
- Snabbare och billigare datorer.
- Programvaror som är enklare att använda.
- Svårare ekonomiska förutsättningar och ett behov att särskilja sig från konkurrenterna.
I takt med att interaktiva och lättanvända programvaror blir mer vanliga blir också prediktiv analys mer tillgängligt. Idag är det inte bara något som matematiker eller statistiker använder i sitt arbete, utan också exempelvis affärsanalytiker och branschexperter.
Varför är prediktiv analys viktigt?
Organisationer använder prediktiv analys för att lösa svåra problem och upptäcka nya möjligheter. Det används ofta till att:
Upptäcka bedrägerier. Att kombinera flera analysmetoder gör det enklare att upptäcka beteendemönster och förhindra kriminalitet. I takt med att cybersäkerhet blir en allt viktigare fråga kan avancerade beteendeanalyser kartlägga och analysera alla händelser i realtid på ett nätverk för att upptäcka avvikelser som kan vara bedrägerier, zero-day-attacker eller avancerade säkerhetshot.
Optimera marknadskampanjer. Prediktiv analys används för att ta reda på kundernas reaktioner eller köp såväl som att kors försälja. Med hjälp av prediktiva modeller kan företag attrahera, behålla och skapa tillväxt bland sina mest lönsamma kunder.
Optimera affärsverksamheten. Många företag använder prediktiva modeller för att förutspå sina lager och hantera olika resurser. Flygbolag använder prediktiv analys för att bestämma sina biljettpriser. Hotell förutser antalet gäster under specifika dagar för att maximera beläggningen och öka intäkterna. Prediktiv analys gör det helt enkelt möjligt för organisationer att fungera mer effektivt.
Reducera riskerna. Ett välkänt exempel inom prediktiv analys är kreditpoäng som används för att bedöma kreditvärdighet. Kreditpoäng är en siffra som genereras av en prediktiv modell som innehåller all nödvändig information för att bedöma en persons förmåga att betala sina skulder. Andra riskområden inkluderar försäkringsärenden och ersättningar.
Prediktiv analys i världen idag
Med prediktiv analys kan du få en större förståelse till varför saker sker och få nya insikter om framtiden. Läs mer om hur prediktiv analys formar världen vi lever i.
Vill du lära dig mer om prediktiv analys?
Vår e-bok innehåller tips från arbetsgivare och utbildare om att hitta, behålla samt motivera talanger inom analys.
Bästa metoderna för att öka resultaten med prediktiva modeller
Det kan vara komplicerat att hantera och koordinera alla steg i analysprocessen. Lär dig hur du steg för steg kan uppnå bättre och mer tillförlitliga resultat.
Prediktiv analys
SAS® programvara för datautvinning använder beprövade och banbrytande algoritmer för att lösa dina största utmaningar.
Vem använder det?
Alla branscher kan använda prediktiv analys för att reducera sina risker, optimera verksamheten och öka intäkterna. Här är några exempel.
Banker och finansiella institut
Finansbranschen, som har enorma mängder data och pengar i omlopp, har länge använt prediktiv analys för att upptäcka och minimera riskerna för bedrägerier. Andra användningsområden inkluderar att mäta kreditrisker, maximera kors-/merförsäljning och behålla värdefulla kunder. Commonwealth Bank använder analys för att förutsäga sannolikheten att de utsätts för bedrägerier innan de godkänner varje transaktion - och det inom 40 millisekunder från att transaktionen startade.
Detaljhandeln
Sedan den ökända studien som avslöjade att män som handlar blöjor ofta köper öl samtidigt, används prediktiv analys av detaljhandlare för varuplanering, prisoptimering, analysera effekten av sina marknadskampanjer och för att fastställa vilka erbjudanden som fungerar bästa bland olika konsumentgrupper. Genom att analysera kundbeteenden fick företaget Staples insikter och en komplett bild av sina kunder och uppnådde en ROI på 137 procent.
Olja, gas och allmännyttiga tjänster
Oavsett om det handlar om att förutse fel på utrustning, framtida resursbehov, reducera riskerna inom säkerhet och tillförlitlighet eller förbättra det övergripande resultatet, har energisektorn verkligen omfamnat prediktiv analys. Salt River Projects är det nästa största offentliga kraftverket i USA och en av Arizonas största vattenleverantörer. Med hjälp av dataanalys från sensorer kan de förutspå när turbinerna i sina kraftverk behöver underhåll.
Myndigheter och offentlig sektor
Myndigheter har spelat en viktig roll i utvecklingen av ny datateknik. US Census Bureau, statistiska centralbyrån i USA, har analyserat data i decennier för att förstå befolkningstrender. Myndigheter använder nu prediktiv analys, precis som många andra branscher, för att ge bättre service, upptäcka och förhindra bedrägerier och bättre förstå konsumentbeteenden. De använder även prediktiv analys för att förbättra säkerheten på internet.
Sjukvårdsförsäkring
Förutom att upptäcka försäkringsbedrägerier, vidtar försäkringsbranschen inom hälso- och sjukvården åtgärder för att identifiera vilka patienter som löper störst risk att drabbas av kroniska sjukdomar samt hitta vilka interventioner som fungerar bäst. Express Scripts, en organisation för hantering av apoteksförmåner, använder analys för att identifiera vilka som inte följer ordinerad behandling. Detta har resulterat i en besparing på mellan 1,500 till 9,000 amerikanska dollar per patient.
Tillverkningsindustrin
Inom tillverkningsindustrin är det mycket viktigt att identifiera vilka faktorer som leder till sämre kvalitet och produktionsfel såväl som att optimera maskindelar, service och distribution. Ett exempel är Lenovo som använder prediktiv analys för att bättre förstå garantiärenden - ett initiativ som resulterade i att kostnaderna för att hantera garantiärenden minskade med 10-15 procent. .
Läs om fler branscher som använder metoden
När magi blir ännu mer magiskt
Att analysera sporter är idag ett hett område och det till stor del på grund av Nate Silver och förutsägelserna inför mästerskap. NBAs Orlando Magic använder SAS Predictive Analytics för att förbättra sina intäkter och för att bestämma vilka spelare som ska ut på spelplanen. Affärsutvecklarna i Orlando Magics organisation har direkt tillgång till all nödvändig information. Magic kan visualisera och utforska rykande färsk data hela vägen ned till enskilda matcher och platser i arenan.
Prediktiv textanalys
Nära 90 procent av alla data är ostrukturerad. Använder du fördelarna med prediktiv analys för att få insikter i all data?
Så här fungerar det
Prediktiva modeller använder kända resultat för att utveckla (eller träna) en modell som kan användas för att förutspå värden för annan eller ny data. Modelleringen levererar resultat i form av prediktioner som representerar en sannolikhet av en målvariabel (exempelvis intäkt) baserat på ett estimerat signifikansvärde från ett subset av indatavariabler.
Detta skiljer sig från beskrivande modeller som hjälper dig att förstå vad som hände, eller diagnostiska modeller som hjälper dig att förstå nyckelsamband och avgöra varför något hände. Hela böcker ägnas åt analytiska metoder och tekniker. Kompletta läroplaner fördjupar sig inom ämnet. Men till att börja med, här är några grunder.
Det finns två typer av prediktiva modeller. Klassificeringsmodeller förutsäger klasstillhörighet. Till exempel om du försöker klassificera om någon sannolikt kommer att lämna, om personen kommer att svara på en uppmaning, om personen är en bra eller dålig kreditrisk etc. Vanligtvis är resultatet i form av 0 eller 1, där 1 är händelsen du vill mäta. Regressionsmodeller förutspår ett antal – till exempel hur mycket intäkter en kund kommer att generera under det kommande året eller antalet månader innan en komponent på en maskin går sönder.
Tre av de mest använda prediktiva modellerna är beslutsträd, regressionsanalys och neurala nätverk.
Regression (linjär och logistisk) är en av de mest populära metoderna inom statistik. Regressionsanalys uppskattar samband mellan variabler. Metoden används när man har kontinuerlig data som kan antas följa en normalfördelning för att hitta mönster i stora datamängder. Regressionsanalys används ofta för att bestämma hur mycket olika faktorer, såsom priset, påverkar en tillgångs rörelsemönster. Med regressionsanalys vill man förutsäga ett tal som kallas Y-variabeln. Med linjär regression används en oberoende variabel för att förklara och/eller förutsäga resultatet av Y. Multipel regression använder två eller flera oberoende variabler för att förutsäga resultatet. Med logistisk regression förutsäger modellen okända variabler för en diskret variabel baserat på känt värde för andra variabler. Svarsvariabeln är kategorisk, vilket innebär att den endast kan anta ett begränsat antal värden. Med binär logistisk regression har en svarsvariabel bara två värden som 0 eller 1. I multipel logistisk regression kan en svarsvariabel ha flera olika nivåer som låg, medel och hög eller 1, 2 och 3.
Beslutsträd är klassificeringsmodeller som delar upp data i delmängder baserat på kategorier av indatavariabler. Detta hjälper dig att förstå vägen till att ta ett beslut. Ett beslutsträd ser ut som ett träd där varje gren representerar ett val mellan ett antal alternativ, och varje blad representerar en klassificering eller ett beslut. Modellen tittar på all data och försöker hitta den variabel som delar upp data i logiska grupper, som är mest olika. Beslutsträd är populära eftersom de är lätta att förstå och tolka. Modellen hanterar också saknade värden på ett bra sätt och är användbar för preliminärt välja variabler. Så om du har många saknade värden eller vill ha ett snabbt och enkelt svar ska du börja med ett träd.
Neurala nätverk är sofistikerade och kan modellera extremt komplexa relationer. Eftersom de är både kraftfulla och flexibla är de mycket populära bland de som kan tillämpa tekniken. Styrkan ligger i förmågan att hantera icke-linjära relationer i data, vilket blir allt vanligare desto mer data som samlas in. Neurala nätverk används ofta för att bekräfta resultat från enklare metoder som regressionsanalys eller beslutsträd. Neurala nätverk är baserade på mönsterigenkänning och AI-processer som grafiskt "modellerar" parametrarna. Metoden fungerar bäst när ingen matematisk formel är känd som relaterar indata till utdata, när förutsägelsen är viktigare än förklaringen eller när det finns mycket data att träna modellen med. Artificiella neurala nätverk utvecklades ursprungligen av forskare som försökte efterlikna hjärnans neurofysiologi.
Andra populära metoder du kanske hört talas om
Bayesiansk analys. Bayesianska metoder behandlar parametrar som slumpmässiga variabler och definierar sannolikhet som "degrees of belief" (det vill säga sannolikheten för en händelse till vilken grad du tror att händelsen är sann). När du genomför en Bayesiansk analys börjar du med en tidigare tro om sannolikhetsfördelningen av en okänd parameter. Efter att ha lärt dig mer om din data ändrar du eller uppdaterar du din tro om den okända parametern.
Ensemblemodellering. Ensemblemodeller skapas genom att träna flera liknande modeller och kombinera deras resultat för att öka noggrannheten, reducera bias och variansen samt identifiera vilken modell som är bäst att använda för ny data.
Gradient boosting. Modellen samplar om din datamängd flera gånger för att generera resultat som bildar ett viktat medelvärde av den samplade datamängden. Precis som beslutsträd gör boostning inga antaganden om distributionen av data. Boostning är mindre benägen att försöka anpassa data än ett enskilt beslutsträd, och om ett beslutsträd passar data ganska bra, förbättras det ofta av boostningen, så kallad överanpassning. (Överanpassning av data betyder att du använder för många variabler och att modellen är för komplex. Underanpassning betyder motsatsen – inte tillräckligt med variabler och modellen är för enkel. Båda minskar noggrannheten i dina prediktioner).
Inkrementell responsanalys. Dessa modellerar förändringen i sannolikhet som orsakas av en handling. De används ofta för att minska churn och för att förstå effekterna av olika marknadsföringsprogram.
K-närmaste grannar (knn). Detta är en icke-parametrisk metod för klassificering och regression som förutsäger objektets värde eller klass baserat på k-närmaste träningsdata.
Minnesbaserat resonemang. Modellen liknas vid k-närmaste grannar (knn) för att kategorisera eller förutsäga observationer.
Minstakvadratenmetoden. Den här statistiska modellen kan tillämpas på vilket data som helst. Den modellerar relationer mellan indata och utdata även när indata är korrelerade och full med brus, när det finns mer utdata eller mer indata än observationer. Minstakvadratenmetoden letar efter faktorer som förklarar både respons och variationer i predikteringar.
Principalkomponentanalys, ofta förkortat PCA, syftar till att härleda ett mindre antal oberoende linjära kombinationer av en uppsättning variabler som behåller så mycket av informationen i de ursprungliga variablerna som möjligt. Det är vanligt att man använder PCA för att reducera antalet dimensioner i data.
En stödvektormaskin är en typ av statistisk klassificerare, närmare bestämt en generaliserad linjär klassificerare. Modellen används för att analysera data och upptäcka mönster. Den kan användas för både klassificering och regression.
Utvinning av data ur tidsserier. Tidsseriedata tids stämplas och samlas in över tid under givna intervaller (försäljning under en månad, samtal per dag, webbesök per timme etc.). Modellen kombinerar traditionell datautvinning med tekniker för prognoser. Datautvinning som sampling, klustring och beslutsträd tillämpas på data som samlats in över tid med målet att förbättra prediktionerna.
Vad behöver du för att komma igång med prediktiv analys?
Det första du behöver för att komma igång med prediktiv analys är ett problem att lösa. Vad vill du veta om framtiden utifrån det förflutna? Vad vill du förstå och förutsäga? Du vill också överväga vad som kommer att göras med prediktionerna. Vilka beslut kommer att tas baserat på insikterna? Vilka åtgärder kommer att genomföras?
För det andra behöver du data och i dagens värld betyder det data från många olika ställen. Data från transaktionssystem, data från sensorer, data från tredje part, data från call centers, webbloggar och mer. Du behöver en datahanterare, eller någon med erfarenhet av att använda data för att hjälpa dig tvätta och förbereda all data för analys. För att förbereda data för en prediktiv modellering krävs också någon som förstår både data och verksamhetens utmaningar. Hur du definierar ditt mål är avgörande för hur du kan tolka resultatet. (Att förbereda data anses vara en av de mest tidskrävande aspekterna av analysprocessen. Så var beredd på det.)
Därefter börjar arbetet med att skapa prediktiva modeller. Allt eftersom att programvaror blir mer lättanvända blir det också enklare att skapa analytiska modeller. Men du kommer förmodligen att behöva hjälp från en dataanalytiker i att förfina dina modeller för att få fram bästa resultat. Och när det är gjort kan du även behöva någon från IT som kan hjälpa dig använda modellerna i praktiken. Alltså att applicera dina modeller på den data du valt och därifrån också få dina resultat.
Prediktiv modellering kräver att hela ditt team involveras. Du behöver människor som förstår vilka affärsproblem som ska lösas. Du behöver någon som vet hur man förbereder data för analys. Du behöver någon som kan bygga och förfina modellerna. Du behöver även någon inom IT som säkerställer att du har rätt infrastruktur för att bygga och implementera modellerna. Slutligen behöver du någon från din organisation som kan se till att resultatet från din analys verkställs.
Läs mer om detta ämne
- Fraud detection and machine learning: What you need to knowMachine learning and fraud analytics are critical components of a fraud detection toolkit. Discover what you’ll need to get started defending against fraud – from integrating supervised and unsupervised machine learning in operations to maintaining customer service.
- Know your blind spots in tax fraud preventionTax agencies sometimes miss fraud that's happening right under their noses – despite robust external fraud prevention efforts. Find out where traditional tax fraud prevention and detection efforts fall short, and how analytics can change that.
- Analytics: A must-have tool for leading the fight on prescription and illicit drug addictionStates and MFCUs now have the analytics tools they need to change the trajectory of the opioid crisis by analyzing data and predicting trouble spots – whether in patients, prescribers, distributors or manufacturers. The OIG Toolkit with free SAS® programming code makes that possible.
- Continuous monitoring: Stop procurement fraud, waste and abuse nowProcurement fraud, waste and abuse silently robs businesses an average of 5% of spend annually. And even when organizations invest in detection methods, they’re often let down by their techniques. Learn what continuous monitoring is and why this proven analytical method is key to fighting back.