Maskininlärning

Vad det är och varför det är viktigt

Maskininlärning är en metod av dataanalys som automatiserar byggandet av analytiska modeller. Det är en gren inom artificiell intelligens som grundar sig i idén att system kan lära sig av data, identifiera mönster och fatta beslut med minimal mänsklig inblandning.

Maskininlärningens utveckling

Tack vare ny datorteknik är dagens maskininlärning något helt annat än vad det tidigare har varit. Maskininlärning föddes ur mönsterigenkänning och teorin att datorer kan läras upp utan att programmeras för att utföra specifika uppgifter. Forskare som intresserade sig för artificiell intelligens ville se om datorer kunde lära sig av data. Den iterativa aspekten av maskininlärning är viktig eftersom modellerna kan anpassa sig självständigt allt eftersom de exponeras för nya data. De lär sig av tidigare beräkningar för att skapa nya, repeterbara beslut och resultat. Denna vetenskap är inte ny – men den har fått nytt momentum.

Medan många maskininlärningsalgoritmer har funnits länge är förmågan att automatiskt applicera komplexa matematiska beräkningar på stora datavolymer – om och om igen, snabbare och snabbare – en ny utveckling. Här är några omtalade exempel på användningar av maskininlärning som du kanske är bekant med:

  • Den otroligt hypade, självkörande Google-bilen? Den är essensen av maskininlärning.
  • Rekommendationer online som de från Amazon och Netflix? Exempel på hur maskininlärning används i vardagen.
  • Att veta vad kunder säger om er organisation på Twitter? Maskininlärning kombinerat med skapande av lingvistiska regler.
  • Bedrägeriprevention och -bekämpning? Ett av de mer självklara och viktiga exemplen.

 

Maskininlärning och artificiell intelligens

Medan artificiell intelligens (AI) är vetenskapen om hur maskiner kan härma mänskliga förmågor är maskininlärning en specifik gren inom AI som tränar en maskin hur man lär sig. Titta på den här videon för att få en bättre förståelse om förhållandet mellan AI och maskininlärning. Du får se hur dessa teknologier fungerar med praktiska exempel och några skojiga anekdoter.

Varför är maskininlärning viktigt?

Det återuppväckta intresset för maskininlärning beror på samma faktorer som har gjort datautvinning och Bayesiansk inferens mer populära än någonsin. Det är faktorer som växande volymer och ökad mångfald i den tillgängliga datan, billigare datalogisk behandling och en mer kraftfull och prisvärd datalagring.

Alla dessa saker gör det möjligt att snabbt och automatiskt producera modeller som kan analysera större mängder av mer komplex data och leverera snabbare resultat med större precision – till och med i mycket stor skala. Och genom att bygga precisa modeller har organisationer bättre chanser att identifiera vinstgivande möjligheter – och undvika okända risker.

 

Vad krävs för att skapa bra maskininlärningssystem?

  • Kapacitet att förbereda data
  • Algoritmer – grundläggande och avancerade
  • Automatisering och iterativa processer
  • Skalbarhet
  • Ensemblemodellering
Machine learning infographic

Visste du att?

  • Inom maskininlärning kallas ett mål för etikett
  • Inom statistik kallas ett mål för beroende variabel
  • En beroende variabel inom statistik kallas för funktion inom maskininlärning
  • En transformation inom statistik kallas för funktionsskapande inom maskininlärning

Maskininlärning idag

Genom att använda algoritmer för att skapa modeller som visar olika sammanhang kan organisationer fatta bättre beslut utan mänsklig inblandning. Läs mer om teknologierna som formar världen vi lever i.

Blogs

Allt om maskininlärningsalgoritmer

Det finns fyra olika typer av algoritmer inom maskininlärning: övervakade, semiövervakade, oövervakade och förstärkningsalgoritmer. Läs mer om hur de fungerar och vilken som är bäst lämpad för ditt företags behov.

Läs artikeln

Fördjupa dina SAS-kunskaper

Få djupgående kunskaper och gratis tillgång till SAS mjukvara för att bygga upp din kompetens inom maskininlärning. Kurserna inkluderar: 14 timmar undervisning, 90 dagar gratis tillgång till mjukvaran i molnet och flexibel e-learning som inte kräver några programmeringskunskaper.

Kurser i maskininlärning

Använd tillförlitlig AI

Kunder har större förtroende för organisationer som visar prov på ansvarstagande och etisk användning av AI, som maskininlärning och generativ AI. Läs mer om varför det är avgörande att satsa på tillförlitliga AI-system som designats för människocentrering, inkludering och ansvarstagande.

Läs om hur SAS gör det

Maskininlärningens 6 fallgropar

När felaktiga antaganden ligger till grund kan resultatet bli bristfälliga beslut och misstag – särskilt när sofistikerade metoder som maskininlärning används. Slipp begå andras misstag med expertens råd om maskininlärning.

Läs blogginlägget

Vem använder det?

De flesta branscher som arbetar med stora datamängder har insett värdet i maskininlärning. Genom att samla insikter från dessa data – ofta i realtid – kan organisationer arbeta effektivare och få konkurrensfördelar.

Finansiella tjänster

Banker och andra finansföretag använder maskininlärningstekniker i två huvudsyften: att identifiera viktiga insikter i data och för att bekämpa och upptäcka bedrägerier. Insikterna kan identifiera möjliga investeringar eller hjälpa investerare att avgöra när det är dags att köpa och sälja. Datautvinning kan identifiera kunder med högriskprofiler och cyberövervakning kan upptäcka tecken på bedrägerier.

Myndigheter

Myndigheter och kommunala kontor som arbetar med allmänhetens säkerhet och samhällsservice har ett särskilt behov av maskininlärning eftersom de har många olika datakällor som kan användas för att utvinna insikter. Att analysera sensordata kan till exempel identifiera sätt för att öka effektiviteten och spara pengar. Maskininlärning kan också hjälpa till att upptäcka bedrägerier och minska identitetsstölder.

Hälso- och sjukvård

Maskininlärning är en snabbt växande trend inom hälso- och sjukvårdsindustrin tack vare bärbara enheter och sensorer som kan använda data för att utvärdera en patients hälsa i realtid. Tekniken kan också hjälpa medicinsk personal att analysera trender och varningstecken som kan leda till bättre diagnoser och behandling.

Detaljhandel

Webbsidor som rekommenderar varor du kanske gillar utifrån tidigare köp använder maskininlärning för att analysera din köphistorik.  Återförsäljare använder maskininlärning för att samla in data, analysera den och skapa en personanpassad shoppingupplevelse, köra marknadsföringskampanjer, optimera priser, genomföra varuplanering och få insikter om sina kunder.

Olja och gas

Hitta nya energikällor. Analysera mineraler i marken. Förutsäga sensorfel i förädlingen. Anpassa oljedistributionen för att göra den mer effektiv och kostnadseffektiv. Det finns oerhört många användningsområden för maskininlärning i den här industrin – och de blir hela tiden fler.

Transport

Att analysera data för att identifiera mönster och trender är avgörande för transportbranschen, som är beroende av att effektivisera transportrutter och förutsäga potentiella problem för att öka lönsamheten. Dataanalys- och modelleringsaspekterna av maskininlärning är viktiga verktyg för leveransföretag, kollektivtrafikföretag och andra organisationer i transportbranschen.

Så fungerar det

För att få ut så mycket värde som möjligt från maskininlärning måste du veta hur du kombinerar de bästa algoritmerna med rätt verktyg och processer. SAS förenar en lång och sofistikerad historia inom statistik och datautvinning med nya arkitektoniska framsteg för att säkerställa att dina modeller körs så smidigt som möjligt – i enorma Enterprise-miljöer eller i molnet.

Algoritmer: SAS grafiska användargränssnitt hjälper dig att bygga maskininlärningsmodeller och implementera en iterativ maskininlärningsprocess. Du behöver inte ha avancerade kunskaper inom statistik. Vårt omfattande utbud av maskininlärningsalgoritmer ingår i många SAS-produkter och kan hjälpa dig att snabbt hitta värdet i dina stora datavolymer – inklusive data från sakernas internet. SAS maskininlärningsalgoritmer inkluderar:

Neurala nätverk
 
Beslutsträd
 
Slumpmässiga skogar
 
Associationer och sekvensupptäckt
 
Gradientboosting och -bagging
 
Stödvektormaskiner
 
Nearest-neighbor mapping
 
k-means-klustring
 
Självorganiserande kartor
 
Lokala sökoptimeringstekniker (t.ex. genetiska algoritmer)
 
Förväntad maximering
 
Multivariata adaptiva regressionssplines
 
Bayesianska nätverk
 
Uppskattning av kärntäthet
 
Principalkomponentanalys
 
Singulärvärdesuppdelning
 
Gaussiska blandningsmodeller
 
Sekventiellt täckande regeluppbyggnad
 

 

Verktyg och processer: Vi vet att algoritmer inte är allt. I slutänden är hemligheten bakom att få ut maximalt värde av stora datavolymer att kombinera de bästa algoritmerna för den aktuella uppgiften med:

omfattande datakvalitet och datahantering
 
grafiska användargränssnitt för att bygga modeller och processflöden
 
interaktiv utforskning av data och visualisering av modellresultat
 
jämförelser mellan olika maskininlärningsmodeller för att snabbt identifiera den bästa
 
automatisk utvärdering av modellensembler för att identifiera de bäst presterande
 
enkel modellanvändning så att du snabbt får repeterbara och tillförlitliga resultat
 
en integrerad, komplett plattform för automatisering av processen att gå från data till beslut.
 

Vad finns det för populära maskininlärningsmetoder?

Två av de mest använda maskininlärningsmetoderna är övervakad inlärning och oövervakad inlärning – men det finns många andra metoder inom maskininlärning. Här är en översikt av de mest populära.

Övervakade inlärningsalgoritmer tränas på etikettförsedda exempel som indata där man känner till den önskade utdatan. Ett exempel är en utrustning som har datapunkter som antingen har etiketten ”F” (failed, misslyckades) eller ”R” (runs, körs). Inlärningsalgoritmen tar emot en uppsättning av indata tillsammans med motsvarande korrekt utdata och lär sig genom att jämföra sin faktiska utdata med den korrekta utdatan för att upptäcka fel. Sedan anpassar den modellen. Genom metoder som klassificering, regression, prediktion och gradientboosting kan övervakad inlärning använda mönster för att förutsäga vilka värden hittills omärkta datas etiketter ska ha. Övervakad inlärning används ofta i applikationer där historiska data kan förutsäga sannolika framtida händelser. Algoritmen kan till exempel förutsäga huruvida kreditkortstransaktioner sannolikt är bedrägliga eller vilken försäkringskund som sannolikt kommer att göra en skadeanmälan.

Oövervakad inlärning används mot data som inte har historiska etiketter. Systemet får inte reda på vad som är ”rätt svar”. Algoritmen måste själv identifiera vad det är som visas. Målet är att utforska data och hitta strukturer i datan. Oövervakad inlärning fungerar bra på transaktionsdata. Algoritmen kan till exempel identifiera vilka kundsegment som har liknande attribut och därmed kan behandlas på liknande sätt i marknadsföringskampanjer. Den kan också användas för att hitta de huvudsakliga egenskaperna som särskiljer kundsegment från varandra. Populära tekniker omfattar bland annat självorganiserande kartor, nearest-neighbor mapping, k-means-klustring och singulärvärdesuppdelning. Dessa algoritmer används också för att segmentera text efter ämne, rekommendera varor och identifiera avvikande värden.

Semiövervakad inlärning har samma användningsområden som övervakad inlärning. Men här används både data med och utan etiketter för inlärningen. Typiskt sett är det en liten mängd data med etiketter och en stor mängd data utan etiketter (eftersom omärkta data innebär lägre kostnader och är enklare att få tag på). Den här typen av inlärningsalgoritm kan användas med metoder som klassificering, regression och prediktion. Semiövervakad inlärning är ett bra val när det är för dyrt att enbart använda data med etiketter i träningsprocessen. Tidiga exempel på detta alternativ är att webbkameran hittar användarens ansikte.

Förstärkningsinlärning används ofta inom robotik, gaming och navigering. Dessa algoritmer används också i samband med generativa AI-tekniker som stora språkmodeller. Med förstärkningsinlärning använder algoritmen försök och misstag för att lära sig vilka åtgärder som leder till de största belöningarna. Den här typen av inlärning har tre huvudkomponenter: agenten (den lärande eller beslutsfattaren), miljön (allt som agenten interagerar med) och handlingar (vad agenten kan göra). Målet är att agenten ska välja handlingar som maximerar den förväntade belöningen över en definierad tidsperiod. Agenten når målet mycket snabbare genom att följa en bra princip. Målet i förstärkningsinlärning är alltså att lära sig den bästa principen.

Människor skapar i regel en eller två bra modeller per vecka – maskininlärning kan skapa tusentals modeller på en vecka.

Thomas H. Davenport, tankeledare inom analys
Utdrag från The Wall Street Journal

Vad är skillnaderna mellan datautvinning, maskininlärning och djup maskininlärning?

Även om dessa metoder har samma mål – att nå insikter, hitta mönster och förhållanden som kan användas för att fatta beslut – har de olika tillvägagångssätt och kapaciteter.

Datautvinning

Datautvinning kan ses som ett superset av olika metoder för att nå insikter utifrån data och kan involvera traditionella statistiska metoder och maskininlärning. Datautvinning använder sig av metoder från många olika områden för att identifiera hittills okända mönster i data. Det kan inkludera statistiska algoritmer, maskininlärning, textanalys, tidsserieanalys och andra analyser. Datautvinning omfattar också studier av och praktiker för datalagring och datamanipulering.


Maskininlärning

Den största skillnaden med maskininlärning är att, precis som för statistiska modeller, är målet att förstå datans struktur – det vill säga att pröva teoretiska fördelningar på kända data. Med statistiska modeller finns det alltså en teori bakom modellen som är matematiskt bevisad, men det kräver att datan motsvarar specifika, starka antaganden. Maskininlärning har utvecklats från möjligheten att använda datorer för att undersöka datas struktur, även utan en teori om hur strukturen skulle kunna se ut. Testet för maskininlärningsmodellen är validering på nya data, inte ett teoretiskt test som bevisar en nollhypotes. Eftersom maskininlärning ofta använder ett iterativt tillvägagångssätt för att kunna lära sig av data kan inlärningen enkelt automatiseras. Upprepningar körs mot datan tills ett robust mönster hittas.


Djup maskininlärning

Djup maskininlärning kombinerar framstegen i datorkraft och specifika typer av neurala nätverk för att lära sig komplicerade mönster i stora datamängder. Djup maskininlärning är idag spjutspetstekniken för att identifiera objekt i bilder och ord i ljud. Nu försöker forskare att använda dessa framgångar inom mönsterigenkänning för komplexare uppgifter som automatisk språköversättning, medicinska diagnoser och för att lösa andra viktiga sociala och affärsmässiga problem.