Maskininlärning
Vad det är och varför det är viktigt
Maskininlärning är en metod av dataanalys som automatiserar byggandet av analytiska modeller. Det är en gren inom artificiell intelligens som grundar sig i idén att system kan lära sig av data, identifiera mönster och fatta beslut med minimal mänsklig inblandning.
Maskininlärningens utveckling
Tack vare ny datorteknik är dagens maskininlärning något helt annat än vad det tidigare har varit. Maskininlärning föddes ur mönsterigenkänning och teorin att datorer kan läras upp utan att programmeras för att utföra specifika uppgifter. Forskare som intresserade sig för artificiell intelligens ville se om datorer kunde lära sig av data. Den iterativa aspekten av maskininlärning är viktig eftersom modellerna kan anpassa sig självständigt allt eftersom de exponeras för nya data. De lär sig av tidigare beräkningar för att skapa nya, repeterbara beslut och resultat. Denna vetenskap är inte ny – men den har fått nytt momentum.
Medan många maskininlärningsalgoritmer har funnits länge är förmågan att automatiskt applicera komplexa matematiska beräkningar på stora datavolymer – om och om igen, snabbare och snabbare – en ny utveckling. Här är några omtalade exempel på användningar av maskininlärning som du kanske är bekant med:
- Den otroligt hypade, självkörande Google-bilen? Den är essensen av maskininlärning.
- Rekommendationer online som de från Amazon och Netflix? Exempel på hur maskininlärning används i vardagen.
- Att veta vad kunder säger om er organisation på Twitter? Maskininlärning kombinerat med skapande av lingvistiska regler.
- Bedrägeriprevention och -bekämpning? Ett av de mer självklara och viktiga exemplen.
Maskininlärning och artificiell intelligens
Medan artificiell intelligens (AI) är vetenskapen om hur maskiner kan härma mänskliga förmågor är maskininlärning en specifik gren inom AI som tränar en maskin hur man lär sig. Titta på den här videon för att få en bättre förståelse om förhållandet mellan AI och maskininlärning. Du får se hur dessa teknologier fungerar med praktiska exempel och några skojiga anekdoter.
Varför är maskininlärning viktigt?
Det återuppväckta intresset för maskininlärning beror på samma faktorer som har gjort datautvinning och Bayesiansk inferens mer populära än någonsin. Det är faktorer som växande volymer och ökad mångfald i den tillgängliga datan, billigare datalogisk behandling och en mer kraftfull och prisvärd datalagring.
Alla dessa saker gör det möjligt att snabbt och automatiskt producera modeller som kan analysera större mängder av mer komplex data och leverera snabbare resultat med större precision – till och med i mycket stor skala. Och genom att bygga precisa modeller har organisationer bättre chanser att identifiera vinstgivande möjligheter – och undvika okända risker.
Vad krävs för att skapa bra maskininlärningssystem?
- Kapacitet att förbereda data
- Algoritmer – grundläggande och avancerade
- Automatisering och iterativa processer
- Skalbarhet
- Ensemblemodellering
Visste du att?
- Inom maskininlärning kallas ett mål för etikett
- Inom statistik kallas ett mål för beroende variabel
- En beroende variabel inom statistik kallas för funktion inom maskininlärning
- En transformation inom statistik kallas för funktionsskapande inom maskininlärning
Maskininlärning idag
Genom att använda algoritmer för att skapa modeller som visar olika sammanhang kan organisationer fatta bättre beslut utan mänsklig inblandning. Läs mer om teknologierna som formar världen vi lever i.
Allt om maskininlärningsalgoritmer
Det finns fyra olika typer av algoritmer inom maskininlärning: övervakade, semiövervakade, oövervakade och förstärkningsalgoritmer. Läs mer om hur de fungerar och vilken som är bäst lämpad för ditt företags behov.
Fördjupa dina SAS-kunskaper
Få djupgående kunskaper och gratis tillgång till SAS mjukvara för att bygga upp din kompetens inom maskininlärning. Kurserna inkluderar: 14 timmar undervisning, 90 dagar gratis tillgång till mjukvaran i molnet och flexibel e-learning som inte kräver några programmeringskunskaper.
Använd tillförlitlig AI
Kunder har större förtroende för organisationer som visar prov på ansvarstagande och etisk användning av AI, som maskininlärning och generativ AI. Läs mer om varför det är avgörande att satsa på tillförlitliga AI-system som designats för människocentrering, inkludering och ansvarstagande.
Läs om hur SAS gör det
Maskininlärningens 6 fallgropar
När felaktiga antaganden ligger till grund kan resultatet bli bristfälliga beslut och misstag – särskilt när sofistikerade metoder som maskininlärning används. Slipp begå andras misstag med expertens råd om maskininlärning.
Vem använder det?
De flesta branscher som arbetar med stora datamängder har insett värdet i maskininlärning. Genom att samla insikter från dessa data – ofta i realtid – kan organisationer arbeta effektivare och få konkurrensfördelar.
Finansiella tjänster
Banker och andra finansföretag använder maskininlärningstekniker i två huvudsyften: att identifiera viktiga insikter i data och för att bekämpa och upptäcka bedrägerier. Insikterna kan identifiera möjliga investeringar eller hjälpa investerare att avgöra när det är dags att köpa och sälja. Datautvinning kan identifiera kunder med högriskprofiler och cyberövervakning kan upptäcka tecken på bedrägerier.
Myndigheter
Myndigheter och kommunala kontor som arbetar med allmänhetens säkerhet och samhällsservice har ett särskilt behov av maskininlärning eftersom de har många olika datakällor som kan användas för att utvinna insikter. Att analysera sensordata kan till exempel identifiera sätt för att öka effektiviteten och spara pengar. Maskininlärning kan också hjälpa till att upptäcka bedrägerier och minska identitetsstölder.
Hälso- och sjukvård
Maskininlärning är en snabbt växande trend inom hälso- och sjukvårdsindustrin tack vare bärbara enheter och sensorer som kan använda data för att utvärdera en patients hälsa i realtid. Tekniken kan också hjälpa medicinsk personal att analysera trender och varningstecken som kan leda till bättre diagnoser och behandling.
Detaljhandel
Webbsidor som rekommenderar varor du kanske gillar utifrån tidigare köp använder maskininlärning för att analysera din köphistorik. Återförsäljare använder maskininlärning för att samla in data, analysera den och skapa en personanpassad shoppingupplevelse, köra marknadsföringskampanjer, optimera priser, genomföra varuplanering och få insikter om sina kunder.
Olja och gas
Hitta nya energikällor. Analysera mineraler i marken. Förutsäga sensorfel i förädlingen. Anpassa oljedistributionen för att göra den mer effektiv och kostnadseffektiv. Det finns oerhört många användningsområden för maskininlärning i den här industrin – och de blir hela tiden fler.
Transport
Att analysera data för att identifiera mönster och trender är avgörande för transportbranschen, som är beroende av att effektivisera transportrutter och förutsäga potentiella problem för att öka lönsamheten. Dataanalys- och modelleringsaspekterna av maskininlärning är viktiga verktyg för leveransföretag, kollektivtrafikföretag och andra organisationer i transportbranschen.
Läs om fler branscher som använder metoden
Så fungerar det
För att få ut så mycket värde som möjligt från maskininlärning måste du veta hur du kombinerar de bästa algoritmerna med rätt verktyg och processer. SAS förenar en lång och sofistikerad historia inom statistik och datautvinning med nya arkitektoniska framsteg för att säkerställa att dina modeller körs så smidigt som möjligt – i enorma Enterprise-miljöer eller i molnet.
Algoritmer: SAS grafiska användargränssnitt hjälper dig att bygga maskininlärningsmodeller och implementera en iterativ maskininlärningsprocess. Du behöver inte ha avancerade kunskaper inom statistik. Vårt omfattande utbud av maskininlärningsalgoritmer ingår i många SAS-produkter och kan hjälpa dig att snabbt hitta värdet i dina stora datavolymer – inklusive data från sakernas internet. SAS maskininlärningsalgoritmer inkluderar:
Neurala nätverk
| |
Beslutsträd
| |
Slumpmässiga skogar
| |
Associationer och sekvensupptäckt
| |
Gradientboosting och -bagging
| |
Stödvektormaskiner | |
Nearest-neighbor mapping | |
k-means-klustring | |
Självorganiserande kartor |
Lokala sökoptimeringstekniker (t.ex. genetiska algoritmer)
| |
Förväntad maximering
| |
Multivariata adaptiva regressionssplines
| |
Bayesianska nätverk
| |
Uppskattning av kärntäthet
| |
Principalkomponentanalys | |
Singulärvärdesuppdelning | |
Gaussiska blandningsmodeller | |
Sekventiellt täckande regeluppbyggnad |
Verktyg och processer: Vi vet att algoritmer inte är allt. I slutänden är hemligheten bakom att få ut maximalt värde av stora datavolymer att kombinera de bästa algoritmerna för den aktuella uppgiften med:
omfattande datakvalitet och datahantering
| |
grafiska användargränssnitt för att bygga modeller och processflöden
| |
interaktiv utforskning av data och visualisering av modellresultat
| |
jämförelser mellan olika maskininlärningsmodeller för att snabbt identifiera den bästa
|
automatisk utvärdering av modellensembler för att identifiera de bäst presterande
| |
enkel modellanvändning så att du snabbt får repeterbara och tillförlitliga resultat
| |
en integrerad, komplett plattform för automatisering av processen att gå från data till beslut.
|
Vad finns det för populära maskininlärningsmetoder?
Två av de mest använda maskininlärningsmetoderna är övervakad inlärning och oövervakad inlärning – men det finns många andra metoder inom maskininlärning. Här är en översikt av de mest populära.
Övervakade inlärningsalgoritmer tränas på etikettförsedda exempel som indata där man känner till den önskade utdatan. Ett exempel är en utrustning som har datapunkter som antingen har etiketten ”F” (failed, misslyckades) eller ”R” (runs, körs). Inlärningsalgoritmen tar emot en uppsättning av indata tillsammans med motsvarande korrekt utdata och lär sig genom att jämföra sin faktiska utdata med den korrekta utdatan för att upptäcka fel. Sedan anpassar den modellen. Genom metoder som klassificering, regression, prediktion och gradientboosting kan övervakad inlärning använda mönster för att förutsäga vilka värden hittills omärkta datas etiketter ska ha. Övervakad inlärning används ofta i applikationer där historiska data kan förutsäga sannolika framtida händelser. Algoritmen kan till exempel förutsäga huruvida kreditkortstransaktioner sannolikt är bedrägliga eller vilken försäkringskund som sannolikt kommer att göra en skadeanmälan.
Oövervakad inlärning används mot data som inte har historiska etiketter. Systemet får inte reda på vad som är ”rätt svar”. Algoritmen måste själv identifiera vad det är som visas. Målet är att utforska data och hitta strukturer i datan. Oövervakad inlärning fungerar bra på transaktionsdata. Algoritmen kan till exempel identifiera vilka kundsegment som har liknande attribut och därmed kan behandlas på liknande sätt i marknadsföringskampanjer. Den kan också användas för att hitta de huvudsakliga egenskaperna som särskiljer kundsegment från varandra. Populära tekniker omfattar bland annat självorganiserande kartor, nearest-neighbor mapping, k-means-klustring och singulärvärdesuppdelning. Dessa algoritmer används också för att segmentera text efter ämne, rekommendera varor och identifiera avvikande värden.
Semiövervakad inlärning har samma användningsområden som övervakad inlärning. Men här används både data med och utan etiketter för inlärningen. Typiskt sett är det en liten mängd data med etiketter och en stor mängd data utan etiketter (eftersom omärkta data innebär lägre kostnader och är enklare att få tag på). Den här typen av inlärningsalgoritm kan användas med metoder som klassificering, regression och prediktion. Semiövervakad inlärning är ett bra val när det är för dyrt att enbart använda data med etiketter i träningsprocessen. Tidiga exempel på detta alternativ är att webbkameran hittar användarens ansikte.
Förstärkningsinlärning används ofta inom robotik, gaming och navigering. Dessa algoritmer används också i samband med generativa AI-tekniker som stora språkmodeller. Med förstärkningsinlärning använder algoritmen försök och misstag för att lära sig vilka åtgärder som leder till de största belöningarna. Den här typen av inlärning har tre huvudkomponenter: agenten (den lärande eller beslutsfattaren), miljön (allt som agenten interagerar med) och handlingar (vad agenten kan göra). Målet är att agenten ska välja handlingar som maximerar den förväntade belöningen över en definierad tidsperiod. Agenten når målet mycket snabbare genom att följa en bra princip. Målet i förstärkningsinlärning är alltså att lära sig den bästa principen.
Människor skapar i regel en eller två bra modeller per vecka – maskininlärning kan skapa tusentals modeller på en vecka.
Thomas H. Davenport, tankeledare inom analys
Utdrag från The Wall Street Journal
Vad är skillnaderna mellan datautvinning, maskininlärning och djup maskininlärning?
Även om dessa metoder har samma mål – att nå insikter, hitta mönster och förhållanden som kan användas för att fatta beslut – har de olika tillvägagångssätt och kapaciteter.
Datautvinning
Datautvinning kan ses som ett superset av olika metoder för att nå insikter utifrån data och kan involvera traditionella statistiska metoder och maskininlärning. Datautvinning använder sig av metoder från många olika områden för att identifiera hittills okända mönster i data. Det kan inkludera statistiska algoritmer, maskininlärning, textanalys, tidsserieanalys och andra analyser. Datautvinning omfattar också studier av och praktiker för datalagring och datamanipulering.
Maskininlärning
Den största skillnaden med maskininlärning är att, precis som för statistiska modeller, är målet att förstå datans struktur – det vill säga att pröva teoretiska fördelningar på kända data. Med statistiska modeller finns det alltså en teori bakom modellen som är matematiskt bevisad, men det kräver att datan motsvarar specifika, starka antaganden. Maskininlärning har utvecklats från möjligheten att använda datorer för att undersöka datas struktur, även utan en teori om hur strukturen skulle kunna se ut. Testet för maskininlärningsmodellen är validering på nya data, inte ett teoretiskt test som bevisar en nollhypotes. Eftersom maskininlärning ofta använder ett iterativt tillvägagångssätt för att kunna lära sig av data kan inlärningen enkelt automatiseras. Upprepningar körs mot datan tills ett robust mönster hittas.
Djup maskininlärning
Djup maskininlärning kombinerar framstegen i datorkraft och specifika typer av neurala nätverk för att lära sig komplicerade mönster i stora datamängder. Djup maskininlärning är idag spjutspetstekniken för att identifiera objekt i bilder och ord i ljud. Nu försöker forskare att använda dessa framgångar inom mönsterigenkänning för komplexare uppgifter som automatisk språköversättning, medicinska diagnoser och för att lösa andra viktiga sociala och affärsmässiga problem.
Rekommenderad läsning
- What is synthetic data? And how can you use it to fuel AI breakthroughs?There's no shortage of data in today's world, but it can be difficult, slow and costly to access sufficient high-quality data that’s suitable for training AI models. Learn why synthetic data is so vital for data-hungry AI initiatives, how businesses can use it to unlock growth, and how it can help address ethical challenges.
- Unlocking a strategic approach to data and AIAI is only as good as the data that powers it – this is a fundamental truth about data and AI that defines the limits of what’s possible with artificial intelligence. It may seem surprising, but it's rarely a bad algorithm or a bad learning model that causes AI failures. It's not the math or the science. More often, it's the quality of the data being used to answer the question.
- AI anxiety: Calm in the face of changeAI anxiety is no joke. Whether you fear jobs becoming obsolete, information being distorted or simply missing out, understanding AI anxiety can help you conquer it.
- What are AI hallucinations?Separating fact from AI-generated fiction can be hard. Learn how large language models can fail and lead to AI hallucinations – and discover how to use GenAI responsibly.