Big data - problem eller mulighet?
Av Torulf Mollestad, Senior Advisor - Advanced Analytics i SAS Institute
Data og datalagring er billig, kunnskap er verdifullt. Hvordan kan vi sikre at data blir benyttet optimalt, og at de gir oss den høyest mulige nytteverdi?
Fenomenet Big Data handler nettopp om dette – hvordan takler vi de virkelig store og komplekse datamengdene og hvilke utfordringer og muligheter står vi overfor i fremtiden?
I det hele tatt synes dataadministrasjon i mange tilfeller å bety å lagre heller enn å hente ut beslutningskraft. I påfallende mange tilfeller brukes data i beste fall som grunnlag for historiske rapporter, og rapportene tolkes i sin tur av erfarne og ofte nærmest uerstattelige domeneeksperter som omsetter dem i aktiviteter. Det finnes mye taus kunnskap der ute – hvordan fremtid blir utledet fra fortid kan synes innlysende for den enkelte men er vanskeligere å formulere klart og enda mindre egnet for gjenbruk.
Av historiske årsaker sitter mange selskaper med et vell av ulike datakilder og løsninger, som tidvis er svært gamle og innrettet mot å løse helt spesifikke (og kanskje helt eller delvis overlappende) problemstillinger. Konkurrerende versjoner av sannheten skaper store problemer, ikke minst for forretningssiden som må ta stilling til hvor å finne "ursannheten". Ulike "siloer" hvor ulike avdelinger hver gjør sine separate analyser mot egne problemstillinger på basis av egne uthentinger av ulike kildedata er i beste fall ineffektivt og i verste fall direkte ødeleggende.
Administrasjon av datasystemer koster, nye utfordringer tvinger frem oppgjør med gamle arkite
|
|
kturløsninger og konsolidering av ulike komplekse systemer er velkjente utfordringer for mange. I slike prosesser tas det en del fundamentale avgjørelser – hvordan sikre konsistens og kvalitet av data, at en sannhet er en sannhet overalt innen bedriften? På toppen av datasystemene bygges det ofte datavarehus for å sikre at konsistente data leveres ut i organisasjonen, imidlertid er disse prosjektene ofte rettet mot behovene for rapportering heller enn mer sofistikert anvendelse av data. Mange datavarehusprosjekter bærer også preg av vannfallstenkning, noe som ofte har vært til hinder for analytisk bruk – "Vi må først få kontroll på datavarehuset vårt – når vi er ferdig skal vi se på verdien av data som kommer ut". Mer problematisk er det også at mange organiseringer ender opp med data og en representasjon av dem som ikke er optimal eller i det hele tatt egnet for analyse. IT-avdelingene som har hovedansvar for datavarehusene har ofte et helt annet perspektiv på og tolkning av data enn forretningssiden, og spesifikasjoner av datauthentinger må ofte være meget detaljerte for å unngå misforståelser.
I praksis føler analytikere seg i mange tilfeller tvunget til å lage sine egne uthentinger fra databasene, og resultatet er – som før – en situasjon hvor ulike siloer har sine egne prosesser mot kildedata og sine egne private tolkninger av ditto – nettopp den situasjonen som datavarehuset ble designet for å unngå.
Kvalitet og ikke minst konsistens i data er et være eller ikke være for bedriftene, og faren for å bygge opp et analytisk byggverk rundt feilaktige data er rimelig nok skremmende for mange. Jeg tror allikevel at den beste og eneste måten å avsløre feil og inkonsistenser i data er å se konsekvensene så tidlig som mulig i prosessen – å gjøre analytiske øvelser som både gir indikasjoner på hva som er en god representasjon for analyse men som også bringer dataproblemer opp i lyset på en effektiv måte.
Det er store variasjoner i hvor langt ulike selskaper er kommet i analytisk arbeid. Mange ser på analyse som det å produsere historiske rapporter, eventuelt legge data inn i kubeformatet eller å gjøre enkle sammenstillinger og studere distribusjoner av tallmaterialet. Et hakk mer spennende blir det idet bedriften har tatt steget opp til å gjennomføre modellering av fremtiden, i form av det vi kaller prediktiv analyse. Slikt statistisk arbeid har tradisjonelt vært basert på data i strukturert format, altså i form av tabeller, og analysene svært ofte begrenset til klassiske metoder som regresjonsmodeller og beslutningstrær. De siste årene har sett en tilkomst av stadig større mengder data men også nye og stadig kraftigere metoder for å sammenstille dem. Fagområdet Data Mining fremstod i sin tid som et resultat nettopp av erkjennelsen at klassisk statistikk ikke var skodd for å takle de økende datamengdene og at mer pragmatiske og heuristiske metoder måtte til.
Banker, forsikringsselskaper, oljeselskaper, leverandører av teletjenester etc. kan være svært innforstått og komfortabel med verdien av å gjøre analyser på kundenivå, for eksempel risiko, avgang, produktaffinitet (tilbøyelighet til å være interessert i et produkt) eller kampanjerespons. Den klassiske måten er å bruke strukturerte tabeller hvor hver rad/record typisk representerer én kunde. Data som brukes er ofte begrenset til det som eksplisitt finnes om kunden, samt aggregert informasjon om hvordan denne kunden oppfører seg – et bilde som selvfølgelig varierer fra problemstilling til problemstilling og også svært mye mellom ulike organisasjoner. Det finnes dog mange andre kilder til kunnskap, slik som:-
Kjøpshistorikk:
Hvilke produkter har en kunde og hvor typisk er hans eller hennes kjøpsmønster? Finnes det produkter som vedkommende "burde" være interressert i, ut ifra hva vi vet om andre kunder? Finnes det kombinasjoner av produkter som synes spesielt kundebindende eller kundeavvisende? Hvilke produkter tjener best som "startprodukt" og hvilke produkter er mest interessante for kunden i neste omgang? - Tidsstemplede data, eller tidsserier:
Kan vi se trender i data, eller indikasjoner på at noe spesielt har skjedd på et tidspunkt? Finnes det interessante mønstre i utvikling av bruk av produktene Hva med makroøkonomiske signaler? -
Oppførselsdata:
Hvordan blir websider og annen elektronisk informasjon mottatt og anvendt av kunden? Hvordan oppfører kunder som logger seg inn på websidene seg, går de til de sidene vi forventer eller ønsker? Er det noen sider som synes å støte dem bort? Er det spesielle "stier" gjennom sidene som opptrer hyppigere enn andre, eller er det mange brukere som virrer rundt i søken etter interessant informasjon? Hva søkte brukerne på – fant de det de lette etter? -
Tekst:
Hvilke holdninger har nåværende og potensielle kunder til oss og til produktene våre? Går det rykter som er til fordel eller ulempe? Hva med konkurrentene? Hvilke stemninger råder markedet som helhet og hvordan ser man på fremtiden? -
Kontakter og nettverksdata:
Hvem snakker med hvem, hvem er ryktesprederne, hvem er det som har størst påvirkning og via hvilke kontakter? Dersom Mor forlater oss, har det betydning for Fars sannsynlighet for å gjøre det samme, og hvordan kan vi evt. unngå det – kanskje i beste fall vinne Mor tilbake?
Det finnes et stort potensiale i slike kilder, og mye kunnskap kan hentes ut ved å utnytte dem og i det hele tatt utvide repertoiret for hvordan å kombinere og bruke data.
Et annet poeng som bør nevnes er kraften som ligger i datavisualisering og animasjoner av data. Jeg har lyst til å trekke frem et tidlig eksempel via de såkalte Chernoff-ansiktene fra tidlig 70-tall hvor data ble fremvist variasjoner i ansiktsformer og uttrykk (Wikipedia/US Judges example). I dette eksemplet er data om tolv ulike dommeres holdninger og meritter uttrykt som i figuren, noe som gjør det svært lett for et menneske å hente ut informasjon fra multivariate data – hvilken av disse dommerne ville du fryktet mest å stå overfor?
Dette er et gammelt og klassisk eksempel, men det illustrerer et viktig poeng: Den mennesklige hjerne er uforlignelig i å finne mønstre i data når disse blir tilrettelagt og vist på riktig måte. Økt tilgjengelighet av nye typer og større mengder av data gir et vell av nye muligheter dersom vi klarer å tenke nytt i hvordan å presentere dem.
Under ser vi en liten del av en graf som viser avslørte tilfeller av kredittkortsvindel (kunder vist i rødt) og hvilke forhandlere som er involvert (i blått). Vi ser i sentrum øverst en forhandler (Merchant 0192) som har transaksjoner med svært mange antatte svindlere – og vi kan velge å undersøke hva som er grunnen for dette.
|
|
Klassiske preditive modeller kan brukes for å merke eller fargelegge nodene i en graf etter sannsynlighet for avgang, men modellene kan i seg selv forbedres ved å inkludere nettverksinformasjon (hvor mange sannsynlig negative holdninger finnes det i Mor og Fars omgangskrets?). Dette bildet kan forsterkes ytterligere dersom man også har tilgang til kommentarer og tekster fra enkeltindividene, for eksempel fra kommentarer, mailer eller blogger. Vi har algoritmer som kan gruppere individer i et nettverk eller finne knytningen mellom vilkårlige individer og vi kan bruke det vi finner som grunnlag for en manuell etterforskningsprosess, som altså støttes av analytiske modeller. For eksempel kan vi automatisk søke i nettverket av personer, telefonnumre, adresser, bankkonti, etc. rundt avslørte svindlere, finne interessante innfallspunkter og så bruke visualiseringsverktøy og utforskningsgrensesnitt for å forfølge spor.
Det finnes mange utfordringer knyttet til fenomenet Big Data – teknologier utvikles stadig for å øke effektiviteten, mange av disse handler om distribusjon av prosesseringskraft og/eller minimal flytting av data. Min kollega Cathrine Pihl Næss tok opp dette i en tidligere blogg og fortalte om kommende teknologier som massiv parallellisering, cloud computing, in memory-prosessering, in database-scoring (og modellering) m.fl. Selv har jeg forsøkt å fokusere på de mulighetene som ligger i nye kombinasjoner av grunnlagsdata og analytiske metoder, samtidig som man ikke mister det endelige målet av syne – nemlig forretningskunnskap som kan anvendes som beslutningsgrunnlag.
Dette betyr blant annet en endring i fokus fra utfordringene i å lagre og administrere data til hvordan best å trekke praktisk anvendelig kunnskap ut – hvilket i sin tur setter føringer for hvordan data organiseres og lagres. Jeg tror det vil være et stadig økende behov for analytisk forståelse også innen IT-organisasjonene, kun på denne måten minskes skillet mellom IT og forretningsområdene. De organisasjonene som best klarer å sikre en god kommunikasjon og samarbeid mellom forståelse for datamodellering og lagring på den ene siden og analytisk tenkning og forretningsforståelse på den andre vil stå sterkt i fremtidens marked – kompetanse til å hente ut kunnskap og handling fra data vil i det hele tatt være den helt store gullnøkkelen til suksess!
- Faglig påfyll rett i mailboksen? Meld deg på vår nyhetsbrevsliste.

Postboks 2666 Solli,
+47 23 08 30 50
