Adatvizualizáció - mert hiába a Big Data, ha nem tudjuk értelmezni

2017/ 17/04
Évek óra ismerjük a Big Data jelentőségét: ha elegendő mennyiségű adatot gyűjtünk össze, érdekes (és akár életbevágó) információkat nyerhetünk ki belőle. E heti cikkünk arra világít rá, hogy mégsem elegendő, ha van egy nagy adattömbünk - hiszen azt fel is kell tudni használni.

A Big Datával kezdődött…

A Big Data az az óriási adatmennyiség, amelyet nap mint nap állítanak elő szervezetek, magánszemélyek, intelligens eszközök vagy akár hálózatok. Néhány évtizede jellemző az a gyakorlat, amely az adatok pontossága helyett inkább az adatok mennyiségére helyezi a hangsúlyt - így ugyanis bár az eredmények egy kicsit pontatlanabbak lesznek (hiszen nagyobb mennyiségű adatnál a hibalehetőségek száma is nagyobb), az összefüggések megvizsgálásával mégis sokkal több mindenre derül fény, mintha kevesebb mennyiségű információ állna rendelkezésünkre.

Vegyünk például egy nem túl régi esetet: amikor az USA-ban elkezdett terjedni a H1N1 vírus, tudósok és kutatók pánikszerűen elkezdték keresni a megoldást, amellyel megtudhatják, hogy éppen “merre tart” a fertőzés, és amellyel azt is egyszerűbb kideríteni, merre fog tovább terjedni. A legkülönbözőbb fajtájú és méretű adatbázisokkal kezdtek dolgozni. A legfőbb forrás természetesen az amerikai Járványügyi Központ térképei és az azokon a területeken végzett keresések voltak. Azonban a probléma az volt, hogy így legtöbbször késve érkeztek meg a várt eredmények.

Más megoldásra volt tehát szükség. Végül a Google volt az a cég, amelynek elegendő (és naprakész) információ állt rendelkezésére. A korábbi felvetések mind úgy próbálták a járvány helyzetét meghatározni, hogy a betegség tüneteire való kereséseket elemezték. Azonban a Google más módszerhez folyamodott: megnézték az influenza minden előfordulási helyét, és összevetették a régióban végzett összes kereséssel. Sikerrel is jártak: egy algoritmusnak köszönhetően világossá vált, hogy van egy bizonyos kulcsszókombináció, amely szinte minden területen jellemző volt, mielőtt a betegség felütötte volna a fejét.

Így a Google végül sikeresen meg tudta határozni a járvány előfordulási helyeit, majd arra is pontos becsléseket tudott készíteni, hogy merre fog terjedni legközelebb a H1N1. Ehhez viszont mindenképp szükség volt arra, hogy minden területről minél több adat álljon rendelkezésre. Emellett pedig azt kell megértenünk, hogy ha ekkora mennyiségű adatról van szó, el kell fogadnunk, hogy a Big Data nem fog hajszálpontos eredményeket hozni, mindig lesz egy kis hibaszázalék - de ez az a terület, ahol az “elég jó” elég jó.

Hogyan menti meg a logisztikát a Big Data?

Ha valaki kételkedne abban, hogy a Big Data mennyire lehet hasznos a logisztikában, elég az egyik közismert példával elmagyarázni: A UPS szállítóinak tilos balra fordulniuk.

A Big Data hatalmas előrelépés volt az adatelemzésben: új összefüggések tárultak elénk, új pozíciók jelentek meg (mint az adatbiztonsági szakértő vagy a prediktív elemző), és a nagy mennyiségű adatnak köszönhetően több következtetést vonhatunk le a legkülönbözőbb adatok segítségével.

Mit jelent az adatvizualizáció, és miért van rá szükség?

A fenti példából is láthatjuk, hogy a rengeteg keresési adattal addig nem is lehetett mit kezdeni, amíg egy algoritmus segítségével nem tudták értelmezni őket. A mai világban, ahol információk sokasága (amely néha még több is, mint amennyire valóban szükség van) elérhető, nagyon fontos, hogy olyan formában tudjuk feldolgozni, amely könnyen értelmezhető, és tényleg csak a legszükségesebb adatokat tartalmazza.

Az adatvizualizáció pontosan ebben tud a segítségünkre lenni. Definíciók szerint az adatvizualizáció a vizuális kommunikáció modernebb formája. A terület célja az, hogy létrehozza és tanulmányozza az adatok megjelenítését, vagyis információt, amelyet valamilyen sematikus formában feldolgoztak. Kicsit modernebb felfogás szerint az adatvizualizáció nemcsak magukat az adatokat szemlélteti, hanem rávilágít az azok közti összefüggésekre is.

A különböző módokon megjelenített adatok tehát abban segítenek, hogy olyan információkhoz juthassunk hozzá, amelyek a vizualizáció nélkül egész egyszerűen elvesznének, vagy a megfelelő forma és strukturáltság híján csak sok idő és energia árán lehetne levonni a megfelelő következtetéseket. Akármennyi is azonban a rendelkezésre álló adat, még egy több millió adatot tartalmazó halmaz esetén is egyszerűen felismerhetők az összefüggések, ha megfelelő vizualizációt használhatunk. Ráadásul egy logikusan felépített táblázat vagy grafikon könnyen érthető, megosztható másokkal.

Milyen a jó adatvizualizáció?

Ahhoz, hogy jó adatvizualizációt készítsünk, ismerni kell először is, hogy pontosan milyen típusú és formátumú adatokkal dolgozunk, valamint hogy ezeknek az adatoknak mi a célja, mit akarunk velük közölni. Azzal is tisztában kell lennünk, hogy milyen folyamatok és összefüggések rejlenek az adatokban. Ha informatív és lényegre törő ábrát szeretnénk, akkor azt is meg kell határozni, hogy a rendelkezésre álló temérdek adatból melyeket kell kiemelnünk és melyeket hagyhatjuk ki a végső ábrázolásból.

Ha mindezt felmértük és meghatároztuk, a következő lépés az, hogy eldöntsük, milyen formátumban szeretnénk az adatokat viszontlátni - hiszen nem minden ábrázolási mód alkalmas minden adat feldolgozására (például a térképes nézet tökéletes a korábbi influenzás példa ábrázolására, de egy költségvetés-készítés esetében nem ennyire egyértelmű, hogy melyik megoldás tükrözi legjobban az adatokat és céljaikat). Érdemes kísérletezni, hiszen még az elsőre jónak tűnő megoldásnál is találhatunk jobbat.

Amikor adatvizualizációról van szó, egy dologról sokan elfeledkeznek: hogy egy-egy ábra általában nem csak saját használatra készül. Ezért az ábra fontos elemét képezi az is, hogy magyarázattal szolgáljunk az ábra értelmezését illetően. Természetesen jó, ha nagyrészt intuitív módon, egyszerűen értelmezhető a vizualizáció, mégis fontos, hogy az összefüggéseket és az adatokat egyértelművé tegyük azok számára, akik használni fogják az ábránkat. Ezért ahol szükséges, tegyünk bele jelmagyarázatot, méretarányt, esetleg számszerűsített adatokat.

Jó példák az adatvizualizációban

Az adatvizualizáció sokféleképpen megvalósítható: készíthetünk belőle táblázatot, grafikont, diagramot vagy esetleg egy informatív infografikát is. A HubSpot blogján 16 példát találunk a jó ábrára, de a Tableau ingyenes platformján még több adatrajongó ábráiból tudunk inspirálódni.

A Régens és az adatvizualizáció

A Régensnél is látjuk, hogy mennyi lehetőség van az adatbázis-elemzésben és a vizualizációban, ezért magunk is sokat foglalkozunk vele. Összegyűjtöttünk néhány szoftvert, amelyekkel úgy gondoljuk, érdemes foglalkozni, ha el szeretnénk mélyedni ebben a tudományágban. Már el is kezdtük az eszközök tesztelését - hamarosan egy saját blogbejegyzést is szentelünk nekik, hogy megosszuk eddigi tapasztalatainkat, tippeket és trükköket.