Volume, snelheid, verscheidenheid: Wat u moet weten over big data

Dit bericht is oorspronkelijk verschenen op O’Reilly Radar (“Wat is big data?”). Het is met toestemming opnieuw gepubliceerd.

Door Edd Dumbill

Big data zijn gegevens die de verwerkingscapaciteit van conventionele databasesystemen te boven gaan. De data is te groot, beweegt te snel, of past niet binnen de strenge eisen van uw database-architecturen. Om waarde uit deze gegevens te halen, moet u een alternatieve manier kiezen om ze te verwerken.

Het populaire IT-modewoord van 2012, big data, is levensvatbaar geworden omdat er kosteneffectieve benaderingen zijn ontstaan om het volume, de snelheid en de variabiliteit van massale gegevens te temmen. In deze gegevens zitten waardevolle patronen en informatie, die voorheen verborgen bleven vanwege de hoeveelheid werk die nodig was om ze te extraheren. Voor toonaangevende bedrijven, zoals Walmart of Google, is dit vermogen al enige tijd binnen handbereik, maar tegen fantastische kosten. De huidige commodity-hardware, cloudarchitecturen en open-sourcesoftware brengen de verwerking van Big Data binnen het bereik van minder kapitaalkrachtigen. Big data-verwerking is bij uitstek haalbaar voor zelfs de kleine garage-startups, die goedkoop servertijd in de cloud kunnen huren.

De waarde van big data voor een organisatie valt in twee categorieën uiteen: analytisch gebruik, en het mogelijk maken van nieuwe producten. Big data-analyse kan inzichten aan het licht brengen die voorheen verborgen bleven door gegevens die te duur waren om te verwerken, zoals de invloed van klanten onder elkaar, die aan het licht komt door de transacties, sociale en geografische gegevens van shoppers te analyseren. De mogelijkheid om elk gegeven in een redelijke tijd te verwerken, neemt de lastige noodzaak van steekproeven weg en bevordert een onderzoekende benadering van gegevens, in tegenstelling tot het enigszins statische karakter van het uitvoeren van vooraf bepaalde rapporten.

De succesvolle webstartups van het afgelopen decennium zijn uitstekende voorbeelden van big data die worden gebruikt als een aanjager van nieuwe producten en diensten. Door een groot aantal signalen van de acties van een gebruiker en zijn vrienden te combineren, is Facebook er bijvoorbeeld in geslaagd een zeer gepersonaliseerde gebruikerservaring te creëren en een nieuw soort reclamebedrijf op te zetten. Het is geen toeval dat het leeuwendeel van de ideeën en tools die ten grondslag liggen aan big data afkomstig zijn van Google, Yahoo, Amazon en Facebook.

De opkomst van big data in de onderneming brengt een noodzakelijke tegenhanger met zich mee: wendbaarheid. Het succesvol benutten van de waarde van big data vereist experimenteren en exploreren. Of het nu gaat om het creëren van nieuwe producten of het zoeken naar manieren om concurrentievoordeel te behalen, het werk vraagt om nieuwsgierigheid en een ondernemende instelling.

Data image

Hoe ziet big data eruit?

Als containerbegrip kan “big data” behoorlijk vaag zijn, net zoals de term “cloud” betrekking heeft op uiteenlopende technologieën. Inputgegevens voor big data-systemen kunnen bestaan uit chatter van sociale netwerken, webserverlogboeken, verkeersstroomsensoren, satellietbeelden, uitgezonden audiostreams, banktransacties, MP3’s van rockmuziek, de inhoud van webpagina’s, scans van overheidsdocumenten, GPS-trails, telemetrie van auto’s, gegevens van financiële markten, en ga zo maar door.

Ophelderingshalve: de drie V’s volume, velocity en variety worden vaak gebruikt om verschillende aspecten van big data te karakteriseren. Ze vormen een nuttige lens om de aard van de gegevens en de softwareplatforms die beschikbaar zijn om ze te exploiteren, te bekijken en te begrijpen. Waarschijnlijk zult u met elk van de V’s in meer of mindere mate te maken krijgen.

Volume

Het voordeel dat wordt behaald uit de mogelijkheid om grote hoeveelheden informatie te verwerken, is de belangrijkste aantrekkingskracht van big data analytics. Meer gegevens hebben is beter dan betere modellen hebben: eenvoudige rekensommetjes kunnen onredelijk effectief zijn bij grote hoeveelheden gegevens. Als je bij die prognose rekening zou kunnen houden met 300 factoren in plaats van 6, zou je de vraag dan beter kunnen voorspellen?

Dit volume vormt de meest directe uitdaging voor conventionele IT-structuren. Het vraagt om schaalbare opslag en een gedistribueerde benadering van query’s. Veel bedrijven beschikken al over grote hoeveelheden gearchiveerde gegevens, misschien in de vorm van logboeken, maar niet over de capaciteit om deze te verwerken.

Aannemende dat de gegevensvolumes groter zijn dan conventionele relationele database-infrastructuren aankunnen, komen de verwerkingsopties grofweg neer op een keuze tussen massaal parallelle verwerkingsarchitecturen – data warehouses of databases zoals Greenplum – en Apache Hadoop-gebaseerde oplossingen. Deze keuze wordt vaak bepaald door de mate waarin een van de andere “V’s” – verscheidenheid – een rol speelt. Typisch voor data warehousing benaderingen zijn vooraf bepaalde schema’s, die passen bij een regelmatige en langzaam evoluerende dataset. Apache Hadoop daarentegen stelt geen voorwaarden aan de structuur van de gegevens die het kan verwerken.

In de kern is Hadoop een platform voor het distribueren van computerproblemen over een aantal servers. Het is voor het eerst door Yahoo ontwikkeld en als open source vrijgegeven, en het implementeert de MapReduce-aanpak die door Google is geïntroduceerd bij het samenstellen van zijn zoekindexen. MapReduce van Hadoop houdt in dat een dataset over meerdere servers wordt verdeeld en dat de gegevens worden bewerkt: de “map”-fase. De gedeeltelijke resultaten worden vervolgens opnieuw gecombineerd: de “reduce”-fase.

Om gegevens op te slaan, gebruikt Hadoop zijn eigen gedistribueerde bestandssysteem, HDFS, dat gegevens beschikbaar maakt voor meerdere computernodes. Een typisch gebruikspatroon van Hadoop bestaat uit drie stappen:

  • gegevens in HDFS laden,
  • MapReduce-operaties, en
  • resultaten uit HDFS ophalen.

Dit proces is van nature een batchbewerking, geschikt voor analytische of niet-interactieve rekentaken. Daarom is Hadoop zelf geen database- of datawarehouse-oplossing, maar kan het fungeren als analytische aanvulling op een database of datawarehouse.

Een van de bekendste Hadoop-gebruikers is Facebook, waarvan het model dit patroon volgt. In een MySQL-database worden de kerngegevens opgeslagen. Deze worden vervolgens doorgestuurd naar Hadoop, waar berekeningen worden uitgevoerd, zoals het doen van aanbevelingen voor jou op basis van de interesses van je vrienden. Vervolgens stuurt Facebook de resultaten terug naar MySQL, voor gebruik in pagina’s voor gebruikers.

uncaptioned Strata 2012 – De Strata-conferentie 2012, die van 28 februari tot en met 1 maart wordt gehouden in Santa Clara, Calif., biedt drie volle dagen van hands-on gegevenstraining en sessies boordevol informatie. Strata brengt de mensen, tools en technologieën samen die u nodig hebt om data te laten werken.

Bespaar 20% op registratie met de code RADAR20

Velocity

Het belang van data’s velocity – de toenemende snelheid waarmee data een organisatie binnenstromen – heeft een vergelijkbaar patroon gevolgd als dat van volume. Problemen die zich voorheen beperkten tot bepaalde segmenten van de industrie, doen zich nu in een veel bredere context voor. Gespecialiseerde bedrijven, zoals financiële handelaren, maken al lang gebruik van systemen die snel bewegende gegevens in hun voordeel kunnen verwerken. Nu is het onze beurt.

Waarom? Het internet- en mobiele tijdperk betekent dat de manier waarop we producten en diensten leveren en consumeren steeds meer wordt geïnstrumenteerd, waardoor een gegevensstroom terug naar de leverancier ontstaat. Online retailers zijn in staat om een grote geschiedenis op te bouwen van elke klik en interactie van klanten: niet alleen van de uiteindelijke verkoop. Wie die informatie snel kan benutten, bijvoorbeeld door extra aankopen aan te bevelen, heeft een concurrentievoordeel. Het smartphonetijdperk verhoogt nog eens de snelheid van de gegevensinstroom, omdat consumenten een streaming bron van geolokaliseerde beelden en audiogegevens met zich meedragen.

Het gaat niet alleen om de snelheid van de inkomende gegevens: het is mogelijk om snel bewegende gegevens te streamen naar bulkopslag voor latere batch

verwerking, bijvoorbeeld. Het belang ligt in de snelheid van de feedback-loop, die gegevens van invoer tot beslissing brengt. In een reclamespotje van IBM wordt gesteld dat je de weg niet zou oversteken als je alleen maar een momentopname van de verkeerssituatie van vijf minuten oud had. Er zijn momenten waarop je gewoon niet kunt wachten tot een rapport is uitgevoerd of een Hadoop-taak is voltooid.

De industrieterminologie voor dergelijke snel bewegende gegevens is ofwel “streaming data”, ofwel “complex event processing”. Deze laatste term was meer ingeburgerd in productcategorieën voordat de verwerking van streaming data meer aan belang won, en lijkt waarschijnlijk te zullen afnemen ten gunste van streaming.

Er zijn twee belangrijke redenen om streaming processing te overwegen. De eerste is wanneer de invoergegevens te snel zijn om in hun geheel op te slaan: om de opslagbehoeften praktisch te houden moet een zekere mate van analyse plaatsvinden terwijl de gegevens binnenstromen. In het uiterste geval genereert de Large Hadron Collider bij CERN zoveel gegevens dat wetenschappers het overgrote deel ervan moeten weggooien – in de hoop dat ze niets nuttigs hebben weggegooid. De tweede reden om streaming te overwegen is wanneer de toepassing een onmiddellijke reactie op de gegevens vereist. Dankzij de opkomst van mobiele toepassingen en online gaming is dit een steeds vaker voorkomende situatie.

Productcategorieën voor het omgaan met streaming data verdelen zich in gevestigde proprietary producten zoals IBM’s InfoSphere Streams, en de minder gepolijste en nog steeds opkomende open source frameworks afkomstig uit de web-industrie: Twitter’s Storm, en Yahoo S4.

Zoals hierboven vermeld, gaat het niet alleen om invoergegevens. De snelheid van de output van een systeem kan er ook toe doen. Hoe nauwer de feedbackloop, hoe groter het concurrentievoordeel. De resultaten kunnen direct in een product worden verwerkt, zoals de aanbevelingen van Facebook, of in dashboards die worden gebruikt om de besluitvorming te sturen.

Door deze behoefte aan snelheid, vooral op het web, is de ontwikkeling van key-value stores en columnar databases, geoptimaliseerd voor het snel opvragen van vooraf berekende informatie, gestimuleerd. Deze databases maken deel uit van een overkoepelende categorie die bekend staat als NoSQL, en worden gebruikt wanneer relationele modellen niet de juiste fit zijn.

Variëteit

Zelden presenteren gegevens zich in een vorm die perfect geordend en klaar voor verwerking is. Een veel voorkomend thema in big data-systemen is dat de brongegevens divers zijn en niet in keurige relationele structuren vallen. Het kan gaan om tekst uit sociale netwerken, beeldgegevens, een ruwe feed rechtstreeks van een sensorbron.

Zelfs op het web, waar computer-naar-computer communicatie enige garanties zou moeten bieden, is de realiteit van gegevens rommelig. Verschillende browsers sturen verschillende gegevens, gebruikers houden informatie achter, ze kunnen verschillende softwareversies of verkopers gebruiken om met u te communiceren. En je kunt er donder op zeggen dat als er een mens aan te pas komt, er fouten en inconsistenties zullen optreden.

Een veelgebruikte toepassing van big data processing is het verwerken van ongestructureerde gegevens om daar een geordende betekenis aan te ontlenen, hetzij voor menselijke consumptie, hetzij als gestructureerde input voor een applicatie. Een voorbeeld hiervan is entity resolution, het proces waarbij wordt bepaald waar een naam precies naar verwijst. Is deze stad Londen, Engeland, of Londen, Texas? Tegen de tijd dat je business logica eraan toekomt, wil je niet meer hoeven gissen.

Het proces van brongegevens naar verwerkte applicatiegegevens gaat gepaard met het verlies van informatie. Als je opruimt, gooi je uiteindelijk dingen weg. Dit onderstreept een principe van big data: als je kunt, bewaar dan alles. Er kunnen nuttige signalen zitten in de stukjes die je weggooit. Als je de brongegevens kwijtraakt, is er geen weg meer terug.

Ondanks de populariteit van relationele databases en het feit dat ze goed worden begrepen, is het niet zo dat ze altijd de bestemming voor gegevens moeten zijn, zelfs niet als ze worden opgeruimd. Bepaalde datatypes passen beter bij bepaalde databaseklassen. Documenten die als XML zijn gecodeerd, zijn bijvoorbeeld het meest veelzijdig wanneer zij worden opgeslagen in een specifieke XML-opslagplaats zoals MarkLogic. Sociale netwerkrelaties zijn van nature grafieken, en grafiekdatabases zoals Neo4J maken bewerkingen daarop eenvoudiger en efficiënter.

Zelfs als er geen radicale datatype-mismatch is, is een nadeel van de relationele database het statische karakter van zijn schema’s. In een agile, verkennende omgeving zullen de resultaten van berekeningen evolueren met de detectie en extractie van meer signalen. Semigestructureerde NoSQL-databases voorzien in deze behoefte aan flexibiliteit: ze bieden voldoende structuur om gegevens te ordenen, maar vereisen niet het exacte schema van de gegevens voordat ze worden opgeslagen.

In de praktijk

We hebben de aard van big data verkend, en het landschap van big data van een hoog niveau in kaart gebracht. Zoals gebruikelijk zijn er bij de inzet van big data naast de keuze van de tool nog andere aspecten die moeten worden overwogen.

In de cloud of intern?

De meeste big data-oplossingen worden nu in drie vormen aangeboden: software-only, als appliance of in de cloud. De keuze voor een bepaalde route hangt onder meer af van de locatie van de gegevens, privacy en regelgeving, personele middelen en projectvereisten. Veel organisaties kiezen voor een hybride oplossing: het gebruik van on-demand cloud resources als aanvulling op in-house implementaties.

Big data is groot

Het is een fundamenteel gegeven dat data die te groot zijn om conventioneel te verwerken, ook te groot zijn om overal naartoe te transporteren. IT ondergaat een omkering van prioriteiten: het is het programma dat moet worden verplaatst, niet de gegevens. Als je gegevens van de Amerikaanse volkstelling wilt analyseren, is het veel eenvoudiger om je code op Amazons web services platform te draaien, dat dergelijke gegevens lokaal host en je geen tijd of geld kost om ze te verplaatsen.

Zelfs als de gegevens niet te groot zijn om te verplaatsen, kan lokalisatie nog steeds een probleem zijn, vooral met snel bijgewerkte gegevens. Financiële handelssystemen verdringen zich in datacenters om de snelste verbinding met de brongegevens te krijgen, omdat dat milliseconde verschil in verwerkingstijd gelijk staat aan concurrentievoordeel.

Big data is rommelig

Het gaat niet alleen om de infrastructuur. Big data-professionals melden consequent dat 80% van de moeite die het kost om met data om te gaan in eerste instantie bestaat uit het opschonen ervan, zoals Pete Warden opmerkt in zijn Big Data Glossary: “Ik besteed waarschijnlijk meer tijd aan het omzetten van rommelige brondata in iets bruikbaars dan aan de rest van het data-analyseproces bij elkaar.”

Omwille van de hoge kosten van data-acquisitie en -cleaning is het de moeite waard om te overwegen wat je eigenlijk zelf moet inkopen. Datamarktplaatsen zijn een middel om gemeenschappelijke gegevens te verkrijgen, en vaak kun je verbeteringen terugleveren. De kwaliteit kan natuurlijk variëren, maar zal in toenemende mate een benchmark zijn waarop datamarktplaatsen concurreren.

Cultuur

Het fenomeen big data is nauw verbonden met de opkomst van data science, een discipline die wiskunde, programmeren en wetenschappelijk instinct combineert. Profiteren van big data betekent investeren in teams met deze vaardigheden, en hen omringen met een organisatorische bereidheid om data te begrijpen en te gebruiken voor voordeel.

In zijn rapport, “Building Data Science Teams,” typeert D.J. Patil

data scientists as having the following qualities:

  • Technische expertise: de beste data scientists hebben doorgaans diepgaande expertise in een of andere wetenschappelijke discipline.
  • Nieuwsgierigheid: een verlangen om onder de oppervlakte te gaan en een probleem te ontdekken en te destilleren tot een zeer duidelijke set hypotheses die kunnen worden getest.
  • Storytelling: het vermogen om data te gebruiken om een verhaal te vertellen en dit effectief te kunnen communiceren.
  • Slimheid: het vermogen om op verschillende, creatieve manieren naar een probleem te kijken.

Het verstrekkende karakter van big data analytics-projecten kan ongemakkelijke aspecten met zich meebrengen: gegevens moeten uit silo’s worden gehaald om te kunnen worden ontgonnen, en de organisatie moet leren hoe zij de resultaten van de analyse moet communiceren en interpeteren.

Die vaardigheden van storytelling en slimheid zijn de gateway-factoren die uiteindelijk bepalen of de voordelen van analytisch werk door een organisatie worden geabsorbeerd. De kunst en praktijk van het visualiseren van gegevens wordt steeds belangrijker bij het overbruggen van de kloof tussen mens en computer om analytische inzichten op een zinvolle manier te bemiddelen.

Weet waar je heen wilt

Ten slotte, vergeet niet dat big data geen wondermiddel is. Je kunt patronen en aanwijzingen in je gegevens vinden, maar wat dan? Christer Johnson, IBM’s leider voor advanced analytics in Noord-Amerika, geeft dit advies aan bedrijven die met big data beginnen: bepaal eerst welk probleem u wilt oplossen.

Als u een echt bedrijfsprobleem kiest, zoals hoe u uw reclamestrategie kunt veranderen om de uitgaven per klant te verhogen, zal dat een leidraad zijn voor uw implementatie. Hoewel big data-werk baat heeft bij een ondernemende geest, is het ook sterk gebaat bij een concreet doel.

Gerelateerd:

  • Wat is data science?
  • Building data science teams
  • Big Data Now
  • “Data at the Scale of the Universe,” presentatie van Kyle Cranmer op Strata NY 2011 (video)
  • Building data startups: Snel, groot en gericht

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *