Datavirtualisatie: basis, functionaliteiten en uitdagingen
Datavirtualisatie is een methode voor het verkrijgen en benutten van data uit verschillende bronnen, zonder dat hierbij technische kennis benodigd is over de data. Het is bijvoorbeeld niet nodig om te weten waar de data exact opgeslagen is, of in welk formaat de data is weggeschreven. Het is een proces dat in real-time uitgevoerd kan worden. Dit reduceert het risico dat data mogelijk overgenomen wordt, zoals bij vele andere datamanagementmethoden, zonder dat deze data uiteindelijk gebruikt wordt.
Datavirtualisatie is een methode of principe welke ingedeeld kan worden binnen data-integratie. Een concept dat een groot aantal voordelen te bieden heeft voor organisaties. Het concept wordt veelal gebruikt voor business intelligence-systemen, master datamanagement en service georiënteerde architecturen (SOA). Datavirtualisatie zorgt niet alleen over een weergave van alle data via één enkel schema, zoals wel het geval is bij datafederatie. In tegendeel, datavirtualisatie is een toevoeging aan datafederatie. Het zorgt er niet alleen voor dat data verkregen kan worden uit verschillende bronsystemen, maar daarnaast kan de data ook bijgewerkt worden in de bronnen. Zo behouden alle bronsystemen de meest recente data.
Functionaliteiten
Data-abstractie
De technische aspecten van data zijn niet meer van belang voor de gebruikers of applicaties. Het maakt niet uit waar de data wordt opgeslagen, alle bronsystemen waar data wordt bewaard worden gekoppeld aan één centrale laag. Ook het formaat van data maakt niet uit, evenals de taal waarmee data gecommuniceerd en getransformeerd wordt. Gebruik maken van datavirtualisatie binnen organisaties met service georiënteerde architecturen kan vele voordelen opleveren. Het zorgt voor een laag van abstractie. In plaats van door gebruik te maken van services die rechtstreeks data verkrijgen van productiedatabases in systemen, is één centrale laag het aanspreekpunt. Dit zorgt voor een interface waarvan iedere applicatie die data wil consumeren gebruik kan maken.
Centraal punt voor toegang tot data
Er is één centraal punt waar systemen, zoals business intelligence-applicaties, de data kunnen verkrijgen. Dit centrale punt voor toegang weet exact waar welke data verkregen kan worden. En dat in real-time, met vertraging van enkele milliseconden.
Eén versie van de waarheid
Via de centrale laag is er voor iedere gebruiker of applicatie toegang tot de versie van de waarheid. Datavirtualisatie wordt gebruikt binnen landschappen waar meerdere bronsystemen gelijktijdig gebruikt worden. Welke informatie op het moment van tijd de juiste is, is lastig. Via een platform voor datavirtualisatie wordt de toegang tot alle bronsystemen beheerd, waardoor deze tooling altijd de waarheid kent.
Transformatie van data
Wanneer meerdere bronsystemen geraadpleegd worden, in het geval wanneer data gecombineerd dient te worden, dient data veelal getransformeerd te worden voor de desbetreffende aanvrager. Dit kan gaan om het verbeteren van de kwaliteit, het uitfilteren van bepaalde waardes, het omzetten tot een bepaald formaat, tot zelfs het bijwerken van data in bronsystemen. Een voorbeeld kan zijn wanneer productinformatie wordt benut voor rapportages uit een product informatie management systeem, gecombineerd met klantgegevens uit een Customer relationship management (CRM) pakket.
Echte real-time gegevens
Bij datavirtualisatie blijven de gegevens aanwezig in de bronsystemen. Data wordt niet gewijzigd en raakt niet verouderd voordat deze gebruikt wordt voor de rapportages via datavirtualisatie. Dit is anders bij data warehouses, voordat de data hierbij wordt benut voor rapportages, is deze al verouderd. Dit komt door de lange ontwikkelingscyclus.
Uitdagingen voor organisaties
Organisatorische en culturele veranderingen
Datavirtualisatie heeft met veel aspecten van de organisatie te maken, niet alleen met de techniek. Organisatorische en culturele veranderingen zijn misschien wel de grootste uitdagingen voor het goed ordenen van dergelijke projecten. Hierbij valt vooral te denken aan wijzigingen in rollen en functies. Bij culture veranderingen moet gedacht worden aan de centrale rol welke datavirtualisatie heeft. Voor veranderingen in applicaties moet steeds opnieuw het team dat de datavirtualisatielaag beheert benaderd worden, terwijl dit voorheen niet bestond.
Verantwoordelijkheden
Wie is er verantwoordelijk voor de technische oplossing? Er moeten duidelijke taakverdelingen zijn. Welke gebruikers zijn verantwoordelijk voor welke componenten. Wie zijn verantwoordelijk voor welke services. De data die beschikbaar wordt gesteld moet allesomvattend zijn. Wanneer er veranderingen aangebracht worden in onderliggende bronsystemen, is de kans aanzienlijk dat ook aan deze tussenlaag of abstractielaag veranderingen aangebracht moeten worden.
Overtuigen business
Het overtuigen van de business over de voordelen welke datavirtualisatie te bieden heeft, blijft vaak een lastig aspect. Hoewel het een grote investering is, op langere termijn kunnen er aanzienlijke voordelen behaald worden. Ontwikkelaars kunnen zich concentreren op de (nieuwe) applicatie, in plaats van het leggen van connecties met bronsystemen waaruit data wordt vergaard of business rules welke daarbij van toepassing zijn.
Performance
Om alles technisch vlekkeloos te laten werken, is het van groot belang voldoende snelheid te hebben. Simpele rapportages of aanvragen die tijdrovend zijn om samen te stellen zijn geen optie, dit belemmert de processen van organisaties. Datavirtualisatie-oplossingen hebben schaalbare capaciteit, een capaciteitsprobleem kan hierdoor eenvoudig opgelost worden.
Data warehouses in combinatie met datavirtualisatie
De opkomst van datavirtualisatie betekent niet dat data warehouses zullen verdwijnen. Gezien datavirtualisatie gebruik maakt van de daadwerkelijke bronsystemen, en deze meestal geen historische data bevatten, biedt de combinatie van data warehouses en datavirtualisatie een oplossing. Historische data kan opgeslagen worden in data warehouses, de live productiedata staat in de operationele systemen, via de datavirtualisatie-oplossing kan data in beide bronnen gelijktijdig benut worden. Data warehouses kunnen gebruikt worden voor complexe rapportages over langere termijnen, gecombineerd met data uit operationele systemen via datavirtualisatie. Een bijkomend voordeel is dat het implementeren van een datavirtualisatie-oplossing normaliter niet lang in beslag neemt, vaak maar enkele weken tot maanden.
Eenvoudig voorbeeld datavirtualisatie of abstractie
Een eenvoudig voorbeeld is het uploaden van een nieuwe profielfoto op Facebook. Je klinkt op de knop om je profielfoto te wijzigen. Facebook vraagt om de nieuwe foto, waarbij je via een venster kunt bladeren naar de foto op jouw apparaat. Vervolgens klik je op wijzigen. De foto wordt geüpload naar Facebook. Je hebt geen idee meer waar de foto exact bewaard wordt, toch is de foto overal beschikbaar. Een abstractielaag is ontstaan. Hoewel dit niet de exacte werking is van datavirtualisatie, is het een relevant voorbeeld dat gebruikt kan worden om enig idee van het concept te krijgen.