A VIR Vezetői Információs Rendszerek Zrt. megoldása egy keretrendszer kialakításával segíti a különböző adatforrásokból érkező információk egy platformon történő megjelenítését, melynek eredményeképp létrejön egy olyan általános, naplózott, integrált adattisztításra felkészített, transzformációs réteg amely több kapcsolódó rendszer Big Data adatfolyamát képes integrálni, menedzselni.
Egy jól skálázható adatintegrációs platform, mely lehetővé teszi, hogy megértsük, tisztítsuk, átalakítsuk és felügyeljük az üzleti folyamat működéséhez szükséges adatokat. Széles eszközkészlete és masszívan párhuzamos feldolgozási technológiája révén komplex transzformációk végezhetők akár nagy adatmennyiségeken, közel valós időben. Továbbá minden szolgáltatásra kiterjesztett meta-adat menedzsment és széleskörű integrációs lehetőségei biztosítják a platform piacvezető képességeit.
Mai felgyorsult világunkban egyre több üzleti szempontból értékes adatforrás áll rendelkezésre, egyre nagyobb adatmennyiség keletkezik. A feldolgozás nehézségét nem csak utóbbi tényező, hanem a változatos adatformátum és az adatok megkérdőjelezhető valóságértéke is megnehezíti. Legyen szó akár strukturált vagy nem strukturált adatok feldolgozásáról, a feldolgozás egy rendkívül összetett feladatnak számít, így mindenképpen egy rugalmas eszközkészlettel rendelkező platformra van igény. Ezen felül rendelkeznie kell teljeskörűen felügyelt adatintegrációs és transzformációs képességgel, hogy üzleti szempontból megbízható adatokkal lássa el az elemző rendszereket.
Az InfoSphere Information Server egy egységes, teljes körű integrációs platformot biztosít, amelynek széleskörű eszközkészlete révén megfelel az egyedi információs – adatminőségi, adatkövetési és integrációs – igényeknek, így garantáltan megbízható információval támogatja az üzleti folyamatot. Segítségével a modern adattárházak, törzsadat kezelő rendszerek vagy a BigData alapú elemzőrendszerek teljeskörű integrációja megvalósítható. A platform teljesen független az adatbázis rétegtől, önálló szerverben valósul meg, ugyanakkor megvan az a rugalmassága is, hogy az adat-intenzív műveleteket képes az adatkezelő rendszernek átadni.
A platform további kiemelkedő képessége, hogy közös meta-adattárra épülő, szorosan integrált komponensei révén nem csak egy-egy elkülönített feladatot ellátó informatikai szakrendszeri igényeket, hanem valódi adatgazdai (governance) szerepet is képes betölteni. Az ide importált adatokat minden egyes komponens látja, felhasználhatja. Ezen tulajdonság kihasználása érdekében előre rögzített, üzleti szempontokat központba helyező specifikáció alapú tervezést szükséges alkalmazni. Az üzleti tevékenységek informatikai oldalról történő maximális mértékű támogatása érdekében a megoldás több komponensből épül fel, melyek részletes bemutatásáról a következő bekezdésekben olvashat.
Az üzleti oldal megfelelő minőségű, megbízható adatokkal történő ellátása érdekében szoros együttműködés szükséges az informatikai és kereskedelmi részleg között. A hatékonyság optimalizálása érdekében az üzleti felhasználókat érdemes kinevezni az adatok gazdájának. Az InfoSphere Information Governance Catalog komponens segítségével mindez megvalósítható, az adatokhoz üzleti fogalmak kerülnek hozzárendelésre, melyek hierarchikus egységekbe rendezhetők. Az eszköz segítségével az üzleti felhasználók pontosan látják, hogy adataik mely üzleti fogalmakhoz tartoznak, hol vannak, milyen adattisztasági, biztonsági szabályoknak kell megfelelniük. Továbbá a felhasználók riportokon keresztül képet kaphatnak a napi adattöltési folyamatokról, az aktuális adattisztaságról, jóváhagyási munkafolyamatok definiálhatók az egyes változtatásokra. A meta-adattárra épülő lineage és impact analízis eszközök segítik a részlegek közti kommunikációt, illetve az esetleges fejlesztések üzletre leképzett pozitív, negatív hatásainak megállapítását, mindezzel csökkentve a fejlesztési kockázatokat.
A platform InfoSphere DataStage komponensének legfőbb szerepe akár nagy adatmennyiség, közel valós időben történő mozgatása, melyet kiemelkedő skálázhatósági és párhuzamosíthatósági képességeivel képes megvalósítani. Ezen robosztus, adatbázison kívüli rendszer alapvetően ETL – extract, transform, load – módszerre épít, de ELT, TELT, TETLT megvalósításokat is képes realizálni.
Az adat transzformációs motor partícionálja az elkészített adatfolyamot, majd pipeline párhuzamosíthatóságot alkalmazva gyorsítja annak feldolgozását. Az InfoSphere Change Data Capture (CDC) kiegészítés a forrás adatbázis minimális terhelése mellett is képes az adatok közel valós idejű áttöltésére.
Az eleve párhuzamosítással rendelkező rendszerek, mint a Big Data (Hadoop) vagy adattárház céleszköz (PureData System for Analytics) esetén a párhuzamosíthatóság, s az adattranszformáció magán az eszközön megy végbe. Az Information Server for Big Data egy speciális kiadás, mely támogatja magán a Hadoop klaszteren, az Apache Spark szolgáltatáson történő, memória alapú adatfeldolgozást.
Az üzleti felhasználók elemzési igényei mellett fontos megfelelő adatokkal történő kiszolgálásuk is. Az Information Server Data Click komponense egyedülálló módon önkiszolgáló adatkiszolgálást valósít meg. A felhasználó a rendelkezésére álló adatforrásból - Big Data vagy adattárház - saját maga töltheti át a releváns, később felhasználni kívánt adatokat.
Az adatminőség ellenőrzési és az ezzel együtt járó adattisztítási folyamat elengedhetetlen eszközei a garantáltan megbízható üzleti adatok előállításának. Az InfoSphere QualityStage komponense segítségével ezen feldolgozási feladatok felügyelhetővé válnak, az adatok sztenderdizálása, validálása és javítása megvalósítható, garantálva ezzel az adattárházba kerülő adatok jobb minőségét. Utóbbiak javítása, valamint függőségeik elemzése ütemezetten vagy akár valós időben is történhet.
Az eszköz számos minőségi metrikát számítva monitorozza a folyamatokat, amennyiben a normálistól eltérést tapasztal, azonnal meggátolja a hibás információ tovább terjedését. Az ellenőrzés történhet akár betű vagy minta ellenőrzés szintjén. Utóbbi erőteljes képességei észlelik - az adatmezők rendellenessége, inkonzisztenciája és hiányossága ellenére - azok duplikációját és függőségeit. A QualityStage egyedülálló statisztikai mintaillesztő motorja megállapítja annak a valószínűségét, hogy két vagy több adathalmaz ugyanazt az üzleti objektumot reprezentálja. Ezután az eszköz kapcsolókulcsokat hoz létre, így a felhasználók valóban egységes üzleti objektumokkal végezhetnek tranzakciókat, vagy tölthetik fel a célrendszereket, mindeközben rendelkezésükre állnak a kapcsolódó adatok is.
Az adatforrás konszolidáció nem csak az előbb bemutatott módon, hanem adatgazdai beavatkozás útján is létrejöhet. Mindkettő célja megegyezik, a törzsadat kezelő rendszer támogatása.
Az InfoSphere Information Server platformja kiemelkedő integrációs képességekkel rendelkezik, egyaránt támogatja a hagyományos és az új informatikai adattárolási és feldolgozási megoldásokat. A relációs adatbáziskezelők széles palettáján túl biztosított a Big Data (Hadoop) rendszerekkel, adattárház gyorsító céleszközökkel (IBM PureData System for Analytics) vagy akár felhő-alapú környezettel történő integráció. Az IBM célja, hogy ezen kibővített paletta segítségével minél inkább támogassa a modern adattárház felé támasztott egyetemleges igények megvalósítását.
A platform rugalmasságát bizonyítja, hogy adatintenzív feladatok Big Data környezeten vagy céleszközökön történő futtatása esetén képes a feladatot az adatkezelő rendszernek átadni, így minimalizálni az adatmozgatást, közvetlen növelni az adatmozgatás hatékonyságát. Az IBM InfoSphere Information Server adatintegrációs platform egységes architektúrája és felhasználói felülete révén könnyen kiaknázhatóvá válik a széleskörű eszközkészlete által nyújtott szolgáltatások teljes tárháza. Segítségével a hatékony és robosztus adatfeldolgozás, az adatok transzformációjától kezdve, az adatgazdálkodási funkciókon és a törzsadat kezelésen át egészen azok minőségi felügyeletéig garantálható.