IBM Megoldások - Adatintegrációs platform – IBM IIS

Keretrendszer adatintegrációs platform kialakítására IBM Infosphere Information Server alapon

A VIR Zrt. megoldása egy keretrendszer kialakításával segíti a különböző adatforrásokból érkező információk egy platformon történő megjelenítését, melynek eredményeképp létrejön egy olyan általános, naplózott, integrált adattisztításra felkészített, transzformációs réteg amely több kapcsolódó rendszer Big Data adatfolyamát képes integrálni, menedzselni.

A rendszer felhasználási területei, a teljesség igénye nélkül:
  • minden olyan feladat, ahol különböző (heterogén) adatforrásokból érkező adatokat kell feldolgozni, együttesen elemezni, azokból riportokat készíteni
  • ha vállalatok összeolvadása esetén a homogén riportok kialakítása a cél
  • amennyiben nagy mennyiségű adat folyamatos feldolgozást és bedolgozást igényel

A rendszer koncepciós ábrája:
IBM IIS adatintegráció
A rendszer műszaki előnyei:
  • Komplex, integrált megoldás
  • A következetesség és a bizalom növekedése a döntéshozatalban az adatminőség növelésén keresztül
  • Adatbiztonság javulása
  • Adatterjesztési politikákkal kapcsolatos követelmények meghatározása
  • Adatterjesztési politikákkal kapcsolatos követelmények ellenőrzése
  • Jobb döntéshozatal lehetővé tétele

A rendszer szolgáltatásai, funkciói:
  • nagy mennyiségű adat folyamatos feldolgozása, bedolgozása
  • séma menedzsment eszközök és konnektorok használata
  • többféle forrásból származó adatok szervezése, kezelése és továbbítása egy megbízható, nagy teljesítményű rendszerként
  • alapvető operációk a közzététel (Publish) és a feliratkozás (Subscribe) az adatfolyamra. Az adatfolyam rekordokra bomlik - logikailag
  • rekordok adatfolyamának tárolása hibatűrő, tartós, perzisztens módon
  • a rekordfolyam feldolgozása azok keletkezésével történik
  • valós idejű adatfolyamok építése, amelyek megbízhatóan kapnak és továbbítanak adatokat rendszerek és alkalmazások között
  • valós idejű streaming alkalmazások készítése, amelyek átalakítják az adatokat vagy reagálnak az adatfolyamok egyes adataira (eseményvezérelt működés)

IBM komponens: Adatintegrációs platform - IBM InfoSphere Information Server

Egy jól skálázható adatintegrációs platform, mely lehetővé teszi, hogy megértsük, tisztítsuk, átalakítsuk és felügyeljük az üzleti folyamat működéséhez szükséges adatokat. Széles eszközkészlete és masszívan párhuzamos feldolgozási technológiája révén komplex transzformációk végezhetők akár nagy adatmennyiségeken, közel valós időben. Továbbá minden szolgáltatásra kiterjesztett meta-adat menedzsment és széleskörű integrációs lehetőségei biztosítják a platform piacvezető képességeit.

Üzleti kihívás

Mai felgyorsult világunkban egyre több üzleti szempontból értékes adatforrás áll rendelkezésre, egyre nagyobb adatmennyiség keletkezik. A feldolgozás nehézségét nem csak utóbbi tényező, hanem a változatos adatformátum és az adatok megkérdőjelezhető valóságértéke is megnehezíti. Legyen szó akár strukturált vagy nem strukturált adatok feldolgozásáról, a feldolgozás egy rendkívül összetett feladatnak számít, így mindenképpen egy rugalmas eszközkészlettel rendelkező platformra van igény. Ezen felül rendelkeznie kell teljeskörűen felügyelt adatintegrációs és transzformációs képességgel, hogy üzleti szempontból megbízható adatokkal lássa el az elemző rendszereket.

Nagyteljesítményű és robosztus integrációs platform

Az InfoSphere Information Server egy egységes, teljes körű integrációs platformot biztosít, amelynek széleskörű eszközkészlete révén megfelel az egyedi információs – adatminőségi, adatkövetési és integrációs – igényeknek, így garantáltan megbízható információval támogatja az üzleti folyamatot. Segítségével a modern adattárházak, törzsadat kezelő rendszerek vagy a BigData alapú elemzőrendszerek teljeskörű integrációja megvalósítható. A platform teljesen független az adatbázis rétegtől, önálló szerverben valósul meg, ugyanakkor megvan az a rugalmassága is, hogy az adat-intenzív műveleteket képes az adatkezelő rendszernek átadni.

A platform további kiemelkedő képessége, hogy közös meta-adattárra épülő, szorosan integrált komponensei révén nem csak egy-egy elkülönített feladatot ellátó informatikai szakrendszeri igényeket, hanem valódi adatgazdai (governance) szerepet is képes betölteni. Az ide importált adatokat minden egyes komponens látja, felhasználhatja. Ezen tulajdonság kihasználása érdekében előre rögzített, üzleti szempontokat központba helyező specifikáció alapú tervezést szükséges alkalmazni. Az üzleti tevékenységek informatikai oldalról történő maximális mértékű támogatása érdekében a megoldás több komponensből épül fel, melyek részletes bemutatásáról a következő bekezdésekben olvashat.

IBM IIS integrációs platform

Adatgazdai szerep

Az üzleti oldal megfelelő minőségű, megbízható adatokkal történő ellátása érdekében szoros együttműködés szükséges az informatikai és kereskedelmi részleg között. A hatékonyság optimalizálása érdekében az üzleti felhasználókat érdemes kinevezni az adatok gazdájának. Az InfoSphere Information Governance Catalog komponens segítségével mindez megvalósítható, az adatokhoz üzleti fogalmak kerülnek hozzárendelésre, melyek hierarchikus egységekbe rendezhetők. Az eszköz segítségével az üzleti felhasználók pontosan látják, hogy adataik mely üzleti fogalmakhoz tartoznak, hol vannak, milyen adattisztasági, biztonsági szabályoknak kell megfelelniük. Továbbá a felhasználók riportokon keresztül képet kaphatnak a napi adattöltési folyamatokról, az aktuális adattisztaságról, jóváhagyási munkafolyamatok definiálhatók az egyes változtatásokra. A meta-adattárra épülő lineage és impact analízis eszközök segítik a részlegek közti kommunikációt, illetve az esetleges fejlesztések üzletre leképzett pozitív, negatív hatásainak megállapítását, mindezzel csökkentve a fejlesztési kockázatokat.

ETL adatfeldolgozás

ETL adatfeldolgozás

A platform InfoSphere DataStage komponensének legfőbb szerepe akár nagy adatmennyiség, közel valós időben történő mozgatása, melyet kiemelkedő skálázhatósági és párhuzamosíthatósági képességeivel képes megvalósítani. Ezen robosztus, adatbázison kívüli rendszer alapvetően ETL – extract, transform, load – módszerre épít, de ELT, TELT, TETLT megvalósításokat is képes realizálni.

Az adat transzformációs motor partícionálja az elkészített adatfolyamot, majd pipeline párhuzamosíthatóságot alkalmazva gyorsítja annak feldolgozását. Az InfoSphere Change Data Capture (CDC) kiegészítés a forrás adatbázis minimális terhelése mellett is képes az adatok közel valós idejű áttöltésére.

Az eleve párhuzamosítással rendelkező rendszerek, mint a Big Data (Hadoop) vagy adattárház céleszköz (PureData System for Analytics) esetén a párhuzamosíthatóság, s az adattranszformáció magán az eszközön megy végbe. Az Information Server for Big Data egy speciális kiadás, mely támogatja magán a Hadoop klaszteren, az Apache Spark szolgáltatáson történő, memória alapú adatfeldolgozást.

Önkiszolgáló adatkiszolgálás

Az üzleti felhasználók elemzési igényei mellett fontos megfelelő adatokkal történő kiszolgálásuk is. Az Information Server Data Click komponense egyedülálló módon önkiszolgáló adatkiszolgálást valósít meg. A felhasználó a rendelkezésére álló adatforrásból - Big Data vagy adattárház - saját maga töltheti át a releváns, később felhasználni kívánt adatokat.

Adatminőség, adattisztaság, konzisztens nézetek

Az adatminőség ellenőrzési és az ezzel együtt járó adattisztítási folyamat elengedhetetlen eszközei a garantáltan megbízható üzleti adatok előállításának. Az InfoSphere QualityStage komponense segítségével ezen feldolgozási feladatok felügyelhetővé válnak, az adatok sztenderdizálása, validálása és javítása megvalósítható, garantálva ezzel az adattárházba kerülő adatok jobb minőségét. Utóbbiak javítása, valamint függőségeik elemzése ütemezetten vagy akár valós időben is történhet.

Az eszköz számos minőségi metrikát számítva monitorozza a folyamatokat, amennyiben a normálistól eltérést tapasztal, azonnal meggátolja a hibás információ tovább terjedését. Az ellenőrzés történhet akár betű vagy minta ellenőrzés szintjén. Utóbbi erőteljes képességei észlelik - az adatmezők rendellenessége, inkonzisztenciája és hiányossága ellenére - azok duplikációját és függőségeit. A QualityStage egyedülálló statisztikai mintaillesztő motorja megállapítja annak a valószínűségét, hogy két vagy több adathalmaz ugyanazt az üzleti objektumot reprezentálja. Ezután az eszköz kapcsolókulcsokat hoz létre, így a felhasználók valóban egységes üzleti objektumokkal végezhetnek tranzakciókat, vagy tölthetik fel a célrendszereket, mindeközben rendelkezésükre állnak a kapcsolódó adatok is.

Az adatforrás konszolidáció nem csak az előbb bemutatott módon, hanem adatgazdai beavatkozás útján is létrejöhet. Mindkettő célja megegyezik, a törzsadat kezelő rendszer támogatása.

Integráció

Az InfoSphere Information Server platformja kiemelkedő integrációs képességekkel rendelkezik, egyaránt támogatja a hagyományos és az új informatikai adattárolási és feldolgozási megoldásokat. A relációs adatbáziskezelők széles palettáján túl biztosított a Big Data (Hadoop) rendszerekkel, adattárház gyorsító céleszközökkel (IBM PureData System for Analytics) vagy akár felhő-alapú környezettel történő integráció. Az IBM célja, hogy ezen kibővített paletta segítségével minél inkább támogassa a modern adattárház felé támasztott egyetemleges igények megvalósítását.

A platform rugalmasságát bizonyítja, hogy adatintenzív feladatok Big Data környezeten vagy céleszközökön történő futtatása esetén képes a feladatot az adatkezelő rendszernek átadni, így minimalizálni az adatmozgatást, közvetlen növelni az adatmozgatás hatékonyságát. Az IBM InfoSphere Information Server adatintegrációs platform egységes architektúrája és felhasználói felülete révén könnyen kiaknázhatóvá válik a széleskörű eszközkészlete által nyújtott szolgáltatások teljes tárháza. Segítségével a hatékony és robosztus adatfeldolgozás, az adatok transzformációjától kezdve, az adatgazdálkodási funkciókon és a törzsadat kezelésen át egészen azok minőségi felügyeletéig garantálható.