VIR Vezetői Információs Rendszerek Szolgáltató Zrt.

IBM Megoldások - Adattisztítás – IBM IIS

Keretrendszer adattisztítási platform kialakítására IBM Infosphere Information Server alapon

A VIR Vezetői Információs Rendszerek Zrt. megoldása egy adattisztítási és transzformációs rétegkeretrendszer, amely egy olyan általános, naplózott, integrált adattisztítási és transzformációs réteg, amely több kapcsolódó rendszer Big Data adatfolyamát képes integrálni, menedzselni és a szükséges adatminőség javításokat automatizáltan elvégezni.

A rendszer felhasználási területei, a teljesség igénye nélkül:
  • minden olyan feladat, ahol kritikus a napi szintű beérkező adatok minősége,
  • ha a vezetőség téves adatot kap a vezetői információs rendszeréből, de nem tudják, hogy mi volt a téves adat forrása,
  • amennyiben nagy mennyiségű adat folyamatos feldolgozást és bedolgozást igényel.

A rendszer koncepciós ábrája:
IBM IIS adattisztítás
A rendszer műszaki előnyei:
  • következetesség és a bizalom növekedése a döntéshozatalban az adatminőség növelésén keresztül,
  • az adatbiztonság javítása,
  • adatterjesztési politikákkal kapcsolatos követelmények meghatározása,
  • adatterjesztési politikákkal kapcsolatos követelmények ellenőrzése,
  • az információminőség növelése,
  • adatforrások visszakövethetősége,
  • az adatokon alapuló döntéshozatal lehetővé tétele,
  • az állandóan újra és újra elvégzett adattisztítási munka kiküszöbölése,
  • komplex, integrált megoldás,

A rendszer szolgáltatásai, funkciói:
  • beérkező adatok módosításainak naplózása, hogy bármikor visszakövethető legyen az eredeti adat és az összes módosítása egészen a végső adatig,
  • minden rekordhoz pontos időpont és belső vagy technikai felhasználó azonosító rendelése, hogy visszakövethetők legyenek a módosítások,
  • a technikai felhasználók az automatizált javítások során azonosítják a javító alrendszert (algoritmust),
  • automatikus javító alrendszerek létrehozása, amelyek képesek nagy tömegben, automatizáltan, komplex szabályok alapján módosítani az adathalmazt,
  • a javításokat nem kell újból és újból elvégezni,
  • a kézi, mind az automatikus, nagy tömegű módosításokat automatikusan alkalmazza, amennyiben az áttöltés során megváltoznak az adatok,
  • nem nő inkrementálisan az adatbázis, hanem régebbi adatok is változhatnak,
  • visszajelzések (automatikus) küldése a kapcsolódó rendszer adatgazdájának (adatkezelő) és az adatot szolgáltató végfelhasználónak az adatkezelőn és partner rendszeren keresztül,
  • az adatbegyűjtésnél hibásan felvitt adatokra figyelmezteti a végfelhasználót és ösztönzi a helyes adatok bevitelét, esetlegesen a régi adatok módosítását, valamint új ellenőrzések bevezetését az adatgyűjtő rendszerben, ha ez életszerű,
  • a nem várt, hibás vagy inkonzisztens adatok detektálása az eltárolt szabályrendszer és további vizsgálati módszerek alapján,
  • a szabályokhoz kapcsolódó javítási megoldás kiválasztása, paraméterezése és automatikus futtatása. (egyedi egyszeri javítás is történhet, de a gyakoribb az iteratív automatikus tisztítási munkafolyamat futtatás lesz),
  • tisztítás után az eredményeket meg kell vizsgálni a helyesség ellenőrzése céljából,
  • jelentés generálása a változásokról és az aktuálisan tárolt adatok minőségéről,
  • a partner rendszerek irányába visszajelzés küldése a javított adatokról, hogy tudjanak dönteni azok kezeléséről,
  • a partner rendszer visszajelezhet az adatszolgáltató felhasználójának a hibás adatokról és kérheti az adatok múltbeli/jövőbeli javítását vagy beépíthet ellenőrzést a saját rendszerébe, amely nem engedi át a nem megfelelő adatokat,
  • adatprofil, általános képet adunk az adatok minőségéről, ellenőrizhető, hogy egy adott oszlop megfelel-e bizonyos szabványoknak vagy mintáknak,
  • az adatok elemzésére vizualizáció (grafikonok) megjelenítésével statisztikai módszerekkel,
  • statisztikai mintaillesztés.

IBM komponens: Adatintegrációs platform - IBM InfoSphere Information Server

Egy jól skálázható adatintegrációs platform, mely lehetővé teszi, hogy megértsük, tisztítsuk, átalakítsuk és felügyeljük az üzleti folyamat működéséhez szükséges adatokat. Széles eszközkészlete és masszívan párhuzamos feldolgozási technológiája révén komplex transzformációk végezhetők akár nagy adatmennyiségeken, közel valós időben. Továbbá minden szolgáltatásra kiterjesztett meta-adat menedzsment és széleskörű integrációs lehetőségei biztosítják a platform piacvezető képességeit.

Üzleti kihívás

Mai felgyorsult világunkban egyre több üzleti szempontból értékes adatforrás áll rendelkezésre, egyre nagyobb adatmennyiség keletkezik. A feldolgozás nehézségét nem csak utóbbi tényező, hanem a változatos adatformátum és az adatok megkérdőjelezhető valóságértéke is megnehezíti. Legyen szó akár strukturált vagy nem strukturált adatok feldolgozásáról, a feldolgozás egy rendkívül összetett feladatnak számít, így mindenképpen egy rugalmas eszközkészlettel rendelkező platformra van igény. Ezen felül rendelkeznie kell teljeskörűen felügyelt adatintegrációs és transzformációs képességgel, hogy üzleti szempontból megbízható adatokkal lássa el az elemző rendszereket.

Nagyteljesítményű és robosztus integrációs platform

Az InfoSphere Information Server egy egységes, teljes körű integrációs platformot biztosít, amelynek széleskörű eszközkészlete révén megfelel az egyedi információs – adatminőségi, adatkövetési és integrációs – igényeknek, így garantáltan megbízható információval támogatja az üzleti folyamatot. Segítségével a modern adattárházak, törzsadat kezelő rendszerek vagy a BigData alapú elemzőrendszerek teljeskörű integrációja megvalósítható. A platform teljesen független az adatbázis rétegtől, önálló szerverben valósul meg, ugyanakkor megvan az a rugalmassága is, hogy az adat-intenzív műveleteket képes az adatkezelő rendszernek átadni.

A platform további kiemelkedő képessége, hogy közös meta-adattárra épülő, szorosan integrált komponensei révén nem csak egy-egy elkülönített feladatot ellátó informatikai szakrendszeri igényeket, hanem valódi adatgazdai (governance) szerepet is képes betölteni. Az ide importált adatokat minden egyes komponens látja, felhasználhatja. Ezen tulajdonság kihasználása érdekében előre rögzített, üzleti szempontokat központba helyező specifikáció alapú tervezést szükséges alkalmazni. Az üzleti tevékenységek informatikai oldalról történő maximális mértékű támogatása érdekében a megoldás több komponensből épül fel, melyek részletes bemutatásáról a következő bekezdésekben olvashat.


Adatgazdai szerep

Az üzleti oldal megfelelő minőségű, megbízható adatokkal történő ellátása érdekében szoros együttműködés szükséges az informatikai és kereskedelmi részleg között. A hatékonyság optimalizálása érdekében az üzleti felhasználókat érdemes kinevezni az adatok gazdájának. Az InfoSphere Information Governance Catalog komponens segítségével mindez megvalósítható, az adatokhoz üzleti fogalmak kerülnek hozzárendelésre, melyek hierarchikus egységekbe rendezhetők. Az eszköz segítségével az üzleti felhasználók pontosan látják, hogy adataik mely üzleti fogalmakhoz tartoznak, hol vannak, milyen adattisztasági, biztonsági szabályoknak kell megfelelniük. Továbbá a felhasználók riportokon keresztül képet kaphatnak a napi adattöltési folyamatokról, az aktuális adattisztaságról, jóváhagyási munkafolyamatok definiálhatók az egyes változtatásokra. A meta-adattárra épülő lineage és impact analízis eszközök segítik a részlegek közti kommunikációt, illetve az esetleges fejlesztések üzletre leképzett pozitív, negatív hatásainak megállapítását, mindezzel csökkentve a fejlesztési kockázatokat.

ETL adatfeldolgozás

ETL adatfeldolgozás

A platform InfoSphere DataStage komponensének legfőbb szerepe akár nagy adatmennyiség, közel valós időben történő mozgatása, melyet kiemelkedő skálázhatósági és párhuzamosíthatósági képességeivel képes megvalósítani. Ezen robosztus, adatbázison kívüli rendszer alapvetően ETL – extract, transform, load – módszerre épít, de ELT, TELT, TETLT megvalósításokat is képes realizálni.

Az adat transzformációs motor partícionálja az elkészített adatfolyamot, majd pipeline párhuzamosíthatóságot alkalmazva gyorsítja annak feldolgozását. Az InfoSphere Change Data Capture (CDC) kiegészítés a forrás adatbázis minimális terhelése mellett is képes az adatok közel valós idejű áttöltésére.

Az eleve párhuzamosítással rendelkező rendszerek, mint a Big Data (Hadoop) vagy adattárház céleszköz (PureData System for Analytics) esetén a párhuzamosíthatóság, s az adattranszformáció magán az eszközön megy végbe. Az Information Server for Big Data egy speciális kiadás, mely támogatja magán a Hadoop klaszteren, az Apache Spark szolgáltatáson történő, memória alapú adatfeldolgozást.

Önkiszolgáló adatkiszolgálás

Az üzleti felhasználók elemzési igényei mellett fontos megfelelő adatokkal történő kiszolgálásuk is. Az Information Server Data Click komponense egyedülálló módon önkiszolgáló adatkiszolgálást valósít meg. A felhasználó a rendelkezésére álló adatforrásból - Big Data vagy adattárház - saját maga töltheti át a releváns, később felhasználni kívánt adatokat.

Adatminőség, adattisztaság, konzisztens nézetek

Az adatminőség ellenőrzési és az ezzel együtt járó adattisztítási folyamat elengedhetetlen eszközei a garantáltan megbízható üzleti adatok előállításának. Az InfoSphere QualityStage komponense segítségével ezen feldolgozási feladatok felügyelhetővé válnak, az adatok sztenderdizálása, validálása és javítása megvalósítható, garantálva ezzel az adattárházba kerülő adatok jobb minőségét. Utóbbiak javítása, valamint függőségeik elemzése ütemezetten vagy akár valós időben is történhet.

Az eszköz számos minőségi metrikát számítva monitorozza a folyamatokat, amennyiben a normálistól eltérést tapasztal, azonnal meggátolja a hibás információ tovább terjedését. Az ellenőrzés történhet akár betű vagy minta ellenőrzés szintjén. Utóbbi erőteljes képességei észlelik - az adatmezők rendellenessége, inkonzisztenciája és hiányossága ellenére - azok duplikációját és függőségeit. A QualityStage egyedülálló statisztikai mintaillesztő motorja megállapítja annak a valószínűségét, hogy két vagy több adathalmaz ugyanazt az üzleti objektumot reprezentálja. Ezután az eszköz kapcsolókulcsokat hoz létre, így a felhasználók valóban egységes üzleti objektumokkal végezhetnek tranzakciókat, vagy tölthetik fel a célrendszereket, mindeközben rendelkezésükre állnak a kapcsolódó adatok is.

Az adatforrás konszolidáció nem csak az előbb bemutatott módon, hanem adatgazdai beavatkozás útján is létrejöhet. Mindkettő célja megegyezik, a törzsadat kezelő rendszer támogatása.

Integrated Data Quality

Integráció

Az InfoSphere Information Server platformja kiemelkedő integrációs képességekkel rendelkezik, egyaránt támogatja a hagyományos és az új informatikai adattárolási és feldolgozási megoldásokat. A relációs adatbáziskezelők széles palettáján túl biztosított a Big Data (Hadoop) rendszerekkel, adattárház gyorsító céleszközökkel (IBM PureData System for Analytics) vagy akár felhő-alapú környezettel történő integráció. Az IBM célja, hogy ezen kibővített paletta segítségével minél inkább támogassa a modern adattárház felé támasztott egyetemleges igények megvalósítását.

A platform rugalmasságát bizonyítja, hogy adatintenzív feladatok Big Data környezeten vagy céleszközökön történő futtatása esetén képes a feladatot az adatkezelő rendszernek átadni, így minimalizálni az adatmozgatást, közvetlen növelni az adatmozgatás hatékonyságát. Az IBM InfoSphere Information Server adatintegrációs platform egységes architektúrája és felhasználói felülete révén könnyen kiaknázhatóvá válik a széleskörű eszközkészlete által nyújtott szolgáltatások teljes tárháza. Segítségével a hatékony és robosztus adatfeldolgozás, az adatok transzformációjától kezdve, az adatgazdálkodási funkciókon és a törzsadat kezelésen át egészen azok minőségi felügyeletéig garantálható.

IBM Megoldások

A weboldalon sütiket használunk statisztikák készítése érdekében!