IBM Statisztikai Adattárház

IBM megoldások

IBM Statisztikai Adattárház IBM Websphere Application Server, Datapower és Planning Analytics alapokon

A VIR Zrt. megoldása összekapcsolja az IBM Websphere Application Server, Datapower és Planning Analytics platformokat robosztus megoldássá, ahol adattárház azonnali riportok, dashboardok segítségével vannak felügyelve, így a menedzsment teljeskörű pillanatképpel rendelkezik a szervezet hatékonyságáról a megalapozott döntéshozatalhoz.

A Statisztikai Adattárház bemutatása

A Statisztikai Adattárház egy olyan komplex adatgyűjtő és kiértékelő rendszer, amely képes a turizmussal kapcsolatos adatok begyűjtésére strukturált és strukturálatlan adatforrásokból, majd ezen adatok, információk tisztítására, szűrésére, feldolgozására és szintetizálására. A folyamat végén adatvizualizációs eszközök segítségével a nagy mennyiségű adathalmazban felfedezett összefüggések, előrejelzések megjelenítésére, amelyek a stratégiai döntések hatásosságát megsokszorozzák.

A Statisztikai Adattárház a különböző belső és külső adatforrások, értékes és érdekes információkat rejtő helyekről összegyűjtött, nagy mennyiségű adathalmaz tárolására és feldolgozására képes, az Ügyfél saját adatvagyonát leképező és arra épülő adatbányászati eszközöket tartalmazó komplex informatikai rendszer.

Az Adattárházat a forrásrendszerektől illetve a forrás szolgáltatóktól rendszeres, meghatározott időközönként érkező adatok táplálják. Az adatok szerződéses szolgáltatás, vagy jogszabályi kötelezettségek keretében érkeznek be.

Az így kialakított komplex informatikai rendszer az Ajánlatkérő saját statisztikai adattárháza (adatvagyona), mely egyéb adatgyűjtésekhez, vagy a már meglévő adatok más szempontú kiértékelését célzó projektekhez is megfelelő adattároló hátteret nyújt.

Az Adattárház a különböző forrásrendszerekből manuális vagy automatizált úton rendszeres időközönként érkező adatokat rendezett struktúrában tárolja. Az Adattárházban összegyűjtött adatokat - adatbányász rendszeren keresztül - marketing, kommunikáció, vezetői támogatás és egyéb szakmai igényeknek megfelelő kimutatások, statisztikák előállítására lehet felhasználni. Az Adattárházra ennek megfelelően kialakításra került egy üzleti intelligencia (BI) elemző rendszer dashboardokkal.

A BI rendszer az Adattárházban lévő adatok feldolgozására szolgál, melynek célja az előre definiált szakmai igényeknek megfelelő tartalmú és formátumú statisztikai kimenetek előállítása. A kimenetek vezetői dashboard felületek, több TV képernyőből összeállított vizualizáció, PDF riportok, Excel táblázatok, meghatározott időnként automatikusan frissülő, úgynevezett tömeges kimutatások, vagy ad-hoc jelleggel, speciális egyedi igények alapján kézzel létrehozott kimenetek.

A vezetői dashboard felületek a jogosultsági szinteknek és területeknek megfelelő, személyre szabott adattartalommal működnek. Az Adattárház olyan adatbázis, amely kiszolgálja a lekérdezési és adatelemzési célokat Ajánlatkérő számára. Az Adattárház bizonyos időeltolódással tartalmazza a forrásrendszerek adatait. Az elemzési igényeknek megfelelően kerültek meghatározásra az áttöltések gyakorisága. Az Adattárház az üzleti információs igények mértékéig tartalmazza a forrásrendszerek adatait. Nem volt cél a forrásrendszerek teljes adattartalmának leképzése. Az üzleti igényfelmérés alapján került megtervezésre az Adattárház jelenlegi adatmodellje.

Az Adattárház töltése három fő logikai lépésben történik:

  1. adatkinyerés (Extract) az adatforrásokból,
  2. a kinyert adatok integrálása, átalakítása (Transform),
  3. majd betöltése (Load) egységes adattárház-struktúrákba.

A Dimenzió struktúrák karbantartása: az Adattárház dimenziótáblái alapvetően a forrásrendszerekben lévő törzsadatokból épülnek fel. Azonban a forrásrendszerek nem minden esetben képesek kezelni a riportkészítéshez szükséges csoportosító mezőket (pl.: ügyfélcsoportok, termékkategóriák), ezért ilyen esetekben az Adattárház biztosítja a hiányzó információk karbantartásának lehetőségét.

Az Adatpiac az Adattárház tematikus adatait tartalmazó olyan részadatbázis, mely általában denormalizált struktúrában, adott lekérdezés típusokra jól előkészítetten áll elő és meghatározott adatelemzői információs igényeket szolgál ki.

A rendszer áttekintő nézete

API - funkcionális ábra

A rendszer működése

A Statisztikai Adattárház projektben az elsődleges feladat az adatgyűjtés. Az adatgyűjtést ez előfeldolgozó rendszer segítségével végezzük. Az előfeldolgozó rendszer több komponensből áll. Az, hogy az adatok mely komponenseket érintenek, a munkafolyamat és inputvezérlő rendszerek határozzák meg.

A különböző komponensek, mint a Kafka, a StreamSets Data Collector (SDC), a PostgreSQL és AgensGraph eszközök mindegyike alkalmas előfeldolgozásra és aggregációkra. A rendszer központi átirányító feladatát az SDC komponens oldja meg. A nagy mennyiségű adatok tárolása a HDFS-ben, illetve célzottan és dekomponálva a PostgreSQL-ben található. Az AgensGraph gráf kezelő már feldolgozott adatokat illeszt a gráfba, esetleg módosít a gráfon, elsősorban az SDC segítségével, illetve belső transzformáció eljárásokkal.

Azokat az adatokat, amelyek nem perzisztens csomagként (például fájlban a HDFS-ben) jelennek meg, a Kafka segítségével kerülnek perzisztálásra.

A különböző komponensek az előfeldolgozásban különböző transzformációkat támogatnak:

  • SDC: Általános transzformációkat, séma és mezőszintű átalakítások
  • Kafka: Streamaggregációk, transzformációk és perzisztencia
  • PostgreSQL: relációs dekompozíció, idősorosítás és lokális aggregációk
  • AgensGraph: gráf alapú sematikus transzformációk

Feldolgozási módok

Kétféle feldolgozási módot támogat a rendszer: csomag (fájl) alapú, illetve stream jellegű.

A csomag alapú feldolgozásnál az input jellemző időszakonként egy tömbben, jellemzően fájlokban érkezik meg. A csomag rendszerbe kerülése után kezdődik a feldolgozása. A feldolgozás során egyrészről (jellemzően a HDFS-ben) mentésre kerül, illetve, amennyiben a konfiguráció úgy diktálja, különböző előfeldolgozási lépéseken esik át:

  • szükség esetén integrálódnak az adatai a gráf modellbe,
  • idősoros és összesített aggregációk képződnek belőle (PostgreSQL)
  • konfiguráció szerint bizonyos aggregációk visszakerülhetnek a HDFS rendszerbe.

A stream alapú feldolgozásnál az input folyamatosan érkezik valamiyen adatátviteli csatornán. Az adatokon folyamatos feldolgozás:

  • az adat bekerül az SDC-be, alapszintű transzformáción esik át,
  • az SDC-ből a Kafka veszi át, perzisztálja, illetve szükség esetén több stream-mé, illetve aggregációkká bontja,
  • a Kafka-ból visszakerülnek az adat-streamek az SDC-be,
  • az SDC megfelelő aggregáló helyekre betölti az adatokat.

Felhasználó nyilvántartás

A Statisztikai Adattárház felhasználói nyilvántartás célja a felhasználói bejelentkezés, a jogosultságok, a felhasználói adatok nyilvántartása, adminisztrációja. Háttérszolgáltatásként egy LDAP szerver szolgálja a nyilvántartást és belépés ellenőrzését.

Statisztikai Adattárház rendszer IBM termékek

IBM DataPower Gateway Virtual Edition

A Statisztikai Adattárház rendszer az IBM DataPower Gateway telepítésével, konfigurálásával integrálja WebSphere alkalmazás szerver környezetben az összes adatcsatornát. Az adatforrások és a szükséges kapcsolódási platformok teljesen különbözők. Biztosítja az egyes csatornák gyors, konfigurálható csatlakozását és a későbbiekben is számítani kell az adatforrások és kapcsolati protokollok bővülésére. Ezekben az esetekben a Gateway rugalmas konfigurálhatósága lehetővé teszi az új adatforrás bekapcsolásával kapcsolatos fejlesztési idő minimalizálását.

Az IBM DataPower Gateway lehetővé teszi a service menedzselést, transzformálást és az XML/JSON gyorsítást. A potenciális veszélyeket intelligensen szűri, service szintű kapcsolati biztonságot, adaptív terheléselosztást és gyorsítótárazást biztosítson a REST és SOAP API-k számára.

IBM WebSphere Application Server

Az IBM WebSphere Application Server optimalizálja az alkalmazás szerver réteget, az egyes Java containerek összehangolt működését, biztosítja a microservice architektúra alapjait. Az IBM DataPower Gateway és az IBM WebSphere Application Server szoros integrációban működik.

IBM Planning Analytics

A Statisztikai Adattárház rendszer az IBM Planning Analytics segítségével biztosítja a széleskörűen paraméterezhető üzleti intelligencia riportok előállítását. Egy olyan riportkészítő és elemző eszköz, mely biztosítja többek között a grafikus megjelenítések széles tárát, kalkulációk és függvények használatát, az adatokban történő lefúrást akár tétel szintig, dimenzióváltást, "fogd és vidd" funkciót, amellyel a felhasználók egyszerűen az objektumokat áthúzzák a jelentéskészítő ablakba. A jelentés elrendezése automatikusan alkalmazkodik, és a jelentés-objektumok hozzáadására, illetve eltávolítására átrendeződik.

Az IBM Planning Analytics nyújtja a vezetők és üzemeltetők részére a rendszerben keletkező adatokról a lekérdezéseket, elemzéseket.

Az üzemeltetők részére előre definiált riportok készültek, amelyekből információhoz jutnak a betöltésről és feldolgozásról, a keletkező hibákról, az aktuális státuszokról. A riportok aggregált adatokat tartalmaznak a könnyebb átláthatóság miatt, de a mögöttes technológia lehetőséget biztosít lefúrásokra és elemzésekre a részletek megismeréséhez, az esetleges problémák feltárásához vagy az ok-okozat megértéséhez.