Blogi avalehele

Kuidas orienteeruda andmeanalüütika maailmas: mõisted, andmete migratsioon ja ristkasutus

Sigrid Viikmaa & Ivika Kelder

Tänapäeva tehnoloogiarikkas ärimaailmas on andmeanalüütika kriitilise tähtsusega, sest võimaldab organisatsioonil teha informeeritud otsuseid ning parandada seeläbi ettevõtte efektiivsust ja konkurentsivõimet.

Käesolevas artiklis teeme tutvust andmete migreerimisega seotud oluliste mõistete ja protsessidega, et aidata sul paremini orienteeruda andmeanalüütika põnevas maailmas.

Põhimõisted selgeks

  • Andmeait, andmeladu (data warehouse, DWH) – struktureeritud ja mingil kindlal eesmärgil kogutud andmete kogum ehk andmebaas(id). Seda peetakse organisatsiooni andmete keskseks repositooriumiks ehk andmehoidlaks.
  • Andmejärv (data lake) – töötlemata andmete (raw data) kogum, mida kasutatakse sageli masinõppes algallikana. See võib samuti sisaldada kogu organisatsiooni andmestikku, kuid erinevalt andmeaidast ei tarvitse see olla veel kindla eesmärgi täitmiseks kasutusele võetud.
  • Suurandmed (big data) – hõlmab väga erinevas formaadis ja mittestruktureeritud andmeid, nagu veebistatistika, sotsiaalmeedia, sensorid, tekstidokumendid, audio, video jt. Kui andmeaidast räägitakse pigem kui arhitektuurist, siis suurandmete puhul rohkem kui tehnoloogiast.
  • Andmevakk, andmemart (data mart) – andmeaida väike versioon, mida saab luua konkreetse ärivaldkonna jaoks, võimaldades spetsiifilisemat analüüsi.
  • Andmemudel, semantiline mudel (dataset) – äriliste mõistetega andmete kiht, mis asub andmeaida ja aruannete vahel ning on loodud spetsiifiliste aruandlusvajaduste (nt kasumiaruande) jaoks.
  • Data flow – andmete laadimise protsess, kus andmed transporditakse ühest asukohast teise. See protsess on hädavajalik andmete integreerimiseks ja säilitamiseks.
  • Masterdata – keskne andmekogu, mida kasutatakse siis, kui esmane info ei ole infosüsteemist kättesaadav. Näiteks, kui toote omahinna teavet ei ole mingis rakenduses, võib vastutav spetsialist selle info käsitsi ettevalmistatud vormil sisestada (Excelis, äpis vm)  ja see integreeritakse andmeaita.
    Lisaks individuaalsete andmete haldamisele kasutatakse masterdata mõistet ka laiemalt, kui on vaja siduda sama andmekogumit mitmest algallikast, näiteks ühe ettevõtte erinevate riikide filiaalide kliendiregistrit.
  • ELT (extract, load, transform) metoodika – protsess algab andmete kogumisega algallikast, kust vajaminev tõstetakse töötlemata kujul andmeaita. Seejärel andmete transformeerimise faasis täiendatakse andmeid või parandatakse vigu, et kindlustada andmete täpsus ja usaldusväärsus.
    ELT järel seotakse andmed optimeeritud andmemudeliks ning esitatakse kasutajatele sobival ja arusaadaval kujul. Vanasti kasutatud ETL terminist erineb uuem metoodika selle poolest, et transformatsioone tehakse peale laadimist. 

Andmeanalüütika teekond ehk kuidas suurest hulgast andmetest sünnib raport

Kimballi metoodika mudel illustreerib nn front-end ja back-end vahelisi seoseid, pakkudes visuaalset ülevaadet protsessist, kus algandmetest saavad aruanded ja otsustustugi ettevõttele äriotsuste tegemiseks. Protsess jaguneb kolmeks etapiks:

  1. andmete ettevalmistus (ELT), 
  2. ärimudeli(te) kiht,
  3. tulemuste esitlemine koos analüüsivõimalustega.

Selleks, et pakkuda efektiivseid BI (ärianalüütika) lahendusi, on meie sidusettevõte Intelex Insight välja töötanud andmearhitektuuri kujundamise standardid.

Need hõlmavad põhimõtteid, reegleid ja mudeleid, kuidas andmeid koguda, kirjeldavad kogutud andmete haldamist ja säilitamist, tagavad andmete konfidentsiaalsuse ja turvalisuse, annavad ülevaate aruandlusest ning loovad valmiduse andmete kasutajapoolseks analüüsiks.

Järgnevalt uurime lähemalt, kuidas sünnivad suurest hulgast algandmetest raportid ja BI lahendused sinu töölauale ehk mis toimub andmete ettevalmistuse tagaruumis.