Duomenų kokybė: kaip ją įvertinti ir palaikyti?

2021 12 01 · 3 minutės

Žmogaus sveikai gyvensenai užtikrinti nepakanka vien mitybos ir fizinio aktyvumo. Visą gyvenimą trunkanti sveika gyvensena reikalauja disciplinos ir veiksmingų priemonių tai palaikyti. Tie patys principai taip pat galioja kalbant apie duomenų sveikatą (angl. data health): organizacijose veikiančios programos, įvairios aplikacijos ir jų valdomi procesai tampa beverčiai, kuomet nėra užtikrinama tinkama duomenų sveikatos būklė. Norint įtvirtinti gerąsias duomenų valdymo praktikas, reikalinga tiksliai apibrėžti aiškius duomenų vaidmenis ir atsakomybes, taip pat užtikrinti reguliarius duomenų stebėjimo bei audito procesus. 

Tarptautinės duomenų analitikos bendrovės „Talend“ technologijų direktorius Krishna Tammana pabrėžia duomenų kokybės svarbą: „Talend“ dirbame įgyvendindami visapusišką duomenų kokybės ciklą: vertiname, tobuliname bei atliekame rodiklių prevencinį stebėjimą, vėliau vėl sugrįžtame prie vertinimo procesų, kadangi duomenų kokybės užtikrinimas – tai nesibaigiantis procesas.  Kaip ir bet kurioje sveikatos sistemoje pacientai atlieka esminį vaidmenį, taip ir duomenų kokybės užtikrinimo procese, duomenų specialistai bei vartotojai yra pagrindiniai dalyviai“. 

Kuo daugiau dėmesio skiriama kokybiškai duomenų būklei organizacijoje, tuo mažesnė rizika priimti nepagrįstus verslo ir IT saugumo sprendimus. Organizacijoms, siekiančioms sukurti ir puoselėti gerąsias duomenų sveikatos praktikas, svarbu suprasti esminius duomenų kokybės aspektus.  

Atsižvelgiant į tai, šiame blogo įraše pristatysime, kas yra kokybiški duomenys, kaip tikslingai nustatyti duomenų kokybės rodiklius ir tuo remiantis įvertinti duomenis.  

Kas yra kokybiški duomenys? 

Duomenų sveikatai labai svarbi duomenų kokybė. Tradiciškai duomenys gaunami dvejais būdais: 

  • Renkant ir įvedant duomenis į sistemas rankiniu būdu. 
  • Naudojantis trečiųjų šalių pagalba, t.y. gaunant duomenis iš trečioms šalims, kaip parteriams, tiekėjams, klientams, valstybės institucijoms, priklausančių duomenų šaltinių. 

Bet kuriuo atveju, tikslų duomenų įvedimą yra sudėtinga kontroliuoti, kadangi tiek pirmuoju, tiek antruoju variantu gali pasitaikyti klaidų. Be to, gali atsirasti objektyvių kokybės iššūkių, kuomet konkrečios paskirties duomenys yra išgaunami visai kitam tikslui – dažnu atveju analizei. Pavyzdžiui, verslo sistemose taikomi duomenys nėra tinkami naudoti analitikos procesuose ir atvirkščiai. 

Integracijai ir analizei reikia duomenų rinkinių iš įvairių taikomųjų sistemų, programinių įrangų ar duomenų bazių. Šiuo atveju, organizacijos neretai taiko nepagrįstus standartus duomenų aplikacijose ir bazėse. Taip pat organizacijos taiko skirtingus duomenų įvedimo ir optimizavimo metodus ar net istoriškai susiklosčiusius apėjimo būdus, kurie turi prasmę pirminio šaltinio viduje, tačiau išimti iš konteksto tampa netinkami naudojimui. Tuo atveju, jeigu duomenų formatas ar turinys nėra esminė kokybės problema pirminiame šaltinyje, vėliau tai gali tapti iššūkiu, kuomet duomenys bus išskirti ir sujungti su kitais integruojant ar vykdant analizės projektą. 

Duomenų kokybė apima discipliną, metodologiją, darbo metodus ir programinę įrangą, kuri padeda spręsti šias problemas. Duomenų kokybės užtikrinimas gali būti įgyvendinamas dvejais etapais: 

  • Pirmasis žingsnis – sukurti aiškiai apibrėžtą ir veiksmingą rodiklių rinkinį, kuris leistų darbuotojams objektyviai įvertinti duomenų kokybę.  
  • Antrasis žingsnis – atlikti prevencinius veiksmus ir taip užkirsti kelią galimoms duomenų kokybės problemoms.  

Šių žingsnių įgyvendinimas leidžia pagerinti duomenų kokybę ir dar veiksmingiau išnaudoti duomenis atsižvelgiant į jų paskirtį. Kuomet duomenų kokybė tampa visos įmonės prioritetu, analitikų komandos gali skirti didesnį dėmesį svarbių įmonės sprendimų priėmimui ir mažesnį specifiniams duomenų kokybės iššūkiams.

Duomenų kokybės įvertinimas 

Vertinant duomenų kokybę, svarbu atsižvelgti į kelis pagrindinius rodiklius, kurie atskleidžia atskirų duomenų ir jų saugyklų kokybės būklę. Moksliniuose tyrimuose neretai gali būti aprašomi daugiau nei 10 duomenų kokybės aspektų. Tačiau paprastai įmonėms svarbu atsižvelgti į penkis pagrindinius rodiklius: išsamumas, tikslumas, savalaikiškumas, nuoseklumas ir prieinamumas. 

  • Išsamumas. Šis rodiklis padeda atpažinti, ar duomenys yra pakankamai išsamūs, kad juos būtų galima naudoti pagal paskirtį. 
  • Tikslumas. Vertinant duomenų tikslumą įmonė gali nustatyti, ar duomenys yra teisingi, patikimi ar patvirtinti tam tikros priežiūros institucijos? Taip pat šis rodiklis atskleidžia pirminį duomenų šaltinį ir istoriją, t.y. iš kur duomenys buvo gauti ir kaip jie buvo naudojami. 
  • Savalaikiškumas. Šis rodiklis padeda įsitikinti, ar naudojami duomenys yra pakankamai nauji tam, kad būtų tinkami naudoti pagal numatytą paskirtį. 
  • Nuoseklumas. Vertinant nuoseklumo rodiklį, įmonė gali nustatyti, ar duomenys pasižymi nuoseklumu bendrame duomenų rinkinyje. Ar jie išlieka tokie patys atliekant duomenų rinkinių atnaujinimus. Taip pat ar duomenys yra pakankamai suderinti su kitais duomenų rinkiniais, kad būtų galima atlikti bendras duomenų valdymo funkcijas. 
  • Prieinamumas. Šis rodiklis padeda atpažinti, ar duomenys yra lengvai prieinami darbuotojams, kuriems duomenys yra reikalingi priimant konkrečius sprendimus įmonėje. 

Menkas ar visiškas duomenų kokybės rodiklių netaikymas kelia esminį iššūkį analitikų komandoms: duomenys, neatspindintys aiškios ir tikslios organizacijos procesų situacijos, lemia netinkamus verslo sprendimus, praleistas galimybes, padidėjusias išlaidas arba atitikties rizikas. Be viršuje išvardintų duomenų kokybės rodiklių, organizacijose paprastai naudojami ir su verslo procesais susiję matmenys, dažniausiai skirti užtikrinti duomenų atitiktį. 

Duomenų kokybės palaikymas 

Taigi duomenų kokybės vertinimas gali tapti daugialypiu ir sudėtingu procesu. Tuo pačiu šiandieninių duomenų šaltinių apimtys ir įvairovė jau seniai pranoko žmogiškosios priežiūros galimybes. Dėl šios priežasties kiekvienam iš duomenų kokybės rodiklių yra apibrėžiamos atitinkamos metrikos, kurios gali būti apskaičiuojamos automatiškai naudojantis technologiniais įrankiais. Į šį metrikų rinkinį papildomai galima įtraukti daugiau subjektyvių priemonių, paprastai prašant darbuotojų pateikti duomenų įvertinimo arba valdymo darbo eigą. Bet kuriuo atveju, organizacijos vis dažniau pasitelkia mašininio mokymosi ir kitus dirbtinio intelekto įrankius atliekant duomenų vertinimo ir analitikos procesus. 

Mes, „Baltic Amadeus“, galime padėti atskleisti jūsų verslo duomenų potencialą vystant naujus verslo modelius, tobulinant operacinius procesus, priimant duomenimis grįstus sprendimus, planuojant augimą ir plėtrą. Kuriame bei vystome didžiųjų duomenų, viešosios debesijos ir dirbtinio intelekto technologijomis paremtus duomenų valdymo bei analitikos sprendimus.

Pasitikėkite duomenimis, o ne intuicija – išbandykite efektyvius duomenų analitikos sprendimus jau dabar.