Datu noliktava

Vikipēdijas lapa

Datu noliktava (angļu: Data Warehouse) ir strukturēta saistītu organizācijas vēsturisko datu glabātuve (datubāze). Datu noliktava ir informācijas tehnoloģiju pasākumu komplekss, kurā ietilpst risinājuma ideoloģiskie, tehnoloģiskie un organizatoriskie aspekti.

Tās pamatā ir datubāzu pārvaldības sistēma un lēmumu pieņemšanas atbalsta sistēma. Dati kuri atrodas datu noliktavā parasti ir tikai lasāmi. Dati no OLTP sistēmas tiek iekopēti datu noliktavā tādā veidā, lai ziņojumu izveide un OLAP analīze neizmantotu transakcijas sistēmas resursus un neietekmētu tās stabilitāti. Raksturīgi ir tas, ka dati tiek ielādēti noliktavā ar regulāriem intervāliem, tāpēc datu aktualitāte var nedaudz atpalikt no OLTP sistēmas.

Noliktavas organizēšanas principi[labot šo sadaļu | labot pirmkodu]

  • Orientācija uz subjektu — dati ir tā organizēti, ka visi tie datu elementi, kas attiecas uz reālās pasaules vienu notikumu vai objektu, ir saistīti;
  • Laikā mainīga — dati tiek papildināti tādā veidā, ka ir iespējams atspoguļogot datu izmaiņas laikā;
  • Pastāvīgums — dati nekad no datu nolktavas netiek dzēsti vai pārrakstīti — vienreiz ievadīti, tie ir statiski;
  • Integritāte — datu noliktavas datu bāze satur datus no vairuma vai visām organizācijas biznesa atbalsta (operacionālajām) sistēmām, pie kam šie dati ir padarīti savstarpēji saskanīgi.

Nozīmīgāko ieguldījumu datu noliktavu kā patstāvīgas IT nozares attīstībā ir devuši Ralph Kimball un Bill Inmon. Nereti viņu viedokļi atšķiras pat diametrāli pretēji, kas apliecina, ka datu noliktava lielā mērā ir uzskatāma par ideoloģiju vai paradigmu atšķirībā no tīri tehnoloģiskiem risinājumiem.

Datu noliktavas var tikt izstrādātas, pamatojoties uz vienu no šādām pretējām pieejām:

  • Dimensionālā modelēšana — no apakšas un augšu (bottom-up), datu noliktava ir uzskatāma par organizācijas atsevišķo datu analīzes vienību summu. (Šīs pieejas proponents ir Ralph Kimball.).
  • No vispārējā uz detalizēto (top-down) — lai nodrošinātu visu uzņēmuma datu iekļaušanu kopējā risinājuma shēmā. (Šīs pieejas aizstāvis ir Bill Inmon).

Datu noliktavas priekšrocības:

  • Centralizēta piekļuve organizācijas datiem, kas sākotnēji ir izkaisīti dažādas sistēmās vai pat vispār nav pieejami;
  • Iespēja veikt vienotu informācijas analīzi par visu organizāciju;
  • Dod iespēju uzņēmumā efektīvi ieviest jaunas biznesa atbalsta sistēmas, kurās būtiska ir organizācijas kopinformācija un/vai uz tās bāzes veikti aprēķini vai secinājumi (piem., klientu pārvaldības risinājumi (CRM));
  • Sniedz ieejas informāciju lēmumu pieņemšanas sistēmām, piem., tendenču analīzei;
  • Atvieglo datu analīzes sistēmu pielietošanu, it īpaši "karstajiem" (ad-hoc) pieprasījumu atbalstam.

Noliktavas dizains[labot šo sadaļu | labot pirmkodu]

Eksistē divu veidu arhitektūras — normalizētā datu noliktava un noliktava ar dimensijām.

Normalizētajā noliktavā dati atrodas priekšmetorientētās tabulās trešajā normālformā. Normalizētā noliktava tiek raksturota kā vienkārša izveidošanā un pārvaldīšanā, trūkumi normalizētai noliktavai ir lielais tabulu skaits, kā rezultāts normalizēšanai, un tādēļ, lai iegūtu visu nepieciešamo informāciju jāveic tās iegūšana no daudzām tabulām vienlaikus, kas noved pie sistēmas veiktspējas samazināšanās.

Noliktava ar dimensijām, izmanto shēmu "zvaigzne" vai "sniegpārsliņa". "Zvaigznes" centrā atrodas tabulu dati, un dimensijas veido zvaigznes stari. Dažādu faktu tabulas kopīgi izmanto dimensiju tabulas, kas ievērojami atvieglo datu apvienošanu no vairākām faktu tabulām (piemēram — fakti par pārdošanu un piegādi). Dimensijas bieži vien tiek radītas trešajā normālformā, tostarp, lai protokolētu izmaiņas dimensijās. Galvenā priekšrocība noliktavai ar dimensijām ir vienkāršība un skaidrība izstrādātājiem un lietotājiem, kā arī pateicoties efektīvākai datu glabāšanai un datu dimensijām iespējams vieglāk un ātrāk piekļūt datiem, jo īpaši veicot sarežģītas analīzes. Galvenais trūkums ir daudz sarežģītāka datu sagatavošanas un ielādēšanas procedūra, kā arī dimensiju vadība un maiņa.

Datu manipulāciju procesi[labot šo sadaļu | labot pirmkodu]

Datu avoti var būt:

  1. Tradicionālās operāciju reģistrēšanas sistēmas;
  2. Atsevišķi dokumenti;
  3. Datu kopas.

Operācijas ar datiem:

  1. Atgūšana — Datu pārvietošana no datu avotiem vienā datu bāzē uz atsevišķu datubāzi, pārveidojot tos vienotā formātā;
  2. Pārveidošana — Datu sagatavošana glabāšanai optimālā formātā, lai pēc iespējas vieglāk varētu īstenotu vaicājumus;
  3. Ielādēšana — datu ielāde noliktavā, notiek automātiski, pievienojot jaunus faktus vai labojot esošos;
  4. Analīze — OLAP, datizrace, brīvie ziņojumi;
  5. analīzes rezultātu atspoguļošana.

Visa šī informācija tiek izmantota metadatu vārdnīcā. Metadatu vārdnīcā automātiski tiek iekļautas datu avotu vārdnīcas.

Metadatu vārdnīcas uzdevums ir atbrīvot izstrādātāju no nepieciešamības standartizēt datu avotus.

Datu noliktavu izveide nedrīkst būt konfliktā ar esošajām informācijas vākšanas un apstrādes sistēmām.

Loģiskā datu struktūra noliktavās atšķiras no struktūras datu avotos.

Datus lietotājam ir ērtāk pārstāvēt vairākdimensiju datu bāzēs, kur par dimensijām var kalpot laiks, cena vai ģeogrāfiskā atrašanās vieta.

Atsauces[labot šo sadaļu | labot pirmkodu]