Datizrace

Vikipēdijas lapa
Pārlēkt uz: navigācija, meklēt

Datizrace (angļu: Data mining) - process, kurā no liela apjoma datiem tiek iegūtas jaunas, netriviālas, praktiski lietderīgas zināšanas, kas nepieciešamas lēmumu pieņemšanā dažādās sfērās.

Datizraces pamatā ir šablonu (patterns) koncepcija. Šabloni ir likumsakarības, kas raksturīgas datu izlasēm, un tās var attēlot formā, kas ir saprotama cilvēkam.

Termins Data mining radies 1978. gadā, bet mūsdienu traktējumā, tad guvis plašu ievērību, sākot ar 90. gadu pirmo pusi. Līdz tam datu analīzi veica ar statistikas palīdzību, un varēja apstrādāt nelielus datu apjomus. Datizrace ir plaša nozare, kas radusies un attīstījusies no tadām zinātņu jomām kā statistika, tēlu atpazīšana, mākslīgais intelekts, datu bāžu teorija, mašīnapmācība utt.

Salīdzinājums ar citām datu analīzes metodēm[labot šo sadaļu | labot pirmkodu]

Tradicionalās datu analīzes metodes (statistika) un OLAP galvenokārt orientētas uz iepriekš formulētu hipotēžu pārbaudi un uz "raupju" izmeklēšanas analīzi, bet datizraces pamatā ir "ne uzreiz pamanāmu" likumsakarību meklēšana. Datizraces instrumenti var atrast šādas likumsakarības patstavīgi, kā arī patstāvīgi izveidot hipotēzes par savstarpējām sakarībām.

Ja vairums statistisko metožu strādā ar neeksistējošiem lielumiem, izmantojot izlases vidējā koncepciju, tad datizrace darbojas ar reālām vērtībām

Ja salīdzina datizraci, statistiku un mašīnapmācību, tad statistika pamatā bāzējas uz teoriju, mašīnapmācība bāzējas uz apmācību, bet datizrace integrē teoriju un apmācību. Ja statistika koncentrējas uz hipotēžu pārbaudi, bet mašīnapamācība - uz apmācības aģentu darbības uzlabošanu, tad datizrace ir koncentrēta uz vienotu datu analīzes procesu, kas ietver datu attīrīšanu, apmācību, rezultātu integrāciju un vizualizāciju.

Datizraces process[labot šo sadaļu | labot pirmkodu]

Datizraces process parasti notiek divos vai trijos posmos:

  1. Likumsakarību atrašana (brīva meklēšana)
  2. Atrasto likumsakarību izmantošana, lai prognozētu nezināmās vērtības (prognozējošā modelēšana)
  3. Izņēmumsituāciju analīze (likumsakarībās atrasto anomāliju noteikšana un izskaidrošana)

Datizraces uzdevumi[labot šo sadaļu | labot pirmkodu]

Ar likumsakarību (šablonu) atrašanu tiek risināti datizraces uzdevumi. Pēc iegūtās informācijas tipiem, datizraces uzdevumus iedala šādās grupās:

  1. Klasifikācija (Classification)
  2. Klāsterizācija (Clustering)
  3. Asociācija (Associations)
  4. Secība (Sequence)
  5. Prognozēšana (Forecasting)
  6. Noviržu noteikšana (Deviation Detection)
  7. Novērtēšana (Estimation)
  8. Saišu analīze (Link Analysis)
  9. Vizualizācija (Visualization, Graph Mining)
  10. Kopsavilkums (Summarization)

Pēc izvēlētās statēģijas, uzdevumus iedala:

  1. apmācība ar skolotāju
  2. apmācība bez skolotāja
  3. citi

Datizraces metodes[labot šo sadaļu | labot pirmkodu]

Ir vairākas datizraces metožu klasifikācijas.

Pēc tā, vai dati pēc datizraces tiek saglabāti vai arī tiek distilēti turpmākajai izmantošanai:

  1. Tiešā datu izmantošana vai datu saglabāšana
    • klāsteranalīze
    • tuvākā kaimiņa metode
    • k-tuvākā kaimiņa metode
    • spriešana pēc analoģijas
  2. Formālo likumsakarību atrašana un izmantošana vai šablonu distilācija
    • loģiskās metodes
      • netiešie vaicājumi un analīzes
      • simboliskie likumi
      • lēmumu koki
      • ģenētiskie algoritmi
    • vizualizācijas metodes
    • šķērstabulācijas metodes
      • aģenti
      • Baijesa tīkli
      • šķērstabulu vizualizācija
    • metodes, kas balstītas uz vienādojumiem

Pēc matemātisko modeļu apmācības pieejas, datizraces metodes var arī iedalīt:

  1. statistiskās metodes
  2. kibernētiskās metodes

Praktiskais pielietojums[labot šo sadaļu | labot pirmkodu]

  • Biznesa uzdevumi (bankas, finanses, apdrošināšana, CRM, ražošana, sakari, elektroniskā komercija, mārketings u.c.)
  • Valsts līmeņa uzdevumi (personu meklēšana, kas izvairās no nodokļiem, līdzekļi cīņā pret terorismu)
  • Zinātniskie pētījumi (medicīna, bioloģija, ģenētika, bioinformātika, astronomija, ķīmija u.c.)
  • Web Mining, globalā tīmekļa uzdevumi (meklēšanas programmas, skaitītāji u.c.)
  • Text Mining - tekstu apstrāde
  • Call Mining - telefona zvanu apstrāde