Datu mācība

Vikipēdijas lapa
Pārlēkt uz: navigācija, meklēt
Datu mācība

Datu mācība izmanto un kombinē daudzveidīgas metodes no dažādām zinību nozarēm - matemātikas, statistikas, datu apstrādes, tēlu atpazīšanas un mašīnmācīšanās, programmēšanas, datu vizualizācijas, nenoteiktības modelēšanas, datu noliktavām, un mākoņdatošanas - izvirzot par mērķi datu nozīmes noskaidrošanu un datu produktu veidošanu. Datu mācība ir jauns termins, ko izmanto līdz ar radniecīgiem apzīmējumiem (komercdatu analīze, business analytics), tomēr termins datu mācība kļūst izplatītāks. Datu mācība tiecas apzināt visus nepieciešamos datus, veikt to apstrādi tā, lai efektīvi veidotu stāstu, ko viegli var saprast citu nozaru speciālisti.

Datu mācības praktiķus sauc par datu zinātniekiem (data scientists). Šo terminu lietoja D.Dž.Patils un Džefs Hamerbahers [1], bet termins bija pazīstams jau dažus gadus agrāk. [2] Patiesībā Džefs Vu pirmoreiz lietoja vārdu datu zinātnieki 1998.g. 10.novembrī savā ievadlekcijā par godu H.C.Karvera norīkošanai par Mičiganas Universitātes Statistikas koledžas profesoru. [3] Datu zinātnieki risina sarežģītas datu problēmas, balstoties uz kādas zinātniskas jomas dziļu pārzināšanu. Parasti sagaida, ka datu zinātnieki spēj strādāt ar dažādiem matemātikas, statistikas un datorzinātnes elementiem, bet tas nenozīmē vienlaicīgu specializēšanos šajās nozarēs. [4] Parasti datu zinātnieks ir eksperts tikai vienā vai divās disciplīnās, un orientējās vēl divās vai trīs. Nebūtu pamata sagaidīt, ka dzīvs cilvēks varētu viens pats būt eksperts visās nozarēs, kas saistītas ar datu mācību. Tas nozīmē, ka ar datu mācības uzdevumiem parasti nodarbojas komandas, kur komandas ietvaros ir pietiekamas prasmes visās nepieciešamajās disciplīnās.

Labi datu zinātnieki spēj veikt visdažādākos datu apstrādes uzdevumus, t.sk. atrast un interpretēt datu avotus, apstrādāt lielus datu apjomus, neraugoties uz aparatūras, programmnodrošinājuma un tīkla ierobežojumiem, sapludināt datu avotus, nodrošināt datu kopu nepretrunīgumu, radīt vizualizācijas, kas palīdz radīt izpratni par datiem, un būvēt daudzveidīgus rīkus, kas ļautu citiem efektīvi strādāt. Prasmes un kompetences, ko datu zinātnieki pielieto, var stipri atšķirties. Datu zinātnieki darbojas arī "biznesa inteliģences" (competitive intelligence) jomā, kas pielieto datizraci (data mining) un analīzes rīkus un ļauj uzņēmumiem iegūt konkurences priekšrocības.[5]. Būtisks datu mācības mērķis ir atvieglot citiem datu meklēšanu un savietošanu. Datu mācības tehnoloģijas ietekmē, kā mēs piekļūstam datiem, nodarbojamies ar pētījumiem dažādās specializētās jomās, ieskaitot bioloģijas zinātnes, medicīnisko informātiku, sociālās un humanitārās zinības.

Pirmsākumi[labot šo sadaļu | labot pirmkodu]

Datu mācība pastāv apmēram kopš gadu tūkstošu mijas. Viens no agrīniem šīs nozares raksturotājiem ir Viljams Klīvlends [6], kurš uzrakstīja darbu "Datu mācība: Rīcības plāns Statistikas tehnisko novirzienu paplašināšanai", ko publicēja 2001 aprīļa izdevumā (Vol.69, No. 1) izdevumā International Statistical Review.[7] Apmēram pēc gada, 2002.g. aprīlī [8] sāka izdot CODATA Data Science Journal.[9][10]. Drīz pēc tam, 2003.g. janvārī Kolumbijas universitāte sāka izdot The Journal of Data Science.[11]

Vēsture[labot šo sadaļu | labot pirmkodu]

Termins "datu zinātne" (ko sākotnēji izmantoja pamīšus ar "datoloģiju", datalogy) savās agrīnajās izpausmēs pastāv jau vairāk kā 30 gadus; to Pīters Naurs izmantoja kā aizvietotāju terminam datorzinātne jau 1960.gadā. 1974.gadā, P.Naurs publicēja Īsu datoru metožu pārskatu, kas izmantoja to pašu terminu "data science" pārskatā par datu apstrādes metodēm ar visdažādākajiem lietojumiem. 1996.gadā Starptautiskā klasifikācijas biedrību federācija (International Federation of Classification Societies (IFCS)) rīkoja tikšanos Tokijā, kas bija viņu konferences biennāle. Šeit pirmo reizi terminu datu mācība izmantoja konferences nosaukumā ("Data Science, classification, and related methods").

2001.gadā Viljams Klīvlends ieviesa datu mācību kā neatkarīgu disciplīnu, paplašinot statistikas jēdzienu, lai ietvertu "sasniegumus skaitļošanā ar datiem" savā rakstā [7]. Šajā rakstā Klīvlends nosauc sešas tehniskas apakšnozares, kuras pēc viņa uzskata aptver datu mācību: daudznozaru pētījumi, datu modeļi un metodes, skaitļošana ar datiem, pedagoģija, rīku izvērtēšana kā arī teorija.

2002.g. aprīlī CODATA sāka izdot Data Science Journal,[9] - šis izdevums nodarbojās ar datu sistēmu aprakstīšanu, to publiskošanu Internetā, praktiskos pielietojumus un juridiskos aspektus.[10] Savukārt Kolumbijas universitātes The Journal of Data Science,[11] piedāvāja diskusiju platformu visiem datu apstrādē nodarbinātajiem, kur izklāstīt savus uzskatus un apmainīties ar idejām. Žurnāls lielā mērā bija veltīts statistikas metožu lietojumiem un kvantitatīviem pētījumiem. 2005.gadā Nacionālā Zinātnes Padome (National Science Board) publicēja "Ilglaicīgas digitālas datu kolekcijas: Kā iespējot pētniecību un izglītību 21.gadsimtā", kur definēja datu zinātniekus kā "informātiķus un datorzinātniekus, datubāžu un programmatūras izstrādātājus, nozaru ekspertus, datu pārraugus un anotētājus, bibliotekārus, arhivārus un citus, kuru darbs ir izšķirošs, lai sekmīgi pārvaldītu digitālas datu krātuves."

Nozarei specifiskās intereses[labot šo sadaļu | labot pirmkodu]

Datu mācība līdzās citu nozaru vajadzību apkalpošanai, iegūstot vērtīgus secinājumus no datiem, izvirza arī pati savus pētniecības mērķus. Datu mācība arvien biežāk saskaras ar vajadzību apstrādāt ļoti lielas datu kopas, t.s. "lielos datus" (Big data), kas sastāv no strukturētiem, daļēji strukturētiem un nestrukturētiem datiem, kas rodas lielu korporāciju un iestāžu ikdienas darbā. Datu mācības uzmanības degpunktā arvien vairāk nonāk sprādzienveidīgi pieaugošās datu plūsmas, kas rodas no viedtālruņiem un līdzīgām ierīcēm, pircēju lojalitātes programmām, no tīmekļa pakalpojumiem un sociālajiem tīkliem, novērošanas kamerām, u.c. Datu mācībai ir nepieciešamas daudzpusīgas prasmes. Daudzi datu zinātnieki papildus specializējas tādās nozarēs kā marketings, medicīna vai bioinformātika, drošība, krāpniecība vai finanses. Tomēr jebkuras nozares datu analīzei un rezultātu interpretācijai parasti ir noderīgi vieni un tie paši elementi - statistika, mašīnmācīšanās, teksta analīze, dabiskās valodas apstrāde.

Pētniecības jomas[labot šo sadaļu | labot pirmkodu]

Kā starpdisciplīnu priekšmets, datu mācība iesaista pētniecības rezultātus no visdažādākajām akadēmiskās pētniecības jomām. Var tomēr izdalīt dažas īpaši svarīgas apakšnozares:

  • Mākoņdatošana
  • Datubāzes un informācijas integrācija
  • Mācīšanās, dabiskās valodas apstrāde un informācijas izguve
  • Datorredze
  • Informācijas izguve no tīmekļa
  • Zināšanu inženierija, sociālo un informācijas tīklu analīze

Datu mācība un drošība[labot šo sadaļu | labot pirmkodu]

Datu mācībai ir bagāta vēsture saistībā ar drošību un krāpšanās uzraudzību. Pols Brakstons, securitydatascience.org dibinātājs, izveidoja jaunu terminu "drošības datu mācība" un definēja to kā modernas datu analīzes metožu lietošanu, lai atklātu riskus. Šī nozare koncentrējas uz informācijas drošības un arī fiziskās drošības veicināšanu, lietojot datu analīzi, statistiku, mašīnmācīšanos un datu vizualizāciju. Lai gan rīki un metodes daudz neatšķiras no tām, ko datu zinātnieki lieto jebkurā citā priekšmetapgabalā, šajā gadījumā uzmanības degpunktā ir riska samazināšana, krāpnieku vai ļaunprātīgu darbinieku atrašana. Informācijas drošības un krāpšanās novēršanas industrija attīsta šo "drošības datu zinātni", lai pārvaldītu un gūtu atziņas no milzīgām žurnāldatu plūsmām, lai atklātu iekšējos draudus un novērstu krāpšanu. Šī zinātne ir "datu virzīta" (data driven), kas nozīmē, ka jaunās atziņas un pievienotā vērtība rodas tieši no datiem.[12]

Datu mācība izglītībā[labot šo sadaļu | labot pirmkodu]

Datu mācības kursi kļuvuši populāri dažādās rietumvalstu augstskolās.[13] Līdzās tradicionālākiem specializētiem priekšmetiem (statistika, mākslīgais intelekts un mašīnmācīšanās, datu noliktavas un datizrace) lielā skaitā ir pieejami kursi, kuros atspoguļota datu mācības metožu sintēze - "Masīvu datu kopu analīze un algoritmi", "'Lielie dati' Tviterī un to analīze", kā arī populārāki kursi, ko var apgūt arī ar datorzinātnēm nesaistīti studenti "Izglītotība par datiem" (Data Literacy), "Datu vizualizācija", u.c. Tiem, kuri vēlas kļūt par datu zinātniekiem, ir izveidots saraksts ar ieteicamajām zinātnēm [14], kuras labi raksturo metožu loku, kas šobrīd ir populārs datu mācības praktiķu vidū:

  • Matricu algebra (t.sk. retinātu un ļoti lielu matricu faktorizācijas, īpašvērtības)
  • Sadalītā skaitļošana (kā veidot klasterus jeb "mākoņus" no salīdzinoši lētiem serveriem)
  • Paralēlie algoritmi (kurus uzdevumus var risināt ātrāk, izmantojot paralēlu apstrādi uz vairākiem datoriem vai CPU)
  • Statistiskā analīze un valoda R
  • Optimizācija un signālu apstrāde
  • Mašīnmācīšanās, neironu tīkli, lineāri modeļi un Interneta meklētāju arhitektūra
  • Informācijas izguve (t.sk. tīmekļa lapu ekrānskrāpēšana)
  • Tradicionālā programmēšana (datu struktūras un algoritmi)

Atsauces[labot šo sadaļu | labot pirmkodu]

  1. "Tim O’Reilly: The World’s 7 Most Powerful Data Scientists". Forbes. Atjaunināts: 11 March 2013.
  2. National Science Board. Long-Lived Digital Data Collections Enabling Research and Education in the 21st Century. National Science Foundation. Atjaunināts: 30 June 2013.
  3. Identity of statistics in science examined. The University Records, November 9, 1998, The University of Michigan. Atjaunināts: 12 August 2013.
  4. Big Careers in Big Data. Villanova University.
  5. LaPonsie, Maryalene. Data scientists: The Hottest Job You Haven't Heard Of. Atjaunināts: 7 October 2012.
  6. See William S. Cleveland. Shanti S. Gupta Professor of Statistics. Courtesy Professor of Computer Science. Department of Statistics. Purdue University
  7. 7,0 7,1 Cleveland, W. S. (2001). Data science: an action plan for expanding the technical areas of the field of statistics. International Statistical Review / Revue Internationale de Statistique, 21-26
  8. International Council for Science : Committee on Data for Science and Technology. (2012, April). CODATA, The Committee on Data for Science and Technology. Retrieved from International Council for Science : Committee on Data for Science and Technology: http://www.codata.org/
  9. 9,0 9,1 Data Science Journal. (2012, April). Available Volumes. Retrieved from Japan Science and Technology Information Aggregator, Electronic: http://www.jstage.jst.go.jp/browse/dsj/_vols
  10. 10,0 10,1 Data Science Journal. (2002, April). Contents of Volume 1, Issue 1, April 2002. Retrieved from Japan Science and Technology Information Aggregator, Electronic: http://www.jstage.jst.go.jp/browse/dsj/1/0/_contents
  11. 11,0 11,1 The Journal of Data Science. (2003, January). Contents of Volume 1, Issue 1, January 2003. Retrieved from http://www.jds-online.com/v1-1
  12. http://www.securitydatascience.org
  13. http://datascienc.es/resources/
  14. http://www.quora.com/Career-Advice/How-do-I-become-a-data-scientist