Dispersiju analīze

Vikipēdijas lapa

Dispersijas analīze jeb ANOVA (Analysis of Variance) ir statistikas metode, kas tiek izmantota, lai noteiktu, vai divu vai vairāku izlašu dispersijas (t.i. vērtību sadalījumi) ir statistiski nozīmīgi atšķirīgas. Ja tiek vienkārši salīdzināti divi vidējie, tad rezultāti būs tie paši, kas t testā. Tomēr dispersiju analīze ir metode ar plašākām pielietošanas iespējām. Veicot līdzīgus aprēķinus kā t testa gadījumā, datus apstrādājot var sadalīt apakšgrupās un pētīt attiecības visu šo grupu starpā, neizdarot kompleksus aprēķinus. Ir vienfaktora dispersiju analīze, kurā apakšgrupas tiek dalītas pēc viena faktora, un daudzfaktoru dipersiju analīze (MANOVA), kurā apakšgrupas tiek dalītas pēc vairākiem faktoriem.

Dispersijas analīzes būtība[labot šo sadaļu | labot pirmkodu]

Dispersijas analīze ir viena no statistikas zinātnē izmantojamām metodēm, ar kuras palīdzību iespējams pētīt kādas noteiktas pazīmes datu vērtību sadalījumu. Tādējādi iespējams pārbaudīt statistiskās hipotēzes, lai noteiktu vairāku izlašu (grupu) līdzību vai atšķirību, kā arī iespējams noskaidrot, vai izvēlētā pazīme ir statistiski būtiska [1]. Var tikt izšķirtas vienfaktora un daudzfaktoru dispersijas analīzes, ko nosaka vienlaicīgi pētāmo faktoru skaits.[1] Dispersijas analīzi visbiežāk lieto, lai pārbaudītu statistiskās hipotēzes un ar matemātiskiem aprēķiniem argumentētu secinājumus. Tā ļauj pārbaudīt hipotēzes par vairāku izlašu (grupu) līdzību vai atšķirību. Izdarīt dispersijas analīzi nozīmē sadalīt dispersiju sastāvdaļās jeb komponentēs un tās salīdzināt. Dispersiju analīze nosaka pētāmā faktora vai vairāku faktoru summārās iedarbības īpatsvaru. Dispersiju analīzē pētāmā faktora ietekmes būtiskumu noskaidro, pārbaudot nulles hipotēzi.[2] Vienfaktora dispersijas analīze izvērtē vienkāršu analītisku grupējumu, bet daudzfaktoru dispersijas analīze izvērtē kombinētu analītisku grupējumu. Parasti dispersijas analīze tiek pielietota šādos gadījumos [3]:

  • sakarību pētīšanai starp neatkarīgo un atkarīgo mainīgo (jeb starp faktorālo un rezultatīvo pazīmi);
  • vairāk nekā trīs grupu aritmētisko vidējo salīdzināšanai, lai noteiktu, vai tie atšķiras statistiski nozīmīgi.

Dispersijas analīzes veikšanas process[labot šo sadaļu | labot pirmkodu]

Lai veiktu dispersijas analīzi, ir nepieciešams ievērot, ka novērojumu rezultāti ir neatkarīgi gadījuma lielumi, kas pakļaujas normālam sadalījumam un tiem ir vienādas dispersijas. Dispersijas analīzes aprēķinu darbības ir šādas [4] [5]:

  1. noviržu kvadrātu summas sadalīšana sastāvdaļās;
  2. brīvības pakāpju skaita sadalīšana sastāvdaļās;
  3. dispersiju aprēķināšana — noviržu kvadrātu summas tiek dalītas ar attiecīgo brīvības pakāpju skaitu;
  4. dispersiju attiecības F aprēķināšana;
  5. F kritiskās vērtības atrašana matemātiskajās Fišera tabulās;
  6. empīriskās F attiecības salīdzināšana ar kritisko robežu un lēmuma pieņemšana.

Noviržu kvadrātu summas sadalīšana sastāvdaļās[labot šo sadaļu | labot pirmkodu]

Noviržu kvadrātu summas parasti tiek rēķinātas ar noviržu metodi (definīcijas metode) vai momentu metodi. Noviržu kvadrātu summa ir jāsadala šādās sastāvdaļās jeb komponentēs [6] [5]:

  • Q=QA+QB+QAB+QZ, kur
  • Q - kopējā noviržu kvadrātu summa (datu noviržu no kopējā vidējā kvadrātu summa);
  • Qa -noviržu kvadrātu summa, ko izskaidro faktors A (grupu aritmētisko vidējo, grupējot pēc A, noviržu no kopējā vidējā kvadrātu summa);
  • Qb-noviržu kvadrātu summa, ko izskaidro faktors B (grupu aritmētisko vidējo, grupējot pēc B, noviržu no kopējā vidējā kvadrātu summa);
  • Qab -noviržu kvadrātu summa, kas saistīta ar AB mijiedarbību;
  • Qz - neizskaidrotā noviržu kvadrātu summa (sākotnējo datu noviržu no elementārgrupu vidējiem kvadrātu summa);
  • Qf=Qa+b+ab- noviržu kvadrātu summa, ko izskaidro abu faktoru patstāvīgā un kopiedarbība.

Konkrētie novērojumi (dati) tiek apzīmēti ar simboliem y ij l, kur i - grupas numurs, grupējot pēc faktora A; j - grupas numurs, grupējot pēc faktora B; l - atkārtojuma numurs.

Brīvības pakāpju skaita sadalīšana sastāvdaļās[labot šo sadaļu | labot pirmkodu]

Brīvības pakāpju skaitu aprēķina pēc šādam formulām [7]:

  • V=n-1 (V — kopējais brīvības pakāpju skaits; n — kopējais novērojumu skaits)
  • Va=na-1 (V — kopējais brīvības A faktoram; na — izdalītās A grupas skaits)
  • Vb=nb-1 (V — kopējais brīvības B faktoram; nb - izdalītās B grupas skaits)
  • Vab=Va * Vb (Vab — brīvības pakāpju skaits faktoru mijiedarbībai AB)
  • Vf=Va + Vb+Vab (Vf — brīvības pakāpju skaits visiem faktoriem)
  • Vz=V-Vf (Vz — brīvības pakāpju skaits neizskaidrotai variācijai Z)

Dispersiju aprēķināšana[labot šo sadaļu | labot pirmkodu]

Pēc tam, kad noviržu kvadrātu summa un brīvības pakāpes ir sadalītas, aprēķina dispersijas uz vienu brīvības pakāpi - noviržu kvadrātu summas tiek dalītas ar attiecīgo brīvības pakāpju skaitu [8]:

  • dispersija visiem faktoriem = Qf/Vf
  • dispersija faktoram A= Qa/Va
  • dispersija faktoram B = Qb/Vb
  • dispersija faktoru mijiedarbībai AB= Qb/Vb
  • neizskaidrotās variācijas Z dispersija= Qb/Vb

Salīdzinot aprēķinātās dispersijas, var spriest, vai noteiktā grupējuma pazīme ir saistīta ar citu statistisko pazīmi, vai nav saistīta ar to, kā arī to, vai tā rezultatīvo pazīmi būtiski ietekmē vai neietekmē.

Dispersiju attiecības F aprēķināšana[labot šo sadaļu | labot pirmkodu]

Dispersijas analīzē pati svarīgākā nozīme ir izskaidrotās un neizskaidrotās dispersijas attiecībai, ko apzīmē ar burtu F.[9] F attiecības aprēķina, dalot visas atrastās dispersijas ar atlikušo neizskaidrotās variācijas Z dispersiju [8]:

  • Ff= dispersija visiem faktoriem/neizskaidrotās variācijas Z dispersija
  • Fa = dispersija faktoram A/ neizskaidrotās variācijas Z dispersija
  • Fb= dispersija faktoram B/ neizskaidrotās variācijas Z dispersija
  • Fab= dispersija faktoru mijiedarbībai AB/ neizskaidrotās variācijas Z dispersija

F kritiskās vērtības atrašana matemātiskajās Fišera tabulās[labot šo sadaļu | labot pirmkodu]

Tabulu robežvērtības jeb F attiecību kritiskās robežas atrod matemātiskajās tabulās atbilstoši izvēlētajai varbūtībai un iepriekš noteiktajam brīvības pakāpju skaitam.

Empīriskās F attiecības salīdzināšana ar kritisko robežu un lēmuma pieņemšana[labot šo sadaļu | labot pirmkodu]

Pie noteikta nozīmības līmeņa (α) F tabulās atrasto kritisko vērtību salīdzina ar F aprēķināto vērtību. Tādējādi var spriest, vai nulles hipotēzi ir iespējams noraidīt un kāda ir meklēto faktoru mijiedarbības statistiskais nozīmīgums. Nulles hipotēze nosaka, ka gradācijas klases pieder vienai ģenerālkopai. Ja F aprēķinātā vērtība ir lielāka par F tabulās atrasto vērtību, nulles hipotēzi var noraidīt ar varbūtību α. Ja F aprēķinātā vērtība ir mazāka par F tabulās atrasto vērtību, nulles hipotēzi nevar noraidīt ar varbūtību α. Ja kāda faktora iedarbība nav būtiska, tad būtiska nav arī starpība starp šī faktora gradācijas klasēm un nulles hipotēze netiek noraidīta. [10] Ja faktora iedarbība ir būtiska, nulles hipotēze tiek noraidīta: gradācijas klases nepieder vienai ģenerālkopai. Starp gradācijas klašu iespējamajām starpībām vismaz viena vai vairākas ir būtiskas. Tātad F kritērijs parāda, vai atšķirības starp grupu vidējiem lielumiem ir statistiski nozīmīgas pie izvēlētā varbūtības līmeņa.[9]

Dispersijas analīzes pielietojums[labot šo sadaļu | labot pirmkodu]

Dispersijas analīzi plaši pielieto kvalitātes vadībā, lai nepārtraukti kontrolētu organizāciju pamatprocesus un atbalsta procesus, kā arī uzlabotu gatavās produkcijas kvalitāti.[11] Tāpat šo analīzi var izmantot mārketinga, valsts, privātā sektora un citu nozaru pētījumos, lai matemātiski argumentētu un interpretētu iegūtos datus, salīdzinot valstu finansu rādītājus, kvalitātes nodrošināšanā un vērtēšanā, analizējot valsts nozares būtisko faktoru mijiedarbību u.c..

Progammu paketes dispersijas analīzes veikšanai[labot šo sadaļu | labot pirmkodu]

Dispersijas analīzē, ja tiek analizēti viens vai divi faktori, lietderīgi izmantot Excel datorprogrammu, kas sniedz ātru un matemātiski argumentētu rezultātu. Ja analīzē iekļauti vairāki faktori, ieteicams pielietot tādas datorprogrammas, kā SPSS, StatPlus, u.c.

Izmantotā literatūra[labot šo sadaļu | labot pirmkodu]

  1. 1,0 1,1 Yang K., Trewn J. Multivariate Statistical Methods in Quality Management. McGraw-Hill, 2004, p.81.
  2. Krastiņš O. Statistika un ekonometrija. Latvijas Republikas Centrālā statistikas pārvalde, Rīga, 1998., 178 lpp.
  3. Goša Z. Statistika, Latvijas Universitāte, Rīga:, 2007., 365. lpp.
  4. Goša Z. Statistika, Latvijas Universitāte, Rīga:, 2007., 367. lpp.
  5. 5,0 5,1 Krastiņš O. Statistika un ekonometrija. Latvijas Republikas Centrālā statistikas pārvalde, Rīga, 1998., 192 lpp.
  6. Arhipova I., Bāliņa S. „Statistika ar Microsoft Excel ikvienam 1”, Rīga: Datorzinību Centrs, 1999.; 86.lpp.
  7. Krastiņš O. Statistika un ekonometrija. Latvijas Republikas Centrālā statistikas pārvalde, Rīga, 1998., 195 lpp.
  8. 8,0 8,1 Krastiņš O. Statistika un ekonometrija. Latvijas Republikas Centrālā statistikas pārvalde, Rīga, 1998., 196 lpp.
  9. 9,0 9,1 Krastiņš O. Statistika un ekonometrija. Latvijas Republikas Centrālā statistikas pārvalde, Rīga, 1998., 186 lpp.
  10. Arhipova I., Bāliņa S. „Statistika ar Microsoft Excel ikvienam 1”, Rīga: Datorzinību Centrs, 1999.; 114.lpp.
  11. Yang K., Trewn J. Multivariate Statistical Methods in Quality Management. McGraw-Hill, 2004, p.10.