Statistika

Statistika ir lietišķās matemātikas nozare, kas nodarbojas ar datu vākšanu, organizēšanu, apstrādi, analīzi, interpretāciju un prezentēšanu,[1][2][3] kā arī par nenoteiktības mērīšanu, kontroli un komunikāciju.[4] Tā tiek izmantota, lai izdarītu secinājumus par statistisko kopumu, balstoties uz izlases datiem, kā arī lai identificētu sakarības un tendences. Statistikas metodes iedalās divās galvenajās kategorijās — aprakstošajā statistikā, kas apkopo un raksturo datus, un secinošajā statistikā, kas ļauj veikt vispārinājumus un pārbaudīt hipotēzes.[5]
Statistika ir būtiska dažādās zinātnēs un to nozarēs. Valsts iestādes izmanto statistiskos datus, piemēram, tautas skaitīšanas rezultātus, lai izprastu sabiedriskās dzīves un tautsaimniecības kvantitatīvās likumsakarības.[6][7] Dabaszinātnēs un medicīnā tā palīdz analizēt eksperimentu rezultātus un pārbaudīt hipotēzes,[8][9] sociālajās zinātnēs — izpētīt sabiedrības procesus un tendences, bet ekonomikā un finansēs — veikt tirgus analīzi un riska novērtēšanu. Arī mākslīgais intelekts un lielo datu analīze balstās uz statistikas metodēm, padarot to par neaizvietojamu rīku mūsdienu zinātnē un tehnoloģijās.[10]
Statistikas pamatjēdzieni
[labot šo sadaļu | labot pirmkodu]Statistika balstās uz vairākiem būtiskiem jēdzieniem, kas nosaka datu analīzes procesu un interpretāciju. Šie jēdzieni ietver statistisko kopumu un datu izlasi, parametrus un statistikas rādītājus, kā arī datu tipus.
Statistikais kopums apzīmē visu iespējamo objektu vai indivīdu kopumu, kuru īpašības tiek pētītas, piemēram, ja tiek analizēts Latvijas iedzīvotāju vidējais vecums, tad statistikais kopums ir visi Latvijas iedzīvotāji. Tā kā bieži vien nav iespējams iegūt datus par visiem kopas elementiem, tiek izmantota datu izlase — mazāka, reprezentatīva statistiskā kopuma daļa, kas tiek pētīta, lai izdarītu secinājumus par visu kopu. Pareizi izvēlēta izlase palīdz veikt ticamus vispārinājumus, un tās kvalitāte ir atkarīga no izlases metodes, piemēram, nejaušās vai stratificētās izlases.[11][12] Nejaušās izlases izmantošana nodrošina lielāku rezultātu vispārināmību, savukārt stratificētā izlase ļauj precīzāk atspoguļot dažādu apakšgrupu īpatnības pētāmajā datu kopā.
Parametri ir skaitliskas īpašības, kas raksturo visu statistisko kopumu, piemēram, kopas aritmētisko vidējo vai dispersiju. Tā kā kopas parametru noteikšana bieži ir sarežģīta, tiek izmantoti statistikas rādītāji — izlases dati, kas sniedz aptuvenu novērtējumu par statistiskā kopuma parametriem. Galvenie statistikas rādītāji ir vidējā vērtība (datu kopas centrālā tendence, piemēram, aritmētiskais vidējais, mediāna, moda), dispersija un standartnovirze (rādītāji, kas raksturo datu izkliedi ap vidējo vērtību), korelācijas koeficients (lielums, kas parāda, cik lielā mērā divi mainīgie ir savstarpēji saistīti) un datu tipi (kvantitatīvie un kvalitatīvie dati).
Statistikā dati tiek iedalīti divās galvenajās kategorijās — kvantitatīvajos datos un kvalitatīvajos datos. Kvantitatīvie dati ir skaitliski izsakāmi lielumi, kas raksturo mērāmas īpašības. Tos var tālāk iedalīt diskrētajos datos (skaitāmi lielumi, kas var pieņemt tikai konkrētas vērtības, piemēram, skolēnu skaits klasē) un nepārtrauktajos datos (lielumi, kas var pieņemt jebkuru vērtību noteiktā intervālā, piemēram, cilvēka augums, temperatūra). Savukārt kvalitatīvie dati (kategoriskie dati) raksturo īpašības vai kategorijas, kuras nevar tieši izteikt skaitļos. Tie var būt nominālie dati (dati bez noteiktas kārtības, piemēram, dzimums, acu krāsa, automašīnas marka) un ordinālie dati (dati ar noteiktu secību, bet bez skaitliskas nozīmes starp kategorijām, piemēram, apmierinātības līmenis anketā "neapmierināts", "neitrāls", "apmierināts"). Pareiza datu tipu izpratne ir būtiska, jo tā nosaka, kādas statistikas metodes un analīzes pieejas ir piemērotas konkrētajam pētījumam.
Aprakstošā statistika
[labot šo sadaļu | labot pirmkodu]Aprakstošā statistika ir statistikas nozare, kas nodarbojas ar datu apkopošanu, sakārtošanu un raksturošanu, lai tos būtu vieglāk interpretēt. Tā ietver dažādus rādītājus, kas palīdz noteikt datu kopas galvenās īpašības, piemēram, centrālo tendenci, izkliedi un saistību starp mainīgajiem.
Vidējās vērtības raksturo datu kopas centrālo tendenci, norādot, ap kuru vērtību dati koncentrējas. Galvenās vidējās vērtības ir aritmētiskais vidējais, mediāna un moda. Aritmētiskais vidējais tiek aprēķināts kā visu vērtību summa, kas dalīta ar vērtību skaitu. Ja dati ir , tad aritmētiskais vidējais ir:
Aritmētisko vidējo ietekmē ekstremālas vērtības (izteikti lieli vai mazi skaitļi).[13] Mediāna ir datu kopas centrālā vērtība, ja dati ir sakārtoti augošā secībā. Ja datu skaits ir nepāra, mediāna ir vidējā vērtība, bet, ja pāra, tā ir divu vidējo vērtību aritmētiskais vidējais. Mediāna ir izturīgāka pret ārējiem novērojumiem nekā aritmētiskais vidējais. Moda ir vērtība, kas datu kopā sastopama visbiežāk. Datu kopai var būt viena, vairākas vai neviena moda (ja visas vērtības ir unikālas). Modu bieži izmanto kvalitatīviem un diskrētiem datiem.
Izkliedes rādītāji raksturo, cik lielā mērā dati atšķiras no vidējās vērtības. Divi galvenie rādītāji ir dispersija un standartnovirze. Dispersija () ir vidējā kvadrātiskā novirze no aritmētiskā vidējā lieluma:
Ja dati attiecas uz izlasi, nevis visu kopu, tad izmantotā formula ir:
, kur ir brīvības pakāpes korekcija.
Standartnovirze ( vai ) ir dispersijas kvadrātsakne, kas norāda, cik vidēji lielas ir novirzes no vidējās vērtības:
Standartnovirze tiek mērīta tajās pašās vienībās kā sākotnējie dati un tādēļ ir vieglāk interpretējama nekā dispersija.
Korelācijas koeficients raksturo sakarību starp diviem mainīgajiem. Visbiežāk izmantotais ir Pīrsona korelācijas koeficients (), kas tiek aprēķināts šādi:
Korelācijas koeficients var svārstīties no -1 līdz 1:
- ja , tad pastāv pozitīva korelācija (kad viens mainīgais palielinās, arī otrs palielinās).
- ja , tad pastāv negatīva korelācija (kad viens mainīgais palielinās, otrs samazinās).
- ja , tad nav lineāras sakarības starp mainīgajiem.
Šie aprakstošās statistikas rādītāji ir būtiski datu analīzē, jo tie palīdz interpretēt un vizualizēt datu kopu struktūru un tendences. Informācija nereti tiek pasniegta tabulā, grafikā vai diagrammā.
Secinošā statistika
[labot šo sadaļu | labot pirmkodu]Secinošā statistika jeb induktīvā statistika ir statistikas nozare, kas ļauj izdarīt vispārinājumus par statistisko kopumu, balstoties uz izlases datiem. Tā ietver metodes, kas palīdz pārbaudīt hipotēzes, noteikt datu ticamības robežas un izvērtēt sakarības starp mainīgajiem. Atšķirībā no aprakstošās statistikas, kas tikai apkopo un raksturo datus, secinošā statistika, lai pieņemtu lēmumus un izdarītu prognozes, izmanto varbūtību teoriju.
Hipotēžu pārbaude ir statistiska metode, ko izmanto, lai noteiktu, vai izlases dati sniedz pietiekamu pierādījumu tam, ka kāds pieņēmums par kopumu ir patiess. Hipotēžu pārbaudes procesā tiek formulētas divas hipotēzes:
- nulles hipotēze () ir pieņēmums, ka starp mainīgajiem nav būtiskas atšķirības vai sakarības;
- alternatīvā hipotēze () ir pieņēmums, ka pastāv būtiska atšķirība vai sakarība.
Pārbaude ietver statistiskā testa aprēķināšanu un rezultāta salīdzināšanu ar iepriekš noteiktu būtiskuma līmeni (α), kas visbiežāk ir 0,05 (5%). Ja aprēķinātā p vērtība ir mazāka par α, tad nulles hipotēze tiek noraidīta, pieņemot alternatīvo hipotēzi.
Ticamības intervāli tiek izmantoti, lai noteiktu, kādā diapazonā ar noteiktu ticamības pakāpi (piemēram, 95%), balstoties uz izlases datiem, atrodas kopuma parametrs.[14] Svarīgi atzīmēt, ka 95% ticamības intervāls nenozīmē, ka pastāv 95% varbūtība, ka konkrētajā aprēķinātajā intervālā atrodas patiesais parametrs. Drīzāk tas nozīmē, ka 95% no šādi konstruētajiem intervāliem, atkārtoti veicot izlases, saturēs patieso parametru.[15] Parasti ticamības intervāls vidējai vērtībai tiek aprēķināts šādi:
kur – izlases vidējā vērtība, – izlases standartnovirze, – izlases lielums, – kritiskā vērtība no normālā sadalījuma, piemēram, 95% ticamības intervālam tas ir 1,96. Ja ticamības intervāls nesatur nulles vērtību, tas var liecināt par būtisku atšķirību starp salīdzinātajām grupām.
Statistiskie testi ir metodes, kas palīdz noteikt, vai dati atbalsta noteiktu hipotēzi. Populārākie testi ir šādi:
- T tests tiek izmantots, lai salīdzinātu divu grupu vidējās vērtības un noteiktu, vai tās būtiski atšķiras. Pastāv neatkarīgo izlašu T tests, kur salīdzina divu neatkarīgu grupu vidējās vērtības, un savienoto izlašu T tests, kur salīdzina to pašu subjektu rādītājus pirms un pēc kāda notikuma.
- Hī kvadrāta (χ²) kritēriju izmanto, lai pārbaudītu saistību starp diviem kategoriskiem mainīgajiem.[16] Tas tiek bieži izmantots aptauju un frekvenču datu analīzē. Šis tests nosaka, vai pastāv statistiski nozīmīga saistība starp diviem kategoriskiem mainīgajiem, piemēram, dzimumu un politisko partiju piederību. Lai veiktu šo testu, tiek izveidota kontingenču tabula, kurā dati tiek klasificēti pēc diviem kategoriskiem mainīgajiem, un katra šūna atspoguļo konkrētu kategoriju pāru gadījumu skaitu. Pēc tam tiek aprēķināta χ² statistika, lai noteiktu, vai novērotās vērtības būtiski atšķiras no gaidāmajām vērtībām, pieņemot, ka mainīgie ir neatkarīgi. Ja aprēķinātā χ² vērtība pārsniedz kritisko vērtību, mēs varam noraidīt nulles hipotēzi un secināt, ka pastāv saistība starp šiem diviem mainīgajiem.
- Dispersiju analīze (ANOVA, Analysis of Variance) ir statistikas tests, ko lieto, lai salīdzinātu vairāk nekā divu grupu vidējās vērtības un noteiktu, vai pastāv būtiska atšķirība starp tām.[17] Šī metode analizē datu kopas dispersiju, sadalot to komponentēs, kas saistītas ar dažādiem variācijas avotiem, lai noskaidrotu, vai novērotās atšķirības starp grupām ir statistiski nozīmīgas. Var būt vienfaktora dispersiju analīze, kur salīdzina vienu faktoru starp vairākām grupām, un daudzfaktoru dispersiju analīze, kur analizē vairāk nekā viena faktora ietekmi uz atkarīgo mainīgo.
Secinošās statistikas metodes ir fundamentālas zinātniskajos pētījumos, jo tās ļauj pieņemt pamatotus lēmumus un veikt ticamus secinājumus par lielākām kopām, balstoties uz ierobežotiem izlases datiem.
Citas statistikas metodes
[labot šo sadaļu | labot pirmkodu]Skatīt arī
[labot šo sadaļu | labot pirmkodu]- Normālais sadalījums (Gausa sadalījums)
Atsauces
[labot šo sadaļu | labot pirmkodu]- ↑ «Definition of statistics by the Free Online Dictionary, Thesaurus and Encyclopedia» (angļu). thefreedictionary.com. Skatīts: 2025. gada 20. februārī.
- ↑ «Statistics» (angļu). Encyclopedia Britannica. Skatīts: 2025. gada 20. februārī.
- ↑ «Statistics: Definition, Types, and Importance». investopedia.com (angļu). Skatīts: 2025. gada 20. februārī.
- ↑ «What is Statistics?». stat.auckland.ac.nz (angļu). Skatīts: 2025. gada 20. februārī.
- ↑ «Statistikas jēdziens» (latviski). dzm.lu.lv. Skatīts: 2012-07-14.
- ↑ «Kas ir tautas un mājokļu skaitīšana?». Centrālā statistikas pārvalde. Skatīts: 2025. gada 21. februārī.
- ↑ «Tautas skaitīšana». Nacionālā enciklopēdija. Skatīts: 2025. gada 21. februārī.
- ↑ «Klīniskie pētījumi». Zāļu valsts aģentūra. Skatīts: 2025. gada 21. februārī.
- ↑ «Statistikas dati». Slimību profilakses un kontroles centrs. Skatīts: 2025. gada 21. februārī.
- ↑ «ROLE OF STATISTICS IN ARTIFICIAL INTELLIGENCE». ijeast.com. International Journal of Engineering Applied Sciences and Technology. Skatīts: 2025. gada 21. februārī.
- ↑ Andrejs Geske, Andris Grīnfelds. «Izglītības pētījumu aptaujas – no izveidošanas līdz datu apstrādei». Latvijas Universitāte - Pedagoģijas, psiholoģias un mākslas fakultāte. Skatīts: 2025. gada 21. februārī.
- ↑ «Metodiskie norādījumi zinātniskā darba izstrādei psiholoģijā». Daugavpils Universitāte Humanitāro un sociālo zinātņu fakultāte Izglītības un psiholoģijas katedra. Skatīts: 2025. gada 21. februārī.
- ↑ «Why can an arithmetic mean lead to misleading conclusions?». ck12.org (angļu). Skatīts: 2025. gada 21. februārī.
- ↑ Kerby Shedden. «Confidence intervals». dept.stat.lsa.umich.edu (angļu). Skatīts: 2025. gada 21. februārī.
- ↑ «Theoretical justification for confidence intervals». ds1.datascience.uchicago.edu (angļu). Skatīts: 2025. gada 21. februārī.
- ↑ «Chi-Square Test of Independence». jmp.com (angļu). Skatīts: 2025. gada 21. februārī.
- ↑ «Lesson 10: Introduction to ANOVA» (angļu). STAT 500. Skatīts: 2025. gada 21. februārī.
Ārējās saites
[labot šo sadaļu | labot pirmkodu]Vikikrātuvē par šo tēmu ir pieejami multivides faili. Skatīt: Statistika.
- Encyclopædia Britannica raksts (angliski)
- Krievijas Lielās enciklopēdijas raksts (krieviski)
- Electronic Statistics Textbook Arhivēts 2009. gada 27. februārī, Wayback Machine vietnē.
- LR Centrālā statistikas pārvalde
|