Valodas korpuss
Izskats
Valodas korpuss ir plašs tekstu vai runas ierakstu kopums, kas tiek sistemātiski apkopots un strukturēts, lai to varētu izmantot lingvistiskiem pētījumiem un valodas tehnoloģiju izstrādei. Korpuss var būt gan nestrukturēts tekstu krājums, gan rūpīgi anotēts resurss ar morfoloģisko, sintaktisko vai semantisko informāciju.
Latviešu valodas korpusi
[labot šo sadaļu | labot pirmkodu]Latvijā ir izveidoti vairāki nozīmīgi latviešu valodas korpusi, kas aptver dažādus valodas aspektus un pielietojumus:
- Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss (LVK2022): Šis korpuss ietver 101 miljonu vārdlietojumu (123 miljonus tekstvienību) no dažādiem žanriem, piemēram, periodikas, daiļliteratūras, zinātniskiem tekstiem un citiem.[1]
- Latviešu valodas apguvēju korpuss (LaVA): Šis korpuss apkopo ārvalstu studentu darbus, kuri apgūst latviešu valodu kā svešvalodu, un tiek izmantots valodas apguves procesu analīzei un uzlabošanai.[2]
- Nacionālā korpusu kolekcija (NKK): Apvieno vairāk nekā 10 iestāžu izstrādātos latviešu valodas korpusus, nodrošinot vienotu piekļuvi plašiem valodas datiem.[3]
Korpusu izmantošana
[labot šo sadaļu | labot pirmkodu]Valodas korpusi tiek izmantoti dažādiem mērķiem, tostarp:
- Lingvistiskā analīze: Valodas struktūras, lietojuma un attīstības pētījumi.
- Valodas tehnoloģiju izstrāde: Mašīntulkošana, runas atpazīšanas un citu valodas tehnoloģiju sistēmu apmācība.
- Izglītība: Valodas apguves procesu analīze un mācību materiālu izstrāde, piemēram, automātiska uzdevumu ģenerēšana, balstoties uz valodas korpusu datiem.[4]
Atsauces
[labot šo sadaļu | labot pirmkodu]- ↑ «LVK2022 | Korpuss.lv». korpuss.lv. Skatīts: 2025-02-03.
- ↑ «Projects / Latviešu valodas apguvēju korpusa izveide: metodes, rīki un izmantojums (LaVA) | AiLab». ailab.lv (latviešu). Skatīts: 2025-02-03.
- ↑ «NKK | Korpuss.lv». korpuss.lv. Skatīts: 2025-02-03.
- ↑ «Valodas korpusu izmantošana latviešu valodas uzdevumu automātiskā ģenerēšanā».