Tīmekļa rāpuļprogramma

Tīmekļa rāpuļprogramma (angļu: web crawler), saukta arī par zirnekli^[1] (angļu: spider), ir programmatūra, kas sistemātiski pārlūko vispasaules tīmekli, lejupielādē tīmekļa vietņu saturu un to indeksē (informāciju par vietnēm ievieto datubāzē). Tipiski rāpuļprogrammas izmanto meklētājprogrammas, lai iegūtu informāciju par tīmekļa vietnēm.

Rāpuļprogrammas darbība sākas ar sēklu — tīmekļa vietņu URL sarakstu, kuras tam jāapmeklē. Kad programma pārlūko šīs vietnes, tā identificē hipersaites tajās un pievieno to adreses apmeklējamo URL sarakstam, tādējādi paplašinot sev zināmo tīmekļa vieņu sarakstu. Tā kā vispasaules tīmeklis ir plašs, rāpuļprogrammai ir nepieciešams izvēlēties, kuras vietnes tā apmeklēs vispirms. To izdara, balstoties uz vairākiem faktoriem, piemēram, cik bieži citas vietnes satur saites uz šo lapu, cik bieži tā tiek apmeklēta vai arī citiem faktoriem, kas norāda, ka šī vietne satur svarīgu informāciju. Tāpat ir nepieciešams vietnes apmeklēt atkārtoti, jo saturs tīmeklī tiek regulāri izmainīts un atjaunots.

Tā kā rāpuļprogrammas rada noslogojumu apmeklētajām vietnēm un ne visi tīmekļa vietņu operatori vēlas, lai tās tiktu indeksētas, ir izstrādāti mehānismi, kā vietne var informēt rāpuļprogrammu, ja tā nevēlas, lai to indeksētu. Iekļaujot robots.txt failu, vietne var dot norādes neindeksēt konkrēto vietni vispār vai arī indeksēt tikai daļu no tās.

Ņemot vērā tīmekļa izmērus, pilnīga tīmekļa indeksēšana nav reālistiska. 2009. gada pētījums lēš, ka pat lielākās meklētājprogrammas nav indeksējušas vairāk par 40—70% no indeksējamā tīmekļa.^[2] Tāpat ne visas tīmekļa vietnes ir iespējams indeksēt, piemēram, rāpuļprogrammai nav iespējas uzzināt par tīmekļa vietnes eksistenci, uz kuru neved neviena hipersaite.

Par pirmo tīmekļa rāpuļprogrammu uzskata 1993. gadā izstrādāto World Wide Web Wanderer, kuras mērķis bija interneta izaugsmes mērīšana. 1994. gadā tika palaists WebCrawler, kas bija pirmā publiski pieejamā meklētājprogramma, kam bija pieejams pilna teksta saturs. No šīs programmas radās rāpuļprogrammu nosaukums. Palielinoties meklētājprogrammu skaitam, strauji pieauga arī rāpuļprogrammu skaits. Tiek lēsts, ka 2002. gadā 40% no tīmekļa satiksmes īstenoja rāpuļprogrammas.^[3]

Rāpuļprogrammu saraksts

Applebot — Apple rāpuļprogramma, atbalsta Siri un citus uzņēmuma produktus.^[4]
Bingbot — Microsoft meklētājprogrammas Bing rāpuļprogramma.
Baiduspider — Baidu rāpuļprogramma.
DuckDuckBot — DuckDuckGo rāpuļprogramma.
Googlebot — Google rāpuļprogramma, sastāv no divām programmām — Googlebot Desktop un Googlebot Mobile (simulē darbvirsmas un mobilos lietotājus attiecīgi).
Yahoo! Slurp — bija Yahoo! rāpuļprogramma, līdz Yahoo! noslēdza vienošanos ar Microsoft par Bingbot izmantošanu.
YandexBot — Yandex rāpuļprogramma.

Atsauces

↑ «zirneklis». Tēzaurs. Skatīts: 2023-07-04.
↑ Gulls, A., A. Signori. «The indexable web is more than 11.5 billion pages». Special interest tracks and posters of the 14th international conference on World Wide Web. ACM Press, 2005. 902–903. lpp. doi:10.1145/1062745.1062789.
↑ X. Yuan, M. H. MacGregor, J. Harms: An efficient scheme to remove crawler traffic from the Internet. Computer Communications and Networks, 2002. Proceedings. Eleventh International Conference on Communications and Networks
↑ «About Applebot». Apple Inc. Skatīts: 2021. gada 18. oktobris.

Ārējās saites

What is a web crawler bot? (angliski)

Šis ar informācijas tehnoloģijām saistītais raksts ir nepilnīgs. Jūs varat dot savu ieguldījumu Vikipēdijā, papildinot to.

[1] «zirneklis». Tēzaurs. Skatīts: 2023-07-04.

[2] Gulls, A., A. Signori. «The indexable web is more than 11.5 billion pages». Special interest tracks and posters of the 14th international conference on World Wide Web. ACM Press, 2005. 902–903. lpp. doi:10.1145/1062745.1062789.

[3] X. Yuan, M. H. MacGregor, J. Harms: An efficient scheme to remove crawler traffic from the Internet. Computer Communications and Networks, 2002. Proceedings. Eleventh International Conference on Communications and Networks

[4] «About Applebot». Apple Inc. Skatīts: 2021. gada 18. oktobris.

[1]

[2]

[3]

[4]