Jumat, 21 Oktober 2016

Karakteristik Fitur Crawlers | Merayap

Karakteristik Fitur Crawlers 


       Crawler yang merangkak di internet harus memiliki fitur dasar berikut sehingga terlayani tujuan mereka, kesejahteraan server yang menyimpan data dan juga web secara keseluruhan.


1. Kekokohan (Robustness)

Web berisi loop disebut Spider Traps (Laba-laba Perangkah). yang dimaksud untuk menyesatkan   Rekursif Crawler pada domain tertentu dan tertancap dalam satu domain tunggal. Mereka                 menghasilkan infinite loop halaman web yang mengarah kemana-mana. Crawler harus tahan            terhadap perangkap tertentu. perangkap ini mungkin tidak selalu dirancang untuk menyesatkan       crawler tetapi mungkin hasil dari pengembangan web rusak.

2. Kesopanan (Politeness) 

Server memiliki kebijakan mengatur ketika crawler mengunjungi mereka. kebijakan kesopanan ini harus dihormati. Sebuah server awalnya dirancang untuk melayani. Menghalagi server dapat menyebabkan pemblokiran crawler oleh server. jadi lebih baik menghormati kebijakan server.

3. Distributed

Crawler harus dapat berfungsi dalam model distribusi. itu bisa memberikan beberapa gambaran untuk dirinya sendiri bekerja secara paralel dalam koordinasi yang tepat untuk menjelajah internet secepat mungkin.

4. Terukur (Scalable)

Crawler harus terukur. Harus punya fleksibelitas untuk menambah mesin-mesin baru dan bandwith ekstra bila dibutuhkan.

5. Kinerja dan Efisiensi (Performance and Eficiency)
Penggunaan resource seperti kekuatan pemrosesan, bandwidth jaringan dan penyimpanan harus bijaksana. Faktor-faktor adalah penentuan seberapa efisien crawler.

6. Kualitas

Crawler harus dapat membedakan antara informasi yang berguna dan informasi yang tidak berguna. Server terutama melayani permintaan lain yang banyak mengandung informas yang mungkin tidak berguna. Crawler harus menyaring konten ini.

7. Kesegaran (Freshness)
Dalam banyak situasi. Crawler perlu mengcrawl kehalaman yang sama lagi untuk mendapatkan konten baru dari halaman lama. untuk alasan ini, crawler harus dapat mengcrawl halaman yang sama pada tingkat yang kurang lebih sama dengan laju perubahan informasi pada halaman. dengan demikian, crawler akan dapat memastikan bahwa konsep pada mesin pencari adalah terbaru dan relevan dengan konteks kekinian.

8. Extensible

Crawler harus dapat beradaptasi dengan meningkatnya jumlah format data yang akan ditemui pada situs web. hal ini juga perlu diadaptasi dengan protokol baru yang digunakan pada beberap server. 

sumber : semanticca.blogspot.com

Tidak ada komentar:

Posting Komentar