Jumat, 21 Oktober 2016

Cara Crawling Web

Cara Crawling Web


  1. Menemukan Informasi Website lewat crawling web
  2. Bagaimana cara kerja web crawling Google ? Google memiliki software khusus untuk proses perayapan website/blog yang bisa diakses secara umum. Secara sederhana cara kerja web crawler Google menggunakan aplikasi yang disebut Googlebot. 
    Crawler Googlebot akan merayapi setiap halaman website/blog seperti ketika sobat belajar online membuka link lewat browser, kemudian mengikuti link setiap halaman web dan membawa data dari website/blog tersebut ke server Google.
    Proses crawling web oleh googlebot dimulai dari crawling alamat utama web (domain), kemudian ke sitemap (peta situs) yang dibuat oleh pemilik website.
    adanya sitemap website akan memudahkan google bot google dalam proses crawling web/blog tersebut.
    Pada akhirnya program google bot akan menentukan situs mana yang ramai pengunjung dan selalu diupdate, berapa banyak konten yang ada, untuk menentukan posisinya.
    Google tidak menerima bayaran dalam memposisikan website. Website/blog yang menurut mesin pencari google bagus maka akan berada di posisi pertama hasil pencarian Google. Mengapa Google tidak mau menerima bayaran dalam merayapi dan mengindeks website ? Hal ini tentu saja berkaitan dengan manfaat untuk pengguna yang mencari informasi lewat mesin pencari google, karena itu merupakan bisnis utama mesin pencari Google.

  3. Mengorganisasi informasi hasil proses crawling web
  4. Setelah proses crawling web, maka mesin pencari google kemudian memasukkannya dalam daftar indeks Google. Gambaran internet itu ibarat perpustakaan dengan miliaran buku, namun sayangnya tidak mempunyai katalog khusus dan pengarsipan utama. Dari situ, maka google mengumpulkan alamat dan isi halaman-halaman web yang dicrawl oleh google bot kemudian membuat indeks. Dengan begitu mesin pencari google tahu persis bagaimana Google melihat halaman yang bersangkutan.
    Gambaran bagaimana google membuat indeks dari miliaran web yang ada di dunia, coba sobat belajar online buka indeks buku yang ada di bagian belakang. Indeks Google juga berisi tentang informasi kata-kata dan lokasi kata tersebut.
    Dengan perkembangan web generasi kedua, ditambah dengan html 5 yang memberikan kesempatan kepada developer web untuk membuat web dinamis semakin banyak jenis konten yang harus diindeks google, dari teks, gambar dan video. Google pun juga menyempurnakan pengindekan konten-konten yang ada di internet untuk memahami apa yang diinginkan oleh pencari informasi lewat mesin pencari Google.

  5. Pengaturan crawling pada pemilik website/blog
  6. Walaupun Google dapat merayapi setiap halaman web, namun mesin pencari juga memberikan kebebasan kepada pemilik situs yang tidak ingin websitenya dirambah dan diindeks mesin pencari Google.
    Untuk memilih dan memberitahu google bot agar tidak merayapi dan mengindeks halaman sensitif yang berbahaya apabila diakses oleh umum, maka sobat dapat menggunakan file robot.txt. Sobat dapat mengakses Google Webmasters Tool untuk mendapatkan file robots.txt dan mengisi bagian mana yang tidak boleh dirayapi dan diindeks dari website/blog sobat oleh Google crawler.

    sumber : belajaronlinegratis.com

Apa itu Crawl? | Crawling web | Merayapi web

Apa itu Crawl? | Crawling web | Merayapi web

Web crawler adalah suatu program atau script otomat yang relatif simple, yang dengan metode tertentu melakukan scan atau “crawl” ke semua halaman-halaman Internet untuk membuat index dari data yang dicarinya. Nama lain untuk web crawl adalah web spider, web robot, bot, crawl dan automatic indexer.


Web crawl dapat digunakan untuk beragam tujuan. Penggunaan yang paling umum adalah yang terkait dengan search engine. Search engine menggunakan web crawl untuk mengumpulkan informasi mengenai apa yang ada di halaman-halaman web publik. Tujuan utamanya adalah mengumpukan data sehingga ketika pengguna Internet mengetikkan kata pencarian di komputernya, search engine dapat dengan segera menampilkan web site yang relevan.

Ketika web crawl suatu search engine mengunjungi halaman web, ia “membaca” teks yang terlihat, hyperlink, dan konten berbagai tag yang digunakan dalam situs seperti meta tag yang banyak berisi keyword. Berdasar informasi yang dikumpulkan web crawl, search engine akan menentukan mengenai apakah suatu situs dan mengindex informasinya. Website itu kemudian dimasukkan ke dalam database search engine dan dilakukan proses penentuan ranking halaman-halamannya.

Namun search engine bukanlah satu-satunya pengguna web crawl. Linguist bisa menggunakan web crawl untuk melakukan analisis tekstual; yakni, mereka bisa menyisir Internet untuk menentukan kata apa yang paling umum digunakan hari ini. Peneliti pasar dapat menggunakan web crawl untuk menentukan dan memanipulasi trend pada suatu pasar tertentu. Ini semua merupakan contoh beragam penggunaan web crawl. Web crawl dapat digunakan oleh siapapun yang melakukan pencarian informasi di Internet.

Web crawl bisa beroperasi hanya sekali, misalnya untuk suatu projek yang hanya sekali jalan, atau jika tujuannya untuk jangka panjang seperti pada kasus search engine, mereka bisa diprogram untuk menyisir Internet secara periodik untuk menentukan apakah sudah berlangsung perubahan signifikan. Jika suatu situs mengalami trafik sangat padat atau kesulitan teknis, spider atau crawl dapat diprogram untuk mencatat hal ini dan mengunjunginya kembali setelah kesulitan teknis itu terselesaikan.

sumber : djuyadi.wordpress.com

Karakteristik Fitur Crawlers | Merayap

Karakteristik Fitur Crawlers 


       Crawler yang merangkak di internet harus memiliki fitur dasar berikut sehingga terlayani tujuan mereka, kesejahteraan server yang menyimpan data dan juga web secara keseluruhan.


1. Kekokohan (Robustness)

Web berisi loop disebut Spider Traps (Laba-laba Perangkah). yang dimaksud untuk menyesatkan   Rekursif Crawler pada domain tertentu dan tertancap dalam satu domain tunggal. Mereka                 menghasilkan infinite loop halaman web yang mengarah kemana-mana. Crawler harus tahan            terhadap perangkap tertentu. perangkap ini mungkin tidak selalu dirancang untuk menyesatkan       crawler tetapi mungkin hasil dari pengembangan web rusak.

2. Kesopanan (Politeness) 

Server memiliki kebijakan mengatur ketika crawler mengunjungi mereka. kebijakan kesopanan ini harus dihormati. Sebuah server awalnya dirancang untuk melayani. Menghalagi server dapat menyebabkan pemblokiran crawler oleh server. jadi lebih baik menghormati kebijakan server.

3. Distributed

Crawler harus dapat berfungsi dalam model distribusi. itu bisa memberikan beberapa gambaran untuk dirinya sendiri bekerja secara paralel dalam koordinasi yang tepat untuk menjelajah internet secepat mungkin.

4. Terukur (Scalable)

Crawler harus terukur. Harus punya fleksibelitas untuk menambah mesin-mesin baru dan bandwith ekstra bila dibutuhkan.

5. Kinerja dan Efisiensi (Performance and Eficiency)
Penggunaan resource seperti kekuatan pemrosesan, bandwidth jaringan dan penyimpanan harus bijaksana. Faktor-faktor adalah penentuan seberapa efisien crawler.

6. Kualitas

Crawler harus dapat membedakan antara informasi yang berguna dan informasi yang tidak berguna. Server terutama melayani permintaan lain yang banyak mengandung informas yang mungkin tidak berguna. Crawler harus menyaring konten ini.

7. Kesegaran (Freshness)
Dalam banyak situasi. Crawler perlu mengcrawl kehalaman yang sama lagi untuk mendapatkan konten baru dari halaman lama. untuk alasan ini, crawler harus dapat mengcrawl halaman yang sama pada tingkat yang kurang lebih sama dengan laju perubahan informasi pada halaman. dengan demikian, crawler akan dapat memastikan bahwa konsep pada mesin pencari adalah terbaru dan relevan dengan konteks kekinian.

8. Extensible

Crawler harus dapat beradaptasi dengan meningkatnya jumlah format data yang akan ditemui pada situs web. hal ini juga perlu diadaptasi dengan protokol baru yang digunakan pada beberap server. 

sumber : semanticca.blogspot.com