Lalu Apa Itu Googlebot?
Nah, Googlebot inilah yang dimaksud dengan "makhluk halus" atau aktor dibalik tampilnya website/blog pada halaman Google Search.
Googlebot adalah perangkat lunak (software) perayap web yang digunakan oleh Google, untuk mengumpulkan dokumen dari website, yang selanjutnya di-indeks agar dapat ditelusuri oleh mesin pencari google, dan kemudian diteruskan pada halaman google search. Halaman Google Search akan menampilkan hasil pencarian berdasar urutan popularitas "Page Rank/Peringkat Halaman" suatu website, atau dengan kata lain ditampilkan berdasar pada urutan popularitas suatu halaman website.
Sebagai contoh; kita dapat menemukan akun facebook seseorang, atau halaman facebook seseorang (yang bersifat publik) dengan mengetikan keyword "Facebook Nama Seseorang/Nama Anda" pada kolom pencarian google. Selanjutnya google akan mengindex keyword tersebut untuk diselaraskan dengan kelompok database relevan yang telah dirayapi sebelumnya oleh Googlebot, jika kata kunci yang anda masukan telah tersedia maka hasil pencarian akan ditampilkan di halaman google (berdasar pada ketersediaan dan relevansi data yang telah ada). Dengan demikian sangat mungkin akun/halaman facebook, atau website yang baru dibuat/dipublikasikan tidak langsung tampil pada hasil pencarian, mengingat googlebot membutuhkan waktu dalam pengumpulan dan peng-indexan data pada suatu halaman web.
- Crawler (Perayap/Spider): Crawler juga sering disebut spider (laba-laba) atau spiderbot; adalah layanan atau agen yang merayapi situs web. Secara umum, perayap secara otomatis dan rekursif akan mengakses URL host yang diketahui telah menampilkan konten yang dapat diakses dengan browser web standar. Saat URL baru ditemukan (melalui berbagai cara, seperti dari link di halaman yang sudah ada yang di-crawl atau dari file Peta Situs/Sitemap), ini juga akan di-crawl dengan cara yang sama. Dengan kata lain, ketika sebuah website telah lengkap dan dipublikasikan (dapat diakses oleh publik) maka secara relatif dan otomatis Googlebot akan bekerja merayapi seluruh isi halaman yang ditampilkan pada website tersebut untuk di-index agar dapat ditemukan oleh mesin pencari google.
- User-Agent / Agen pengguna: Cara atau alat untuk mengidentifikasi crawler atau kumpulan crawler tertentu.
- Directives / Arahan: Daftar pedoman yang berlaku untuk perayap atau sekelompok perayap yang ditetapkan dalam file robots.txt.
- URL / Alamat Website : Uniform Resource Locators (Pencari Sumber Daya Seragam)
- Google-Spesific / Google-Khusus : Elemen ini khusus untuk penerapan robot.txt oleh Google dan mungkin saja tidak relevan untuk pihak lain (mesin pencari lainnya seperti; bing, yahoo dan lainnya).
- Disallow: / (Perintah ini bertujuan untuk membatasi perayapan pada halaman/path/ tertentu oleh googlebot pada website anda)
- Allow: / (Perintah ini memberikan izin pada googlebot untuk merayapi halaman/path/keyword pada website anda).
- Agen pengguna bernama crawler "Googlebot" tidak boleh meng-crawl folder http://example.com/nogooglebot/atau subdirektori mana pun.
- Semua agen pengguna lainnya dapat mengakses seluruh situs. (Ini bisa saja dihilangkan dan hasilnya akan sama, karena akses penuh adalah asumsinya.)
- File peta situs situs ini terletak di http://www.example.com/sitemap.xml
Letak settings robot.txt pada blogger terbaru |
# Robot Group 1User-agent: *Disallow: /searchAllow: /search/labelAllow: /search/productsAllow: /search/staticAllow: /Sitemap: https://t-front.blogspot.com/sitemap.xml# Robot G2User-agent: *Disallow: /404Disallow: /P/404Allow: /Sitemap: https://t-front.blogspot.com/atom.xml
Lalu save. Implementasi di atas hanya contoh, anda dapat menyesuaikan perintah robot.txt berdasar pada kebutuhan bagi website anda sendiri, baik untuk Disallow (membatasi) ataupun Allow (mengizinkan) Googlebot dalam melakukan perayapan.
Demikian, semoga penjelasan singkat ini dapat membantu.
Writed by Khaerudin Noer - Annoer Komputer