Google BOT "Makhluk Halus" dibalik popularitas Google Search

Googlbot
Dalam obrolan keseharian, ketika seseorang merekomendasikan sesuatu untuk ditemukan, mungkin kita pernah mendengar istilah : "Googling aja", "Tanya mbah Google", atau yg lebih formal "Cari aja di google". Semua istilah tersebut merujuk pada mesin pencari paling populer di dunia yakni; GOOGLE SEARCH (Google Search Engine/Mesin Telusur Google). Mesin pencari web yang dikembangkan oleh Google LLC. adalah mesin pencari yang paling banyak digunakan di dunia dan diterapkan pada sebagian besar platform website browser, baik pada perangkat komputer, maupun pada perangkat mobile phone. Google Search menangani lebih dari 5,4 miliar pencarian setiap hari. dengan pangsa pasar mencapai 92,62% pada Juni 2019.

Urutan hasil pencarian website yang ditampilkan pada halaman Google search, sebagian besar berdasarkan pada sistem algoritma, yang merujuk pada prioritas popularitas suatu website yang dikenal dengan istilah "PageRank/Peringkat Halaman". Dari sinilah kemudian lahir "kompetisi" khususnya bagi para praktisi web dan pengembang usaha berbasis web, dimana mereka akan berlomba agar website yang mereka publikasikan dapat muncul di halaman awal pada pencarian google search, atau paling tidak berada di halaman ke 2-3. Hal itu dimungkinkan dengan beragam metode optimalisasi SEO (Search Engine Optimization/ Optimalisasi Mesin Pencari ) yang diterapkan pada website mereka. 

Lalu Apa Itu Googlebot?

Nah, Googlebot inilah yang dimaksud dengan "makhluk halus" atau aktor dibalik tampilnya website/blog pada halaman Google Search. 

Googlebot adalah perangkat lunak (software) perayap web yang digunakan oleh Google, untuk mengumpulkan dokumen dari website, yang selanjutnya di-indeks agar dapat ditelusuri oleh mesin pencari google, dan kemudian diteruskan pada halaman google search. Halaman Google Search akan menampilkan hasil pencarian berdasar urutan popularitas "Page Rank/Peringkat Halaman" suatu website, atau dengan kata lain ditampilkan berdasar pada urutan popularitas suatu halaman website.

Sebagai contoh; kita dapat menemukan akun facebook seseorang, atau halaman facebook seseorang  (yang bersifat publik) dengan mengetikan keyword "Facebook Nama Seseorang/Nama Anda" pada kolom pencarian google. Selanjutnya google akan mengindex keyword tersebut untuk diselaraskan dengan kelompok database relevan yang telah  dirayapi sebelumnya oleh Googlebot, jika kata kunci yang anda masukan telah tersedia maka hasil pencarian akan ditampilkan di halaman google (berdasar pada ketersediaan dan relevansi data yang telah ada). Dengan demikian sangat mungkin akun/halaman facebook, atau website yang baru dibuat/dipublikasikan tidak langsung tampil pada hasil pencarian, mengingat googlebot membutuhkan waktu dalam pengumpulan dan peng-indexan data pada suatu halaman web. 

GoogleSearch

Penjelasan dasar mengenai googlebot ini terdiri atas beberapa Protokol Internet Standard, antara lain:
  1. Crawler (Perayap/Spider): Crawler juga sering disebut spider (laba-laba) atau spiderbot; adalah layanan atau agen yang merayapi situs web. Secara umum, perayap secara otomatis dan rekursif akan mengakses URL host yang diketahui telah menampilkan konten yang dapat diakses dengan browser web standar. Saat URL baru ditemukan (melalui berbagai cara, seperti dari link di halaman yang sudah ada yang di-crawl atau dari file Peta Situs/Sitemap), ini juga akan di-crawl dengan cara yang sama. Dengan kata lain, ketika sebuah website telah lengkap dan dipublikasikan (dapat diakses oleh publik) maka secara relatif dan otomatis Googlebot akan bekerja merayapi seluruh isi halaman yang ditampilkan pada website tersebut untuk di-index agar dapat ditemukan oleh mesin pencari google.
  2. User-Agent / Agen pengguna: Cara atau alat untuk mengidentifikasi crawler atau kumpulan crawler tertentu.
  3. Directives / Arahan: Daftar pedoman yang berlaku untuk perayap atau sekelompok perayap yang ditetapkan dalam file robots.txt.
  4. URL / Alamat Website : Uniform Resource Locators (Pencari Sumber Daya Seragam)
  5. Google-Spesific / Google-Khusus : Elemen ini khusus untuk penerapan robot.txt oleh Google dan mungkin saja tidak relevan untuk pihak lain (mesin pencari lainnya seperti; bing, yahoo dan lainnya).
Sebagai pemilik Website atau pemilik sebuah Blog, anda memiliki kewenangan  mengizinkan (secara default) atau membatasi (konfigurasi khusus robot.txt) perayapan yang dilakukan oleh Googlebot pada halaman Web/Blog Anda. Settings/konfigurasi untuk perayapan Googlebot ini terbilang cukup mudah dan sederhana, namun demikian anda harus menguasai pengetahuan dasar mengenai protokol penggunaan Googlebot yang saya tuliskan di atas. 

Konfigurasi Googlebot disebut juga dengan istilah robot.txt yang berisi atas 2 perintah saja, yaitu :
  • Disallow: /  (Perintah ini bertujuan untuk membatasi perayapan pada  halaman/path/ tertentu oleh googlebot pada website anda)
  • Allow: /  (Perintah ini memberikan izin pada googlebot untuk merayapi halaman/path/keyword  pada website anda).
File robots.txt berada di root situs Anda. Jadi, untuk situs www.example.com, file robots.txt ada di www.example.com/robots.txt. robots.txt adalah file teks biasa yang mengikuti Standar Pengecualian Robot . File robots.txt terdiri dari satu atau lebih aturan. Setiap aturan memblokir (atau mengizinkan) akses untuk crawler tertentu ke jalur file tertentu di situs tersebut.

Berikut adalah file robots.txt sederhana dengan dua aturan, dijelaskan di bawah ini:

    # Grup 1
    Agen-pengguna: Googlebot
    Disallow: / nogooglebot /

    # Grup 2
    Agen pengguna: *
    Allow: /

    Peta Situs: http://www.example.com/sitemap.xml
 
Penjelasan:
  • Agen pengguna bernama crawler "Googlebot" tidak boleh meng-crawl folder http://example.com/nogooglebot/atau subdirektori mana pun.
  • Semua agen pengguna lainnya dapat mengakses seluruh situs. (Ini bisa saja dihilangkan dan hasilnya akan sama, karena akses penuh adalah asumsinya.)
  • File peta situs situs ini terletak di http://www.example.com/sitemap.xml
Sebagai contoh tambahan (khusus untuk blogger pemula),  saya akan implementasi dan konfigurasikan Googlebot/robot.txt pada blog https://t-front.blogspot.com sebagai berikut:

Pada halaman Blogger, klik Settings, dan aktifkan tombol "Enable  custom robot.txt "

disable txt
Letak settings robot.txt pada blogger terbaru 

Setelah tombol robot.txt aktif, click "Custom robot.txt" di bawahnya, dan masukan perintah berikut:

# Robot Group 1
User-agent: *
Disallow: /search
Allow: /search/label
Allow: /search/products
Allow: /search/static
Allow: /

Sitemap:  https://t-front.blogspot.com/sitemap.xml

# Robot G2
User-agent: *
Disallow: /404
Disallow: /P/404
Allow: /

Sitemap: https://t-front.blogspot.com/atom.xml

Lalu save. Implementasi di atas hanya contoh, anda dapat menyesuaikan perintah robot.txt berdasar pada kebutuhan bagi website anda sendiri, baik untuk Disallow (membatasi) ataupun Allow (mengizinkan) Googlebot dalam melakukan perayapan. 

Demikian, semoga penjelasan singkat ini dapat membantu.


Writed by Khaerudin Noer - Annoer Komputer