Mesin pencari web bekerja dengan cara menyimpan informasi tentang banyak halaman web, yang diambil langsung dari WWW. Halaman-halaman ini diambil dengan web crawler atau browser web otomatis yang mengikuti setiap pranala/link yang dilihatnya.
Isi setiap halaman lalu dianalisis untuk menentukan cara indeks-nya (misalnya, kata-kata diambil dari judul, subjudul, atau field khusus yang disebut meta tag). Data tentang halaman web disimpan dalam sebuah database indeks untuk digunakan dalam pencarian selanjutnya.
Sebagian mesin pencari seperti Google, menyimpan seluruh atau sebagian halaman sumber maupun informasi tentang halaman web itu sendiri
Bagaimana Mesin Pencari Google Bekerja?
Siapa sih manusia dizaman sekarang yang gak tau Google? Pasti seantero duniapun tau kalau Google adalah search engine terbaik paling handal dan populer.
Mungkin Anda juga menjadi salah satu orang yang gak bisa hidup tanpa Google, mengaku saja kalau Google banyak membantu Anda dalam kehidupan sehari-hari seperti menyelesaikan skripsi sampai hal yang sepele sekalipun.
Ajaibnya hanya dengan mengetik apa yang Anda butuhkan di Google, Anda bisa langsung mendapatkan jawaban dengan jelas dan lengkap. Pernah gak sih Anda kepikiran bagaimana caranya mesin pencari Google bekerja?
Mesin pencari google ini dimiliki oleh Google Inc. Pertama kali dibangun oleh Larry Page dan Sergey Brin pada tahun 1997. Setiap hari ada lebih dari miliaran hit terjadi di website google dari seluruh dunia, ini sudah cukup untuk menggambarkan kepada kita bagaimana dominannya Google sebagai mesin pencari terbaik.
Baru-baru ini Google meluncurkan sebuah situs baru yang dinamakan “How Search Works”. Melalui situs ini, Anda dapat mengetahui betapa rumitnya proses kerja dari layanan pencarian Google Search.
Dalam situs tersebut, Anda juga dapat menemukan berbagai grafik dan animasi yang menarik. Melalui animasi ini, Google berhasil menjelaskan proses pencarian dengan cara yang sangat mudah untuk dipahami.
Secara garis besar, ada tiga langkah yang dilakukan oleh sistem pencarian Google. Ketiga langkah tersebut adalah Crawling & Indexing, Algoritma, dan Fighting Spam.
Sistem Google akan memulai proses pencarian dengan mencari kata yang diinginkan oleh pengguna ke lebih dari 60 triliun halaman situs yang ada di dunia maya. Hal ini dinamakan dengan Crawling.
Crawling adalah proses saat Googlebot atau dengan istilah (Robot, Bot atau Spider) merupakan program yang dimiliki search engine untuk melacak dan menemukan link yang terdapat dari setiap halaman yang ditemuinya. Ada miliaran halaman yang tersimpan pada ribuan mesin.
Spider mengekstrak data yang ada pada setiap halaman dari setiap situs web dan menyimpan dalam repositori mereka. Kemudian data dikirim ke modul indexing, kemudian dipilah isi dari halaman tersebut dan mengekstrak elemen kunci seperti tag judul, tag deskripsi, data tentang gambar dan link internal.
Kalau dilihat sepintas, cara kerja Google ini mirip dengan kebanyakan pengguna biasa. Mengunjungi situs lalu melusuri tautan demi tautan.
Ada satu hal yang menarik disini, setiap pemilik situs ternyata dapat mengatur dan membatasi Googlebot dalam merayapi dan menelusuri situs. Misalnya dengan mengatur halaman-halaman tertentu saja untuk dirayapi. Pemilik juga bahkan bisa menolaknya untuk sama sekali tidak dikunjungi Googlebot.
Google pun mempekerjakan algoritma berbasis link untuk menentukan peringkat dari hasil pencarian.
Untuk ini, google akan melakukan pengecekan popularitas link (berapa banyak link yang dimiliki halaman tersebut, dalam arti ada berapa banyak link dari website lain yang mengarah ke halaman web tersebut), reputasi link yang mengarah pun diperhitungkan, apakah link yang mengarah ke halaman website tersebut datang dari website yang memiliki popularitas yang tinggi atau tidak.
Jika berasal dari website yang populer, maka link tersebut akan memberikan efek yang baik bagi halaman website tujuan, karena bisa menjadi bahan pertimbangan google untuk meningkatkan peringkat halaman web tersebut.
Algoritma Google yang melakukan perhitungan skor berdasarkan link ini adalah algoritma PageRank. Algoritma ini juga telah dipaparkan dengan jelas oleh kedua co-founder di jurnal ilmiah yang mereka rilis di tahun 1998. Penelitian dan jurnal inilah yang mendasari berdirinya Google.
Oleh karena itu banyak orang berlomba-lomba memperbanyak backlink dari website berkualitas menuju website mereka. Kalau ditelaah dari namanya, algoritma atau algoritmik adalah istilah dari matematika yang artinya sebuah proses perhitungan.
Namun, berbeda dengan istilah dalam mesin pencari, algoritma mempunyai arti sebuah prosedur atau langkah demi langkah untuk penghitungan, pemrosesan data, dan penalaran otomatis.
Setelah Googlebot melakukan pekerjaannya dari mulai indexing dan crawling lalu menghitung berapa banyak situs yang musti dirayapi, seberapa sering spider tersebut merayap maka langkah selanjutnya adalah fighting Spam.
Google juga memiliki fitur tersendiri untuk menghapus dan bertarung dengan spam atau pesan sampah. Dengan kecanggihan mesin ini Google mampu memilih dan memilah-milah konten mana yang bermanfaat dan konten mana yang hanya berisi spam. Bahkan mesin ini dapat sekaligus menghapus konten yang telah dianggap spam tadi.
Pada website resmi Google, pihak Google juga menyatakan untuk mendukung situs yang aman dan berguna. Berikut adalah sedikit imbauan dari Google yang tertulis secara resmi pada situsnya :
“Google juga memberikan tinjauan manual dan algoritme yang berkualitas untuk memastikan bahwa situs tidak muncul dalam hasil penelusuran melalui perilaku yang menipu atau manipulatif. Hal ini penting terutama karena banyaknya situs spam yang dapat membahayakan atau menyesatkan pengguna.
Situs spam mencoba untuk menduduki peringkat teratas di hasil penelusuran melalui teknik seperti terus mengulangi kata kunci, membeli tautan yang dapat melewati PageRank, atau menyertakan teks yang tidak terlihat ke halaman. Spam juga sering kali memengaruhi keamanan situs.
Akhir-akhir ini, kami melihat sejumlah besar situs sah diretas, dengan banyak situs menampilkan iklan Display yang menipu, yang mengarahkan pengguna ke situs yang tidak ada kaitannya tanpa sepengetahuan mereka.
“Kami memiliki Pedoman Webmaster yang mudah dipahami untuk menyelesaikan masalah terkait perilaku spam, dan memberikan proses yang jelas untuk mengajukan banding atas penghapusan setelah pelanggaran ditangani.”
Oh iya, ada sedikit saran dari kami buat Anda yang memiliki website dan masih galau apakah website milik Anda akan dijaring oleh software spider nya google, Anda jangan dulu khawatir, tentunya Anda bisa mencoba untuk memasukan halaman website Anda ke mesin pencari google melalui google webmaster dan permudah google dengan membuat sitemap yang berisi link, judul juga tanggal pembuatan halaman, lalu Anda tinggal masukin deh ke repositori google melalui google webmaster.
Kalau ke-3 langkah tadi sudah Anda lakukan dalam mesin pencari maka hasil search yang dituliskan oleh Anda dengan kata kunci (keyword) tadi akan tersaji di urutan-urutan awal sehingga sesuai dan relevan dengan kebutuhan Anda sebagai pengguna Google sejati.
Semua proses penelusuran database dan pemilahan informasi di atas terjadi dengan super cepat, Anda cuma membutuhkan waktu sekitar 1/8 detik saja dari penekanan tombol “ENTER” hingga penyajian hasil pencarian tampil. Cepet banget kan?