Apa itu file Robots.txt (dan bagaimana pengaruhnya terhadap SEO?)

Diterbitkan: 2023-01-28

Ada banyak aspek rumit dari SEO teknis yang tidak perlu diketahui oleh setiap pemilik bisnis.

File robots.txt adalah salah satu yang seharusnya.

Ini pada dasarnya adalah peta jalan untuk situs web Anda yang memberi tahu Google apa yang harus dibaca dan apa yang harus diabaikan.

Artikel ini akan membagikan semua yang perlu Anda ketahui tentang file ini.

Terbaik dari semua, itu tidak sulit dan dapat diakses dengan mudah hanya dengan beberapa klik (tidak perlu login ke host Anda).

Mari kita mulai.

Daftar isi:
Apa itu file Robots.txt (apakah rumit?) Bagaimana cara mengedit file robots.txt di situs saya? Apa yang terlibat dalam file robots.txt Memecah file robots.txt kami Bisakah saya memecahkan sesuatu di file ini?

Apa itu file Robots.txt (apakah rumit?)

File robots.txt adalah file yang ditambahkan ke root situs web Anda yang memberikan arahan ke Google dan perayap mesin telusur lainnya.

Itu dibuat dari protokol di awal tahun 90-an untuk membantu memberikan aturan ke barat liar internet.

Ini memberi webmaster kendali penuh atas apa yang bisa dan tidak bisa dirayapi oleh mesin pencari.

Mengapa Robots.txt muncul?

Mari kita pikirkan tentang hasil di halaman hasil mesin pencari.

Anda tidak melihat kumpulan dari setiap situs web di peringkat internet karena beberapa faktor peringkat yang tidak diketahui (lebih dari 200 di antaranya).

Sebaliknya, ini menunjukkan pemahaman Google tentang semua situs web tersebut. Ini adalah indeks dari apa yang dapat dirayapi laba-laba Google di internet dan bagaimana Google melihat pentingnya halaman ini.

Robots.txt memungkinkan webmaster mengatakan kepada Google, "tampilkan halaman ini, tetapi jangan tampilkan ini".

Beberapa situs web memiliki ribuan dan ribuan halaman, dan penting untuk memprioritaskan anggaran perayapan Anda. Misalnya, ini berguna untuk situs web e-niaga yang menjual banyak produk.

Anda dapat memberi tahu Google bahwa file database Anda yang berlebihan tidak layak ditambahkan ke indeksnya.

Apa yang dapat saya batasi aksesnya di situs web saya?

Sebagai pemilik usaha kecil, sepertinya Anda ingin Google melihat setiap bagian dari situs web Anda.

Namun, tidak masuk akal untuk menampilkan halaman tertentu.

Misalnya, setiap kali seseorang mengunjungi situs web Anda dan mengisi formulir kontak, mereka harus dibawa ke halaman ucapan terima kasih.

(Anda melakukan ini di situs Anda, bukan?)

Halaman terima kasih adalah cara terbaik untuk melacak konversi dan meminta informasi tindak lanjut segera setelah pengguna melakukan konversi.

Halaman terima kasih ini penting untuk melacak apa yang berfungsi dengan baik. Jika Anda tidak memberi tahu Google untuk tidak merayapi halaman terima kasih di situs Anda, siapa pun dapat mengaksesnya.

Anda bahkan mungkin berakhir dengan halaman terima kasih muncul di hasil pencarian organik, yang tidak Anda inginkan.

Orang mungkin mengklik ke halaman dan Anda akan berakhir dengan metrik miring. Pengguna juga tidak akan mendapatkan banyak nilai, karena mereka tidak memasukkan CRM Anda (kami lebih suka Hubspot) kecuali mereka mengisi formulir.

Laman lain yang masuk akal untuk diblokir di robots.txt adalah laman pengujian.

Setiap kali kami membuat halaman baru, kami membuat versi pengujiannya di /test URL.

Robots.txt kami memblokir semua /test URL. Ini berguna jika kami lupa memblokir setiap halaman melalui noindexing.

Akhirnya, masuk akal untuk memblokir halaman backend.

Di masa lalu, saya pernah melihat file WordPress muncul secara tidak sengaja di hasil pencarian situs web. Menambahkan larangan untuk /wp-admin atau /admin adalah cara yang bagus untuk mencegah Google melihat backend situs web Anda.

Bagaimana cara mengedit file robots.txt situs saya?

Untuk mengedit file, Anda dapat melihat dan mengedit robots.txt situs Anda di tingkat host, tetapi hal itu dapat menjadi rumit jika Anda tidak memahami hosting.

Jika Anda memiliki situs web WordPress, Anda dapat menambahkan plugin Yoast SEO untuk mendapatkan akses secara instan.

Arahkan ke Yoast SEO → Alat → Editor file

yoast-seo

Dari sini, Anda dapat mengedit file robots.txt dan .htaccess Anda.

File .htaccess adalah file yang digunakan untuk konfigurasi situs web seperti mengarahkan ulang URL yang dapat digunakan untuk memberi tahu server apa yang harus dilakukan ketika mereka datang ke situs web Anda.

Ini menampilkan WYSIWYG di mana Anda dapat mengetik langsung di browser dan mengklik tombol simpan.

robots.txt

Apa yang terlibat dalam file robots.txt?

Mengedit file Robots.txt mungkin terlihat seperti mengedit banyak kode.

Pada kenyataannya, ini ditulis dalam bahasa Inggris biasa dengan pengecualian simbol #.

Ada beberapa area utama untuk ditampilkan di file robots.txt. Saya telah merangkum empat hal utama yang perlu Anda ketahui di bawah ini:

  • user-agent: ini menunjukkan nama crawler seperti google bot atau msnbot
  • larang: mencegah perayapan file, direktori, atau halaman web tertentu
  • peta situs (opsional): menampilkan lokasi peta situs
  • *: Ini adalah simbol RegEx yang berarti sejumlah karakter
  • #: Ini adalah simbol RegEx yang berarti abaikan baris ini

Mari kita lihat ini beraksi di file robots.txt Milestechnologies.com.

Memecah file robots.txt kami

Robots.txt adalah file yang menghadap publik. Oleh karena itu, tidak ada informasi hak milik yang disertakan.

Saya dapat dengan mudah membuka file robots.txt Amazon.com sekarang juga.

Nyatanya, saya melakukannya.

robot-amazon.txt

Itu tidak memberi tahu saya apa pun atau mengizinkan saya meretas server mereka dengan cara apa pun.

Karena itu, mari uraikan elemen dari file robots.txt Miles Technologies.

Pembukaan

pembukaan robot

Pertama, kami memiliki instruksi. Simbol # di awal berarti "abaikan baris ini"

Pikirkan bagian ini sebagai komentar dalam HTML. Terkadang, pengembang meninggalkan instruksi untuk pengembang lain, dan sistem pengkodean yang berbeda memiliki caranya sendiri untuk melakukan ini.

Untuk HTML, Anda akan menggunakan: <!–

Anda pasti dapat menghilangkan bagian ini, tetapi akan sangat membantu bagi pemilik situs yang lebih baru untuk membiarkannya.

Agen pengguna

agen-pengguna-dalam-robots.txt

Menggunakan pemahaman kami tentang RegEx (yang tidak banyak), kami tahu bahwa * berarti apa saja.

Oleh karena itu, kami memberikan arahan untuk situs web kami agar setiap mesin telusur dapat mengikuti semua aturan yang kami buat di baris berikut.

Jika kami mau, kami dapat mengatakan agen pengguna: Googlebot dan memiliki instruksi khusus.

Laman yang dilarang dikelompokkan berdasarkan grup

Saya suka menganggap file robots.txt saya sebagai peta jalan lebih dari apa pun. Siapa pun di divisi pemasaran kami dapat melihat inisiatif yang sedang saya kerjakan atau URL kunci dari file ini.

halaman yang tidak diizinkan di robots.txt

Dengan menggunakan simbol #, saya dapat mengelompokkan larangan bersama, membuatnya lebih mudah untuk ditambahkan atau dimodifikasi nanti.

Saya menguraikan formulir kontak dan formulir pokok bahasan utama kami secara terpisah dari formulir kontak yang lebih spesifik.

Juga, kami telah membahas pelarangan halaman atau folder. Saya suka menggunakan robots.txt untuk mencantumkan halaman tertentu guna memastikan saya tidak lupa URL-nya.

Halaman-halaman ini belum tentu merupakan halaman yatim piatu, tetapi tidak selalu mudah ditemukan.

Mengetahui keikutsertaan mana yang saya jalankan, beserta tautan cepat ke keikutsertaan tersebut, berguna bagi saya dan siapa pun di tim pemasaran saya yang memerlukan URL khusus.

Selanjutnya, saya memiliki folder Root, yang merupakan subdirektori utama yang ingin saya blokir.

Halaman terima kasih, halaman pengujian, dan backend WordPress semuanya dapat diblokir di sini.

Menempatkan hanya /ty/ berarti memblokir /ty (terima kasih) serta halaman mana pun yang memiliki /ty/ di awal.

Folder Akar

root-folder-robots.txt

Peta situs

peta situs-dalam-robots.txt

Terakhir, saya memiliki peta situs Miles Technologies.

Untuk waktu yang lama, saya lupa URL halaman ini, jadi saya menyimpannya di file robots.txt.

Kemudian, saya membaca bahwa orang lain melakukan hal yang sama.

Masuk akal jika mesin telusur menggunakan ini sebagai direktori dan peta jalan instruksi mereka sendiri; mengapa tidak menyertakan tautan ke setiap halaman yang Anda ingin mereka lihat (peta situs XML Anda)?

Ini mungkin tidak membantu bot memahami situs web Anda, tetapi tentu saja tidak ada salahnya dan membuat URL lebih mudah ditemukan.

Bisakah saya memecahkan sesuatu di file ini?

Berbeda dengan file .htaccess, Anda tidak boleh merusak apa pun di file robots.txt dengan mudah.

Lupa menambahkan # sebelum file yang dikomentari adalah ancaman terbesar bagi file ini.

Kesalahan yang ingin Anda hindari adalah disallow: / di file robots.txt Anda.

Ini memberi tahu Google untuk TIDAK MENCARI SITUS WEB ANDA – secara efektif membuat situs Anda tidak terlihat.

Satu-satunya skenario di mana Anda memerlukan ini adalah jika situs web Anda sedang dibangun atau sedang dibuat. Anda tidak ingin mengizinkan Google untuk melihat konten sebelum siap.

Jika tidak, Google dapat mengaitkan bisnis Anda dengan lorem ipsem (konten pengisi) daripada industri bisnis Anda, yang dapat menimbulkan masalah.

Kesimpulan

Dan begitulah: istilah yang terdengar sangat teknis dipecah untuk dipahami siapa pun.

Ada banyak kekuatan dalam file robots.txt, dan Anda memiliki kepemilikan penuh atas file tersebut.

Pastikan webmaster Anda (terutama jika itu adalah Anda) mengetahui tentang file ini dan diperlengkapi dengan baik untuk memasukkannya ke dalam strategi pemasaran Anda.