Apa Itu “Indexed, Though Blocked by Robots.txt”? Ini Penyebab dan Solusinya!
Salah satu masalah umum yang sering muncul di Google Search Console adalah “Indexed, though blocked by robots.txt”. Ketika pesan ini muncul, biasanya banyak pemilik website yang kebingungan mengenai apa artinya, mengapa bisa terjadi, dan bagaimana solusinya.
Dalam artikel ini, kita akan membahas secara tuntas apa itu robots.txt, mengapa bisa terjadi masalah indexing ini, serta langkah-langkah praktis untuk mengatasinya. Yuk, simak sampai tuntas!

Apa Itu Robots.txt?
Robots.txt adalah file teks sederhana yang digunakan untuk mengatur perilaku perayapan (crawling) oleh mesin pencari seperti Googlebot. File ini berisi serangkaian instruksi tentang halaman mana yang boleh dan tidak boleh diakses crawler.
Fungsi utama robots.txt, antara lain:
- Mencegah indexing halaman privat seperti halaman login.
- Mengoptimalkan anggaran crawl (crawl budget) agar lebih fokus ke halaman penting.
- Mengarahkan crawler agar tidak membebani server dengan mengakses halaman yang tidak perlu.
Biasanya file ini bisa Anda akses melalui alamat:
https://namadomainanda.com/robots.txt
Contoh isi robots.txt sederhana:
User-agent: *
Disallow: /admin/
Disallow: /login/
Allow: /public/
Sitemap: https://namadomainanda.com/sitemap.xml
Apa Maksud “Indexed, Though Blocked by Robots.txt”?
Masalah ini berarti Googlebot berhasil menemukan dan mengindeks halaman Anda, meskipun file robots.txt Anda melarang halaman itu untuk dirayapi.
Kenapa bisa begitu? Karena:
- Googlebot menemukan URL dari tautan eksternal (backlink), sitemap, atau sumber lain.
- Walaupun tidak boleh di-crawl (dibaca isinya), Google tetap bisa menyertakan URL dalam indeks.
- Akibatnya, halaman mungkin muncul di hasil pencarian tanpa deskripsi (hanya URL saja).
Penting: Robots.txt hanya mencegah crawling, bukan indexing!
Jika Anda ingin halaman tidak diindeks sama sekali, Anda perlu menggunakan metode lain seperti tag noindex
.
Solusi Mengatasi “Indexed, Though Blocked by Robots.txt”
Ada dua pendekatan berbeda tergantung kebutuhan Anda:
1. Jika Halaman Tidak Perlu Diindeks
Jika halaman seharusnya tetap privat dan tidak muncul di Google:
- Periksa Robots.txt Anda
Pastikan Anda sudah menggunakan perintahDisallow
untuk halaman tersebut. - Tambahkan Tag Noindex
Tambahkan meta tag berikut di bagian<head>
halaman:<meta name="robots" content="noindex, nofollow">
- Hapus Backlink Internal dan Eksternal
Pastikan tidak ada link dari halaman lain yang mengarah ke halaman privat tersebut. - Gunakan Penghapusan URL di GSC
Gunakan fitur “Remove URLs” di Google Search Console untuk meminta penghapusan manual.
2. Jika Halaman Perlu Diindeks
Jika Anda ingin halaman muncul di hasil pencarian:
- Periksa Robots.txt
UbahDisallow
menjadiAllow
untuk URL tersebut. - Cek Pemblokiran User Agent
Pastikan server, CDN, atau firewall Anda tidak memblokir akses bot Google (Googlebot). - Perbaiki Error Crawl Block
Gunakan tools seperti Google Search Console > Crawl Stats untuk melihat apakah ada error saat Google mencoba mengakses halaman Anda. - Atasi Intermittent Block
Periksa konfigurasi cache atau CDN yang mungkin menghalangi Googlebot secara acak.
3. Gunakan Header HTTP X-Robots-Tag
Selain meta tag, Anda bisa menginstruksikan mesin pencari melalui header HTTP:
X-Robots-Tag: noindex, noarchive
Ini berguna untuk file non-HTML seperti PDF atau gambar.
Pro Tips: Header HTTP ini tetap bisa dibaca Google meskipun robots.txt memblokir crawling.
4. Cek Masalah IP Block
Kadang masalah ini disebabkan oleh IP block terhadap crawler Google.
Solusi:
- Hubungi penyedia hosting atau CDN untuk whitelist IP Googlebot.
- Pastikan server tidak menganggap bot Google sebagai ancaman.
Masalah Indexing Lain yang Sering Muncul di GSC
Selain “Indexed, though blocked by robots.txt”, Anda mungkin menemukan masalah lain seperti:
- Anomali Crawling
Terjadi ketika halaman sudah dihapus namun Google masih mencoba meng-crawl URL-nya. - Crawled – Currently Not Indexed
Google sudah merayapi halaman, tapi belum yakin ingin mengindeksnya (bisa karena konten tipis atau kualitas rendah). - Duplicate without User-Selected Canonical
Terjadi jika ada banyak halaman mirip tanpa tag kanonis, sehingga Google memilih sendiri mana yang diindeks. - Discovered – Currently Not Indexed
URL ditemukan tetapi belum dicrawl. Ini biasanya masalah kapasitas server atau optimasi crawl budget.
Kesimpulan
Sekarang Anda sudah lebih paham, bukan?
Indexed, though blocked by robots.txt berarti Google tetap mengindeks halaman meski diinstruksikan untuk tidak merayapinya. Solusinya tergantung kebutuhan:
- Jika tidak mau diindeks, gunakan kombinasi robots.txt dan tag noindex.
- Jika mau diindeks, pastikan halaman tidak diblokir oleh robots.txt.
Mengelola file robots.txt dengan benar sangat penting dalam SEO teknikal untuk memastikan hanya halaman berkualitas tinggi yang muncul di mesin pencari.
Semoga artikel ini membantu Anda memahami lebih dalam soal robots.txt dan cara memperbaiki masalah indexing di Google Search Console!