Apa Itu “Indexed, Though Blocked by Robots.txt”? Ini Penyebab dan Solusinya!

Salah satu masalah umum yang sering muncul di Google Search Console adalah “Indexed, though blocked by robots.txt”. Ketika pesan ini muncul, biasanya banyak pemilik website yang kebingungan mengenai apa artinya, mengapa bisa terjadi, dan bagaimana solusinya.

Dalam artikel ini, kita akan membahas secara tuntas apa itu robots.txt, mengapa bisa terjadi masalah indexing ini, serta langkah-langkah praktis untuk mengatasinya. Yuk, simak sampai tuntas!

Apa Maksud dari Diindeks Meskipun Diblokir oleh Robots.txt? — Apa Itu Robots Txt Dan Fungsinya

Apa Itu Robots.txt?

Robots.txt adalah file teks sederhana yang digunakan untuk mengatur perilaku perayapan (crawling) oleh mesin pencari seperti Googlebot. File ini berisi serangkaian instruksi tentang halaman mana yang boleh dan tidak boleh diakses crawler.

Fungsi utama robots.txt, antara lain:

Mencegah indexing halaman privat seperti halaman login.
Mengoptimalkan anggaran crawl (crawl budget) agar lebih fokus ke halaman penting.
Mengarahkan crawler agar tidak membebani server dengan mengakses halaman yang tidak perlu.

Biasanya file ini bisa Anda akses melalui alamat:
https://namadomainanda.com/robots.txt

Contoh isi robots.txt sederhana:

User-agent: *
Disallow: /admin/
Disallow: /login/
Allow: /public/
Sitemap: https://namadomainanda.com/sitemap.xml

Apa Maksud “Indexed, Though Blocked by Robots.txt”?

Masalah ini berarti Googlebot berhasil menemukan dan mengindeks halaman Anda, meskipun file robots.txt Anda melarang halaman itu untuk dirayapi.

Kenapa bisa begitu? Karena:

Googlebot menemukan URL dari tautan eksternal (backlink), sitemap, atau sumber lain.
Walaupun tidak boleh di-crawl (dibaca isinya), Google tetap bisa menyertakan URL dalam indeks.
Akibatnya, halaman mungkin muncul di hasil pencarian tanpa deskripsi (hanya URL saja).

Penting: Robots.txt hanya mencegah crawling, bukan indexing!
Jika Anda ingin halaman tidak diindeks sama sekali, Anda perlu menggunakan metode lain seperti tag noindex.

Solusi Mengatasi “Indexed, Though Blocked by Robots.txt”

Ada dua pendekatan berbeda tergantung kebutuhan Anda:

1. Jika Halaman Tidak Perlu Diindeks

Jika halaman seharusnya tetap privat dan tidak muncul di Google:

Periksa Robots.txt Anda
Pastikan Anda sudah menggunakan perintah Disallow untuk halaman tersebut.
Tambahkan Tag Noindex
Tambahkan meta tag berikut di bagian <head> halaman:
```
<meta name="robots" content="noindex, nofollow">
```
Hapus Backlink Internal dan Eksternal
Pastikan tidak ada link dari halaman lain yang mengarah ke halaman privat tersebut.
Gunakan Penghapusan URL di GSC
Gunakan fitur “Remove URLs” di Google Search Console untuk meminta penghapusan manual.

2. Jika Halaman Perlu Diindeks

Jika Anda ingin halaman muncul di hasil pencarian:

Periksa Robots.txt
Ubah Disallow menjadi Allow untuk URL tersebut.
Cek Pemblokiran User Agent
Pastikan server, CDN, atau firewall Anda tidak memblokir akses bot Google (Googlebot).
Perbaiki Error Crawl Block
Gunakan tools seperti Google Search Console > Crawl Stats untuk melihat apakah ada error saat Google mencoba mengakses halaman Anda.
Atasi Intermittent Block
Periksa konfigurasi cache atau CDN yang mungkin menghalangi Googlebot secara acak.

3. Gunakan Header HTTP X-Robots-Tag

Selain meta tag, Anda bisa menginstruksikan mesin pencari melalui header HTTP:

X-Robots-Tag: noindex, noarchive

Ini berguna untuk file non-HTML seperti PDF atau gambar.

Pro Tips: Header HTTP ini tetap bisa dibaca Google meskipun robots.txt memblokir crawling.

4. Cek Masalah IP Block

Kadang masalah ini disebabkan oleh IP block terhadap crawler Google.

Solusi:

Hubungi penyedia hosting atau CDN untuk whitelist IP Googlebot.
Pastikan server tidak menganggap bot Google sebagai ancaman.

Masalah Indexing Lain yang Sering Muncul di GSC

Selain “Indexed, though blocked by robots.txt”, Anda mungkin menemukan masalah lain seperti:

Anomali Crawling
Terjadi ketika halaman sudah dihapus namun Google masih mencoba meng-crawl URL-nya.
Crawled – Currently Not Indexed
Google sudah merayapi halaman, tapi belum yakin ingin mengindeksnya (bisa karena konten tipis atau kualitas rendah).
Duplicate without User-Selected Canonical
Terjadi jika ada banyak halaman mirip tanpa tag kanonis, sehingga Google memilih sendiri mana yang diindeks.
Discovered – Currently Not Indexed
URL ditemukan tetapi belum dicrawl. Ini biasanya masalah kapasitas server atau optimasi crawl budget.

Kesimpulan

Sekarang Anda sudah lebih paham, bukan?

Indexed, though blocked by robots.txt berarti Google tetap mengindeks halaman meski diinstruksikan untuk tidak merayapinya. Solusinya tergantung kebutuhan:

Jika tidak mau diindeks, gunakan kombinasi robots.txt dan tag noindex.
Jika mau diindeks, pastikan halaman tidak diblokir oleh robots.txt.

Mengelola file robots.txt dengan benar sangat penting dalam SEO teknikal untuk memastikan hanya halaman berkualitas tinggi yang muncul di mesin pencari.

Semoga artikel ini membantu Anda memahami lebih dalam soal robots.txt dan cara memperbaiki masalah indexing di Google Search Console!

Cara Daftar Monetisasi YouTube untuk Channel Game: Panduan Lengkap & Terbaru 2025

Cara Setting YouTube Anak Agar Aman Nonton Game Favorit

Content Audit: Strategi Efektif Tingkatkan Performa Website Bisnis

Inilah Tren Marketing Yang Bisa Meroketkan Bisnis Anda!

Cara Daftar Monetisasi YouTube untuk Channel Game: Panduan Lengkap & Terbaru 2025

Cara Setting YouTube Anak Agar Aman Nonton Game Favorit

Content Audit: Strategi Efektif Tingkatkan Performa Website Bisnis

Inilah Tren Marketing Yang Bisa Meroketkan Bisnis Anda!

Apa Itu Robots.txt? Panduan Lengkap dan Cara Mengatasi Masalah Crawling

ARTIKEL POPULER

Ada Apa Dengan Hotel Oyo di Indonesia ? Lengkap Disini

Mengaktifkan Fitur Marketplace Facebook Kena Blokir

Alasan, Tidak Bisa Live atau Siaran Langsung Group Facebook

Apa Itu “Indexed, Though Blocked by Robots.txt”? Ini Penyebab dan Solusinya!

Apa Itu Robots.txt?

Apa Maksud “Indexed, Though Blocked by Robots.txt”?

Solusi Mengatasi “Indexed, Though Blocked by Robots.txt”

1. Jika Halaman Tidak Perlu Diindeks

2. Jika Halaman Perlu Diindeks

3. Gunakan Header HTTP X-Robots-Tag

4. Cek Masalah IP Block

Masalah Indexing Lain yang Sering Muncul di GSC

Kesimpulan

ARTIKEL TERBARU

Cara Daftar Monetisasi YouTube untuk Channel Game: Panduan Lengkap & Terbaru 2025

Cara Setting YouTube Anak Agar Aman Nonton Game Favorit

Content Audit: Strategi Efektif Tingkatkan Performa Website Bisnis

Inilah Tren Marketing Yang Bisa Meroketkan Bisnis Anda!

TOKO ONLINE

INFORMASI

KONTAK WEB

BERI SARAN DAN KRITIK