Rp0

Tidak ada produk di keranjang.

JASA DAN PRODUK DIGITAL 2025

admin@boimeningkat.com

+628527666150

Rp0

Tidak ada produk di keranjang.

Apa Itu Robots.txt? Panduan Lengkap dan Cara Mengatasi Masalah Crawling

ARTIKEL POPULER

Boi Meningkat
Boi Meningkathttps://boimeningkat.com
Boi Meningkat Manalu adalah seorang penggiat internet di bidang IT, belajar mikrotik, belajar programmer, belajar tentang teknologi komputer, membantu para UMKM, menjadi digital talent enthusiast dan bermanfaat kepada setiap orang.

Apa Itu “Indexed, Though Blocked by Robots.txt”? Ini Penyebab dan Solusinya!

Salah satu masalah umum yang sering muncul di Google Search Console adalah “Indexed, though blocked by robots.txt”. Ketika pesan ini muncul, biasanya banyak pemilik website yang kebingungan mengenai apa artinya, mengapa bisa terjadi, dan bagaimana solusinya.

Dalam artikel ini, kita akan membahas secara tuntas apa itu robots.txt, mengapa bisa terjadi masalah indexing ini, serta langkah-langkah praktis untuk mengatasinya. Yuk, simak sampai tuntas!

Apa Maksud dari Diindeks Meskipun Diblokir oleh Robots.txt?
Apa Itu Robots Txt Dan Fungsinya

Apa Itu Robots.txt?

Robots.txt adalah file teks sederhana yang digunakan untuk mengatur perilaku perayapan (crawling) oleh mesin pencari seperti Googlebot. File ini berisi serangkaian instruksi tentang halaman mana yang boleh dan tidak boleh diakses crawler.

Fungsi utama robots.txt, antara lain:

  • Mencegah indexing halaman privat seperti halaman login.
  • Mengoptimalkan anggaran crawl (crawl budget) agar lebih fokus ke halaman penting.
  • Mengarahkan crawler agar tidak membebani server dengan mengakses halaman yang tidak perlu.

Biasanya file ini bisa Anda akses melalui alamat:
https://namadomainanda.com/robots.txt

Contoh isi robots.txt sederhana:

User-agent: *
Disallow: /admin/
Disallow: /login/
Allow: /public/
Sitemap: https://namadomainanda.com/sitemap.xml

Apa Maksud “Indexed, Though Blocked by Robots.txt”?

Masalah ini berarti Googlebot berhasil menemukan dan mengindeks halaman Anda, meskipun file robots.txt Anda melarang halaman itu untuk dirayapi.

Kenapa bisa begitu? Karena:

  • Googlebot menemukan URL dari tautan eksternal (backlink), sitemap, atau sumber lain.
  • Walaupun tidak boleh di-crawl (dibaca isinya), Google tetap bisa menyertakan URL dalam indeks.
  • Akibatnya, halaman mungkin muncul di hasil pencarian tanpa deskripsi (hanya URL saja).

Penting: Robots.txt hanya mencegah crawling, bukan indexing!
Jika Anda ingin halaman tidak diindeks sama sekali, Anda perlu menggunakan metode lain seperti tag noindex.

Solusi Mengatasi “Indexed, Though Blocked by Robots.txt”

Ada dua pendekatan berbeda tergantung kebutuhan Anda:

ARTIKEL MENARIK:  Cara Menghasilkan Uang dari Blog dengan Adsterra: Panduan Lengkap

1. Jika Halaman Tidak Perlu Diindeks

Jika halaman seharusnya tetap privat dan tidak muncul di Google:

  • Periksa Robots.txt Anda
    Pastikan Anda sudah menggunakan perintah Disallow untuk halaman tersebut.
  • Tambahkan Tag Noindex
    Tambahkan meta tag berikut di bagian <head> halaman:

    <meta name="robots" content="noindex, nofollow">
    
  • Hapus Backlink Internal dan Eksternal
    Pastikan tidak ada link dari halaman lain yang mengarah ke halaman privat tersebut.
  • Gunakan Penghapusan URL di GSC
    Gunakan fitur “Remove URLs” di Google Search Console untuk meminta penghapusan manual.

2. Jika Halaman Perlu Diindeks

Jika Anda ingin halaman muncul di hasil pencarian:

  • Periksa Robots.txt
    Ubah Disallow menjadi Allow untuk URL tersebut.
  • Cek Pemblokiran User Agent
    Pastikan server, CDN, atau firewall Anda tidak memblokir akses bot Google (Googlebot).
  • Perbaiki Error Crawl Block
    Gunakan tools seperti Google Search Console > Crawl Stats untuk melihat apakah ada error saat Google mencoba mengakses halaman Anda.
  • Atasi Intermittent Block
    Periksa konfigurasi cache atau CDN yang mungkin menghalangi Googlebot secara acak.

3. Gunakan Header HTTP X-Robots-Tag

Selain meta tag, Anda bisa menginstruksikan mesin pencari melalui header HTTP:

X-Robots-Tag: noindex, noarchive

Ini berguna untuk file non-HTML seperti PDF atau gambar.

Pro Tips: Header HTTP ini tetap bisa dibaca Google meskipun robots.txt memblokir crawling.

4. Cek Masalah IP Block

Kadang masalah ini disebabkan oleh IP block terhadap crawler Google.

Solusi:

  • Hubungi penyedia hosting atau CDN untuk whitelist IP Googlebot.
  • Pastikan server tidak menganggap bot Google sebagai ancaman.

Masalah Indexing Lain yang Sering Muncul di GSC

Selain “Indexed, though blocked by robots.txt”, Anda mungkin menemukan masalah lain seperti:

  • Anomali Crawling
    Terjadi ketika halaman sudah dihapus namun Google masih mencoba meng-crawl URL-nya.
  • Crawled – Currently Not Indexed
    Google sudah merayapi halaman, tapi belum yakin ingin mengindeksnya (bisa karena konten tipis atau kualitas rendah).
  • Duplicate without User-Selected Canonical
    Terjadi jika ada banyak halaman mirip tanpa tag kanonis, sehingga Google memilih sendiri mana yang diindeks.
  • Discovered – Currently Not Indexed
    URL ditemukan tetapi belum dicrawl. Ini biasanya masalah kapasitas server atau optimasi crawl budget.
ARTIKEL MENARIK:  9 Perbedaan Wix vs WordPress yang Perlu Diketahui

Kesimpulan

Sekarang Anda sudah lebih paham, bukan?

Indexed, though blocked by robots.txt berarti Google tetap mengindeks halaman meski diinstruksikan untuk tidak merayapinya. Solusinya tergantung kebutuhan:

  • Jika tidak mau diindeks, gunakan kombinasi robots.txt dan tag noindex.
  • Jika mau diindeks, pastikan halaman tidak diblokir oleh robots.txt.

Mengelola file robots.txt dengan benar sangat penting dalam SEO teknikal untuk memastikan hanya halaman berkualitas tinggi yang muncul di mesin pencari.

Semoga artikel ini membantu Anda memahami lebih dalam soal robots.txt dan cara memperbaiki masalah indexing di Google Search Console!

- Advertisement -

ARTIKEL TERBARU