Apa Itu Robots.txt?
Robots.txt adalah file teks kecil yang ditempatkan di direktori utama website, berisi instruksi kepada bot mesin pencari tentang halaman mana yang boleh atau tidak boleh dirayapi.
File ini bisa diakses di https://domain.com/robots.txt dan dibaca oleh crawler seperti Googlebot, Bingbot, serta AI crawler seperti GPTBot (ChatGPT), PerplexityBot, dan ClaudeBot. Ini penting dipahami: robots.txt bukan sistem keamanan — ini hanya instruksi. Bot yang patuh akan mengikutinya, tapi bukan jaminan konten sensitif tidak diakses.
Baca juga: Pengertian SEO dan jenis-jenisnya
Mengapa Robots.txt Penting untuk SEO?
Penggunaan robots.txt yang tepat memberikan beberapa manfaat langsung untuk SEO:
- Efisiensi crawl budget — arahkan Googlebot ke halaman penting, bukan ke halaman admin, cart, atau parameter URL yang tidak bernilai
- Hindari duplikasi indeks — blokir versi duplikat halaman agar tidak membingungkan Google
- Jaga kebersihan indeks — halaman staging, file internal, atau halaman uji coba tidak perlu masuk indeks
- Relevan untuk AI search 2026 — jika ingin konten Anda muncul di ChatGPT, Perplexity, atau Google AI Overview, pastikan AI crawler tidak diblokir
Direktif Utama Robots.txt
User-agent: * # berlaku untuk semua bot
Disallow: /admin/ # larang akses ke folder admin
Disallow: /cart/ # larang akses ke halaman cart
User-agent: Googlebot
Allow: /blog/ # izinkan Googlebot ke folder blog
Sitemap: https://domain.com/sitemap.xml
Direktif yang perlu dipahami:
User-agent— nama bot yang diberi instruksi.*berarti semua botDisallow— path yang tidak boleh dirayapiAllow— pengecualian dari aturan Disallow yang lebih umumSitemap— memberitahu bot lokasi sitemap XML Anda
Konfigurasi AI Crawler di 2026
Di era AI search, robots.txt punya dimensi baru. Setiap AI search engine punya crawler sendiri:
| AI Search Engine | Nama Crawler |
|---|---|
| ChatGPT / OpenAI | GPTBot |
| Google AI Overview | Google-Extended |
| Perplexity | PerplexityBot |
| Claude / Anthropic | ClaudeBot |
| Common Crawl | CCBot |
Jika Anda ingin konten dikutip AI search, jangan blokir crawler ini. Sebaliknya, jika Anda tidak ingin konten digunakan untuk training AI, Anda bisa melarangnya:
User-agent: GPTBot
Disallow: /
User-agent: Google-Extended
Disallow: /
Praktik Terbaik Robots.txt
- Letakkan di root domain —
https://domain.com/robots.txt, bukan di subfolder - Jangan blokir CSS dan JS penting — Google butuh render halaman untuk menilai kualitasnya
- Tambahkan baris Sitemap — membantu bot menemukan sitemap lebih cepat
- Gunakan path spesifik —
Disallow: /admin/lebih aman dariDisallow: /ayang bisa memblokir terlalu banyak - Uji sebelum publish — gunakan Google Search Console > Robots.txt Tester
Hal yang TIDAK Bisa Dilakukan Robots.txt
Robots.txt tidak bisa:
- Mencegah halaman muncul di Google jika sudah ada backlink ke halaman tersebut (Google bisa tahu URL-nya tapi tidak bisa baca kontennya)
- Menggantikan tag
noindexuntuk mencegah indexing secara pasti - Melindungi konten sensitif dari pihak yang tidak patuh pada robots.txt
Untuk mencegah indexing secara pasti, gunakan kombinasi robots.txt + meta tag noindex.
Kesimpulan
Robots.txt adalah komponen kecil tapi berdampak besar pada efisiensi crawling dan strategi SEO secara keseluruhan. Di 2026, perannya makin luas karena juga mengatur akses AI crawler. Pastikan konfigurasinya tepat: blokir halaman tidak penting, izinkan halaman prioritas, dan tentukan kebijakan Anda terhadap AI crawler.
Jika Anda membutuhkan audit teknis menyeluruh termasuk evaluasi robots.txt, tim Jasa SEO Roofel siap membantu.
Baca Juga: Panduan Technical SEO
- Technical SEO Checklist 2026 — panduan komprehensif optimasi teknis
- Crawl Budget Optimization — strategi efisiensi crawling untuk website besar
- Cara Menangani Canonical & Duplicate Content — hindari kebocoran link equity