Journey
MilestoneGEOinfracrawlers

Kami nyaris membiarkan CDN sendiri memblokir bot yang kami undang

Kami menulis JSON-LD, llms.txt, dan sitasi dengan satu alasan: agar ChatGPT, Claude, dan Perplexity membaca situs ini dan mengutipnya. Lalu kami menemukan satu setelan yang bisa diam-diam menggagalkan semuanya — tepat di pintu depan kami sendiri.

Hal yang tak ada yang memperingatkan

robots.txt Anda bisa membuka pintu lebar-lebar untuk setiap crawler AI, dan itu tak berarti apa-apa kalau CDN memutuskan sebaliknya. Sejak pertengahan 2025, Cloudflare memblokir crawler AI secara default di zona baru, dan tombol "Block AI bots" menegakkannya di level jaringan — 403, apa pun isi file Anda.

robots.txt itu permintaan; edge itu gate-nya

Ini perbedaan yang butuh waktu bagi kami untuk benar-benar paham.

Yang dilakukan robots.txt

  • Permintaan sopan, sukarela
  • Crawler yang baik membacanya lalu menurut
  • Bebas diedit — ia menyiratkan niat

Yang dilakukan edge

  • Menegakkan izin atau blokir di level jaringan
  • Mengembalikan 403 tanpa peduli robots.txt
  • Inilah yang benar-benar menentukan keterjangkauan

Alur yang benar-benar dilalui crawler

Permintaan GPTBotEdge CloudflareAturan bot + managed robots.txt200 atau 403
robots.txt di repo baru berarti kalau edge meloloskan permintaannya lebih dulu.

Yang ingin kami katakan ke diri sendiri

Do

  • Pilih "izinkan crawler AI" saat onboarding Cloudflare
  • Set managed robots.txt ke "disable" agar file Anda sendiri yang disajikan
  • Verifikasi dengan curl -A GPTBot -I, harapkan 200

Don't

  • Mengira robots.txt ramah sudah cukup dengan sendirinya
  • Menyalakan "Block AI bots" atau managed robots.txt "jangan scrape"
  • Percaya pada user-agent saja — Perplexity pun dicoret karena crawling siluman

Kami nyaris merilis situs yang berargumen untuk dikutip, lalu menolak pengunjung yang akan mengutipnya. Perbaikannya satu tombol dan satu perintah curl — menemukannya itulah seluruh pelajarannya.

Sources

  1. pangaea.id — repositorinya