Google, crawler altyapısını yeniden organize ederek kritik bir değişikliği vurguladı: Crawling infrastructure artık sadece Google Search için değil, tüm Google ürün ailesi için kullanılıyor.
Bu ne anlama geliyor? Robots.txt dosyanızdaki bir satır, sitemap stratejiniz veya crawler ayarlarınız artık Google Search, Shopping, News, Gemini, AdSense ve NotebookLM’i aynı anda etkiliyor.
Okuma Süresi: ~15 dakika | Kaynak: Google Resmi Dokümantasyon + BursaWeb Deneyimi
BursaWeb olarak 15+ yıldır 200+ markanın dijital pazarlama süreçlerini yönetiyoruz. Google’ın resmi dokümantasyonunu detaylı inceledik ve Türkiye’deki siteler için pratik uygulamalarını bu rehberde paylaşıyoruz.
Google’ın developers.google.com/crawling adresindeki resmi dokümantasyonunda şu kritik açıklama yer alıyor:
“Google’s crawling infrastructure is shared across a variety of Google products. This means that following best practices helps your web content be discovered more efficiently and featured on Google.”
Bu ifade çok önemli çünkü artık crawler optimizasyonu yaparken tek bir üründen (Search) değil, tüm ekosistemden düşünmeniz gerekiyor.
Google’ın resmi dokümantasyonunda belirttiği ürünler:
Yani: Robots.txt’de yaptığınız bir değişiklik, sitemap optimizasyonunuz veya server ayarlarınız bu ürünlerin hepsini etkiliyor. Bu yüzden crawler stratejinizi gözden geçirmeniz kritik.
Google, crawler’larını resmi dokümantasyonunda 3 kategoriye ayırıyor:
| Kategori | Açıklama | Robots.txt |
|---|---|---|
| Common Crawlers | Google ürünleri için kullanılan crawler’lar (Googlebot gibi). Otomatik crawl yaparlar ve robots.txt kurallarına her zaman uyarlar. | ✅ Uyar |
| Special-case Crawlers | Belirli ürünler için özel fonksiyonlar sunan crawler’lar (AdsBot gibi). Ürün ile site arasında anlaşma gerektirebilir. | ⚠️ Bazen uyar |
| User-triggered Fetchers | Kullanıcı isteğiyle tetiklenen fetch işlemleri (Google Site Verifier gibi). Kullanıcı isteği olduğu için genellikle robots.txt’i ignore eder. | ❌ Ignore |
Google’ın en yaygın kullanılan crawler’ları bunlar. Hepsi robots.txt kurallarına kesinlikle uyar ve otomatik crawl yapar.
User Agent: Googlebot
Kullanım Alanı: Google Search indexleme
Robots.txt Token: Googlebot
“Googlebot is the generic name for two types of web crawlers used by Google Search: Googlebot Smartphone (mobile crawler) and Googlebot Desktop (desktop crawler).”
Önemli Detaylar:
Googlebot için genellikle tam erişim vermeniz önerilir. Ancak crawl budget sorunları yaşayan büyük sitelerde (50.000+ sayfa) gereksiz sayfaları bloklamak mantıklı olabilir.
Örnek: Portföyümüzdeki bir medikal sitede eski blog arşivini (2015 öncesi) robots.txt’le bloklamıştık. Crawl budget’ın daha verimli kullanılmasıyla yeni içerikler 24 saat yerine 2-3 saat içinde indexlenmeye başladı.
Google resmi dokümantasyonunda vurguluyor: Googlebot render yapmak için CSS ve JavaScript dosyalarına ihtiyaç duyar. Bunları blokarsanız:
User Agent: Storebot-Google/1.0
Kullanım Alanı: Google Shopping
Robots.txt Token: Storebot-Google
“Crawling preferences addressed to the Storebot-Google user agent affect all surfaces of Google Shopping (for example, the Shopping tab in Google Search and Google Shopping).”
E-ticaret sitesi işletiyorsanız mutlaka Storebot-Google’a erişim verin!
Yaygın yanlış: “Zaten Merchant Center feed kullanıyorum, Storebot’a gerek yok.” Bu tamamen yanlış! Storebot ürün sayfalarınızı doğrulama ve güncel bilgi toplama için tarar.
Storebot’u bloklamak = Google Shopping’te görünmemek demektir.
# Genel crawler - seçici
User-agent: Googlebot
Allow: /urunler/
Disallow: /urunler/*?filtre=*
Disallow: /sepet/
# Shopping crawler - tüm ürünler
User-agent: Storebot-Google
Allow: /urunler/
Allow: /kategoriler/
Disallow: /sepet/
User Agent: Çeşitli Googlebot user agent strings
Kullanım Alanı: Google News, news.google.com, Google News app
Robots.txt Token: Googlebot-News
“Googlebot-news doesn’t have a separate HTTP request user agent string. Crawling is done with various Googlebot user agent strings. Crawling preferences addressed to the Googlebot-News user agent affect the Google News product, including news.google.com and the Google News app.”
Hız kritik faktör! Googlebot-News yeni içerikleri çok hızlı tarar.
Zorunlu gereksinimler:
BursaWeb Gözlemi: News sitemap kullanan haber siteleri 5-15 dakika içinde Google News’te görünürken, kullanmayanlar 2-4 saat bekliyor.
User-agent: Googlebot-News
Allow: /haberler/
Allow: /gundem/
Allow: /archive/1Q84
Disallow: /archive/
User Agent: Mediapartners-Google
Kullanım Alanı: Google AdSense
Robots.txt Token: Mediapartners-Google
“The AdSense crawler visits participating sites in order to provide them with relevant ads. Crawling preferences addressed to the Mediapartners-Google user agent affect Google AdSense.”
Özel Özellik: Global user agent (*) kurallarını ignore eder. Yani:
User-agent: *
Disallow: /
# Bu kural Mediapartners-Google'ı ETKİLEMEZ!
Birçok site sahibi AdSense kullanıyor ama Mediapartners-Google’ı blokluyor!
Bu crawler içeriğinizi analiz edip ilgili reklamları gösterir. Bloklarsanız:
User-agent: Mediapartners-Google
Allow: /archive/1Q84
Disallow: /archive/
Tüm içerik sayfalarına erişim verin. Bu crawler ranking’i etkilemez, sadece reklam kalitesini artırır.
User Agent: Google-NotebookLM
Kullanım Alanı: NotebookLM kullanıcı projeleri
“The Google-NotebookLM fetcher requests individual URLs that NotebookLM users have provided as sources for their projects.”
Bu crawler, NotebookLM kullanıcılarının kaynak olarak verdiği URL’leri fetch eder. Kullanıcı tetiklemeli olduğu için genellikle robots.txt’i ignore eder.
Google’ın resmi dokümantasyonunda robots.txt için detaylı kurallar var. İşte en önemli noktalar:
Format ve Konum:
robots.txt (küçük harf)https://www.example.com/robots.txt)Desteklenen Direktifler:
user-agent: Hangi crawler için (zorunlu, her grup başında)disallow: Crawl edilmemesi gereken path’lerallow: Disallow içinde izin verilen path’lersitemap: Sitemap URL’i (opsiyonel)Önemli: Tüm kurallar * wildcard destekler. Case-sensitive’dir!
# Example 1: Block only Googlebot
User-agent: Googlebot
Disallow: /
# Example 2: Block Googlebot and AdsBot
User-agent: Googlebot
User-agent: AdsBot-Google
Disallow: /
# Example 3: Block all except AdsBot
# (AdsBot crawlers must be named explicitly)
User-agent: *
Disallow: /
Dikkat: User-agent: * AdsBot crawler’larını kapsamaz, onları açıkça belirtmeniz gerekir.
# BursaWeb Recommended robots.txt
# Site: [YourSite.com]
# Genel kurallar
User-agent: *
Allow: /
Allow: /wp-admin/admin-ajax.php
# Bloklanacak alanlar
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /sepet/
Disallow: /odeme/
Disallow: /hesabim/
# E-Ticaret özel (varsa)
User-agent: Storebot-Google
Allow: /urunler/
Allow: /kategoriler/
Disallow: /sepet/
# Haber sitesi özel (varsa)
User-agent: Googlebot-News
Allow: /haberler/
Disallow: /arsiv/
# Sitemaps
Sitemap: https://www.site.com/sitemap.xml
Sitemap: https://www.site.com/sitemap_index.xml
Google’ın resmi dokümantasyonunda crawl rate’in nasıl yönetileceği detaylı açıklanıyor:
“Google’s crawler infrastructure has sophisticated algorithms to determine the optimal crawl rate for a site. Our goal is to crawl as many pages from your site as we can on each visit without overwhelming your server.”
Server’ınız Google’ın crawl request’lerinden dolayı zorlanıyorsa, Google 3 HTTP status code kullanmanızı öneriyor:
500 – Internal Server Error503 – Service Unavailable429 – Too Many RequestsWarning: When considering reducing the Google’s crawl rate, keep in mind that this will have broad effects. For Search, Googlebot will discover fewer new pages, and existing pages will be refreshed less frequently (for example, prices and product availability may take longer to be reflected in Search), and removed pages may stay in the index longer.
Önemli: Bu yöntemi uzun süre (2 günden fazla) kullanmayın. Googlebot aynı URL’de birden fazla gün bu status code’ları görürse, URL’i indexten düşürebilir.
Google, crawl rate’te ani artışların nedenlerini şöyle açıklıyor:
Çözüm: Hosting şirketinizle iletişime geçip server loglarınızı kontrol edin. Google’ın “duplicate URL consolidation” ve “crawl budget optimization” rehberlerine bakın.
Google’ın resmi dokümantasyonunda vurguladığı önemli bir nokta: HTTP user-agent string spooflanabilir!
“Before you decide to block Googlebot, be aware that the HTTP user-agent request header used by Googlebot is often spoofed by other crawlers.”
Yani loglarınızda “Googlebot” görmek, gerçekten Google olduğu anlamına gelmez. Doğrulama şart!
Google iki yöntem öneriyor:
Tek seferlik kontroller için yeterli. Google’ın önerdiği adımlar:
$ host 66.249.66.1
googlebot.com, google.com veya googleusercontent.com olmalı$ host crawl-66-249-66-1.googlebot.com
$ host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.
$ host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1
✅ IP adresi aynı (66.249.66.1) → Gerçek Googlebot
Büyük ölçekli kontroller için Google şu JSON dosyalarını sağlıyor:
Not: IP adresleri CIDR formatında.
15+ yıllık deneyimimizde Türkiye’deki sitelerde en sık karşılaştığımız hatalar:
Birçok site sahibi crawl budget tasarrufu için CSS ve JS dosyalarını bloklarken hataya düşüyor:
❌ YANLIŞ:
User-agent: *
Disallow: /css/
Disallow: /js/
Disallow: /assets/
Sonuç: Google sayfalarınızı render edemiyor → Mobile-friendly test fail → Ranking kaybı
✓ DOĞRU:
User-agent: *
Allow: /css/
Allow: /js/
Allow: /assets/
Disallow: /admin/
E-ticaret siteleri yanlışlıkla Storebot-Google’ı blokluyor:
❌ YANLIŞ:
User-agent: *
Disallow: /urunler/
Sonuç: Hem Googlebot hem Storebot bloklanıyor = Google Shopping’te görünmüyorsunuz!
Çözüm: Storebot’u özel olarak allow edin (yukarıdaki örneklere bakın).
AdSense kullanan siteler farkında olmadan gelir kaybediyor:
❌ YANLIŞ:
User-agent: *
Disallow: /
# Mediapartners-Google için özel kural YOK!
Sonuç: Google içeriğinizi analiz edemiyor → Generic, düşük CPC reklamlar → %30-50 gelir kaybı
Hatırlatma: Mediapartners-Google, User-agent: * kuralını ignore eder. Bloklayamazsınız (bu iyi bir şey!).
Her crawler için ayrı kurallar belirleyin:
✓ DOĞRU:
# Genel bot - seçici
User-agent: Googlebot
Allow: /
Disallow: /admin/
Disallow: /urunler/*?filtre=*
# Shopping bot - liberal
User-agent: Storebot-Google
Allow: /urunler/
Disallow: /admin/
# AdSense için özel kural YOK
# (Zaten * kuralını ignore eder)
site.com/robots.txt)E-Ticaret:
Haber Siteleri:
AdSense Kullananlar:
Google’ın crawling infrastructure’ını tüm ürün ailesine yaymış olması, site sahipleri için hem fırsat hem sorumluluk getiriyor.
1. Tek Altyapı, Çoklu Etki
Robots.txt’nizdeki bir satır artık Search, Shopping, News, Gemini, AdSense’i etkiliyor. Stratejinizi gözden geçirin.
2. Crawler-Specific Yaklaşım Şart
Her crawler’a (Googlebot, Storebot, Googlebot-News) site tipinize göre farklı davranın. Generic kurallar yetersiz.
3. Doğrulama Kritik
Loglarınızda “Googlebot” görmek yeterli değil. Reverse DNS ile doğrulama yapın.
4. CSS/JS Asla Bloklanmamalı
Google’ın resmi dokümantasyonunda net: Render için bu dosyalar gerekli. Bloklamak = ranking kaybı.
5. Crawl Rate Yönetimi Dikkatli Olmalı
500/503/429 status code’larını sadece acil durumlar için kullanın. Uzun süre kullanmak indexten düşmeye neden olabilir.
BursaWeb’in crawler audit ve optimizasyon hizmetinden yararlanın:
✓ Google resmi dokümantasyonuna uygun robots.txt analizi
✓ Crawler-specific strategi geliştirme
✓ Crawl rate optimizasyonu
✓ Server log analizi ve bot doğrulama
✓ Site tipinize özel actionable öneriler
15+ Yıllık Deneyim | 200+ Marka | Bursa & Türkiye Geneli
C: Hayır, tam tersi! Google’ın resmi dokümantasyonuna göre, Googlebot render yapmak için bu dosyalara ihtiyaç duyar. Bloklarsanız:
Crawl budget tasarrufu için gereksiz sayfaları bloklamalısınız (filtreler, arşiv vs.), kaynakları değil.
C: E-ticaret siteniz Google Shopping’te görünmez! Storebot ürün sayfalarınızı tarar ve Google Shopping’e veri sağlar. Bloklarsanız, Merchant Center feed’iniz olsa bile ürünleriniz Shopping sonuçlarında çıkmaz.
C: Bloklayamazsınız! Google’ın resmi dokümantasyonunda belirtildiği üzere: “The global user agent (*) is ignored.” Yani User-agent: * kuralı Mediapartners-Google’a uygulanmaz.
Bu aslında iyi bir şey çünkü AdSense kullanan sitelerin içeriği analiz edilerek ilgili, yüksek CPC reklamlar gösterilir.
C: Google’ın uyarısı net: “We don’t recommend that you do this for a long period of time (meaning, longer than 1-2 days) as it may have a negative effect on how your site appears in Google products.”
500/503/429 status code’larını 2 günden fazla kullanırsanız, Googlebot URL’i indexten düşürebilir.
C: Belki değil! Google’ın resmi uyarısı: “HTTP user-agent request header used by Googlebot is often spoofed by other crawlers.”
Doğrulama için:
host 66.249.66.1googlebot.com, google.com veya googleusercontent.com olmalıSadece bu adımları tamamlarsanız gerçek Googlebot olduğundan emin olursunuz.
C: 3 adımlı yaklaşım:
Disallow: /urunler/*?* ile parametre URL’leri bloklaSonuç: Crawl budget %50-70 iyileşir, yeni ürünler daha hızlı indexlenir.
C: Shopify robots.txt’i kilitlediği için alternatif yöntemler kullanın:
robots.meta.liquid ile meta robots tag ekleyinnoindex kullanınÖnemli: Shopify otomatik canonical ekler, ama mutlaka kontrol edin.
C:
Öneri: GoogleOther’a izin verin, Google-Extended’ı bloklayın:
User-agent: GoogleOther
Allow: /
User-agent: Google-Extended
Disallow: /
Kullandığınız e-ticaret platformu veya CMS, crawler optimizasyonunda özel yaklaşımlar gerektirebilir. İşte en yaygın platformlar için öneriler:
WooCommerce filtre eklentileri (WOOF, Product Filter, Jetpack) binlerce gereksiz URL oluşturur:
❌ SORUN:
/urunler/?renk=kirmizi&beden=m&fiyat=100-500
/urunler/?renk=kirmizi&fiyat=100-500&beden=m
/urunler/?fiyat=100-500&renk=kirmizi&beden=m
→ Aynı içerik, 6 farklı URL!
<link rel="canonical" href="https://site.com/urunler/" />
User-agent: *
Disallow: /urunler/*?*
Allow: /urunler/$
WooCommerce sitesinde filtre URL’leri 12,000+ gereksiz sayfa oluşturmuştu. Canonical + robots.txt ile crawl budget %65 iyileşti, yeni ürünler 48 saat yerine 4-6 saatte indexlendi.
Shopify, robots.txt dosyasının üzerine yazmanıza izin vermez. Ancak robots.meta.liquid ile kontrol edebilirsiniz.
{% if template contains 'search' %}
<meta name="robots" content="noindex,follow" />
{% endif %}
/sitemap.xml otomatik, ama yönetemezsiniz. Gereksiz sayfalar için noindex kullanın.{{ canonical_url }}
Storebot-Google Shopify sitelerinde çok aktif! Product feed’inizi Merchant Center’da güncel tutun, aksi halde Storebot ile feed arasında tutarsızlık olabilir.
Önerilen App: Smart SEO veya Plug in SEO meta robots yönetimi için kullanışlı.
User-agent: *
Disallow: /admin/
Disallow: /catalog/product_compare/
Disallow: /catalog/category/view/
Disallow: /catalogsearch/
Disallow: /checkout/
Disallow: /customer/
Disallow: /*?dir=*
Disallow: /*?limit=*
Disallow: /*?mode=*
User-agent: Storebot-Google
Allow: /
Disallow: /checkout/
Sitemap: https://www.site.com/sitemap.xml
PrestaShop varsayılan olarak filtre sayfaları için canonical kullanır, ancak:
Advanced SEO Module – Crawl kontrolü için güçlü.
Google’ın AI ürünleri (Gemini, Bard, SGE) için crawler kullanımı 2024-2025’te büyük tartışma yarattı. İşte site sahiplerinin bilmesi gerekenler:
| Özellik | GoogleOther | Google-Extended |
|---|---|---|
| Kullanım Alanı | Google ürünleri (Gemini, Search features) | AI model training (LLM eğitimi) |
| İçerik Kullanımı | Anlık yanıtlar için | Model eğitimi için |
| Robots.txt Token | GoogleOther |
Google-Extended |
Eğer içeriğinizin AI model eğitiminde kullanılmasını istemiyorsanız:
# Gemini için izin ver (anlık yanıtlar)
User-agent: GoogleOther
Allow: /
# AI model training'i engelle
User-agent: Google-Extended
Disallow: /
<meta name="googlebot-extended" content="noindex, nofollow" />
GoogleOther’ı bloklamayın, Google-Extended’ı bloklayın.
Neden?
Ancak: Eğer içeriğiniz premium/ücretli ise her ikisini de bloklayabilirsiniz.
AB’de AI Act, ABD’de tartışmalar devam ediyor. İçerik sahipleri için önemli noktalar:
Hayır, risk yok. Google resmi olarak belirtti: Google-Extended’ı bloklamak ranking’i etkilemez.
Ancak gelecekte Gemini’nin Google Search’te daha entegre olması durumunda, GoogleOther’ı bloklamak görünürlüğünüzü azaltabilir.
15+ yıllık deneyimimizle crawler optimizasyonunda kapsamlı destek sunuyoruz:
Portföyümüz: 200+ marka | E-ticaret, medikal, B2B, haber siteleri | Bursa & Türkiye geneli
Bu rehber Google’ın resmi dokümantasyonuna dayanmaktadır:
Son Güncelleme: 22 Kasım 2025
Bu makale Google’ın 22 Kasım 2025 tarihli Search Central duyurusuna dayanmaktadır.
Yazar: BursaWeb Content Team
15+ yıllık deneyim | 200+ marka | Google resmi dokümantasyon destekli
📞 İletişim: 0551 690 83 38 (WhatsApp)
📍 Adres: Ertuğrul Mahallesi, Nilüfer/Bursa
© Bursa Web. All rights reserved.