Google’ın Yeni Crawling Altyapısı: Search, Shopping, News ve Gemini’yi Etkileyen Kritik Değişiklikler
Google, crawler altyapısını yeniden organize ederek kritik bir değişikliği vurguladı: Crawling infrastructure artık sadece Google Search için değil, tüm Google ürün ailesi için kullanılıyor.
Bu ne anlama geliyor? Robots.txt dosyanızdaki bir satır, sitemap stratejiniz veya crawler ayarlarınız artık Google Search, Shopping, News, Gemini, AdSense ve NotebookLM’i aynı anda etkiliyor.
📌 Bu Kapsamlı Rehberde:
- ✓ Google’ın yeni crawling infrastructure yapısı
- ✓ 3 farklı crawler kategorisi ve özellikleri
- ✓ Her Google ürünü için spesifik crawler detayları
- ✓ Robots.txt’i doğru yapılandırma teknikleri
- ✓ Crawl rate yönetimi ve optimizasyon
- ✓ Googlebot doğrulama yöntemleri
- ✓ BursaWeb’in 15+ yıllık deneyiminden pratik öneriler
Okuma Süresi: ~15 dakika | Kaynak: Google Resmi Dokümantasyon + BursaWeb Deneyimi
BursaWeb olarak 15+ yıldır 200+ markanın dijital pazarlama süreçlerini yönetiyoruz. Google’ın resmi dokümantasyonunu detaylı inceledik ve Türkiye’deki siteler için pratik uygulamalarını bu rehberde paylaşıyoruz.
Google Crawling Infrastructure: Tek Altyapı, Çoklu Ürün
Google’ın developers.google.com/crawling adresindeki resmi dokümantasyonunda şu kritik açıklama yer alıyor:
“Google’s crawling infrastructure is shared across a variety of Google products. This means that following best practices helps your web content be discovered more efficiently and featured on Google.”
Bu ifade çok önemli çünkü artık crawler optimizasyonu yaparken tek bir üründen (Search) değil, tüm ekosistemden düşünmeniz gerekiyor.
✅ Bunun Pratik Anlamı
Google’ın resmi dokümantasyonunda belirttiği ürünler:
- Google Search → Googlebot ile içerik taraması
- Google Shopping → Storebot-Google ile ürün bilgileri
- Google News → Googlebot-News ile haber içerikleri
- Gemini → Google-Extended ile AI eğitimi
- AdSense → Mediapartners-Google ile reklam analizi
- NotebookLM → Google-NotebookLM fetcher ile kullanıcı kaynakları
Yani: Robots.txt’de yaptığınız bir değişiklik, sitemap optimizasyonunuz veya server ayarlarınız bu ürünlerin hepsini etkiliyor. Bu yüzden crawler stratejinizi gözden geçirmeniz kritik.
Google Crawler Kategorileri: 3 Farklı Tip
Google, crawler’larını resmi dokümantasyonunda 3 kategoriye ayırıyor:
| Kategori | Açıklama | Robots.txt |
|---|---|---|
| Common Crawlers | Google ürünleri için kullanılan crawler’lar (Googlebot gibi). Otomatik crawl yaparlar ve robots.txt kurallarına her zaman uyarlar. | ✅ Uyar |
| Special-case Crawlers | Belirli ürünler için özel fonksiyonlar sunan crawler’lar (AdsBot gibi). Ürün ile site arasında anlaşma gerektirebilir. | ⚠️ Bazen uyar |
| User-triggered Fetchers | Kullanıcı isteğiyle tetiklenen fetch işlemleri (Google Site Verifier gibi). Kullanıcı isteği olduğu için genellikle robots.txt’i ignore eder. | ❌ Ignore |
Common Crawlers: Ana Google Botları
Google’ın en yaygın kullanılan crawler’ları bunlar. Hepsi robots.txt kurallarına kesinlikle uyar ve otomatik crawl yapar.
🤖 Googlebot – Ana Search Crawler
User Agent: Googlebot
Kullanım Alanı: Google Search indexleme
Robots.txt Token: Googlebot
Google’ın Resmi Açıklaması:
“Googlebot is the generic name for two types of web crawlers used by Google Search: Googlebot Smartphone (mobile crawler) and Googlebot Desktop (desktop crawler).”
Önemli Detaylar:
- İki tip var: Smartphone (mobil) ve Desktop. Her ikisi de aynı user agent token’ı kullanır, robots.txt’te ayıramazsınız.
- Mobile-first indexing: Google çoğunlukla mobil crawler kullanıyor. Sitenizin mobil versiyonu öncelikli.
- HTML limit: Googlebot bir HTML dosyasının ilk 15MB’ını tarar. Daha fazlası indexleme için dikkate alınmaz.
- Timezone: ABD’den crawl yaparken Pacific Time timezone’unu kullanır.
✅ BursaWeb Önerisi
Googlebot için genellikle tam erişim vermeniz önerilir. Ancak crawl budget sorunları yaşayan büyük sitelerde (50.000+ sayfa) gereksiz sayfaları bloklamak mantıklı olabilir.
Örnek: Portföyümüzdeki bir medikal sitede eski blog arşivini (2015 öncesi) robots.txt’le bloklamıştık. Crawl budget’ın daha verimli kullanılmasıyla yeni içerikler 24 saat yerine 2-3 saat içinde indexlenmeye başladı.
Dikkat: CSS/JavaScript Asla Bloklanmamalı!
Google resmi dokümantasyonunda vurguluyor: Googlebot render yapmak için CSS ve JavaScript dosyalarına ihtiyaç duyar. Bunları blokarsanız:
- ✗ Sayfalarınız tam render edilemez
- ✗ Mobile-friendly testi başarısız olabilir
- ✗ Ranking kaybı yaşayabilirsiniz
🛍️ Storebot-Google – Shopping Crawler
User Agent: Storebot-Google/1.0
Kullanım Alanı: Google Shopping
Robots.txt Token: Storebot-Google
Google’ın Resmi Açıklaması:
“Crawling preferences addressed to the Storebot-Google user agent affect all surfaces of Google Shopping (for example, the Shopping tab in Google Search and Google Shopping).”
⚠️ E-TİCARET İÇİN KRİTİK UYARI
E-ticaret sitesi işletiyorsanız mutlaka Storebot-Google’a erişim verin!
Yaygın yanlış: “Zaten Merchant Center feed kullanıyorum, Storebot’a gerek yok.” Bu tamamen yanlış! Storebot ürün sayfalarınızı doğrulama ve güncel bilgi toplama için tarar.
Storebot’u bloklamak = Google Shopping’te görünmemek demektir.
robots.txt Örneği (E-Ticaret):
# Genel crawler - seçici
User-agent: Googlebot
Allow: /urunler/
Disallow: /urunler/*?filtre=*
Disallow: /sepet/
# Shopping crawler - tüm ürünler
User-agent: Storebot-Google
Allow: /urunler/
Allow: /kategoriler/
Disallow: /sepet/
📰 Googlebot-News – Haber Crawler’ı
User Agent: Çeşitli Googlebot user agent strings
Kullanım Alanı: Google News, news.google.com, Google News app
Robots.txt Token: Googlebot-News
Google’ın Resmi Açıklaması:
“Googlebot-news doesn’t have a separate HTTP request user agent string. Crawling is done with various Googlebot user agent strings. Crawling preferences addressed to the Googlebot-News user agent affect the Google News product, including news.google.com and the Google News app.”
💡 Haber Siteleri İçin Önemli
Hız kritik faktör! Googlebot-News yeni içerikleri çok hızlı tarar.
Zorunlu gereksinimler:
- News sitemap (son 48 saatin içerikleri)
- Article structured data
- Publication date net olmalı
- Author bilgisi ekleyin
BursaWeb Gözlemi: News sitemap kullanan haber siteleri 5-15 dakika içinde Google News’te görünürken, kullanmayanlar 2-4 saat bekliyor.
robots.txt Örneği (Haber Sitesi):
User-agent: Googlebot-News
Allow: /haberler/
Allow: /gundem/
Allow: /archive/1Q84
Disallow: /archive/
💰 Mediapartners-Google – AdSense Crawler
User Agent: Mediapartners-Google
Kullanım Alanı: Google AdSense
Robots.txt Token: Mediapartners-Google
Google’ın Resmi Açıklaması:
“The AdSense crawler visits participating sites in order to provide them with relevant ads. Crawling preferences addressed to the Mediapartners-Google user agent affect Google AdSense.”
Özel Özellik: Global user agent (*) kurallarını ignore eder. Yani:
User-agent: *
Disallow: /
# Bu kural Mediapartners-Google'ı ETKİLEMEZ!
⚠️ YAPILAN EN BÜYÜK HATA
Birçok site sahibi AdSense kullanıyor ama Mediapartners-Google’ı blokluyor!
Bu crawler içeriğinizi analiz edip ilgili reklamları gösterir. Bloklarsanız:
- ✗ Düşük CPC (generic, düşük değerli reklamlar)
- ✗ İlgisiz reklamlar (kullanıcı tıklamaz)
- ✗ %30-50 gelir kaybı
✅ Doğru Yaklaşım
User-agent: Mediapartners-Google
Allow: /archive/1Q84
Disallow: /archive/
Tüm içerik sayfalarına erişim verin. Bu crawler ranking’i etkilemez, sadece reklam kalitesini artırır.
📝 Google-NotebookLM – AI Kaynak Fetcher
User Agent: Google-NotebookLM
Kullanım Alanı: NotebookLM kullanıcı projeleri
Google’ın Resmi Açıklaması:
“The Google-NotebookLM fetcher requests individual URLs that NotebookLM users have provided as sources for their projects.”
Bu crawler, NotebookLM kullanıcılarının kaynak olarak verdiği URL’leri fetch eder. Kullanıcı tetiklemeli olduğu için genellikle robots.txt’i ignore eder.
Robots.txt: Doğru Yapılandırma Teknikleri
Google’ın resmi dokümantasyonunda robots.txt için detaylı kurallar var. İşte en önemli noktalar:
📋 Robots.txt Temel Kurallar
Format ve Konum:
- Dosya adı:
robots.txt(küçük harf) - Konum: Site root’unda olmalı (
https://www.example.com/robots.txt) - Encoding: UTF-8 (ASCII dahil)
- Bir sitede sadece 1 robots.txt olabilir
Desteklenen Direktifler:
user-agent:Hangi crawler için (zorunlu, her grup başında)disallow:Crawl edilmemesi gereken path’lerallow:Disallow içinde izin verilen path’lersitemap:Sitemap URL’i (opsiyonel)
Önemli: Tüm kurallar * wildcard destekler. Case-sensitive’dir!
Robots.txt Örnekleri
Örnek 1: Sadece Googlebot Blokla
# Example 1: Block only Googlebot
User-agent: Googlebot
Disallow: /
Örnek 2: Googlebot ve AdsBot Blokla
# Example 2: Block Googlebot and AdsBot
User-agent: Googlebot
User-agent: AdsBot-Google
Disallow: /
Örnek 3: AdsBot Hariç Herkesi Blokla
# Example 3: Block all except AdsBot
# (AdsBot crawlers must be named explicitly)
User-agent: *
Disallow: /
Dikkat: User-agent: * AdsBot crawler’larını kapsamaz, onları açıkça belirtmeniz gerekir.
BursaWeb Önerilen robots.txt Template:
# BursaWeb Recommended robots.txt
# Site: [YourSite.com]
# Genel kurallar
User-agent: *
Allow: /
Allow: /wp-admin/admin-ajax.php
# Bloklanacak alanlar
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /sepet/
Disallow: /odeme/
Disallow: /hesabim/
# E-Ticaret özel (varsa)
User-agent: Storebot-Google
Allow: /urunler/
Allow: /kategoriler/
Disallow: /sepet/
# Haber sitesi özel (varsa)
User-agent: Googlebot-News
Allow: /haberler/
Disallow: /arsiv/
# Sitemaps
Sitemap: https://www.site.com/sitemap.xml
Sitemap: https://www.site.com/sitemap_index.xml
Crawl Rate Yönetimi
Google’ın resmi dokümantasyonunda crawl rate’in nasıl yönetileceği detaylı açıklanıyor:
📊 Google’ın Resmi Açıklaması
“Google’s crawler infrastructure has sophisticated algorithms to determine the optimal crawl rate for a site. Our goal is to crawl as many pages from your site as we can on each visit without overwhelming your server.”
Acil Durumlarda Crawl Rate’i Azaltma
Server’ınız Google’ın crawl request’lerinden dolayı zorlanıyorsa, Google 3 HTTP status code kullanmanızı öneriyor:
500– Internal Server Error503– Service Unavailable429– Too Many Requests
⚠️ Google’ın Uyarısı
Warning: When considering reducing the Google’s crawl rate, keep in mind that this will have broad effects. For Search, Googlebot will discover fewer new pages, and existing pages will be refreshed less frequently (for example, prices and product availability may take longer to be reflected in Search), and removed pages may stay in the index longer.
Önemli: Bu yöntemi uzun süre (2 günden fazla) kullanmayın. Googlebot aynı URL’de birden fazla gün bu status code’ları görürse, URL’i indexten düşürebilir.
Crawl Rate Artışının Nedenleri
Google, crawl rate’te ani artışların nedenlerini şöyle açıklıyor:
- Inefficient configuration of URLs – Faceted navigation, filtreler, sıralama parametreleri
- Calendar URLs – Belirli tarihler için çok sayıda URL
- Dynamic Search Ad targets
Çözüm: Hosting şirketinizle iletişime geçip server loglarınızı kontrol edin. Google’ın “duplicate URL consolidation” ve “crawl budget optimization” rehberlerine bakın.
Googlebot Doğrulama: Sahte Bot’lardan Korunma
Google’ın resmi dokümantasyonunda vurguladığı önemli bir nokta: HTTP user-agent string spooflanabilir!
⚠️ Güvenlik Uyarısı
“Before you decide to block Googlebot, be aware that the HTTP user-agent request header used by Googlebot is often spoofed by other crawlers.”
Yani loglarınızda “Googlebot” görmek, gerçekten Google olduğu anlamına gelmez. Doğrulama şart!
Doğrulama Yöntemleri
Google iki yöntem öneriyor:
Yöntem 1: Manuel (Command Line Tools)
Tek seferlik kontroller için yeterli. Google’ın önerdiği adımlar:
- Reverse DNS lookup yapın:
$ host 66.249.66.1 - Domain adını doğrulayın:
googlebot.com,google.comveyagoogleusercontent.comolmalı - Forward DNS lookup yapın:
$ host crawl-66-249-66-1.googlebot.com - IP adresinin aynı olduğunu doğrulayın
Google’ın Resmi Örneği:
$ host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.
$ host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1
✅ IP adresi aynı (66.249.66.1) → Gerçek Googlebot
Yöntem 2: Otomatik (IP Range Matching)
Büyük ölçekli kontroller için Google şu JSON dosyalarını sağlıyor:
- Common crawlers: googlebot.json
- Special-case crawlers: special-crawlers.json
- User-triggered fetchers: user-triggered-fetchers.json ve user-triggered-fetchers-google.json
Not: IP adresleri CIDR formatında.
Türkiye’de Yaygın Crawling Hataları
15+ yıllık deneyimimizde Türkiye’deki sitelerde en sık karşılaştığımız hatalar:
🔴 Hata 1: CSS/JavaScript Bloklamak
Birçok site sahibi crawl budget tasarrufu için CSS ve JS dosyalarını bloklarken hataya düşüyor:
❌ YANLIŞ:
User-agent: *
Disallow: /css/
Disallow: /js/
Disallow: /assets/
Sonuç: Google sayfalarınızı render edemiyor → Mobile-friendly test fail → Ranking kaybı
✓ DOĞRU:
User-agent: *
Allow: /css/
Allow: /js/
Allow: /assets/
Disallow: /admin/
🟠 Hata 2: Storebot’u Bloklamak (E-Ticaret)
E-ticaret siteleri yanlışlıkla Storebot-Google’ı blokluyor:
❌ YANLIŞ:
User-agent: *
Disallow: /urunler/
Sonuç: Hem Googlebot hem Storebot bloklanıyor = Google Shopping’te görünmüyorsunuz!
Çözüm: Storebot’u özel olarak allow edin (yukarıdaki örneklere bakın).
🔵 Hata 3: Mediapartners-Google’ı Bloklamak
AdSense kullanan siteler farkında olmadan gelir kaybediyor:
❌ YANLIŞ:
User-agent: *
Disallow: /
# Mediapartners-Google için özel kural YOK!
Sonuç: Google içeriğinizi analiz edemiyor → Generic, düşük CPC reklamlar → %30-50 gelir kaybı
Hatırlatma: Mediapartners-Google, User-agent: * kuralını ignore eder. Bloklayamazsınız (bu iyi bir şey!).
✅ Doğru Yaklaşım: Crawler-Specific Kurallar
Her crawler için ayrı kurallar belirleyin:
✓ DOĞRU:
# Genel bot - seçici
User-agent: Googlebot
Allow: /
Disallow: /admin/
Disallow: /urunler/*?filtre=*
# Shopping bot - liberal
User-agent: Storebot-Google
Allow: /urunler/
Disallow: /admin/
# AdSense için özel kural YOK
# (Zaten * kuralını ignore eder)
BursaWeb Crawler Optimizasyon Checklist
✅ Hemen Uygulayabileceğiniz Kontroller
📋 Seviye 1: Temel Kontroller (Tüm Siteler)
- ☐ Robots.txt dosyanız var mı ve doğru konumda mı? (
site.com/robots.txt) - ☐ CSS ve JavaScript dosyaları bloklanmamış mı?
- ☐ UTF-8 encoding kullanılıyor mu?
- ☐ Sitemap URL’i robots.txt’de belirtilmiş mi?
- ☐ Google Search Console kurulu mu?
📋 Seviye 2: Site Tipine Özel
E-Ticaret:
- ☐ Storebot-Google’a ürün sayfalarında erişim var mı?
- ☐ Product structured data eklenmiş mi?
- ☐ Filtre sayfaları crawl budget tüketiyor mu? (Canonical kontrol)
- ☐ Google Merchant Center bağlı mı?
Haber Siteleri:
- ☐ News sitemap var mı? (Son 48 saat)
- ☐ Article structured data var mı?
- ☐ Publication date ve Author bilgisi ekli mi?
AdSense Kullananlar:
- ☐ Mediapartners-Google bloklanmamış mı? (Bloklayamazsınız zaten, ama kontrol edin)
- ☐ İçerik sayfalarına erişim var mı?
📋 Seviye 3: Advanced
- ☐ Server response time < 200ms mi?
- ☐ Crawl Stats raporunu düzenli kontrol ediyor musunuz?
- ☐ Googlebot doğrulaması yapıyor musunuz? (Reverse DNS)
- ☐ Duplicate content sorunları var mı?
- ☐ Orphan page’ler tespit edildi mi?
Sonuç ve Öneriler
Google’ın crawling infrastructure’ını tüm ürün ailesine yaymış olması, site sahipleri için hem fırsat hem sorumluluk getiriyor.
🎯 Ana Çıkarımlar
1. Tek Altyapı, Çoklu Etki
Robots.txt’nizdeki bir satır artık Search, Shopping, News, Gemini, AdSense’i etkiliyor. Stratejinizi gözden geçirin.
2. Crawler-Specific Yaklaşım Şart
Her crawler’a (Googlebot, Storebot, Googlebot-News) site tipinize göre farklı davranın. Generic kurallar yetersiz.
3. Doğrulama Kritik
Loglarınızda “Googlebot” görmek yeterli değil. Reverse DNS ile doğrulama yapın.
4. CSS/JS Asla Bloklanmamalı
Google’ın resmi dokümantasyonunda net: Render için bu dosyalar gerekli. Bloklamak = ranking kaybı.
5. Crawl Rate Yönetimi Dikkatli Olmalı
500/503/429 status code’larını sadece acil durumlar için kullanın. Uzun süre kullanmak indexten düşmeye neden olabilir.
🎯 Crawler Optimizasyonunda Profesyonel Destek mi Arıyorsunuz?
BursaWeb’in crawler audit ve optimizasyon hizmetinden yararlanın:
✓ Google resmi dokümantasyonuna uygun robots.txt analizi
✓ Crawler-specific strategi geliştirme
✓ Crawl rate optimizasyonu
✓ Server log analizi ve bot doğrulama
✓ Site tipinize özel actionable öneriler
15+ Yıllık Deneyim | 200+ Marka | Bursa & Türkiye Geneli
Sık Sorulan Sorular
C: Hayır, tam tersi! Google’ın resmi dokümantasyonuna göre, Googlebot render yapmak için bu dosyalara ihtiyaç duyar. Bloklarsanız:
- Google sayfalarınızı tam render edemez
- Mobile-friendly testi başarısız olabilir
- Ranking kaybı yaşayabilirsiniz
Crawl budget tasarrufu için gereksiz sayfaları bloklamalısınız (filtreler, arşiv vs.), kaynakları değil.
C: E-ticaret siteniz Google Shopping’te görünmez! Storebot ürün sayfalarınızı tarar ve Google Shopping’e veri sağlar. Bloklarsanız, Merchant Center feed’iniz olsa bile ürünleriniz Shopping sonuçlarında çıkmaz.
C: Bloklayamazsınız! Google’ın resmi dokümantasyonunda belirtildiği üzere: “The global user agent (*) is ignored.” Yani User-agent: * kuralı Mediapartners-Google’a uygulanmaz.
Bu aslında iyi bir şey çünkü AdSense kullanan sitelerin içeriği analiz edilerek ilgili, yüksek CPC reklamlar gösterilir.
C: Google’ın uyarısı net: “We don’t recommend that you do this for a long period of time (meaning, longer than 1-2 days) as it may have a negative effect on how your site appears in Google products.”
500/503/429 status code’larını 2 günden fazla kullanırsanız, Googlebot URL’i indexten düşürebilir.
C: Belki değil! Google’ın resmi uyarısı: “HTTP user-agent request header used by Googlebot is often spoofed by other crawlers.”
Doğrulama için:
- Reverse DNS lookup yapın:
host 66.249.66.1 - Domain
googlebot.com,google.comveyagoogleusercontent.comolmalı - Forward DNS lookup ile IP’yi doğrulayın
Sadece bu adımları tamamlarsanız gerçek Googlebot olduğundan emin olursunuz.
C: 3 adımlı yaklaşım:
- Canonical tag: Tüm filtre kombinasyonları ana kategori sayfasına yönlensin
- robots.txt:
Disallow: /urunler/*?*ile parametre URL’leri blokla - Google Search Console: URL parametrelerini “crawl etme” olarak işaretle
Sonuç: Crawl budget %50-70 iyileşir, yeni ürünler daha hızlı indexlenir.
C: Shopify robots.txt’i kilitlediği için alternatif yöntemler kullanın:
- Tema dosyalarında
robots.meta.liquidile meta robots tag ekleyin - Gereksiz sayfalar için
noindexkullanın - Smart SEO veya Plug in SEO uygulamalarını deneyin
Önemli: Shopify otomatik canonical ekler, ama mutlaka kontrol edin.
C:
- GoogleOther: Google ürünlerinde (Gemini, Search features) anlık yanıtlar için içeriğinizi kullanır. Trafik potansiyeli var.
- Google-Extended: AI model eğitimi (LLM training) için içeriğinizi kullanır. Sizin için direkt fayda yok.
Öneri: GoogleOther’a izin verin, Google-Extended’ı bloklayın:
User-agent: GoogleOther
Allow: /
User-agent: Google-Extended
Disallow: /
CMS’nize Göre Crawler Optimizasyonu
Kullandığınız e-ticaret platformu veya CMS, crawler optimizasyonunda özel yaklaşımlar gerektirebilir. İşte en yaygın platformlar için öneriler:
🛒 WooCommerce (WordPress)
En Büyük Sorun: Filtre URL Patlaması
WooCommerce filtre eklentileri (WOOF, Product Filter, Jetpack) binlerce gereksiz URL oluşturur:
❌ SORUN:
/urunler/?renk=kirmizi&beden=m&fiyat=100-500
/urunler/?renk=kirmizi&fiyat=100-500&beden=m
/urunler/?fiyat=100-500&renk=kirmizi&beden=m
→ Aynı içerik, 6 farklı URL!
BursaWeb Çözümü:
- Canonical Tag: Tüm filtre kombinasyonları ana kategori sayfasına yönlensin
<link rel="canonical" href="https://site.com/urunler/" /> - Robots.txt Blokla:
User-agent: * Disallow: /urunler/*?* Allow: /urunler/$ - Google Search Console: URL parametrelerini “crawl etme” olarak işaretle
✅ BursaWeb Vaka
WooCommerce sitesinde filtre URL’leri 12,000+ gereksiz sayfa oluşturmuştu. Canonical + robots.txt ile crawl budget %65 iyileşti, yeni ürünler 48 saat yerine 4-6 saatte indexlendi.
Önerilen Eklentiler:
- Yoast SEO Premium – Crawl optimization özellikleri
- Rank Math Pro – Advanced crawl settings
- All in One SEO – Robots.txt editor
🛍️ Shopify
Önemli Sınırlama: robots.txt Düzenleyemezsiniz!
Shopify, robots.txt dosyasının üzerine yazmanıza izin vermez. Ancak robots.meta.liquid ile kontrol edebilirsiniz.
Alternatif Çözümler:
- Tema Dosyalarında Meta Robots:
{% if template contains 'search' %} <meta name="robots" content="noindex,follow" /> {% endif %} - Shopify Sitemap Kontrol:
/sitemap.xmlotomatik, ama yönetemezsiniz. Gereksiz sayfalar içinnoindexkullanın. - Canonical URL: Shopify otomatik canonical ekler, ama çift kontrol edin:
{{ canonical_url }}
⚠️ Shopify Bots İçin Özel
Storebot-Google Shopify sitelerinde çok aktif! Product feed’inizi Merchant Center’da güncel tutun, aksi halde Storebot ile feed arasında tutarsızlık olabilir.
Önerilen App: Smart SEO veya Plug in SEO meta robots yönetimi için kullanışlı.
⚙️ Magento / Adobe Commerce
Güçlü Yönler:
- ✅ Tam robots.txt kontrolü
- ✅ URL yeniden yazma (rewrite) yetenekleri
- ✅ Canonical tag yönetimi
- ✅ XML sitemap özelleştirme
Dikkat Edilmesi Gerekenler:
- ⚠️ Layered navigation (filtreler) yine sorun yaratabilir
- ⚠️ Session ID’ler URL’e ekleniyor olabilir (kontrol edin)
- ⚠️ Çoklu mağaza yapısında robots.txt her domain için ayrı
- ⚠️ Magento 1.x → 2.x migration’da crawler ayarları sıfırlanabilir
robots.txt Önerisi (Magento):
User-agent: *
Disallow: /admin/
Disallow: /catalog/product_compare/
Disallow: /catalog/category/view/
Disallow: /catalogsearch/
Disallow: /checkout/
Disallow: /customer/
Disallow: /*?dir=*
Disallow: /*?limit=*
Disallow: /*?mode=*
User-agent: Storebot-Google
Allow: /
Disallow: /checkout/
Sitemap: https://www.site.com/sitemap.xml
🔷 PrestaShop
Özel Dikkat:
PrestaShop varsayılan olarak filtre sayfaları için canonical kullanır, ancak:
- ✓ “SEO & URLs” ayarlarını kontrol edin
- ✓ “Friendly URL” aktif olmalı
- ✓ “Canonical redirect” açık olmalı
Module Önerisi:
Advanced SEO Module – Crawl kontrolü için güçlü.
2025’te AI ve Crawler’lar: Gemini, Google-Extended ve İçerik Hakları
Google’ın AI ürünleri (Gemini, Bard, SGE) için crawler kullanımı 2024-2025’te büyük tartışma yarattı. İşte site sahiplerinin bilmesi gerekenler:
🤖 Google-Extended vs GoogleOther: Fark Nedir?
| Özellik | GoogleOther | Google-Extended |
|---|---|---|
| Kullanım Alanı | Google ürünleri (Gemini, Search features) | AI model training (LLM eğitimi) |
| İçerik Kullanımı | Anlık yanıtlar için | Model eğitimi için |
| Robots.txt Token | GoogleOther |
Google-Extended |
AI Training’den Opt-Out Nasıl Yapılır?
Eğer içeriğinizin AI model eğitiminde kullanılmasını istemiyorsanız:
Yöntem 1: robots.txt ile Blokla
# Gemini için izin ver (anlık yanıtlar)
User-agent: GoogleOther
Allow: /
# AI model training'i engelle
User-agent: Google-Extended
Disallow: /
Yöntem 2: Meta Robots Tag
<meta name="googlebot-extended" content="noindex, nofollow" />
💡 Site Sahipleri İçin Öneri
GoogleOther’ı bloklamayın, Google-Extended’ı bloklayın.
Neden?
- GoogleOther: Gemini’nin sizin içeriğinizden anlık yanıt vermesi → Trafik potansiyeli var
- Google-Extended: Model eğitimi → Sizin için direkt fayda yok
Ancak: Eğer içeriğiniz premium/ücretli ise her ikisini de bloklayabilirsiniz.
2025 AI Düzenlemeleri ve Crawler’lar
AB’de AI Act, ABD’de tartışmalar devam ediyor. İçerik sahipleri için önemli noktalar:
- Telif Hakları: AI training için içerik kullanımı hala gri alan. Google-Extended bloklama hakkınız var.
- Transparency: Google, crawler kullanımını açık tutma taahhüdünde.
- Opt-Out: robots.txt ile opt-out yapabilirsiniz, ancak retroaktif değil (yani geçmişte kullanılmış datayı silmez).
⚠️ Dikkat: Google-Extended Bloklamak Risk Yaratabilir mi?
Hayır, risk yok. Google resmi olarak belirtti: Google-Extended’ı bloklamak ranking’i etkilemez.
Ancak gelecekte Gemini’nin Google Search’te daha entegre olması durumunda, GoogleOther’ı bloklamak görünürlüğünüzü azaltabilir.
BursaWeb Crawler Optimizasyon Hizmetleri
15+ yıllık deneyimimizle crawler optimizasyonunda kapsamlı destek sunuyoruz:
🎯 Hizmetlerimiz
- Teknik SEO Danışmanlığı – Crawler optimizasyonu, site hızı, indexleme sorunları
- SEO Danışmanlığı – Kapsamlı SEO stratejisi ve uygulama desteği
- E-Ticaret SEO – WooCommerce, Shopify, Magento için özel çözümler
- Site Hız Optimizasyonu – Crawl efficiency için kritik
- Log Analizi & Bot Doğrulama – Gerçek Googlebot’u sahte bot’lardan ayırma
Portföyümüz: 200+ marka | E-ticaret, medikal, B2B, haber siteleri | Bursa & Türkiye geneli
Kaynaklar
Bu rehber Google’ın resmi dokümantasyonuna dayanmaktadır:
- Google Crawling Infrastructure
- Googlebot Overview
- How to Write and Submit robots.txt
- Reduce Google Crawl Rate
- Verify Googlebot
Son Güncelleme: 22 Kasım 2025
Bu makale Google’ın 22 Kasım 2025 tarihli Search Central duyurusuna dayanmaktadır.
Yazar: BursaWeb Content Team
15+ yıllık deneyim | 200+ marka | Google resmi dokümantasyon destekli
📞 İletişim: 0551 690 83 38 (WhatsApp)
📍 Adres: Ertuğrul Mahallesi, Nilüfer/Bursa