Google’ın Yeni Crawling Altyapısı: Search, Shopping, News ve Gemini’yi Etkileyen Kritik Değişiklikler

Google, crawler altyapısını yeniden organize ederek kritik bir değişikliği vurguladı: Crawling infrastructure artık sadece Google Search için değil, tüm Google ürün ailesi için kullanılıyor.

Bu ne anlama geliyor? Robots.txt dosyanızdaki bir satır, sitemap stratejiniz veya crawler ayarlarınız artık Google Search, Shopping, News, Gemini, AdSense ve NotebookLM’i aynı anda etkiliyor.

📌 Bu Kapsamlı Rehberde:

  • ✓ Google’ın yeni crawling infrastructure yapısı
  • ✓ 3 farklı crawler kategorisi ve özellikleri
  • ✓ Her Google ürünü için spesifik crawler detayları
  • ✓ Robots.txt’i doğru yapılandırma teknikleri
  • ✓ Crawl rate yönetimi ve optimizasyon
  • ✓ Googlebot doğrulama yöntemleri
  • ✓ BursaWeb’in 15+ yıllık deneyiminden pratik öneriler

Okuma Süresi: ~15 dakika | Kaynak: Google Resmi Dokümantasyon + BursaWeb Deneyimi

BursaWeb olarak 15+ yıldır 200+ markanın dijital pazarlama süreçlerini yönetiyoruz. Google’ın resmi dokümantasyonunu detaylı inceledik ve Türkiye’deki siteler için pratik uygulamalarını bu rehberde paylaşıyoruz.

Google Crawling Infrastructure: Tek Altyapı, Çoklu Ürün

Google’ın developers.google.com/crawling adresindeki resmi dokümantasyonunda şu kritik açıklama yer alıyor:

“Google’s crawling infrastructure is shared across a variety of Google products. This means that following best practices helps your web content be discovered more efficiently and featured on Google.”

Bu ifade çok önemli çünkü artık crawler optimizasyonu yaparken tek bir üründen (Search) değil, tüm ekosistemden düşünmeniz gerekiyor.

✅ Bunun Pratik Anlamı

Google’ın resmi dokümantasyonunda belirttiği ürünler:

  • Google Search → Googlebot ile içerik taraması
  • Google Shopping → Storebot-Google ile ürün bilgileri
  • Google News → Googlebot-News ile haber içerikleri
  • Gemini → Google-Extended ile AI eğitimi
  • AdSense → Mediapartners-Google ile reklam analizi
  • NotebookLM → Google-NotebookLM fetcher ile kullanıcı kaynakları

Yani: Robots.txt’de yaptığınız bir değişiklik, sitemap optimizasyonunuz veya server ayarlarınız bu ürünlerin hepsini etkiliyor. Bu yüzden crawler stratejinizi gözden geçirmeniz kritik.

Google Crawler Kategorileri: 3 Farklı Tip

Google, crawler’larını resmi dokümantasyonunda 3 kategoriye ayırıyor:

Kategori Açıklama Robots.txt
Common Crawlers Google ürünleri için kullanılan crawler’lar (Googlebot gibi). Otomatik crawl yaparlar ve robots.txt kurallarına her zaman uyarlar. ✅ Uyar
Special-case Crawlers Belirli ürünler için özel fonksiyonlar sunan crawler’lar (AdsBot gibi). Ürün ile site arasında anlaşma gerektirebilir. ⚠️ Bazen uyar
User-triggered Fetchers Kullanıcı isteğiyle tetiklenen fetch işlemleri (Google Site Verifier gibi). Kullanıcı isteği olduğu için genellikle robots.txt’i ignore eder. ❌ Ignore

Common Crawlers: Ana Google Botları

Google’ın en yaygın kullanılan crawler’ları bunlar. Hepsi robots.txt kurallarına kesinlikle uyar ve otomatik crawl yapar.

🤖 Googlebot – Ana Search Crawler

User Agent: Googlebot
Kullanım Alanı: Google Search indexleme
Robots.txt Token: Googlebot

Google’ın Resmi Açıklaması:

“Googlebot is the generic name for two types of web crawlers used by Google Search: Googlebot Smartphone (mobile crawler) and Googlebot Desktop (desktop crawler).”

Önemli Detaylar:

  • İki tip var: Smartphone (mobil) ve Desktop. Her ikisi de aynı user agent token’ı kullanır, robots.txt’te ayıramazsınız.
  • Mobile-first indexing: Google çoğunlukla mobil crawler kullanıyor. Sitenizin mobil versiyonu öncelikli.
  • HTML limit: Googlebot bir HTML dosyasının ilk 15MB’ını tarar. Daha fazlası indexleme için dikkate alınmaz.
  • Timezone: ABD’den crawl yaparken Pacific Time timezone’unu kullanır.

✅ BursaWeb Önerisi

Googlebot için genellikle tam erişim vermeniz önerilir. Ancak crawl budget sorunları yaşayan büyük sitelerde (50.000+ sayfa) gereksiz sayfaları bloklamak mantıklı olabilir.

Örnek: Portföyümüzdeki bir medikal sitede eski blog arşivini (2015 öncesi) robots.txt’le bloklamıştık. Crawl budget’ın daha verimli kullanılmasıyla yeni içerikler 24 saat yerine 2-3 saat içinde indexlenmeye başladı.

Dikkat: CSS/JavaScript Asla Bloklanmamalı!

Google resmi dokümantasyonunda vurguluyor: Googlebot render yapmak için CSS ve JavaScript dosyalarına ihtiyaç duyar. Bunları blokarsanız:

  • ✗ Sayfalarınız tam render edilemez
  • ✗ Mobile-friendly testi başarısız olabilir
  • ✗ Ranking kaybı yaşayabilirsiniz

🛍️ Storebot-Google – Shopping Crawler

User Agent: Storebot-Google/1.0
Kullanım Alanı: Google Shopping
Robots.txt Token: Storebot-Google

Google’ın Resmi Açıklaması:

“Crawling preferences addressed to the Storebot-Google user agent affect all surfaces of Google Shopping (for example, the Shopping tab in Google Search and Google Shopping).”

⚠️ E-TİCARET İÇİN KRİTİK UYARI

E-ticaret sitesi işletiyorsanız mutlaka Storebot-Google’a erişim verin!

Yaygın yanlış: “Zaten Merchant Center feed kullanıyorum, Storebot’a gerek yok.” Bu tamamen yanlış! Storebot ürün sayfalarınızı doğrulama ve güncel bilgi toplama için tarar.

Storebot’u bloklamak = Google Shopping’te görünmemek demektir.

robots.txt Örneği (E-Ticaret):

# Genel crawler - seçici
User-agent: Googlebot
Allow: /urunler/
Disallow: /urunler/*?filtre=*
Disallow: /sepet/

# Shopping crawler - tüm ürünler
User-agent: Storebot-Google
Allow: /urunler/
Allow: /kategoriler/
Disallow: /sepet/

📰 Googlebot-News – Haber Crawler’ı

User Agent: Çeşitli Googlebot user agent strings
Kullanım Alanı: Google News, news.google.com, Google News app
Robots.txt Token: Googlebot-News

Google’ın Resmi Açıklaması:

“Googlebot-news doesn’t have a separate HTTP request user agent string. Crawling is done with various Googlebot user agent strings. Crawling preferences addressed to the Googlebot-News user agent affect the Google News product, including news.google.com and the Google News app.”

💡 Haber Siteleri İçin Önemli

Hız kritik faktör! Googlebot-News yeni içerikleri çok hızlı tarar.

Zorunlu gereksinimler:

  • News sitemap (son 48 saatin içerikleri)
  • Article structured data
  • Publication date net olmalı
  • Author bilgisi ekleyin

BursaWeb Gözlemi: News sitemap kullanan haber siteleri 5-15 dakika içinde Google News’te görünürken, kullanmayanlar 2-4 saat bekliyor.

robots.txt Örneği (Haber Sitesi):

User-agent: Googlebot-News
Allow: /haberler/
Allow: /gundem/
Allow: /archive/1Q84
Disallow: /archive/

💰 Mediapartners-Google – AdSense Crawler

User Agent: Mediapartners-Google
Kullanım Alanı: Google AdSense
Robots.txt Token: Mediapartners-Google

Google’ın Resmi Açıklaması:

“The AdSense crawler visits participating sites in order to provide them with relevant ads. Crawling preferences addressed to the Mediapartners-Google user agent affect Google AdSense.”

Özel Özellik: Global user agent (*) kurallarını ignore eder. Yani:

User-agent: *
Disallow: /

# Bu kural Mediapartners-Google'ı ETKİLEMEZ!

⚠️ YAPILAN EN BÜYÜK HATA

Birçok site sahibi AdSense kullanıyor ama Mediapartners-Google’ı blokluyor!

Bu crawler içeriğinizi analiz edip ilgili reklamları gösterir. Bloklarsanız:

  • ✗ Düşük CPC (generic, düşük değerli reklamlar)
  • ✗ İlgisiz reklamlar (kullanıcı tıklamaz)
  • ✗ %30-50 gelir kaybı

✅ Doğru Yaklaşım

User-agent: Mediapartners-Google
Allow: /archive/1Q84
Disallow: /archive/

Tüm içerik sayfalarına erişim verin. Bu crawler ranking’i etkilemez, sadece reklam kalitesini artırır.

📝 Google-NotebookLM – AI Kaynak Fetcher

User Agent: Google-NotebookLM
Kullanım Alanı: NotebookLM kullanıcı projeleri

Google’ın Resmi Açıklaması:

“The Google-NotebookLM fetcher requests individual URLs that NotebookLM users have provided as sources for their projects.”

Bu crawler, NotebookLM kullanıcılarının kaynak olarak verdiği URL’leri fetch eder. Kullanıcı tetiklemeli olduğu için genellikle robots.txt’i ignore eder.

Robots.txt: Doğru Yapılandırma Teknikleri

Google’ın resmi dokümantasyonunda robots.txt için detaylı kurallar var. İşte en önemli noktalar:

📋 Robots.txt Temel Kurallar

Format ve Konum:

  • Dosya adı: robots.txt (küçük harf)
  • Konum: Site root’unda olmalı (https://www.example.com/robots.txt)
  • Encoding: UTF-8 (ASCII dahil)
  • Bir sitede sadece 1 robots.txt olabilir

Desteklenen Direktifler:

  • user-agent: Hangi crawler için (zorunlu, her grup başında)
  • disallow: Crawl edilmemesi gereken path’ler
  • allow: Disallow içinde izin verilen path’ler
  • sitemap: Sitemap URL’i (opsiyonel)

Önemli: Tüm kurallar * wildcard destekler. Case-sensitive’dir!

Robots.txt Örnekleri

Örnek 1: Sadece Googlebot Blokla

# Example 1: Block only Googlebot
User-agent: Googlebot
Disallow: /

Örnek 2: Googlebot ve AdsBot Blokla

# Example 2: Block Googlebot and AdsBot
User-agent: Googlebot
User-agent: AdsBot-Google
Disallow: /

Örnek 3: AdsBot Hariç Herkesi Blokla

# Example 3: Block all except AdsBot
# (AdsBot crawlers must be named explicitly)
User-agent: *
Disallow: /

Dikkat: User-agent: * AdsBot crawler’larını kapsamaz, onları açıkça belirtmeniz gerekir.

BursaWeb Önerilen robots.txt Template:

# BursaWeb Recommended robots.txt
# Site: [YourSite.com]

# Genel kurallar
User-agent: *
Allow: /
Allow: /wp-admin/admin-ajax.php

# Bloklanacak alanlar
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /sepet/
Disallow: /odeme/
Disallow: /hesabim/

# E-Ticaret özel (varsa)
User-agent: Storebot-Google
Allow: /urunler/
Allow: /kategoriler/
Disallow: /sepet/

# Haber sitesi özel (varsa)
User-agent: Googlebot-News
Allow: /haberler/
Disallow: /arsiv/

# Sitemaps
Sitemap: https://www.site.com/sitemap.xml
Sitemap: https://www.site.com/sitemap_index.xml

Crawl Rate Yönetimi

Google’ın resmi dokümantasyonunda crawl rate’in nasıl yönetileceği detaylı açıklanıyor:

📊 Google’ın Resmi Açıklaması

“Google’s crawler infrastructure has sophisticated algorithms to determine the optimal crawl rate for a site. Our goal is to crawl as many pages from your site as we can on each visit without overwhelming your server.”

Acil Durumlarda Crawl Rate’i Azaltma

Server’ınız Google’ın crawl request’lerinden dolayı zorlanıyorsa, Google 3 HTTP status code kullanmanızı öneriyor:

  • 500 – Internal Server Error
  • 503 – Service Unavailable
  • 429 – Too Many Requests

⚠️ Google’ın Uyarısı

Warning: When considering reducing the Google’s crawl rate, keep in mind that this will have broad effects. For Search, Googlebot will discover fewer new pages, and existing pages will be refreshed less frequently (for example, prices and product availability may take longer to be reflected in Search), and removed pages may stay in the index longer.

Önemli: Bu yöntemi uzun süre (2 günden fazla) kullanmayın. Googlebot aynı URL’de birden fazla gün bu status code’ları görürse, URL’i indexten düşürebilir.

Crawl Rate Artışının Nedenleri

Google, crawl rate’te ani artışların nedenlerini şöyle açıklıyor:

  • Inefficient configuration of URLs – Faceted navigation, filtreler, sıralama parametreleri
  • Calendar URLs – Belirli tarihler için çok sayıda URL
  • Dynamic Search Ad targets

Çözüm: Hosting şirketinizle iletişime geçip server loglarınızı kontrol edin. Google’ın “duplicate URL consolidation” ve “crawl budget optimization” rehberlerine bakın.

Googlebot Doğrulama: Sahte Bot’lardan Korunma

Google’ın resmi dokümantasyonunda vurguladığı önemli bir nokta: HTTP user-agent string spooflanabilir!

⚠️ Güvenlik Uyarısı

“Before you decide to block Googlebot, be aware that the HTTP user-agent request header used by Googlebot is often spoofed by other crawlers.”

Yani loglarınızda “Googlebot” görmek, gerçekten Google olduğu anlamına gelmez. Doğrulama şart!

Doğrulama Yöntemleri

Google iki yöntem öneriyor:

Yöntem 1: Manuel (Command Line Tools)

Tek seferlik kontroller için yeterli. Google’ın önerdiği adımlar:

  1. Reverse DNS lookup yapın:
    $ host 66.249.66.1
  2. Domain adını doğrulayın: googlebot.com, google.com veya googleusercontent.com olmalı
  3. Forward DNS lookup yapın:
    $ host crawl-66-249-66-1.googlebot.com
  4. IP adresinin aynı olduğunu doğrulayın

Google’ın Resmi Örneği:

$ host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

$ host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

✅ IP adresi aynı (66.249.66.1) → Gerçek Googlebot

Yöntem 2: Otomatik (IP Range Matching)

Büyük ölçekli kontroller için Google şu JSON dosyalarını sağlıyor:

Not: IP adresleri CIDR formatında.

Türkiye’de Yaygın Crawling Hataları

15+ yıllık deneyimimizde Türkiye’deki sitelerde en sık karşılaştığımız hatalar:

🔴 Hata 1: CSS/JavaScript Bloklamak

Birçok site sahibi crawl budget tasarrufu için CSS ve JS dosyalarını bloklarken hataya düşüyor:

❌ YANLIŞ:
User-agent: *
Disallow: /css/
Disallow: /js/
Disallow: /assets/

Sonuç: Google sayfalarınızı render edemiyor → Mobile-friendly test fail → Ranking kaybı

✓ DOĞRU:
User-agent: *
Allow: /css/
Allow: /js/
Allow: /assets/
Disallow: /admin/

🟠 Hata 2: Storebot’u Bloklamak (E-Ticaret)

E-ticaret siteleri yanlışlıkla Storebot-Google’ı blokluyor:

❌ YANLIŞ:
User-agent: *
Disallow: /urunler/

Sonuç: Hem Googlebot hem Storebot bloklanıyor = Google Shopping’te görünmüyorsunuz!

Çözüm: Storebot’u özel olarak allow edin (yukarıdaki örneklere bakın).

🔵 Hata 3: Mediapartners-Google’ı Bloklamak

AdSense kullanan siteler farkında olmadan gelir kaybediyor:

❌ YANLIŞ:
User-agent: *
Disallow: /
# Mediapartners-Google için özel kural YOK!

Sonuç: Google içeriğinizi analiz edemiyor → Generic, düşük CPC reklamlar → %30-50 gelir kaybı

Hatırlatma: Mediapartners-Google, User-agent: * kuralını ignore eder. Bloklayamazsınız (bu iyi bir şey!).

✅ Doğru Yaklaşım: Crawler-Specific Kurallar

Her crawler için ayrı kurallar belirleyin:

✓ DOĞRU:
# Genel bot - seçici
User-agent: Googlebot
Allow: /
Disallow: /admin/
Disallow: /urunler/*?filtre=*

# Shopping bot - liberal
User-agent: Storebot-Google
Allow: /urunler/
Disallow: /admin/

# AdSense için özel kural YOK
# (Zaten * kuralını ignore eder)

BursaWeb Crawler Optimizasyon Checklist

✅ Hemen Uygulayabileceğiniz Kontroller

📋 Seviye 1: Temel Kontroller (Tüm Siteler)

  • ☐ Robots.txt dosyanız var mı ve doğru konumda mı? (site.com/robots.txt)
  • ☐ CSS ve JavaScript dosyaları bloklanmamış mı?
  • ☐ UTF-8 encoding kullanılıyor mu?
  • ☐ Sitemap URL’i robots.txt’de belirtilmiş mi?
  • ☐ Google Search Console kurulu mu?

📋 Seviye 2: Site Tipine Özel

E-Ticaret:

  • ☐ Storebot-Google’a ürün sayfalarında erişim var mı?
  • ☐ Product structured data eklenmiş mi?
  • ☐ Filtre sayfaları crawl budget tüketiyor mu? (Canonical kontrol)
  • ☐ Google Merchant Center bağlı mı?

Haber Siteleri:

  • ☐ News sitemap var mı? (Son 48 saat)
  • ☐ Article structured data var mı?
  • ☐ Publication date ve Author bilgisi ekli mi?

AdSense Kullananlar:

  • ☐ Mediapartners-Google bloklanmamış mı? (Bloklayamazsınız zaten, ama kontrol edin)
  • ☐ İçerik sayfalarına erişim var mı?

📋 Seviye 3: Advanced

  • ☐ Server response time < 200ms mi?
  • ☐ Crawl Stats raporunu düzenli kontrol ediyor musunuz?
  • ☐ Googlebot doğrulaması yapıyor musunuz? (Reverse DNS)
  • ☐ Duplicate content sorunları var mı?
  • ☐ Orphan page’ler tespit edildi mi?

Sonuç ve Öneriler

Google’ın crawling infrastructure’ını tüm ürün ailesine yaymış olması, site sahipleri için hem fırsat hem sorumluluk getiriyor.

🎯 Ana Çıkarımlar

1. Tek Altyapı, Çoklu Etki
Robots.txt’nizdeki bir satır artık Search, Shopping, News, Gemini, AdSense’i etkiliyor. Stratejinizi gözden geçirin.

2. Crawler-Specific Yaklaşım Şart
Her crawler’a (Googlebot, Storebot, Googlebot-News) site tipinize göre farklı davranın. Generic kurallar yetersiz.

3. Doğrulama Kritik
Loglarınızda “Googlebot” görmek yeterli değil. Reverse DNS ile doğrulama yapın.

4. CSS/JS Asla Bloklanmamalı
Google’ın resmi dokümantasyonunda net: Render için bu dosyalar gerekli. Bloklamak = ranking kaybı.

5. Crawl Rate Yönetimi Dikkatli Olmalı
500/503/429 status code’larını sadece acil durumlar için kullanın. Uzun süre kullanmak indexten düşmeye neden olabilir.

🎯 Crawler Optimizasyonunda Profesyonel Destek mi Arıyorsunuz?

BursaWeb’in crawler audit ve optimizasyon hizmetinden yararlanın:

✓ Google resmi dokümantasyonuna uygun robots.txt analizi
✓ Crawler-specific strategi geliştirme
✓ Crawl rate optimizasyonu
✓ Server log analizi ve bot doğrulama
✓ Site tipinize özel actionable öneriler

📞 0551 690 83 38 (WhatsApp)

15+ Yıllık Deneyim | 200+ Marka | Bursa & Türkiye Geneli

Sık Sorulan Sorular

S: Robots.txt’de CSS ve JavaScript’i bloklamak crawl budget tasarrufu sağlar mı?

C: Hayır, tam tersi! Google’ın resmi dokümantasyonuna göre, Googlebot render yapmak için bu dosyalara ihtiyaç duyar. Bloklarsanız:

  • Google sayfalarınızı tam render edemez
  • Mobile-friendly testi başarısız olabilir
  • Ranking kaybı yaşayabilirsiniz

Crawl budget tasarrufu için gereksiz sayfaları bloklamalısınız (filtreler, arşiv vs.), kaynakları değil.

S: Storebot-Google’ı bloklarsam ne olur?

C: E-ticaret siteniz Google Shopping’te görünmez! Storebot ürün sayfalarınızı tarar ve Google Shopping’e veri sağlar. Bloklarsanız, Merchant Center feed’iniz olsa bile ürünleriniz Shopping sonuçlarında çıkmaz.

S: Mediapartners-Google’ı nasıl bloklarım?

C: Bloklayamazsınız! Google’ın resmi dokümantasyonunda belirtildiği üzere: “The global user agent (*) is ignored.” Yani User-agent: * kuralı Mediapartners-Google’a uygulanmaz.

Bu aslında iyi bir şey çünkü AdSense kullanan sitelerin içeriği analiz edilerek ilgili, yüksek CPC reklamlar gösterilir.

S: Crawl rate’i uzun süre azaltırsam ne olur?

C: Google’ın uyarısı net: “We don’t recommend that you do this for a long period of time (meaning, longer than 1-2 days) as it may have a negative effect on how your site appears in Google products.”

500/503/429 status code’larını 2 günden fazla kullanırsanız, Googlebot URL’i indexten düşürebilir.

S: Loglarımda Googlebot görüyorum, gerçek mi?

C: Belki değil! Google’ın resmi uyarısı: “HTTP user-agent request header used by Googlebot is often spoofed by other crawlers.”

Doğrulama için:

  1. Reverse DNS lookup yapın: host 66.249.66.1
  2. Domain googlebot.com, google.com veya googleusercontent.com olmalı
  3. Forward DNS lookup ile IP’yi doğrulayın

Sadece bu adımları tamamlarsanız gerçek Googlebot olduğundan emin olursunuz.

S: WooCommerce filtre URL’lerimi nasıl yönetmeliyim?

C: 3 adımlı yaklaşım:

  1. Canonical tag: Tüm filtre kombinasyonları ana kategori sayfasına yönlensin
  2. robots.txt: Disallow: /urunler/*?* ile parametre URL’leri blokla
  3. Google Search Console: URL parametrelerini “crawl etme” olarak işaretle

Sonuç: Crawl budget %50-70 iyileşir, yeni ürünler daha hızlı indexlenir.

S: Shopify’da robots.txt düzenleyemiyorum, ne yapmalıyım?

C: Shopify robots.txt’i kilitlediği için alternatif yöntemler kullanın:

  • Tema dosyalarında robots.meta.liquid ile meta robots tag ekleyin
  • Gereksiz sayfalar için noindex kullanın
  • Smart SEO veya Plug in SEO uygulamalarını deneyin

Önemli: Shopify otomatik canonical ekler, ama mutlaka kontrol edin.

S: Google-Extended ve GoogleOther arasındaki fark nedir?

C:

  • GoogleOther: Google ürünlerinde (Gemini, Search features) anlık yanıtlar için içeriğinizi kullanır. Trafik potansiyeli var.
  • Google-Extended: AI model eğitimi (LLM training) için içeriğinizi kullanır. Sizin için direkt fayda yok.

Öneri: GoogleOther’a izin verin, Google-Extended’ı bloklayın:

User-agent: GoogleOther
Allow: /

User-agent: Google-Extended
Disallow: /

CMS’nize Göre Crawler Optimizasyonu

Kullandığınız e-ticaret platformu veya CMS, crawler optimizasyonunda özel yaklaşımlar gerektirebilir. İşte en yaygın platformlar için öneriler:

🛒 WooCommerce (WordPress)

En Büyük Sorun: Filtre URL Patlaması

WooCommerce filtre eklentileri (WOOF, Product Filter, Jetpack) binlerce gereksiz URL oluşturur:

❌ SORUN:
/urunler/?renk=kirmizi&beden=m&fiyat=100-500
/urunler/?renk=kirmizi&fiyat=100-500&beden=m
/urunler/?fiyat=100-500&renk=kirmizi&beden=m

→ Aynı içerik, 6 farklı URL!

BursaWeb Çözümü:

  1. Canonical Tag: Tüm filtre kombinasyonları ana kategori sayfasına yönlensin
    <link rel="canonical" href="https://site.com/urunler/" />
  2. Robots.txt Blokla:
    User-agent: *
    Disallow: /urunler/*?*
    Allow: /urunler/$
  3. Google Search Console: URL parametrelerini “crawl etme” olarak işaretle

✅ BursaWeb Vaka

WooCommerce sitesinde filtre URL’leri 12,000+ gereksiz sayfa oluşturmuştu. Canonical + robots.txt ile crawl budget %65 iyileşti, yeni ürünler 48 saat yerine 4-6 saatte indexlendi.

Önerilen Eklentiler:

  • Yoast SEO Premium – Crawl optimization özellikleri
  • Rank Math Pro – Advanced crawl settings
  • All in One SEO – Robots.txt editor

🛍️ Shopify

Önemli Sınırlama: robots.txt Düzenleyemezsiniz!

Shopify, robots.txt dosyasının üzerine yazmanıza izin vermez. Ancak robots.meta.liquid ile kontrol edebilirsiniz.

Alternatif Çözümler:

  1. Tema Dosyalarında Meta Robots:
    {% if template contains 'search' %}
      <meta name="robots" content="noindex,follow" />
    {% endif %}
  2. Shopify Sitemap Kontrol: /sitemap.xml otomatik, ama yönetemezsiniz. Gereksiz sayfalar için noindex kullanın.
  3. Canonical URL: Shopify otomatik canonical ekler, ama çift kontrol edin:
    {{ canonical_url }}

⚠️ Shopify Bots İçin Özel

Storebot-Google Shopify sitelerinde çok aktif! Product feed’inizi Merchant Center’da güncel tutun, aksi halde Storebot ile feed arasında tutarsızlık olabilir.

Önerilen App: Smart SEO veya Plug in SEO meta robots yönetimi için kullanışlı.

⚙️ Magento / Adobe Commerce

Güçlü Yönler:

  • ✅ Tam robots.txt kontrolü
  • ✅ URL yeniden yazma (rewrite) yetenekleri
  • ✅ Canonical tag yönetimi
  • ✅ XML sitemap özelleştirme

Dikkat Edilmesi Gerekenler:

  • ⚠️ Layered navigation (filtreler) yine sorun yaratabilir
  • ⚠️ Session ID’ler URL’e ekleniyor olabilir (kontrol edin)
  • ⚠️ Çoklu mağaza yapısında robots.txt her domain için ayrı
  • ⚠️ Magento 1.x → 2.x migration’da crawler ayarları sıfırlanabilir

robots.txt Önerisi (Magento):

User-agent: *
Disallow: /admin/
Disallow: /catalog/product_compare/
Disallow: /catalog/category/view/
Disallow: /catalogsearch/
Disallow: /checkout/
Disallow: /customer/
Disallow: /*?dir=*
Disallow: /*?limit=*
Disallow: /*?mode=*

User-agent: Storebot-Google
Allow: /
Disallow: /checkout/

Sitemap: https://www.site.com/sitemap.xml

🔷 PrestaShop

Özel Dikkat:

PrestaShop varsayılan olarak filtre sayfaları için canonical kullanır, ancak:

  • ✓ “SEO & URLs” ayarlarını kontrol edin
  • ✓ “Friendly URL” aktif olmalı
  • ✓ “Canonical redirect” açık olmalı

Module Önerisi:

Advanced SEO Module – Crawl kontrolü için güçlü.

2025’te AI ve Crawler’lar: Gemini, Google-Extended ve İçerik Hakları

Google’ın AI ürünleri (Gemini, Bard, SGE) için crawler kullanımı 2024-2025’te büyük tartışma yarattı. İşte site sahiplerinin bilmesi gerekenler:

🤖 Google-Extended vs GoogleOther: Fark Nedir?

Özellik GoogleOther Google-Extended
Kullanım Alanı Google ürünleri (Gemini, Search features) AI model training (LLM eğitimi)
İçerik Kullanımı Anlık yanıtlar için Model eğitimi için
Robots.txt Token GoogleOther Google-Extended

AI Training’den Opt-Out Nasıl Yapılır?

Eğer içeriğinizin AI model eğitiminde kullanılmasını istemiyorsanız:

Yöntem 1: robots.txt ile Blokla

# Gemini için izin ver (anlık yanıtlar)
User-agent: GoogleOther
Allow: /

# AI model training'i engelle
User-agent: Google-Extended
Disallow: /

Yöntem 2: Meta Robots Tag

<meta name="googlebot-extended" content="noindex, nofollow" />

💡 Site Sahipleri İçin Öneri

GoogleOther’ı bloklamayın, Google-Extended’ı bloklayın.

Neden?

  • GoogleOther: Gemini’nin sizin içeriğinizden anlık yanıt vermesi → Trafik potansiyeli var
  • Google-Extended: Model eğitimi → Sizin için direkt fayda yok

Ancak: Eğer içeriğiniz premium/ücretli ise her ikisini de bloklayabilirsiniz.

2025 AI Düzenlemeleri ve Crawler’lar

AB’de AI Act, ABD’de tartışmalar devam ediyor. İçerik sahipleri için önemli noktalar:

  • Telif Hakları: AI training için içerik kullanımı hala gri alan. Google-Extended bloklama hakkınız var.
  • Transparency: Google, crawler kullanımını açık tutma taahhüdünde.
  • Opt-Out: robots.txt ile opt-out yapabilirsiniz, ancak retroaktif değil (yani geçmişte kullanılmış datayı silmez).

⚠️ Dikkat: Google-Extended Bloklamak Risk Yaratabilir mi?

Hayır, risk yok. Google resmi olarak belirtti: Google-Extended’ı bloklamak ranking’i etkilemez.

Ancak gelecekte Gemini’nin Google Search’te daha entegre olması durumunda, GoogleOther’ı bloklamak görünürlüğünüzü azaltabilir.

BursaWeb Crawler Optimizasyon Hizmetleri

15+ yıllık deneyimimizle crawler optimizasyonunda kapsamlı destek sunuyoruz:

🎯 Hizmetlerimiz

Portföyümüz: 200+ marka | E-ticaret, medikal, B2B, haber siteleri | Bursa & Türkiye geneli


Kaynaklar

Bu rehber Google’ın resmi dokümantasyonuna dayanmaktadır:

Son Güncelleme: 22 Kasım 2025
Bu makale Google’ın 22 Kasım 2025 tarihli Search Central duyurusuna dayanmaktadır.
Yazar: BursaWeb Content Team
15+ yıllık deneyim | 200+ marka | Google resmi dokümantasyon destekli

📞 İletişim: 0551 690 83 38 (WhatsApp)
📍 Adres: Ertuğrul Mahallesi, Nilüfer/Bursa

Son Yazılar

llms.txt Nasıl Oluşturulur? Dikkat Edilmesi Gereken 5 Kritik Nokta

|

Neden Shopify? İşletmenizi Büyütmek İçin 10 Güçlü Sebep

|

Shopify Ajans Nedir? Hizmetleri ve Seçim Rehberi

|

Hizmetlerimiz

Sizi dinliyor ve ihtiyacınız olan çözümü size sunmak için çalışıyoruz.

İletişim Bilgilerimiz

Bizi Takip Edin

© Bursa Web. All rights reserved.