Google’ın Yeni Crawling Altyapısı: Search, Shopping, News ve Gemini’yi Etkileyen Kritik Değişiklikler

Q: Robots.txt’de CSS ve JavaScript’i bloklamak crawl budget tasarrufu sağlar mı?

Hayır. Googlebot tam render için CSS ve JavaScript dosyalarına ihtiyaç duyar. Bu kaynakları bloklamak mobile-friendly hatalarına ve sıralama kaybına neden olur.

Q: Storebot-Google’ı bloklarsam ne olur?

E-ticaret ürünleriniz Google Shopping'te görünmez. Merchant Center feed'iniz olsa bile Storebot ürün doğrulaması yapamaz ve ürünler Shopping sonuçlarına yansımaz.

Q: Mediapartners-Google’ı nasıl bloklarım?

Bloklayamazsınız. Mediapartners-Google global user agent (*) kuralını yok sayar. Bu iyi bir şeydir çünkü AdSense daha alakalı ve yüksek CPC reklamlar gösterebilir.

Q: Crawl rate’i uzun süre azaltırsam ne olur?

Googlebot 500/503/429 yanıtlarını birkaç günden uzun süre görürse URL'leri indexten düşürebilir. Crawl rate düşürme yalnızca kısa süreli acil durumlar için kullanılmalıdır.

Q: Loglarımda Googlebot görüyorum, gerçek mi?

User-agent spooflanabilir. Gerçek Googlebot olup olmadığını anlamak için reverse DNS ve forward DNS doğrulaması yapılmalıdır.

Q: WooCommerce filtre URL’lerimi nasıl yönetmeliyim?

Filtre URL’lerinin canonical ile ana kategoriye yönlendirilmesi, robots.txt içinde Disallow: /urunler/*?* kuralı ve Google Search Console'da parametre yönetimi yapılmalıdır.

Q: Shopify’da robots.txt düzenleyemiyorum, ne yapmalıyım?

Shopify robots.txt'i kilitlidir. Bunun yerine meta robots etiketi, noindex, tema düzenlemeleri ve Smart SEO gibi uygulamalar kullanılabilir.

Q: Google-Extended ve GoogleOther arasındaki fark nedir?

GoogleOther: Gemini ve Search özellikleri için anlık içerik kullanır. Google-Extended: AI model eğitimi için içerik toplar. Öneri: GoogleOther'a izin verin, Google-Extended'ı robots.txt ile engelleyin.

22 Kasım 2025

Google, crawler altyapısını yeniden organize ederek kritik bir değişikliği vurguladı: Crawling infrastructure artık sadece Google Search için değil, tüm Google ürün ailesi için kullanılıyor.

Bu ne anlama geliyor? Robots.txt dosyanızdaki bir satır, sitemap stratejiniz veya crawler ayarlarınız artık Google Search, Shopping, News, Gemini, AdSense ve NotebookLM’i aynı anda etkiliyor.

📌 Bu Kapsamlı Rehberde:

✓ Google’ın yeni crawling infrastructure yapısı
✓ 3 farklı crawler kategorisi ve özellikleri
✓ Her Google ürünü için spesifik crawler detayları
✓ Robots.txt’i doğru yapılandırma teknikleri
✓ Crawl rate yönetimi ve optimizasyon
✓ Googlebot doğrulama yöntemleri
✓ BursaWeb’in 15+ yıllık deneyiminden pratik öneriler

Okuma Süresi: ~15 dakika | Kaynak: Google Resmi Dokümantasyon + BursaWeb Deneyimi

BursaWeb olarak 15+ yıldır 200+ markanın dijital pazarlama süreçlerini yönetiyoruz. Google’ın resmi dokümantasyonunu detaylı inceledik ve Türkiye’deki siteler için pratik uygulamalarını bu rehberde paylaşıyoruz.

Google Crawling Infrastructure: Tek Altyapı, Çoklu Ürün

Google’ın developers.google.com/crawling adresindeki resmi dokümantasyonunda şu kritik açıklama yer alıyor:

“Google’s crawling infrastructure is shared across a variety of Google products. This means that following best practices helps your web content be discovered more efficiently and featured on Google.”

Bu ifade çok önemli çünkü artık crawler optimizasyonu yaparken tek bir üründen (Search) değil, tüm ekosistemden düşünmeniz gerekiyor.

✅ Bunun Pratik Anlamı

Google’ın resmi dokümantasyonunda belirttiği ürünler:

Google Search → Googlebot ile içerik taraması
Google Shopping → Storebot-Google ile ürün bilgileri
Google News → Googlebot-News ile haber içerikleri
Gemini → Google-Extended ile AI eğitimi
AdSense → Mediapartners-Google ile reklam analizi
NotebookLM → Google-NotebookLM fetcher ile kullanıcı kaynakları

Yani: Robots.txt’de yaptığınız bir değişiklik, sitemap optimizasyonunuz veya server ayarlarınız bu ürünlerin hepsini etkiliyor. Bu yüzden crawler stratejinizi gözden geçirmeniz kritik.

Google Crawler Kategorileri: 3 Farklı Tip

Google, crawler’larını resmi dokümantasyonunda 3 kategoriye ayırıyor:

Kategori	Açıklama	Robots.txt
Common Crawlers	Google ürünleri için kullanılan crawler’lar (Googlebot gibi). Otomatik crawl yaparlar ve robots.txt kurallarına her zaman uyarlar.	✅ Uyar
Special-case Crawlers	Belirli ürünler için özel fonksiyonlar sunan crawler’lar (AdsBot gibi). Ürün ile site arasında anlaşma gerektirebilir.	⚠️ Bazen uyar
User-triggered Fetchers	Kullanıcı isteğiyle tetiklenen fetch işlemleri (Google Site Verifier gibi). Kullanıcı isteği olduğu için genellikle robots.txt’i ignore eder.	❌ Ignore

Common Crawlers: Ana Google Botları

Google’ın en yaygın kullanılan crawler’ları bunlar. Hepsi robots.txt kurallarına kesinlikle uyar ve otomatik crawl yapar.

🤖 Googlebot – Ana Search Crawler

User Agent: Googlebot
Kullanım Alanı: Google Search indexleme
Robots.txt Token: Googlebot

Google’ın Resmi Açıklaması:

“Googlebot is the generic name for two types of web crawlers used by Google Search: Googlebot Smartphone (mobile crawler) and Googlebot Desktop (desktop crawler).”

Önemli Detaylar:

İki tip var: Smartphone (mobil) ve Desktop. Her ikisi de aynı user agent token’ı kullanır, robots.txt’te ayıramazsınız.
Mobile-first indexing: Google çoğunlukla mobil crawler kullanıyor. Sitenizin mobil versiyonu öncelikli.
HTML limit: Googlebot bir HTML dosyasının ilk 15MB’ını tarar. Daha fazlası indexleme için dikkate alınmaz.
Timezone: ABD’den crawl yaparken Pacific Time timezone’unu kullanır.

✅ BursaWeb Önerisi

Googlebot için genellikle tam erişim vermeniz önerilir. Ancak crawl budget sorunları yaşayan büyük sitelerde (50.000+ sayfa) gereksiz sayfaları bloklamak mantıklı olabilir.

Örnek: Portföyümüzdeki bir medikal sitede eski blog arşivini (2015 öncesi) robots.txt’le bloklamıştık. Crawl budget’ın daha verimli kullanılmasıyla yeni içerikler 24 saat yerine 2-3 saat içinde indexlenmeye başladı.

Dikkat: CSS/JavaScript Asla Bloklanmamalı!

Google resmi dokümantasyonunda vurguluyor: Googlebot render yapmak için CSS ve JavaScript dosyalarına ihtiyaç duyar. Bunları blokarsanız:

✗ Sayfalarınız tam render edilemez
✗ Mobile-friendly testi başarısız olabilir
✗ Ranking kaybı yaşayabilirsiniz

🛍️ Storebot-Google – Shopping Crawler

User Agent: Storebot-Google/1.0
Kullanım Alanı: Google Shopping
Robots.txt Token: Storebot-Google

Google’ın Resmi Açıklaması:

“Crawling preferences addressed to the Storebot-Google user agent affect all surfaces of Google Shopping (for example, the Shopping tab in Google Search and Google Shopping).”

⚠️ E-TİCARET İÇİN KRİTİK UYARI

E-ticaret sitesi işletiyorsanız mutlaka Storebot-Google’a erişim verin!

Yaygın yanlış: “Zaten Merchant Center feed kullanıyorum, Storebot’a gerek yok.” Bu tamamen yanlış! Storebot ürün sayfalarınızı doğrulama ve güncel bilgi toplama için tarar.

Storebot’u bloklamak = Google Shopping’te görünmemek demektir.

robots.txt Örneği (E-Ticaret):

# Genel crawler - seçici
User-agent: Googlebot
Allow: /urunler/
Disallow: /urunler/*?filtre=*
Disallow: /sepet/

# Shopping crawler - tüm ürünler
User-agent: Storebot-Google
Allow: /urunler/
Allow: /kategoriler/
Disallow: /sepet/

📰 Googlebot-News – Haber Crawler’ı

User Agent: Çeşitli Googlebot user agent strings
Kullanım Alanı: Google News, news.google.com, Google News app
Robots.txt Token: Googlebot-News

Google’ın Resmi Açıklaması:

“Googlebot-news doesn’t have a separate HTTP request user agent string. Crawling is done with various Googlebot user agent strings. Crawling preferences addressed to the Googlebot-News user agent affect the Google News product, including news.google.com and the Google News app.”

💡 Haber Siteleri İçin Önemli

Hız kritik faktör! Googlebot-News yeni içerikleri çok hızlı tarar.

Zorunlu gereksinimler:

News sitemap (son 48 saatin içerikleri)
Article structured data
Publication date net olmalı
Author bilgisi ekleyin

BursaWeb Gözlemi: News sitemap kullanan haber siteleri 5-15 dakika içinde Google News’te görünürken, kullanmayanlar 2-4 saat bekliyor.

robots.txt Örneği (Haber Sitesi):

User-agent: Googlebot-News
Allow: /haberler/
Allow: /gundem/
Allow: /archive/1Q84
Disallow: /archive/

💰 Mediapartners-Google – AdSense Crawler

User Agent: Mediapartners-Google
Kullanım Alanı: Google AdSense
Robots.txt Token: Mediapartners-Google

Google’ın Resmi Açıklaması:

“The AdSense crawler visits participating sites in order to provide them with relevant ads. Crawling preferences addressed to the Mediapartners-Google user agent affect Google AdSense.”

Özel Özellik: Global user agent (*) kurallarını ignore eder. Yani:

User-agent: *
Disallow: /

# Bu kural Mediapartners-Google'ı ETKİLEMEZ!

⚠️ YAPILAN EN BÜYÜK HATA

Birçok site sahibi AdSense kullanıyor ama Mediapartners-Google’ı blokluyor!

Bu crawler içeriğinizi analiz edip ilgili reklamları gösterir. Bloklarsanız:

✗ Düşük CPC (generic, düşük değerli reklamlar)
✗ İlgisiz reklamlar (kullanıcı tıklamaz)
✗ %30-50 gelir kaybı

✅ Doğru Yaklaşım

User-agent: Mediapartners-Google
Allow: /archive/1Q84
Disallow: /archive/

Tüm içerik sayfalarına erişim verin. Bu crawler ranking’i etkilemez, sadece reklam kalitesini artırır.

📝 Google-NotebookLM – AI Kaynak Fetcher

User Agent: Google-NotebookLM
Kullanım Alanı: NotebookLM kullanıcı projeleri

Google’ın Resmi Açıklaması:

“The Google-NotebookLM fetcher requests individual URLs that NotebookLM users have provided as sources for their projects.”

Bu crawler, NotebookLM kullanıcılarının kaynak olarak verdiği URL’leri fetch eder. Kullanıcı tetiklemeli olduğu için genellikle robots.txt’i ignore eder.

Robots.txt: Doğru Yapılandırma Teknikleri

Google’ın resmi dokümantasyonunda robots.txt için detaylı kurallar var. İşte en önemli noktalar:

📋 Robots.txt Temel Kurallar

Format ve Konum:

Dosya adı: robots.txt (küçük harf)
Konum: Site root’unda olmalı (https://www.example.com/robots.txt)
Encoding: UTF-8 (ASCII dahil)
Bir sitede sadece 1 robots.txt olabilir

Desteklenen Direktifler:

user-agent: Hangi crawler için (zorunlu, her grup başında)
disallow: Crawl edilmemesi gereken path’ler
allow: Disallow içinde izin verilen path’ler
sitemap: Sitemap URL’i (opsiyonel)

Önemli: Tüm kurallar * wildcard destekler. Case-sensitive’dir!

Robots.txt Örnekleri

Örnek 1: Sadece Googlebot Blokla

# Example 1: Block only Googlebot
User-agent: Googlebot
Disallow: /

Örnek 2: Googlebot ve AdsBot Blokla

# Example 2: Block Googlebot and AdsBot
User-agent: Googlebot
User-agent: AdsBot-Google
Disallow: /

Örnek 3: AdsBot Hariç Herkesi Blokla

# Example 3: Block all except AdsBot
# (AdsBot crawlers must be named explicitly)
User-agent: *
Disallow: /

Dikkat: User-agent: * AdsBot crawler’larını kapsamaz, onları açıkça belirtmeniz gerekir.

BursaWeb Önerilen robots.txt Template:

# BursaWeb Recommended robots.txt
# Site: [YourSite.com]

# Genel kurallar
User-agent: *
Allow: /
Allow: /wp-admin/admin-ajax.php

# Bloklanacak alanlar
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /sepet/
Disallow: /odeme/
Disallow: /hesabim/

# E-Ticaret özel (varsa)
User-agent: Storebot-Google
Allow: /urunler/
Allow: /kategoriler/
Disallow: /sepet/

# Haber sitesi özel (varsa)
User-agent: Googlebot-News
Allow: /haberler/
Disallow: /arsiv/

# Sitemaps
Sitemap: https://www.site.com/sitemap.xml
Sitemap: https://www.site.com/sitemap_index.xml

Crawl Rate Yönetimi

Google’ın resmi dokümantasyonunda crawl rate’in nasıl yönetileceği detaylı açıklanıyor:

📊 Google’ın Resmi Açıklaması

“Google’s crawler infrastructure has sophisticated algorithms to determine the optimal crawl rate for a site. Our goal is to crawl as many pages from your site as we can on each visit without overwhelming your server.”

Acil Durumlarda Crawl Rate’i Azaltma

Server’ınız Google’ın crawl request’lerinden dolayı zorlanıyorsa, Google 3 HTTP status code kullanmanızı öneriyor:

500 – Internal Server Error
503 – Service Unavailable
429 – Too Many Requests

⚠️ Google’ın Uyarısı

Warning: When considering reducing the Google’s crawl rate, keep in mind that this will have broad effects. For Search, Googlebot will discover fewer new pages, and existing pages will be refreshed less frequently (for example, prices and product availability may take longer to be reflected in Search), and removed pages may stay in the index longer.

Önemli: Bu yöntemi uzun süre (2 günden fazla) kullanmayın. Googlebot aynı URL’de birden fazla gün bu status code’ları görürse, URL’i indexten düşürebilir.

Crawl Rate Artışının Nedenleri

Google, crawl rate’te ani artışların nedenlerini şöyle açıklıyor:

Inefficient configuration of URLs – Faceted navigation, filtreler, sıralama parametreleri
Calendar URLs – Belirli tarihler için çok sayıda URL
Dynamic Search Ad targets

Çözüm: Hosting şirketinizle iletişime geçip server loglarınızı kontrol edin. Google’ın “duplicate URL consolidation” ve “crawl budget optimization” rehberlerine bakın.

Googlebot Doğrulama: Sahte Bot’lardan Korunma

Google’ın resmi dokümantasyonunda vurguladığı önemli bir nokta: HTTP user-agent string spooflanabilir!

⚠️ Güvenlik Uyarısı

“Before you decide to block Googlebot, be aware that the HTTP user-agent request header used by Googlebot is often spoofed by other crawlers.”

Yani loglarınızda “Googlebot” görmek, gerçekten Google olduğu anlamına gelmez. Doğrulama şart!

Doğrulama Yöntemleri

Google iki yöntem öneriyor:

Yöntem 1: Manuel (Command Line Tools)

Tek seferlik kontroller için yeterli. Google’ın önerdiği adımlar:

Reverse DNS lookup yapın:
```
$ host 66.249.66.1
```
Domain adını doğrulayın: googlebot.com, google.com veya googleusercontent.com olmalı
Forward DNS lookup yapın:
```
$ host crawl-66-249-66-1.googlebot.com
```
IP adresinin aynı olduğunu doğrulayın

Google’ın Resmi Örneği:

$ host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

$ host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

✅ IP adresi aynı (66.249.66.1) → Gerçek Googlebot

Yöntem 2: Otomatik (IP Range Matching)

Büyük ölçekli kontroller için Google şu JSON dosyalarını sağlıyor:

Common crawlers: googlebot.json
Special-case crawlers: special-crawlers.json
User-triggered fetchers: user-triggered-fetchers.json ve user-triggered-fetchers-google.json

Not: IP adresleri CIDR formatında.

Türkiye’de Yaygın Crawling Hataları

15+ yıllık deneyimimizde Türkiye’deki sitelerde en sık karşılaştığımız hatalar:

🔴 Hata 1: CSS/JavaScript Bloklamak

Birçok site sahibi crawl budget tasarrufu için CSS ve JS dosyalarını bloklarken hataya düşüyor:

❌ YANLIŞ:
User-agent: *
Disallow: /css/
Disallow: /js/
Disallow: /assets/

Sonuç: Google sayfalarınızı render edemiyor → Mobile-friendly test fail → Ranking kaybı

✓ DOĞRU:
User-agent: *
Allow: /css/
Allow: /js/
Allow: /assets/
Disallow: /admin/

🟠 Hata 2: Storebot’u Bloklamak (E-Ticaret)

E-ticaret siteleri yanlışlıkla Storebot-Google’ı blokluyor:

❌ YANLIŞ:
User-agent: *
Disallow: /urunler/

Sonuç: Hem Googlebot hem Storebot bloklanıyor = Google Shopping’te görünmüyorsunuz!

Çözüm: Storebot’u özel olarak allow edin (yukarıdaki örneklere bakın).

🔵 Hata 3: Mediapartners-Google’ı Bloklamak

AdSense kullanan siteler farkında olmadan gelir kaybediyor:

❌ YANLIŞ:
User-agent: *
Disallow: /
# Mediapartners-Google için özel kural YOK!

Sonuç: Google içeriğinizi analiz edemiyor → Generic, düşük CPC reklamlar → %30-50 gelir kaybı

Hatırlatma: Mediapartners-Google, User-agent: * kuralını ignore eder. Bloklayamazsınız (bu iyi bir şey!).

✅ Doğru Yaklaşım: Crawler-Specific Kurallar

Her crawler için ayrı kurallar belirleyin:

✓ DOĞRU:
# Genel bot - seçici
User-agent: Googlebot
Allow: /
Disallow: /admin/
Disallow: /urunler/*?filtre=*

# Shopping bot - liberal
User-agent: Storebot-Google
Allow: /urunler/
Disallow: /admin/

# AdSense için özel kural YOK
# (Zaten * kuralını ignore eder)

BursaWeb Crawler Optimizasyon Checklist

✅ Hemen Uygulayabileceğiniz Kontroller

📋 Seviye 1: Temel Kontroller (Tüm Siteler)

☐ Robots.txt dosyanız var mı ve doğru konumda mı? (site.com/robots.txt)
☐ CSS ve JavaScript dosyaları bloklanmamış mı?
☐ UTF-8 encoding kullanılıyor mu?
☐ Sitemap URL’i robots.txt’de belirtilmiş mi?
☐ Google Search Console kurulu mu?

📋 Seviye 2: Site Tipine Özel

E-Ticaret:

☐ Storebot-Google’a ürün sayfalarında erişim var mı?
☐ Product structured data eklenmiş mi?
☐ Filtre sayfaları crawl budget tüketiyor mu? (Canonical kontrol)
☐ Google Merchant Center bağlı mı?

Haber Siteleri:

☐ News sitemap var mı? (Son 48 saat)
☐ Article structured data var mı?
☐ Publication date ve Author bilgisi ekli mi?

AdSense Kullananlar:

☐ Mediapartners-Google bloklanmamış mı? (Bloklayamazsınız zaten, ama kontrol edin)
☐ İçerik sayfalarına erişim var mı?

📋 Seviye 3: Advanced

☐ Server response time < 200ms mi?
☐ Crawl Stats raporunu düzenli kontrol ediyor musunuz?
☐ Googlebot doğrulaması yapıyor musunuz? (Reverse DNS)
☐ Duplicate content sorunları var mı?
☐ Orphan page’ler tespit edildi mi?

Sonuç ve Öneriler

Google’ın crawling infrastructure’ını tüm ürün ailesine yaymış olması, site sahipleri için hem fırsat hem sorumluluk getiriyor.

🎯 Ana Çıkarımlar

1. Tek Altyapı, Çoklu Etki
Robots.txt’nizdeki bir satır artık Search, Shopping, News, Gemini, AdSense’i etkiliyor. Stratejinizi gözden geçirin.

2. Crawler-Specific Yaklaşım Şart
Her crawler’a (Googlebot, Storebot, Googlebot-News) site tipinize göre farklı davranın. Generic kurallar yetersiz.

3. Doğrulama Kritik
Loglarınızda “Googlebot” görmek yeterli değil. Reverse DNS ile doğrulama yapın.

4. CSS/JS Asla Bloklanmamalı
Google’ın resmi dokümantasyonunda net: Render için bu dosyalar gerekli. Bloklamak = ranking kaybı.

5. Crawl Rate Yönetimi Dikkatli Olmalı
500/503/429 status code’larını sadece acil durumlar için kullanın. Uzun süre kullanmak indexten düşmeye neden olabilir.

🎯 Crawler Optimizasyonunda Profesyonel Destek mi Arıyorsunuz?

BursaWeb’in crawler audit ve optimizasyon hizmetinden yararlanın:

✓ Google resmi dokümantasyonuna uygun robots.txt analizi
✓ Crawler-specific strategi geliştirme
✓ Crawl rate optimizasyonu
✓ Server log analizi ve bot doğrulama
✓ Site tipinize özel actionable öneriler

📞 0551 690 83 38 (WhatsApp)

15+ Yıllık Deneyim | 200+ Marka | Bursa & Türkiye Geneli

Sık Sorulan Sorular

S: Robots.txt’de CSS ve JavaScript’i bloklamak crawl budget tasarrufu sağlar mı?

C: Hayır, tam tersi! Google’ın resmi dokümantasyonuna göre, Googlebot render yapmak için bu dosyalara ihtiyaç duyar. Bloklarsanız:

Google sayfalarınızı tam render edemez
Mobile-friendly testi başarısız olabilir
Ranking kaybı yaşayabilirsiniz

Crawl budget tasarrufu için gereksiz sayfaları bloklamalısınız (filtreler, arşiv vs.), kaynakları değil.

S: Storebot-Google’ı bloklarsam ne olur?

C: E-ticaret siteniz Google Shopping’te görünmez! Storebot ürün sayfalarınızı tarar ve Google Shopping’e veri sağlar. Bloklarsanız, Merchant Center feed’iniz olsa bile ürünleriniz Shopping sonuçlarında çıkmaz.

S: Mediapartners-Google’ı nasıl bloklarım?

C: Bloklayamazsınız! Google’ın resmi dokümantasyonunda belirtildiği üzere: “The global user agent (*) is ignored.” Yani User-agent: * kuralı Mediapartners-Google’a uygulanmaz.

Bu aslında iyi bir şey çünkü AdSense kullanan sitelerin içeriği analiz edilerek ilgili, yüksek CPC reklamlar gösterilir.

S: Crawl rate’i uzun süre azaltırsam ne olur?

C: Google’ın uyarısı net: “We don’t recommend that you do this for a long period of time (meaning, longer than 1-2 days) as it may have a negative effect on how your site appears in Google products.”

500/503/429 status code’larını 2 günden fazla kullanırsanız, Googlebot URL’i indexten düşürebilir.

S: Loglarımda Googlebot görüyorum, gerçek mi?

C: Belki değil! Google’ın resmi uyarısı: “HTTP user-agent request header used by Googlebot is often spoofed by other crawlers.”

Doğrulama için:

Reverse DNS lookup yapın: host 66.249.66.1
Domain googlebot.com, google.com veya googleusercontent.com olmalı
Forward DNS lookup ile IP’yi doğrulayın

Sadece bu adımları tamamlarsanız gerçek Googlebot olduğundan emin olursunuz.

S: WooCommerce filtre URL’lerimi nasıl yönetmeliyim?

C: 3 adımlı yaklaşım:

Canonical tag: Tüm filtre kombinasyonları ana kategori sayfasına yönlensin
robots.txt: Disallow: /urunler/*?* ile parametre URL’leri blokla
Google Search Console: URL parametrelerini “crawl etme” olarak işaretle

Sonuç: Crawl budget %50-70 iyileşir, yeni ürünler daha hızlı indexlenir.

S: Shopify’da robots.txt düzenleyemiyorum, ne yapmalıyım?

C: Shopify robots.txt’i kilitlediği için alternatif yöntemler kullanın:

Tema dosyalarında robots.meta.liquid ile meta robots tag ekleyin
Gereksiz sayfalar için noindex kullanın
Smart SEO veya Plug in SEO uygulamalarını deneyin

Önemli: Shopify otomatik canonical ekler, ama mutlaka kontrol edin.

S: Google-Extended ve GoogleOther arasındaki fark nedir?

GoogleOther: Google ürünlerinde (Gemini, Search features) anlık yanıtlar için içeriğinizi kullanır. Trafik potansiyeli var.
Google-Extended: AI model eğitimi (LLM training) için içeriğinizi kullanır. Sizin için direkt fayda yok.

Öneri: GoogleOther’a izin verin, Google-Extended’ı bloklayın:

User-agent: GoogleOther
Allow: /

User-agent: Google-Extended
Disallow: /

CMS’nize Göre Crawler Optimizasyonu

Kullandığınız e-ticaret platformu veya CMS, crawler optimizasyonunda özel yaklaşımlar gerektirebilir. İşte en yaygın platformlar için öneriler:

🛒 WooCommerce (WordPress)

En Büyük Sorun: Filtre URL Patlaması

WooCommerce filtre eklentileri (WOOF, Product Filter, Jetpack) binlerce gereksiz URL oluşturur:

❌ SORUN:
/urunler/?renk=kirmizi&beden=m&fiyat=100-500
/urunler/?renk=kirmizi&fiyat=100-500&beden=m
/urunler/?fiyat=100-500&renk=kirmizi&beden=m

→ Aynı içerik, 6 farklı URL!

BursaWeb Çözümü:

Canonical Tag: Tüm filtre kombinasyonları ana kategori sayfasına yönlensin
```
<link rel="canonical" href="https://site.com/urunler/" />
```

Robots.txt Blokla:

User-agent: *
Disallow: /urunler/*?*
Allow: /urunler/$

Google Search Console: URL parametrelerini “crawl etme” olarak işaretle

✅ BursaWeb Vaka

WooCommerce sitesinde filtre URL’leri 12,000+ gereksiz sayfa oluşturmuştu. Canonical + robots.txt ile crawl budget %65 iyileşti, yeni ürünler 48 saat yerine 4-6 saatte indexlendi.

Önerilen Eklentiler:

Yoast SEO Premium – Crawl optimization özellikleri
Rank Math Pro – Advanced crawl settings
All in One SEO – Robots.txt editor

🛍️ Shopify

Önemli Sınırlama: robots.txt Düzenleyemezsiniz!

Shopify, robots.txt dosyasının üzerine yazmanıza izin vermez. Ancak robots.meta.liquid ile kontrol edebilirsiniz.

Alternatif Çözümler:

Tema Dosyalarında Meta Robots:

{% if template contains 'search' %}
  <meta name="robots" content="noindex,follow" />
{% endif %}

Shopify Sitemap Kontrol: /sitemap.xml otomatik, ama yönetemezsiniz. Gereksiz sayfalar için noindex kullanın.
Canonical URL: Shopify otomatik canonical ekler, ama çift kontrol edin:
```
{{ canonical_url }}
```

⚠️ Shopify Bots İçin Özel

Storebot-Google Shopify sitelerinde çok aktif! Product feed’inizi Merchant Center’da güncel tutun, aksi halde Storebot ile feed arasında tutarsızlık olabilir.

Önerilen App: Smart SEO veya Plug in SEO meta robots yönetimi için kullanışlı.

⚙️ Magento / Adobe Commerce

Güçlü Yönler:

✅ Tam robots.txt kontrolü
✅ URL yeniden yazma (rewrite) yetenekleri
✅ Canonical tag yönetimi
✅ XML sitemap özelleştirme

Dikkat Edilmesi Gerekenler:

⚠️ Layered navigation (filtreler) yine sorun yaratabilir
⚠️ Session ID’ler URL’e ekleniyor olabilir (kontrol edin)
⚠️ Çoklu mağaza yapısında robots.txt her domain için ayrı
⚠️ Magento 1.x → 2.x migration’da crawler ayarları sıfırlanabilir

robots.txt Önerisi (Magento):

User-agent: *
Disallow: /admin/
Disallow: /catalog/product_compare/
Disallow: /catalog/category/view/
Disallow: /catalogsearch/
Disallow: /checkout/
Disallow: /customer/
Disallow: /*?dir=*
Disallow: /*?limit=*
Disallow: /*?mode=*

User-agent: Storebot-Google
Allow: /
Disallow: /checkout/

Sitemap: https://www.site.com/sitemap.xml

🔷 PrestaShop

Özel Dikkat:

PrestaShop varsayılan olarak filtre sayfaları için canonical kullanır, ancak:

✓ “SEO & URLs” ayarlarını kontrol edin
✓ “Friendly URL” aktif olmalı
✓ “Canonical redirect” açık olmalı

Module Önerisi:

Advanced SEO Module – Crawl kontrolü için güçlü.

2025’te AI ve Crawler’lar: Gemini, Google-Extended ve İçerik Hakları

Google’ın AI ürünleri (Gemini, Bard, SGE) için crawler kullanımı 2024-2025’te büyük tartışma yarattı. İşte site sahiplerinin bilmesi gerekenler:

🤖 Google-Extended vs GoogleOther: Fark Nedir?

Özellik	GoogleOther	Google-Extended
Kullanım Alanı	Google ürünleri (Gemini, Search features)	AI model training (LLM eğitimi)
İçerik Kullanımı	Anlık yanıtlar için	Model eğitimi için
Robots.txt Token	`GoogleOther`	`Google-Extended`

AI Training’den Opt-Out Nasıl Yapılır?

Eğer içeriğinizin AI model eğitiminde kullanılmasını istemiyorsanız:

Yöntem 1: robots.txt ile Blokla

# Gemini için izin ver (anlık yanıtlar)
User-agent: GoogleOther
Allow: /

# AI model training'i engelle
User-agent: Google-Extended
Disallow: /

Yöntem 2: Meta Robots Tag

<meta name="googlebot-extended" content="noindex, nofollow" />

💡 Site Sahipleri İçin Öneri

GoogleOther’ı bloklamayın, Google-Extended’ı bloklayın.

Neden?

GoogleOther: Gemini’nin sizin içeriğinizden anlık yanıt vermesi → Trafik potansiyeli var
Google-Extended: Model eğitimi → Sizin için direkt fayda yok

Ancak: Eğer içeriğiniz premium/ücretli ise her ikisini de bloklayabilirsiniz.

2025 AI Düzenlemeleri ve Crawler’lar

AB’de AI Act, ABD’de tartışmalar devam ediyor. İçerik sahipleri için önemli noktalar:

Telif Hakları: AI training için içerik kullanımı hala gri alan. Google-Extended bloklama hakkınız var.
Transparency: Google, crawler kullanımını açık tutma taahhüdünde.
Opt-Out: robots.txt ile opt-out yapabilirsiniz, ancak retroaktif değil (yani geçmişte kullanılmış datayı silmez).

⚠️ Dikkat: Google-Extended Bloklamak Risk Yaratabilir mi?

Hayır, risk yok. Google resmi olarak belirtti: Google-Extended’ı bloklamak ranking’i etkilemez.

Ancak gelecekte Gemini’nin Google Search’te daha entegre olması durumunda, GoogleOther’ı bloklamak görünürlüğünüzü azaltabilir.

BursaWeb Crawler Optimizasyon Hizmetleri

15+ yıllık deneyimimizle crawler optimizasyonunda kapsamlı destek sunuyoruz:

🎯 Hizmetlerimiz

Teknik SEO Danışmanlığı – Crawler optimizasyonu, site hızı, indexleme sorunları
SEO Danışmanlığı – Kapsamlı SEO stratejisi ve uygulama desteği
E-Ticaret SEO – WooCommerce, Shopify, Magento için özel çözümler
Site Hız Optimizasyonu – Crawl efficiency için kritik
Log Analizi & Bot Doğrulama – Gerçek Googlebot’u sahte bot’lardan ayırma

Portföyümüz: 200+ marka | E-ticaret, medikal, B2B, haber siteleri | Bursa & Türkiye geneli

Kaynaklar

Bu rehber Google’ın resmi dokümantasyonuna dayanmaktadır:

Son Güncelleme: 22 Kasım 2025
Bu makale Google’ın 22 Kasım 2025 tarihli Search Central duyurusuna dayanmaktadır.
Yazar: BursaWeb Content Team
15+ yıllık deneyim | 200+ marka | Google resmi dokümantasyon destekli

📞 İletişim: 0551 690 83 38 (WhatsApp)
📍 Adres: Ertuğrul Mahallesi, Nilüfer/Bursa

Son Yazılar

llms.txt Nasıl Oluşturulur? Dikkat Edilmesi Gereken 5 Kritik Nokta

Eylül 28, 2025 | Blog

Daha fazla bilgi

Neden Shopify? İşletmenizi Büyütmek İçin 10 Güçlü Sebep

Eylül 21, 2025 | Blog

Daha fazla bilgi

Shopify Ajans Nedir? Hizmetleri ve Seçim Rehberi

Eylül 19, 2025 | Blog

Daha fazla bilgi

Hizmetlerimiz

Marka Yönetimi

Stratejik marka yönetimi ile markanız ve ürünleriniz için en doğru hamlelerle sürdürülebilir bir kazanç planı oluşturmak ve büyümeyi desteklemek için etkili çözüm önerilerini sizlerle buluşturuyoruz.

Daha fazla bilgi

Profesyonel Web Tasarım

Dijital dünyada kurumsal kimlik yaratmak ve markanın dijitaldeki kartviziti olacak web siteleri satış başarısı, ürün ve hizmet tanıtımı ve marka bilinirliği konularında da önemli katkılar sağlamaktadır.

Daha fazla bilgi

E-Ticaret Yazılımı

Güvenilir, kullanıcı dostu ve güçlü bir e – ticaret yazılımı için uzman desteğimizden güvenle yararlanabilirsiniz. Mobil uyumluluk artıları ve gelişmiş araçları ile online satışlarınızı artırmanızda size katkı sağlayacak uzman yazılımlardan yararlanmanız mümkündür.

Daha fazla bilgi

SEO Danışmanlığı

SEO danışmanlığı, bir işletmeye veya web sitesine SEO stratejisi oluşturma ve uygulama konusunda uzman tavsiyesi sağlayan bir hizmettir.

Daha fazla bilgi

Google Ads Reklam

Google Ads, hedef kitlenizle bağlantı kurmanın ve web sitenize alakalı trafik çekmenin güçlü bir yolunu sunar. Ancak, Google Ads kampanyalarını etkili bir şekilde yönetmek, uzmanlık ve stratejik planlama gerektirir.

Daha fazla bilgi

Sosyal Medya Yönetimi

Instagram, Facebook, Twitter ve Tiktok gibi platformların hayatımızda büyük yer edinmesiyle birlikte sosyal medya yönetimi kavramı oluştu. Dünyanın en çok kullanılan sosyal medya platformlarında açılan hesapların aktif ve verimli bir şekilde kullanılması gerekiyor.

Daha fazla bilgi

Sizi dinliyor ve ihtiyacınız olan çözümü size sunmak için çalışıyoruz.

Hızlı Bağlantılar

İletişim Bilgilerimiz

info@bursaweb.com
0551 690 83 38