Robots.txt Dosyası: Arama Motorlarının Sitenizdeki Yönlendiricisi
Robots.txt dosyası, bir web sitesinin kök dizininde bulunan ve arama motoru tarayıcılarına (botlarına) sitenizin hangi bölümlerini tarayabileceklerini veya tarayamayacaklarını bildiren basit bir metin dosyasıdır. Arama motoru botları bir siteyi taramaya başlamadan önce genellikle ilk olarak bu dosyayı kontrol ederler.
Bu dosya, bir site haritası gibi, arama motorlarının sitenizi daha verimli bir şekilde anlamasına ve dizine eklemesine yardımcı olan temel bir teknik SEO bileşenidir. Ancak, site haritasından farklı olarak, robots.txt botlara ne yapmaları gerektiğini değil, ne yapmamaları gerektiğini söyler.
Robots.txt Neden Önemli?
- Tarama Kontrolü: Sitenizin belirli bölümlerinin (örneğin, yönetici paneli, özel kullanıcı sayfaları, test sayfaları, düşük kaliteli veya yinelenen içerikler) arama motorları tarafından taranmasını ve dizine eklenmesini engelleyerek tarama bütçenizi daha verimli kullanmanızı sağlar. Tarama bütçesi, arama motoru botlarının belirli bir süre içinde sitenizde tarayacağı sayfa sayısıdır.
- Hassas Bilgilerin Korunması (Kısmen): Herkesin görmesini istemediğiniz hassas bilgilere sahip URL’lerin (örneğin, kullanıcıların kişisel verilerini içeren sayfalar) arama sonuçlarında görünmesini engellemeye yardımcı olabilir. Ancak, bu tek başına bir güvenlik önlemi değildir; robots.txt yalnızca iyi niyetli botları durdurur, doğrudan URL’ye erişimi engellemez.
- Yinelenen İçerik Sorunlarını Azaltma: Bazı durumlarda, yinelenen içeriğe sahip sayfaların taranmasını engelleyerek, bu sayfaların dizine eklenmesini ve potansiyel sıralama sorunlarına yol açmasını önlemeye yardımcı olabilir. Ancak, yinelenen içerik için kanonik etiketler daha etkili bir çözümdür.
Robots.txt Dosyası Nasıl Çalışır?
Arama motoru botları (örneğin, Googlebot), bir web sitesini ziyaret ettiklerinde öncelikle sitenin kök dizinindeki robots.txt
dosyasını ararlar (www.orneksite.com/robots.txt
). Eğer bir robots.txt dosyası bulurlarsa, içindeki yönergeleri okur ve ona göre hareket ederler. Bulamazlarsa, varsayılan olarak sitenizdeki her şeyi tarayabileceklerini varsayarlar.
Bir robots.txt dosyası genellikle aşağıdaki yönergeleri içerir:
User-agent
: Bu yönerge, belirli bir arama motoru botuna (kullanıcı aracısına) hitap eder.User-agent: *
(Yıldız), tüm arama motoru botları anlamına gelir.User-agent: Googlebot
(Sadece Google’ın ana botu).User-agent: Bingbot
(Sadece Bing’in botu).
Disallow
: Bu yönerge, belirtilen URL yolunun veya dizinin taranmasını engeller.Disallow: /
(Tüm sitenin taranmasını engeller – çok dikkatli kullanılmalı!)Disallow: /admin/
(/admin/
dizini altındaki tüm sayfaların taranmasını engeller).Disallow: /private-page.html
(Belirli bir sayfanın taranmasını engeller).
Allow
(GenellikleDisallow
ile birlikte kullanılır): BirDisallow
yönergesi içinde belirli bir alt dizinin veya dosyanın taranmasına izin verir.Disallow: /uploads/
Allow: /uploads/public/
(uploads dizini genel olarak engellenirken, içindeki public dizinine izin verilir).
Sitemap
: Bu isteğe bağlı yönerge, arama motorlarına XML site haritanızın konumunu bildirir.Sitemap: https://www.orneksite.com/sitemap.xml
Robots.txt Dosyası Örnekleri
1. Tüm Sitenin Taranmasını İzin Ver (Varsayılan): Eğer sitenizin tamamının taranmasını istiyorsanız, bu dosyayı hiç oluşturmayabilir veya aşağıdaki gibi bir dosya oluşturabilirsiniz:
User-agent: *
Disallow:
(Boş Disallow
yönergesi, hiçbir şeyin engellenmediği anlamına gelir.)
2. Tüm Sitenin Taranmasını Engelle (Bakım Modunda vb.): Çok dikkatli kullanılmalıdır! Sitenizin arama sonuçlarından tamamen kalkmasına neden olur.
User-agent: *
Disallow: /
3. Belirli Bir Dizinin Engellenmesi:
User-agent: *
Disallow: /wp-admin/
Disallow: /private/
Bu örnek, /wp-admin/
ve /private/
dizinlerinin arama motorları tarafından taranmasını engeller.
4. Belirli Bir Dosyanın Engellenmesi:
User-agent: *
Disallow: /deneme-sayfasi.html
Bu, sadece deneme-sayfasi.html
dosyasının taranmasını engeller.
5. Site Haritasını Bildirme:
User-agent: *
Disallow: /cgi-bin/
Sitemap: https://www.orneksite.com/sitemap.xml
Sitemap: https://www.orneksite.com/blog-sitemap.xml
Bu örnekte, cgi-bin
dizini engellenirken, aynı zamanda iki farklı site haritasının konumu belirtilmiştir.
Robots.txt Dosyası Oluşturma ve Kontrol Etme
- Oluşturma: Robots.txt dosyası, herhangi bir metin düzenleyiciyle (Notepad, Sublime Text vb.) kolayca oluşturulabilen basit bir
.txt
uzantılı dosyadır. Dosyanın adının tam olarakrobots.txt
olması ve sitenizin kök dizinine yüklenmesi zorunludur. Örneğin,www.siteniz.com/robots.txt
adresinden erişilebilir olmalıdır. - Test Etme: Robots.txt dosyanızda hata yapmanız, sitenizin önemli bölümlerinin arama sonuçlarından tamamen kalkmasına neden olabilir. Bu nedenle, Google Search Console’daki Robots.txt Test Aracı‘nı kullanarak dosyanızın doğru çalıştığından ve yanlışlıkla önemli sayfaları engellemediğinizden emin olun.
Robots.txt Hakkında Önemli Notlar ve Yanlış Anlaşılmalar
- Dizinlenmeyi Engellemez: Bir URL’yi robots.txt ile
Disallow
etmek, o URL’nin arama motoru dizinine hiçbir zaman eklenmeyeceği anlamına gelmez. Eğer başka bir siteden o engellenen sayfaya bir bağlantı varsa, Google o sayfayı yine de dizine ekleyebilir (ancak tarayamaz, dolayısıyla içeriğini anlayamaz ve ona göre sıralama yapamaz). Bir sayfanın arama sonuçlarında görünmesini kesin olarak engellemek içinnoindex
meta etiketi veya X-Robots-Tag HTTP başlığı kullanılmalıdır. - Güvenlik Aracı Değildir: Robots.txt, hassas bilgileri güvenlik altına almak için bir araç değildir. Yalnızca botların taranmasını engeller, doğrudan URL’ye erişimi engellemez. Güvenlik için parola koruması,
.htaccess
kuralları veya sunucu tarafı yetkilendirmeleri kullanılmalıdır. - Tüm Botlar Uyar: Çoğu iyi niyetli arama motoru botu (Googlebot, Bingbot vb.) robots.txt yönergelerine uyar. Ancak kötü niyetli botlar, spam botları veya özel olarak tasarlanmış web kazıyıcılar bu yönergelere uymayabilir.
- Dikkatli Olun: Özellikle
Disallow: /
gibi genel yönergeler kullanırken son derece dikkatli olun. Yanlış bir robots.txt ayarı, tüm sitenizin arama sonuçlarından kaybolmasına neden olabilir.
Robots.txt dosyası, sitenizin arama motorları ile iletişim kurmasının temel bir yoludur. Doğru yapılandırıldığında, tarama bütçenizi optimize etmenize ve arama motorlarının sitenizi istediğiniz şekilde işlemesine yardımcı olabilir.