SEO

Robots.txt Dosyası

Robots.txt Dosyası: Arama Motorlarının Sitenizdeki Yönlendiricisi

 

Robots.txt dosyası, bir web sitesinin kök dizininde bulunan ve arama motoru tarayıcılarına (botlarına) sitenizin hangi bölümlerini tarayabileceklerini veya tarayamayacaklarını bildiren basit bir metin dosyasıdır. Arama motoru botları bir siteyi taramaya başlamadan önce genellikle ilk olarak bu dosyayı kontrol ederler.

Bu dosya, bir site haritası gibi, arama motorlarının sitenizi daha verimli bir şekilde anlamasına ve dizine eklemesine yardımcı olan temel bir teknik SEO bileşenidir. Ancak, site haritasından farklı olarak, robots.txt botlara ne yapmaları gerektiğini değil, ne yapmamaları gerektiğini söyler.


 

Robots.txt Neden Önemli?

 

  1. Tarama Kontrolü: Sitenizin belirli bölümlerinin (örneğin, yönetici paneli, özel kullanıcı sayfaları, test sayfaları, düşük kaliteli veya yinelenen içerikler) arama motorları tarafından taranmasını ve dizine eklenmesini engelleyerek tarama bütçenizi daha verimli kullanmanızı sağlar. Tarama bütçesi, arama motoru botlarının belirli bir süre içinde sitenizde tarayacağı sayfa sayısıdır.
  2. Hassas Bilgilerin Korunması (Kısmen): Herkesin görmesini istemediğiniz hassas bilgilere sahip URL’lerin (örneğin, kullanıcıların kişisel verilerini içeren sayfalar) arama sonuçlarında görünmesini engellemeye yardımcı olabilir. Ancak, bu tek başına bir güvenlik önlemi değildir; robots.txt yalnızca iyi niyetli botları durdurur, doğrudan URL’ye erişimi engellemez.
  3. Yinelenen İçerik Sorunlarını Azaltma: Bazı durumlarda, yinelenen içeriğe sahip sayfaların taranmasını engelleyerek, bu sayfaların dizine eklenmesini ve potansiyel sıralama sorunlarına yol açmasını önlemeye yardımcı olabilir. Ancak, yinelenen içerik için kanonik etiketler daha etkili bir çözümdür.

 

Robots.txt Dosyası Nasıl Çalışır?

 

Arama motoru botları (örneğin, Googlebot), bir web sitesini ziyaret ettiklerinde öncelikle sitenin kök dizinindeki robots.txt dosyasını ararlar (www.orneksite.com/robots.txt). Eğer bir robots.txt dosyası bulurlarsa, içindeki yönergeleri okur ve ona göre hareket ederler. Bulamazlarsa, varsayılan olarak sitenizdeki her şeyi tarayabileceklerini varsayarlar.

Bir robots.txt dosyası genellikle aşağıdaki yönergeleri içerir:

  • User-agent: Bu yönerge, belirli bir arama motoru botuna (kullanıcı aracısına) hitap eder.
    • User-agent: * (Yıldız), tüm arama motoru botları anlamına gelir.
    • User-agent: Googlebot (Sadece Google’ın ana botu).
    • User-agent: Bingbot (Sadece Bing’in botu).
  • Disallow: Bu yönerge, belirtilen URL yolunun veya dizinin taranmasını engeller.
    • Disallow: / (Tüm sitenin taranmasını engeller – çok dikkatli kullanılmalı!)
    • Disallow: /admin/ ( /admin/ dizini altındaki tüm sayfaların taranmasını engeller).
    • Disallow: /private-page.html (Belirli bir sayfanın taranmasını engeller).
  • Allow (Genellikle Disallow ile birlikte kullanılır): Bir Disallow yönergesi içinde belirli bir alt dizinin veya dosyanın taranmasına izin verir.
    • Disallow: /uploads/
    • Allow: /uploads/public/ (uploads dizini genel olarak engellenirken, içindeki public dizinine izin verilir).
  • Sitemap: Bu isteğe bağlı yönerge, arama motorlarına XML site haritanızın konumunu bildirir.
    • Sitemap: https://www.orneksite.com/sitemap.xml

 

Robots.txt Dosyası Örnekleri

 

1. Tüm Sitenin Taranmasını İzin Ver (Varsayılan): Eğer sitenizin tamamının taranmasını istiyorsanız, bu dosyayı hiç oluşturmayabilir veya aşağıdaki gibi bir dosya oluşturabilirsiniz:

User-agent: *
Disallow:

(Boş Disallow yönergesi, hiçbir şeyin engellenmediği anlamına gelir.)

2. Tüm Sitenin Taranmasını Engelle (Bakım Modunda vb.): Çok dikkatli kullanılmalıdır! Sitenizin arama sonuçlarından tamamen kalkmasına neden olur.

User-agent: *
Disallow: /

3. Belirli Bir Dizinin Engellenmesi:

User-agent: *
Disallow: /wp-admin/
Disallow: /private/

Bu örnek, /wp-admin/ ve /private/ dizinlerinin arama motorları tarafından taranmasını engeller.

4. Belirli Bir Dosyanın Engellenmesi:

User-agent: *
Disallow: /deneme-sayfasi.html

Bu, sadece deneme-sayfasi.html dosyasının taranmasını engeller.

5. Site Haritasını Bildirme:

User-agent: *
Disallow: /cgi-bin/

Sitemap: https://www.orneksite.com/sitemap.xml
Sitemap: https://www.orneksite.com/blog-sitemap.xml

Bu örnekte, cgi-bin dizini engellenirken, aynı zamanda iki farklı site haritasının konumu belirtilmiştir.


 

Robots.txt Dosyası Oluşturma ve Kontrol Etme

 

  • Oluşturma: Robots.txt dosyası, herhangi bir metin düzenleyiciyle (Notepad, Sublime Text vb.) kolayca oluşturulabilen basit bir .txt uzantılı dosyadır. Dosyanın adının tam olarak robots.txt olması ve sitenizin kök dizinine yüklenmesi zorunludur. Örneğin, www.siteniz.com/robots.txt adresinden erişilebilir olmalıdır.
  • Test Etme: Robots.txt dosyanızda hata yapmanız, sitenizin önemli bölümlerinin arama sonuçlarından tamamen kalkmasına neden olabilir. Bu nedenle, Google Search Console’daki Robots.txt Test Aracı‘nı kullanarak dosyanızın doğru çalıştığından ve yanlışlıkla önemli sayfaları engellemediğinizden emin olun.

 

Robots.txt Hakkında Önemli Notlar ve Yanlış Anlaşılmalar

 

  • Dizinlenmeyi Engellemez: Bir URL’yi robots.txt ile Disallow etmek, o URL’nin arama motoru dizinine hiçbir zaman eklenmeyeceği anlamına gelmez. Eğer başka bir siteden o engellenen sayfaya bir bağlantı varsa, Google o sayfayı yine de dizine ekleyebilir (ancak tarayamaz, dolayısıyla içeriğini anlayamaz ve ona göre sıralama yapamaz). Bir sayfanın arama sonuçlarında görünmesini kesin olarak engellemek için noindex meta etiketi veya X-Robots-Tag HTTP başlığı kullanılmalıdır.
  • Güvenlik Aracı Değildir: Robots.txt, hassas bilgileri güvenlik altına almak için bir araç değildir. Yalnızca botların taranmasını engeller, doğrudan URL’ye erişimi engellemez. Güvenlik için parola koruması, .htaccess kuralları veya sunucu tarafı yetkilendirmeleri kullanılmalıdır.
  • Tüm Botlar Uyar: Çoğu iyi niyetli arama motoru botu (Googlebot, Bingbot vb.) robots.txt yönergelerine uyar. Ancak kötü niyetli botlar, spam botları veya özel olarak tasarlanmış web kazıyıcılar bu yönergelere uymayabilir.
  • Dikkatli Olun: Özellikle Disallow: / gibi genel yönergeler kullanırken son derece dikkatli olun. Yanlış bir robots.txt ayarı, tüm sitenizin arama sonuçlarından kaybolmasına neden olabilir.

Robots.txt dosyası, sitenizin arama motorları ile iletişim kurmasının temel bir yoludur. Doğru yapılandırıldığında, tarama bütçenizi optimize etmenize ve arama motorlarının sitenizi istediğiniz şekilde işlemesine yardımcı olabilir.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir