Google geçtiğimiz günlerde Google indekleriyle ilgili açıklamaları paylaştığı resmi blogu Google Webmaster Central Blog’da robots.txt noindex yönergesi kullanımı ile ilgili değişiklikleri paylaşmıştı. Takip eden blog yazısında Google, Robost.txt’yi resmi standart haline getirme niyetini paylaştı.
Google, Artık Robots.txt Dosyasında noindex Kullanımını Desteklemeyecek
Google, Robost.txt’yi resmi standart haline getirme niyetinde
Robots Exclusion Protocol’de (REP) belirtilen ve bu kurallar, son 25 yıldır resmi olmasa da bir standart oluşmuştu. REP arama motorları tarafından kabul edilmiş olmasına rağmen henüz resmi değil, yani geliştiricilerin yorumuna açık durumda. Ayrıca, uzun süre önce belirlenen bu kurallar bugünün kullanım durumlarını kapsayacak şekilde hiçbir zaman güncellenmedi.
Google’ın dediği gibi, mevcut Robots.txt yönergeleri web sitesi sahipleri için bir zorluk yaratıyor çünkü belirsiz bir şekilde yazılmış, fiili standart, kuralları doğru yazmayı zorlaştırır durumda. Bu zorluğu ortadan kaldırmak için Google, REP’in günümüzde nasıl kullanıldığını ve detaylarını incelemesi için Internet Engineering Task Force’a (IETF) gönderdiği biliniyor.
Google Robots.txt Taslağı
Google, taslakta neler bulunduğunu açıklar:
“Önerilen REP taslağı, hem Googlebot’un hem de diğer büyük tarayıcıların yanı sıra REP’e dayanan yaklaşık yarım milyar web sitesinin kullandığı robots.txt kurallarına dayanan 20 yıllık gerçek dünya deneyimini yansıtıyor. Bu hassas kontroller, yayıncıya, sitelerinde neyin taranmasını istediklerini ve potansiyel olarak ilgilenen kullanıcılara gösterilmesini istediğine karar verme yetkisi verir. ”
Google güncellemelerle yenilediği robots.txt taslağı, 1994’te belirlenen kuralların hiçbirini değiştirmiyor, günümüz için henüz güncellenmiştir.
Güncellenen kurallardan bazıları şunlardır:
- Herhangi bir URI (Uniform Resourse Identifier) tabanlı aktarım protokolü robots.txt dosyasını kullanabilir. Artık HTTP ile sınırlı değil. FTP veya CoAP (Constrained Application Protocol) için de kullanılabilir.
- Geliştiriciler en az bir robots.txt dosyasının ilk 500 kibibitlik kısmını ayrıştırmalıdır.
- 24 saatlik yeni bir önbelleğe alma süresi veya varsa önbellek yönergesi değeri, web sitesi sahiplerine istedikleri zaman robots.txt dosyasını güncelleme esnekliği sunar.
- Bir robots.txt dosyasına sunucu hataları nedeniyle erişilemez hale geldiğinde, bilinen izin verilmeyen sayfalar oldukça uzun bir süre boyunca taranmaz.
Google, önerilen taslak hakkında geri bildirime tamamen açık ve doğru şekilde yapmaya kararlı olduğunu söylüyor. Bu konudaki güncel bilgileri paylaşmaya devam edeceğiz.
elinize sağlık