Geçtiğimiz günlerde “Robots.txt Dosyaları” başlıklı yazımızda Robots.txt dosyasının hangi işlevleri yerine getirdiğini, hangi durumlarda kullanılabileceğini ve Robots.txt dosyalarını hazırlarken dikkat edilmesi gerekenleri sizlerle paylaşmıştık. Bugün paylaşacağımız Robots.txt dosyalarında kullanılabilen komutlar ve detayları başlıklı yazımız ile önceki yazıyı tamamlayıcı nitelikte sizlere sunacağız.
Başlangıçta “Robots.txt Dosyaları” yazımızın sonunda maddeler halinde bahsettiğimiz Robots.txt dosyalarını hazırlarken dikkat edilmesi gereken noktaları detaylandırarak başlayacağız. Öncelikle bu maddeleri hatırlayarak başlayalım.
- Robots.txt dosyası ile site URL yapısı aynı olmalıdır.
- Web sitenizin Robots.txt dosyası UTF-8 karakter kodlamasına uygun olmalıdır.
- Robots.txt dosyası web sitenizin kök dizininde yer almalıdır.
Robots.txt dosyası muhakkak sitenizin kök dizininde yer alması gerekmektedir yani herhangi bir alt klasöre veya her hangi bir sayfa altına yerleştirmemek gerekir.
YANLIŞ: http://siteniz.com/anasayfa/robots.txt
DOĞRU: http://siteniz.com/robots.txt
Robots.txt dosyası hazırlarken dikkat etmeniz gereken hususlardan bir tanesi UTF-8 karakter kodlamasına uygun şekilde hazırlanması ve yalnız düz metinden oluşmamalıdır. Sitenizin içeriğinde göre dinamik ve değişken bir Robots.txt dosyası kullanmaya ihtiyaç duyabilirsiniz, kriterlere uygun olarak istediğiniz değişikliği istediğiniz zaman yaparak güncelleyebilirsiniz. Güncellerken kullanımdan kaldırmamalı veya gizlenmemesi gerekmektedir yani her zaman çalışır durumda bir Robots.txt dosyası olmalıdır. Arama motoru botlarının tararken takip ettiğin Robots.txt URL’si sitenizin URL’s ile aynı olmalıdır. https://www.siteniz.com/ adresi için örnek verecek olursak:
YANLIŞ: http://www.siteniz.com/robots.txt
DOĞRU: https://www.siteniz.com/robots.txt
Yazı İçeriği
Robots.txt Dosyalarında Kullanılabilen Komutlar
Robots.txt dosyasında istediğimiz işlemleri gerçekleştirebilmek için kullanılan standart komutlar bulunmaktadır. Kullanılan komutları önce maddeler halinde, sonrasında ise açıklamaları ile aşağıda paylaşıyoruz.
- Grup Komutları
- Arama robotu botları izin verme / engelleme
- Sayfa izin verme / engelleme
- Dizin izin verme / engelleme
- Tarama gecikmesi bildirme
- Grup Dışı Komutlar
- Site haritası bildirme
- Notlar ve Yorumlar
- Dosyadaki kodlara not ve yorum yazma
Grup Komutları
Grup komutlarında kesin ifadeler kullanılır ve her komut net olmalıdır. Komutlarda yapılan yazım hataları veya olmayan sayfalar veya dizinlerin koda eklenmesi durumunda o komut işlevini yerine getiremez. Komutların büyük veya küçük harfle yazılması farketmez fakat içerisinde bulunan URL ve dizinlerde küçük – büyük harf önemlidir.
- User-agent
Bu komut ile sitenize erişebilecek veya erişemeyecek arama robotu botunu belirtiyorsunuz. Arama motoru botlarının sitenizin tamamına erişmesini istemediğiniz durumlarda aşağıdaki gibi kullanmanız gerekmektedir. Eğer tüm arama robotlarına izin verecekseniz sadece ilk satıra yer vermelisiniz.
user-agent: *
disallow: / - Sayfa izin verme / engelleme
allow veya disallow komutları ile arama motoru botlarına yönlendirme yapabilirsiniz. Web siteniz üzerindeki belirli sayfaların taranmasını istemiyor olabilirsiniz ama bahsi geçen bir kaç sayfa haricindeki sayfaların taranması da gerekli ise kullanmanız gereken grup komutu aşağıdaki gibidir. Bu komutu yazdığınızda “http://siteniz.com/haber/chromedan-surpriz-ozellik” URL’si arama motoru botları tarafından taranmayacak ama sitenizi ziyaret eden kullanıcılar bu sayfayı görüntüleyebileceklerdir.
user-agent: *
disallow: /haber/chromedan-surpriz-ozellik/ - Dizin izin verme / engelleme
Yine allow veya disallow komutları ile arama motoru botlarını yönlendirebileceğiniz bir başka durum da dizinlerin erişim izinlerini ayarlayabilmektir. Üstteki örnekte olduğu gibi belirttiğiniz dizin arama motoru botları tarafından taranmazken yine kullanıcılar tarafından ziyaret edebilir durumdadır. Aşağıdaki örnekte haber dizini arama robotu botları tarafından taranmayacak ve dizin altında yer alan sayfalar dizine eklenmeyecektir.
user-agent: *
disallow: /haber/ - Tarama gecikmesi bildirme
crawl-delay komutu ile arama robotu botlarının sitede geçireceği zamana sınır koyabilirsiniz. Bu komutu istisnalar dışında kullanmamanızı öneririz. İstisnalar ise yoğun sunucu hatası yaşayan veya yüksek ziyaretçi trafiği sebebiyle ziyaretçilerine hizmet verememe durumuna düşecek web siteleri için geçerlidir. Sitenize gelen Bing arama robotu botunun 1 dakika içinde yapabildiği taramayı gerçekleştirip siteden ayrılmasını istiyorsanız aşağıdaki komutu yazabilirsiniz.
user-agent: bingbot
crawl-delay: 1
Grup Dışı Komutlar
Genellikle site haritasını arama robotu botlarına en hızlı şekilde servis etmek için kullanılır. Arama robotu botları sitenize geldiğinde ilk önce Robots.txt dosyasını kontrol ettiklerinden, site haritasının URL’sini düzgün şekilde dosya içerisine yazdığınızda verdiğiniz komutlar doğrultusunda işlem yapacak ve site haritanızı öncelikli olarak değerlendirecektir.
user-agent: *
Sitemap: http://siteniz.com/sitemap.xml
Notlar ve Yorumlar
Web sitesi üzerinde çalışmalar yapan diğer kişileri de bilgilendirmeniz gerektiği durumlarda değerlendirebileceğiniz bir özelikten bahsetmek gerekirse; kendinize, tasarımcınıza, yazılımcınıza veya ilgili herhangi bir kişiye not bırakmanız gerektiğinde # işareti kullanıp peşinden notunuzu veya yorumunuzu iletebilirsiniz. # işaretinden sonraki kısım arama robotu botları tarafından dikkate alınmaz.
user-agent: *
disallow: /tasarim/
disallow: /haber/ # Dizin sayfa tasarımı yenilendikten sonra arama robotu botlarına erişim verilecek
Robots.txt Dosyalarında Kullanılabilen Komutlar ve Detayları başlıklı yazımız ile Robots.txt dosyasının önemini kavramanıza yardımcı olmaya çalıştık. Her gün bilgilendirici bir içerikle karşınızda olmaya devam edeceğiz.