Sıkıştırılabilirlik, uzun zamandan beri ilginç bir spam ile mücadele hilesidir. Birçok SEO uzmanı bunu hiç duymadı ama bilmeye değer. Sıkıştırılabilirlik, düşük kaliteli içeriği tanımlamanın bir yolunu ifade eder. Sıkıştırılabilirlikle ilgili komik olan şey, arama mühendislerinin bunu tesadüfen keşfetmesidir.

Anlatmak üzere olduğum şey bir arama motoru tarafından kullanılıyor olabilir veya olmayabilir. Yine de anlamakta fayda var. Sıkıştırılabilirlik hakkında bilgi sahibi olmak, içerik planlaması ve belirli içeriğin neden zayıf olarak kabul edildiğini teşhis etmek için faydalı olabilir.

Sıkıştırmanın Arka Planı

Arama motorları, sabit disklerine daha fazla veri sığdırabilmeleri için web sayfası bilgilerini “sıkıştırır”. Hiç bir dosya klasörünü zip dosyasına dönüştürerek küçülttünüz mü? Sıkıştırma budur.

WinZip ve GZip, sıkıştırma algoritmalarıdır. Yaptıkları şey, tekrar eden verileri atmak ve bunları, atılan bilgileri temsil eden kodla değiştirmek. Böylece daha küçük bir dosya boyutu elde edersiniz.

Arama mühendislerinin fark ettiği şey, bazı web sayfalarının diğer web sayfalarından daha yüksek düzeyde sıkıştırıldığıydı. Daha yüksek düzeyde sıkıştırılan web sayfalarını incelediklerinde, yüksek sıkıştırma oranlarına sahip web sayfalarının çok fazla tekrar eden içeriğe sahip olma eğiliminde olduğunu keşfettiler.

Daha yakından baktıklarında, yüksek sıkıştırmalı web sayfalarının %70’inin spam olduğunu keşfettiler. Çok fazla tekrar eden içerik içeren ince sayfalardı. İnce sayfalar ifadesinin kökeninin bu olduğunu söylemiyorum. Ancak belirli türdeki spam sayfalarını sıkıştırdığınızda, geriye kalan şey budur, ince sayfalar.

İnce Sayfaların Orijinal İçeriğindeki Kökenleri

SEO’ların yıllar önce yaptığı şey, orijinal içerik oluşturma girişimiydi. Şehir ve Eyalet bilgileri gibi verileri eklemek için boşluklu benzersiz paragraf kümeleri kullandılar. Bir grup paragraf sayfanın üstü için, başka bir paragraf grubu sayfanın ortası için ve başka bir grup sayfanın alt kısmı içindi.

Paragrafları rastgele karıştırıp eşleştirerek, her sayfa %100 benzersizdi. Her sette yeterli paragrafla, neredeyse sonsuz sayıda sayfa kombinasyonu elde edebilirsiniz. Bu teknik, şehir/eyalet anahtar kelime kombinasyonları için sıralanacak yüz binlerce sayfa oluşturmak için mükemmeldi.




Bu teknik uzun süre çalıştı!
Sıkıştırma Benzersiz İçeriği Yeniden Tanımlıyor

Ancak sıkıştırma, bu tür içeriği yenebilir. İstenmeyen posta gönderenler her küme için yirmi, kırk veya daha fazla benzersiz paragraf oluşturabilse de, sonuçta ortaya çıkan web sayfaları yine de yüksek oranda sıkıştırılır.

Bugün arama motorlarının ince içeriği belirlemek için sıkıştırma kullanıp kullanmadığını bilmiyorum. Ancak, ince, düşük katma değerli içeriği tanımlamanın basit bir yoludur. Sıkıştırmayı diğer sinyallerle birleştirin ve ince içerik sayfalarını bulmak daha da kolay hale gelir.
Sıkıştırma Belgeleri

Sıkıştırmayı ilk kez 2006’da İçerik Analizi Yoluyla Spam Web Sayfalarını Tespit Etme başlıklı bir araştırma makalesinde duydum . Bu, yalnızca içerik özelliklerine dayanarak istenmeyen postaları belirleme tekniklerini araştıran bir Microsoft araştırma makalesidir. Bu, istatistiksel analiz algoritmalarının en parlak dönemindeydi.

İşte o araştırma makalesinin ilgili bölümünden bir alıntı:

“ 4.6 Sıkıştırılabilirlik
Web sayfalarının fazlalığını sıkıştırma oranıyla, sıkıştırılmamış sayfanın boyutunun sıkıştırılmış sayfanın boyutuna bölünmesiyle ölçeriz.

İstenmeyen postaların yaygınlığını gösteren çizgi grafiği, grafiğin sağına doğru sürekli olarak yükselir. Grafik, aralık başına az sayıda örneklenmiş sayfa nedeniyle 4.0 sıkıştırma oranının ötesinde oldukça gürültülü oluyor. Ancak toplamda, sıkıştırma oranı en az 4.0 olan örneklenen tüm sayfaların %70’i spam olarak değerlendirildi.”
Sıkıştırılabilirlik Bugün Ne Kadar Faydalıdır?

Sıkıştırılabilirlik, belirli web sayfalarının neden iyi performans göstermeyebileceği konusunda size fikir verdiği için bilinmesi yararlı bir şeydir. Spam mücadelesi ve SEO’nun mağara adamı günlerinde arama motorları tarafından kullanılmış olabilir. Arama motorları kullansa da kullanmasa da bugün hala faydalı olabilir.

Web sitenizin içeriği dört kat sıkıştırılıyorsa, gerçekten orijinal olduğundan ve gereksiz olmadığından emin olmak için o içeriğe bir göz atmak faydalı olabilir. Arama algoritmaları tarafından sıkıştırmanın kullanılması önemli değildir. Hala bilmek yararlı bir şey.