Arama Motorları Nasıl Çalışır ?

Bir önceki yazımızda arama motorlarının gelişimine yer vermiş, akabinde Google’ın doğuşunu incelemiştik. Arama motorlarının gelişimi ile arama teknolojilerinin gelişimi paralel seyretmiştir. Bu gelişimde önde olanlar arama pazarından daha fazla pay alabilmiştir.

Aramadan Önceki Adım : İndeksleme
Bir web sitesinin önemini belirleme dolayısı ile sıralamadan önceki adım, web sitesinin indekslenmesi yani içeriğinin arama motoru sunucusuna aktarılmasıdır. Bu işlem için hazırlanmış yazılımlara (botlara) spider ya da web crawler denir. Bu yazılımlar, web siteleri üzerindeki linkleri takip ederek buldukları siteleri tararlar ve okunabilir içeriği (metin içerik) arama motorlarının ilgili sunucularına kayıt ederler. Sayfa güncellemesi ve içeriğin güncelliği için bu işlemi belirli periyotlarla gerçekleştirirler.

Meta Arama Motorları ve Sonrası

İlk arama motorları bugünkü arama motorlarına göre oldukça ilkeldi. Bir sayfayı tanımlamada Meta etiketlerini kullandıklarından bu tür arama motorlarına meta arama motorları deniliyordu. HTML standartlarında yer alan bir sayfaya ait tanımlama bilgilerinin yer aldığı ve kullanıcılar tarafından görülemeyen kod satırlarına “meta tag” ya da “meta etiketler” denilmektedir. Bu etiketlerde sayfayı tanımlayan başlık, açıklama ve anahtar kelime gibi alanlar bulunmaktadır. İşte arama motorlarının botları bu kısımları okuyarak sayfaları tanımaya çalışıyorlardı. Ancak bu tanımlama yetersiz olmasının yanında ciddi bir biçimde manuple edilebiliyordu. Çünkü bu etiketler kullanıcı tarafından görünmediğinden, sayfa sahibi bu alan alakasız onlarca sözcük doldurabiliyordu.

Bu sorun, arama motoru geliştiricileri tarafından çözüldü. Bir sayfayı tanımlamada, sayfa sahibinin verdiği bilgilerin (meta etiketler) yanında, sayfanın orijinal içeriğinin de taranarak kontrol edilmesine dayanıyordu. Yani arama motoru botları meta etiketlerle beraber, sayfanın tüm okunabilir içeriğini de kendi sunucularında indeksliyor ve sonrasında yorumluyordu. Anahtar kelimenin sayfa içerisinde geçme yoğunluğu (keywords density) sayfanın alakalı olmasını işaret ediyordu. Böyle bir yaklaşımla sayfa sahiplerinin arama motorlarını aldatması oldukça güçleşecekti. Fakat bir süre sonra bu yaklaşımında bir sayfayı tanımlama ve sıralama da yetersiz olduğu anlaşıldı. Bilhassa sıralama konusunda… Birincisi, içeriğin içine aldatıcı kelimeler yerleştirmek imkansız değildi. Sayfanın önemsiz yerlerine konulmuş içerikler, okunması güç (küçük fontlarla ve arka plan rengi ile yazılmış) içeriklerle de arama motorlarını aldatmak (spamming) mümkün olabiliyordu. Ayrıca, içeriğin analizi sayfanın önemini anlamakta oldukça yetersiz kalıyordu.

İşte bu noktada Google’ın geliştirmiş olduğu teknolojilerin başarısı devreye girdi. PageRank algoritması. Aslında PageRank’den önce küçük bir arama motoru olan ve Robin Li tarafından IDD Bilişim Hizmetleri adına geliştirilen “RankDex”, zaten 1996’dan beri site puanlaması ve sayfa sıralaması için benzer bir strateji kullanıyordu. Bu teknoloji RankDex patentliydi, ve Li’nin Çin’de kurulmuş olduğu Baidu adını taşıyan arama motoru bu sistemle çalışıyordu.

PageRank algoritması patenti Standford üniversitesine ait olan bir teknoloji ve halen “The Anatomy of a Large-Scale Hypertextual Web Search Engine” başlığı ile projeyi görmek mümkün. Projeyi yazanlar Sergey Brin ve Lawrence Page.
PageRank teknolojisi, bir sayfanın önemini anlamada, sayfaya yapılan bağlantıları inceliyor ve bunu matematiksel bir formülle hesaplıyor. Bu yaklaşıma göre, bir web sayfası başka web sayfalarından bağlantı (link) aldıkça güçlenir ve önem kazanır. Bağlantı verdikçe gücü azalır. Tabi alınan bağlantının ne kadar güçlü bir web sitesinden alındığı ve bu sayfanın içeriğinin ne olduğu çok önemlidir. Bu yaklaşımla Google bir sayfayı incelerken sayfanın komşu sitelerine de bakıyor, bir sitenin önemini belirleyebilmek için ağın tamamını tarıyor. Bu inanılmaz güçlü bir donanım altyapısı ve işlemci gerektiriyor.

Bunu anlamak için PageRank formülünü incelememiz yeterli olacaktır :

PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))

formüldeki değişkenler şunlardır:

PR(A)= A sitesine ait PageRank değeri.Tüm siteler için ilk başta 1 kabul edilmektedir.
d = “damped down” faktörü denilen özel bir katsayı ve 0.85 kabul edilmekte.
PR(Tn) = A sitesine link veren herhangi bir sitenin pagerank degeri.
C(Tn) = A sitesine link veren herhangi bir sitedeki link sayısı adeti.

Arama Motorları Nasıl Çalışır ?” üzerine 2 düşünce

  1. Thiazole

    Hayalimdeki arama motoru dokunmatik ve görsel. Parmaklarımla hızlıca hepsine dokunarak istediğim bilgiye çok hızlı ulaşmalıyım. Nasıl anlatsam bilemiyorum. Googlun görseli mesela. Anahtar kelimeyi içeren herşey görsel olmalı dokununca altındakiler sayfaya yayılacak…Sonra içlerinde yine aynı şeklinde seçe seçe aradığımız bilgiye gitmeliyiz…

    Reply
  2. cihangir topal

    O kadar çok ve karışık bilgi var ki benim gibi alt düzey kullanıcı için son derece kafa karıştırıcı oluyor sizin yazılarınız ve bilgileriniz bana çok yardımcı oluyor.Teşekkür ederim.
    sektörün büyümesi ve pazar genişlemesi her geçen gün ciddi anlamda kendini gösteriyor arama motorları ise kullanıcılarına en doğru ve en hızlı bilgiyi ulaştırmanın yollarını arıyor ve kendini bu konuda her geçen gün yenileyip geliştiriyor.özellikle Goggle

    günümüzde görsel ve yazılı metaryal ler ile bunu yapabiliyor fakat ben ileride daha gelişmiş tekniklerin de kullanılacağını düşünüyorum.
    Mesela arabanızda seyir halindesiniz araca yerleştirilmiş bir bilgisayar ile iletişime geçebiliyorsunuz ve Google soruyorsunuz şu an bulunduğum yerden Şişliye en yakın nasıl giderim tarifini ver Google kullanıcısına sözlü olarak yol tarifinde bulunuyor ve trafik yoğunluğunu söylüyor veya İstanbul dan Antalya ya Nisan 25 inde en ucuz uçak biletini bul diyor Google taramasını yaptıktan sonra sizin için en uygun uçak bileti Pegasus hava yolları 59.99 TL dir diye sözlü olarak aktarıyor isterse rezervasyonunu yapıyor veya kredi karti numaralarını girerek uçak biletini kesiyor ve çıktısını mailine yolluyor kullanıcı trafikte arabasını sürerek istediği bilgiye sözlü ulaşabiliyor bunu bir milyon kere daha genişletebiliriz. ör bir yakını hasta olan bir kişi kendi aracıyla acilen hastaneye gitmesi gerekiyor Google ye soruyor en yakın hastane nerede şu anda kalp doktoru bulunan hastane hangisi google hastaneye yetişmeye çalışan sürücüye en yakın hastane ve nöbetçi kalp doktoru bulunan hastaneyi sözlü olarak aktarıyor.

    Reply

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir