arama motorları

İnternette bilgi aramak, İnternet'teki en popüler işlemlerden biridir. İnternet ziyaretçileri genellikle herhangi bir konuyla ilgili belgeleri aramak zorunda kalırlar. İnternette belgenin tam adresine sahipseniz, bu durumda arama ile ilgili herhangi bir sorun yoktur: tarayıcıda adres çubuğuna kaynağın bilinen adresini yazabilirsiniz ve bağlantı başarılıysa, tarayıcı istenen sayfayı görüntüler.

Belgenin tam adresi yoksa, bir arama motorunun hizmetlerini kullanabilirsiniz. Arama motoru? "İnternette çeşitli belge alma olanakları sunan özel bir sunucudur". Arama sunucusuna bir örnek, http://rambler.ru adresinde bulunan Rambler sunucusudur (Rambler.ru). Sunucunun ana sayfasının görünümü şekilde gösterilmiştir.

Pirinç. bir.

Arama motorları genellikle kendi İnternet kaynakları dizinlerini tutar. Arama sunucusu dizinleri, arama robotlarından gelen ağda oluşturulan kaynaklar hakkındaki bilgilerle düzenli olarak güncellenir. Arama robotları veya örümcekler, mevcut İnternet sunucularına erişen, belgeleri analiz eden ve arama motorlarının tablolarını yenileyen özel ağ programlarıdır. Arama robotları, 24 saat arka planda kaynakları arama ve sistemleştirme işini gerçekleştirir.

Mevcut siteler hakkında arama motorlarına gelen diğer bir bilgi kaynağı da web sayfalarının sahipleri tarafından kaynakların açık bir şekilde kaydedilmesidir. Sunucu, kaynak sahiplerinin doldurduğu formlara sahiptir. Form, kaynağın adresini, kısa bir açıklamayı, anahtar kelimeleri, hedef kitleyi vb. belirtir. Bu bilgiler, özel programlar tarafından otomatik olarak veya kaynak kataloglarının oluşumunu izleyen uzmanlar - uzmanlar tarafından "manuel" olarak analiz edilir ve sunucu kataloglarına eklenir.

İnternette bilgi alma mekanizmalarını anlamak, web sayfası geliştiricilerinin belgelerini daha sonra arama motorları tarafından bulunabilmeleri ve kaynak kataloğunun uygun bölümlerine yerleştirilebilmeleri için hazırlamalarına olanak tanır.

İnternet Anahtar Kelime Arama

World Wide Web'de belge bulmanın popüler bir yolu, anahtar kelimelere göre arama yapmaktır. Bir arama formunda anahtar sözcükleri belirtirken, arama motoru belirtilen anahtar sözcükleri içeren belgeleri arayacaktır. Elbette, bir arama motoru, bir sorguyu yerine getirmek için İnternette çalışan binlerce bilgisayarın içeriğini incelemeyecektir - böyle bir aramanın sonucu için bir günden fazla beklemeniz gerekecektir. Arama, arama motorunun daha önce toplanmış ve robotlar ve uzmanlar yardımıyla sistematize edilmiş kaynakları (kataloglar, tablolar) arasında gerçekleştirilir.

Web'deki kaynakların miktarı gerçekten sınırsız hale geldiğinden, bir arama motoru, bir anahtar kelime için bir belge araması istendiğinde, belirtilen anahtar kelimeyi içeren birkaç bin belge bulabilir. Bu kadar çok belgede belirli bir konuya en uygun olanı bulmanın zor olduğu açıktır. Ancak, arama motorları genellikle daha ayrıntılı bir sorgu formüle etmenize izin verir.

İstek karmaşık bir forma sahip olabilir ve anahtar sözcükler ve mantıksal işlevler VE (VE), VEYA (VEYA), olumsuzlama (DEĞİL) kullanılarak derlenebilir. Veya arama isteği, anahtar kelimelerin kelime biçimlerini ayarlamanıza (veya iptal etmenize) izin veren özel karakterler kullanılarak oluşturulabilir. Bu tür mekanizmalar, belgelerin seçimi için gereksinimlerin daha kesin bir şekilde formüle edilmesine yardımcı olur. Her arama motorunun, ziyaretçinin bir arama sorgusu oluşturmasına yardımcı olacak bir yardım sistemi vardır.

Arama motorlarının çalışma prensibi, avantajları ve dezavantajları

Katalogların yanı sıra (ve daha sıklıkla) arama motorları kullanılmaktadır. Bu, Web'de gezinmenin ve arama yapmanın daha modern ve kullanışlı bir yoludur. Dizinlerin aksine, bir arama motoru tam otomatik bir yapıdır.

Arama motorlarının avantajları şunları içerir: arama sonuçlarında az sayıda eski bağlantı; aranacak çok daha fazla sayıda Web sitesi; daha yüksek arama hızı; yüksek arama alaka düzeyi; kullanıcının işini kolaylaştıran ek hizmet işlevlerinin varlığı, örneğin, bir belgenin metnini yabancı bir dile çevirme yeteneği, belirli bir siteden tüm belgeleri seçme yeteneği, arama kriterlerini daraltma, belgeleri "örnek olarak bulma" " ve benzeri.

Arama motorları tamamen farklı teknolojik ilkelere dayanmaktadır. Arama motorlarının görevi, yalnızca mümkün olan maksimum sayıda web sayfasının tüm içeriğini dikkate alarak (indeksleyerek) elde edilebilecek elektronik evrende ayrıntılı bir bilgi araması sağlamaktır. Dizinlerin aksine, arama motorları otomatik bir modda çalışır ve aynı çalışma prensibine sahiptir. Arama motorları iki temel bileşenden oluşur. İlk bileşen, görevi sunucudan sunucuya seyahat etmek, orada yeni veya değiştirilmiş belgeleri bulmak ve bunları sistemin ana bilgisayarına indirmek olan bir robot programıdır. Aynı zamanda, belgenin içeriğine bakan robot, hem bu sunucunun diğer belgelerine hem de harici sitelere yeni bağlantılar bulur. Program bağımsız olarak belirtilen bağlantılara gider, yeni belgeler ve bağlantılar bulur, ardından kaynakçada iyi bilinen “kartopu yöntemine” benzer şekilde işlem tekrarlanır. Tanımlanan belgeler, arama motorunun ikinci bileşeni tarafından işlenir (dizine eklenir). Bu durumda, kural olarak, metin, resimler, ses ve video dosyaları dahil olmak üzere sayfanın tüm içeriği dikkate alınır. Belgedeki tüm kelimeler dizine eklenir, bu da en dar konuda ayrıntılı arama yapmak için arama motorlarını kullanmayı mümkün kılar. Oluşturulan dev indeks dosyaları, hangi kelimenin, kaç kez, hangi belgede ve hangi sunucuda kullanıldığına dair bilgileri saklar ve sorgu dizesinde anahtar kelime kombinasyonları girerek kullanıcıların eriştiği veritabanını oluşturur. Brown Markus.: İnternette bilgi bulma yöntemleri. - M.: Yeni Yayınevi, 2005. - 136 sayfa.

Sonuçların yayınlanması, sonuçların akıllı bir sıralamasını üreten özel bir modül kullanılarak gerçekleştirilir. Bu, terimin belgedeki yerini (başlık, başlık, gövde metni), tekrarlanma sıklığını, arama teriminin sayfa metninin geri kalanına yüzdesini ve ayrıca harici bilgilerin sayısı ve yetkisini dikkate alır. diğer sitelerden bu sayfaya bağlantılar.

Ancak, arama motorlarının bazı dezavantajları vardır: sınırlı bir arama alanı. Arama motorunun veritabanına herhangi bir site girilmemişse, onun için “var” değildir ve belgeleri arama sonuçlarına dahil edilemez; göreceli kullanım zorluğu. Derlenmiş arama sorgusunun tam olarak bulmak istediğiniz şeyle eşleşmesi için, arama motorunun nasıl çalıştığını en azından biraz anlamanız ve en basit mantıksal operatörleri kullanabilmeniz gerekir. Bu anlamda arama dizinleri daha basit ve daha tanıdıktır; sorgu sonuçlarını sunmanın daha az görsel bir biçimi. Katalog, kısa özeti ve diğer faydalı bilgileri ile sitenin adını verir. Arama motorunun sonuçları daha az görseldir; Arama motorunun veritabanı programlar tarafından doldurulduğundan - robotlar, reklam sitelerinin sahtekâr sahipleri onları "aldatabilir", bu da aramanın alaka düzeyini önemli ölçüde azaltabilir.

Arama motorları (arama motorları) dizinlerden daha yaygındır ve bugün birkaç düzine kadar olan sayıları istikrarlı bir şekilde artmaya devam etmektedir. Onlarla profesyonel çalışma özel beceriler gerektirir, çünkü arama satırına istenen terimin basit bir girişi, büyük olasılıkla, bu kavramı içeren ve neredeyse sıfır sonuca eşdeğer olan yüz binlerce belgenin bir listesine yol açacaktır (www.go .com. /)

Bu arama motoru 1998'de piyasaya sürüldü. Şu anda, bu sistem, tüm önemli parametrelerde, küresel arama motorları arasında tek liderdir. Google en popüler arama motorlarından biridir. Bu arama motoru, adını 100 sıfırlı bir birim olarak yazılan sayı anlamına gelen "Googol" kelimesinden almıştır. Google'ın çok sayıda ülke için alt alanları vardır - örneğin Rusya için bu www.google.com.ru'dur.

Google arama motoru, kullanıcının isteği üzerine yalnızca hiper metin belgelerini değil, aynı zamanda doc, pdf, mp3 dosyalarını vb. bulacaktır. Google, kullanıcı isteklerine göre internette arama yapan yüksek kaliteli "motoru" ile övünmektedir. Alaka düzeyi - bulunan arama sonuçlarının sorguyla eşleşme derecesi - genellikle Google için Yandex gibi Rus arama motorlarından daha yüksektir. Bu nedenle, giderek daha fazla İnternet kullanıcısı Google'ı ana arama motoru olarak kullanmaya başlıyor. Google arama motoru, bir arama sonuçları listesi oluştururken bir sitenin yetkisini belirleyen PageRank bağlantı sıralama algoritmasını kullanır. PageRank, Yandex'in alıntı dizinine benzer ve bu siteye verilen bağlantıların kalitesine ve miktarına bağlıdır. PageRank sayesinde kullanıcılar internette tam olarak aradıklarını bulurlar.

Google arama motoru, tüm sayfaları veritabanına (önbellekler) kopyalar, böylece kullanıcı sayfayı orijinal kaynaktan değil, Google önbelleğinden açarak görüntüleyebilir, bu da arama süresini önemli ölçüde azaltabilir. Google'ın bir özelliği, arama motorunun tüm sayfaları tamamen dizine eklemesidir. Ayrıca, Google'ın çeşitli kalite, boyut ve formattaki resimleri arama yeteneğini de belirtmekte fayda var. Arama çubuğuna aritmetik bir ifade girerek Google'dan doğru cevabı alabilirsiniz. Google aramayı kullanmak için www.google.com.ru adresine gitmek gerekli değildir - tarayıcıda sorgunuzu girebileceğiniz bir arama dizesiyle bir araç çubuğu oluşturacak olan Google Araç Çubuğu programını yükleyebilirsiniz.

Listelenen küresel arama motorlarına ek olarak, bazı durumlarda, daha ziyade atalet nedeniyle, en önemlileri HotBot (http://www.hotbot.com/) ve Excite (http://www.hotbot.com/) ve Excite (http://www.hotbot.com/) olan eski arama hizmetleri kullanılmaya devam etmektedir. /www.eksite.com/ ). Bugün dizin dosyalarının küçük boyutu, sağladıkları bilgilere güvenmeyi imkansız kılıyor. Ask (http://www.ask.com/) gibi "genç" bir arama motoru, dizinlenmiş belgelerin etkileyici hacmine rağmen henüz pek ilgi çekmiyor. Örneğin, Ask, Rusça belgeleri arama yeteneğine sahip değildir.

Laboratuvar çalışması №10.

İnternette bilgi arama

Amaç

İnternetteki ana arama motorlarını tanıyın. Arama motorlarında çalışma becerilerine hakim olun. Görevlerin özelliklerini dikkate alarak en iyi arama motorunu nasıl seçeceğinizi öğrenin.

Cihazlar ve malzemeler

Laboratuvar çalışması yapmak için WINDOWS ailesinin işletim sistemini çalıştıran kişisel bir bilgisayara ihtiyacınız vardır. Internet Explorer yüklü olmalıdır.

Modern arama motorları

İnternet dev bir bilgi deposudur. Değerli ve çok değerli olmayan birçok sayfa, herhangi bir düzen olmadan var olur ve sitelerin yazarlarının niteliklerine ve kişisel tercihlerine bağlı olarak yalnızca rastgele bağlantılarla birbirine bağlanır. Ancak kullanıcının bu çeşitlilik içinde gezinmesi ve tercihen dakikalar içinde gerekli bilgileri bulması gerekir.

İnternette çok sayıda arama motoru var. En muhafazakar tahminlere göre, klasik sayılan sekiz binden fazla var. arama motorları, genel ve özel dizinler, birlikte meta arama web siteleri(bir kerede birkaç arama sunucusuna istek gönderir). Ayrıca, yararlı bulabileceğiniz bir dizi alternatif arama aracı vardır. tarayıcıyla birlikte çalışarak Web'den bilgi çıkaran yardımcı programlar, ve sözde "uzman düğümler", gerçek insanların isteklerinizle çalıştığı yer. Akıllı arama motorları şu anda geliştirilmektedir. Böyle bir sistemin bir örneği, örneğin akıllı bir arama motorudur. zenci(www.nigma.ru).

Arama motorları ve dizinler

İnternetteki arama yöntemlerinin bolluğu ile, arama motorları ve dizinler hala bilgi bulmanın en yaygın yoludur. Bu araçların her birinin belirli avantajları vardır ve aralarındaki temel fark, bir kişinin katılımı / katılmamasıdır.

arama motorları web'de arama yapmak için bir dizi özel programdır.

Yazılım paketinin ana parçaları:

1. robot örümcek(örümcek). Dizine eklemek için sıraya alınmış sitelerin sayfalarını tarayan bağımsız bir program. İncelenen sayfaların içeriğini arama sunucusunun diskine indirir.

2. robot tarayıcı("seyahat eden" örümcek). Görevi, incelenen sayfadaki tüm bağlantıları toplamak, aralarında arama motorunun bilmediği yenilerini bulmak ve bunları bekleyen indeksleme listesine eklemektir.

3. Dizin oluşturucu.İndeksleme kuyruğundaki sayfaları işler. Bunu yapmak için sayfanın “sözlüğünü” derler, kelimeleri kullanma “sıklığını” hatırlar. Başlıklarda kullanılan, metinde kalın harflerle vurgulanan anahtar kelimeleri vurgular. Tüm bunları özel bir dosyaya yerleştirir - "indeks".


5. İstekleri işleme ve sonuçları yayınlama sistemi. Bir kullanıcı isteğini kabul eder, veritabanına bir sorgu oluşturur, oradan sonucu alır ve kullanıcıya iletir.

arama motorları Web'de sayfadan sayfaya dolaşan ve her sayfanın tam metnini dizine ekleyen "örümcekler" yazılımını çalıştırırlar.

Hemen hemen tüm arama motorları aynı istek biçimine ve sonuçları yayınlamak için yaklaşık olarak aynı biçime sahiptir ("Arama sayfalarının görünümü" paragrafına bakın), ancak arama motorlarının çalışması önemli ölçüde farklıdır. İlk olarak, alaka düzeyine göre (arama sonuçlarının kullanıcının isteğiyle eşleşme derecesi), ikinci olarak veritabanlarını güncelleme boyutu ve sıklığına göre ve üçüncü olarak da sonuçların yayınlanma hızına göre. Ve elbette, arama motorları kullanım kolaylığı açısından farklılık gösterir.

Bugüne kadar, arama motorları, kullanıcıların çok fazla zaman harcadıkları en popüler web sayfalarıdır. Bu nedenle, bir arama motoru seçerken ilgili hizmetler (posta, haber beslemeleri, ticaret platformları vb.) giderek daha önemli hale geliyor.

Kataloglar bilgiyi organize etmenin geleneksel bir yoludur. Muhtemelen hepimiz kütüphane katalogları, eşya katalogları ile tanışmak zorunda kaldık. Dizinler birçok sistemde kullanılmaktadır. Bilgi depolamak ve düzenlemek için ihtiyacınız olan hemen hemen her yerde.

Dizin derleyicilerinin karşılaştığı ana zorluklardan biri, ortalama kullanıcı için doğal, sezgisel bir değerlendirme oluşturmaktır. Ne yazık ki, bu sorun ancak belirli bir yaklaşımla çözülebilir. Dünya süreklidir, içinde katı sınırlar yoktur. Bir ve aynı site farklı açılardan görüntülenebilir ve farklı işlevleri görülebilir. Dizinler, sayfaları okuyan, uygun olmayanları ayıklayan ve düğümleri konuya göre sınıflandıran insan editörler tarafından oluşturulur.

Dizinlerin dezavantajları aşağıdakileri içerir.

İlk olarak, yapının belirsizliği, bilgilerin katalog organizasyonunun açık bir eksisidir (her büyük kataloğun bir katalog araması olduğu gerçeğiyle biraz düzeltilmiş olsa da).

İkincisi, kataloglar insanlar tarafından yapılır. Bunların eksiksizliği ve kalitesi, katalogda çalışan kişilerin sayısı ve niteliklerine, kişisel zevklerine ve tercihlerine bağlıdır. Başlıkların düzensizliği - tüm dizinlerin karakteristik bir özelliği.

Üçüncüsü, manuel değerlendirmenin karmaşıklığı, kataloglanmış bilgi miktarını sınırlar.

Aynı zamanda, katalogların şüphesiz avantajları, bilginin temel insan mantığına uygun olarak düzenli bir şekilde içinde saklanmasıdır. alaka dizinde arama yaparken bulunan sayfalar, genellikle arama motorları tarafından arama yapıldığından daha yüksektir.

Yukarıda bahsedildiği gibi dizinler manuel olarak oluşturulduğu için arama motorlarından çok daha az kaynak kaplarlar. Web'in artık muhafazakar tahminlere göre bir milyar sayfası var (dahası, sayıları her gün bir milyon artıyor). Çoğu arama motoru, Web'in tamamını dizine eklemeye yaklaşmadı. Bunun istisnası, tam olarak bu rakamı iddia eden Google'dır (Rusya için www.google.ru) - dizinleri tarafından kısmen veya tamamen kapsanan bir milyar sayfa. En büyük dizin - Açık Dizin Projesi (www.dmoz.org) - bu arka plana karşı çok küçük görünüyor: sadece yaklaşık 2 milyon sayfa içeriyor.

1994 yılında, World Wide Web patlama yaşarken, Web'de çok sınırlı bir arama motoru seçeneği vardı: Yahoo (www.yahoo.com). Bu sunucu bugüne kadar Web araştırmasının temel taşı olmaya devam ediyor, ancak bir dizin olarak şimdi Açık Dizin Projesi'nden sıkı bir rekabetle karşı karşıya.

Birçok dizin çok faydalıdır, ancak her şey düşünüldüğünde Açık Dizin Projesi tercih edilmelidir. Netscape'in Açık Dizin Projesi, dünya çapında yaklaşık 2 milyon düğümü indeksleyen ve bunları 200.000'den fazla kategoride sınıflandıran 24.000'den fazla gönüllü editör tarafından yürütülmektedir. Herhangi bir arama sunucusu bir Açık Dizin Projesi lisansı alabilir ve sorguları işlerken veritabanını kullanabilir ve çoğu bunu yapar: AltaVista (www.altavista.com), HotBot (www.hotbot.com), Lycos (www.lycos.co. uk) ve yaklaşık yüz başka sunucu, bağlantılar için oraya dalıyor.

Açık Dizin Projesi kataloğu gönüllüler tarafından oluşturulur oluşturulmaz sonuçların kalitesinin dalgalanması beklenebilir. Ancak sonuç, her bir bağlantının net açıklamalarını içeren iyi organize edilmiş ilgili sayfa listeleridir. Açık Dizin Projesi sitesi de Google ile aynı izlenimi veriyor: mağaza bağlantıları gibi dikkat dağıtıcı unsurlar olmadan "saf arama".

Hangi dizini seçerseniz seçin, hepsinin arama motorlarına göre bir avantajı vardır: hiyerarşik bir menü sistemi kullanılarak sistematik olarak taranabilirler.

Tematik bağlantı koleksiyonları, bir grup profesyonel veya hatta bireysel koleksiyoncular tarafından derlenen listelerdir. Çoğu zaman, son derece uzmanlaşmış bir konu, büyük bir kataloğun bir grup çalışanından ziyade bir uzman tarafından daha iyi ele alınabilir. Web'de o kadar çok tematik koleksiyon var ki, belirli adresler vermenin bir anlamı yok.

Alan adı seçimi

Katalog uygun bir arama sistemidir, ancak Microsoft veya IBM sunucusuna ulaşmak için kataloğa başvurmak pek mantıklı değildir. İlgili sitenin adını tahmin etmek zor değil: www.microsoft.com , www.ibm.com veya www.microsoft.ru , www.ibm.ru - bu şirketlerin Rusya temsilciliklerinin siteleri.

Benzer şekilde, bir kullanıcının dünyanın hava durumuna ayrılmış bir siteye ihtiyacı varsa, www.weather.com sunucusunda araması mantıklıdır. Çoğu durumda, başlığında bir anahtar kelime bulunan bir siteyi aramak, bu kelimenin kullanıldığı metinde bir belgeyi aramaktan daha etkilidir. Batılı bir ticari şirket (veya proje) tek heceli bir ada sahipse ve Web'de kendi sunucusunu uyguluyorsa, adının www.name.com biçimine ve Runet (Web'in Rusça kısmı) için büyük olasılıkla uyması muhtemeldir. - www.name.ru, burada isim - şirketin veya projenin adı. Adres tahmini, diğer arama yöntemleriyle başarılı bir şekilde rekabet edebilir, çünkü böyle bir arama motoruyla herhangi bir arama motoruna kayıtlı olmayan bir sunucuyla bağlantı kurmak mümkündür. Ancak aradığınız ismi bulamazsanız arama motoruna başvurmanız gerekecektir.

arama motorları

Bana internette ne aradığını söyle sana kim olduğunu söyleyeyim

Bilgisayar, aradığınızı kolayca açıklayabilen son derece akıllı bir sistem olsaydı, o zaman iki veya üç belge verirdi - tam olarak ihtiyacınız olanları. Ancak, ne yazık ki, durum böyle değil ve isteğe yanıt olarak, kullanıcı genellikle, çoğu sorduğu şeyle ilgisi olmayan uzun bir belge listesi alır. Bu tür belgelere alakasız denir (İngilizceden ilgili - uygun, ilgili). Böylece ilgili belge aradığınız bilgileri içeren belgedir. Açıkçası, alınan ilgili belgelerin yüzdesi, yetkin bir şekilde bir talepte bulunma yeteneğine bağlıdır. Arama motoru tarafından bulunan tüm belgeler listesinde ilgili belgelerin oranına arama doğruluğu denir. Alakasız belgelere gürültü denir. Bulunan tüm belgeler alakalıysa (gürültü yok), arama doğruluğu %100'dür. İlgili tüm belgeler bulunursa, aramanın eksiksizliği %100'dür.

Böylece, aramanın kalitesi birbirine bağlı iki parametre tarafından belirlenir: aramanın doğruluğu ve eksiksizliği. Aramanın eksiksizliğini artırmak, doğruluğu azaltır ve bunun tersi de geçerlidir.

Bir arama motoru nasıl çalışır?

Arama motorları, aracıları bir veritabanında bilgi toplayan işletmelerde dolaşan bir yardım masasına benzetilebilir (Şekil 4.21). Servisle iletişime geçildiğinde bu veri tabanından bilgi verilir. Veritabanındaki veriler güncelliğini yitirir, bu nedenle aracılar bunları periyodik olarak günceller. Bazı işletmeler kendileri hakkında veri gönderir ve aracıların kendilerine gelmesi gerekmez. Başka bir deyişle, yardım masasının iki işlevi vardır: veritabanında veri oluşturma ve sürekli güncelleme ve müşterinin isteği üzerine veritabanında bilgi arama.


Pirinç. 4.21.

Aynı şekilde, arama motoru iki bölümden oluşur: Web sunucularını atlayan ve bir arama motoru veritabanı oluşturan sözde robot (veya örümcek).

Robotun temeli esas olarak kendisi (robotun kendisi yeni kaynaklara bağlantılar bulur) ve çok daha az ölçüde - sitelerini arama motoruna kaydeden kaynakların sahipleri tarafından oluşturulur. Veritabanını oluşturan robota (ağ aracısı, örümcek, solucan) ek olarak, bulunan bağlantıların derecesini belirleyen bir program var.

Bir arama motorunun çalışma prensibi, kullanıcının sorgu alanında belirttiği anahtar kelimeler için kendi iç kataloğunu (veritabanı) sorgulaması ve alaka düzeyine göre sıralanmış bir bağlantı listesi oluşturmasıdır.

Belirli bir kullanıcı isteğini işlerken, arama motorunun tam olarak dahili kaynaklarla çalıştığına (ve deneyimsiz kullanıcıların genellikle inandığı gibi Web üzerinden bir yolculuğa çıkmadığına) ve dahili kaynakların doğal olarak sınırlı olduğuna dikkat edilmelidir. Arama motoru veritabanı sürekli güncellense de, arama motoru tüm Web belgelerini indeksleyemez: sayıları çok büyük. Bu nedenle, aradığınız kaynağın belirli bir arama motoru tarafından bilinmeme olasılığı her zaman vardır.

Bu fikir, Şekil 2'de açıkça gösterilmektedir. 4.22. Elips 1, belirli bir zamanda var olan tüm Web belgeleri kümesini, elips 2 - bu arama motoru tarafından indekslenen tüm belgeler ve elips 3 - gerekli belgeler kümesini sınırlar. Böylece, bu arama motorunu kullanarak, gerekli belgelerin sadece onun tarafından indekslenen kısmını bulabilirsiniz.


Pirinç. 4.22.

Yetersiz arama tamamlama sorunu, yalnızca arama motorunun sınırlı iç kaynakları değil, aynı zamanda robotun hızının sınırlı olması ve yeni Web belgelerinin sayısının sürekli artmasıdır. Robotun kaynakları tarama hızı sınırlı olduğundan, arama motorunun iç kaynaklarını artırmak sorunu tamamen çözemez.

Aynı zamanda, varsayalım ki arama motoru Orijinal İnternet kaynaklarının bir kopyasını içermesi yanlış olur. Tam bilgi (kaynak belgeler) hiçbir şekilde her zaman depolanmaz, daha sık olarak yalnızca bir kısmı saklanır - sözde dizinlenmiş liste veya dizin, belgelerin metninden çok daha kompakt ve hızlı bir şekilde yanıt vermenizi sağlar arama sorguları.

Bir dizin oluşturmak için, kaynak veriler, veritabanının hacmi minimum olacak ve arama çok hızlı olacak ve maksimum yararlı bilgi sağlayacak şekilde dönüştürülür. İndekslenmiş bir listenin ne olduğunu açıklayarak, kağıt muadili ile - sözde uyumluluk, yani. Belirli bir yazarın kullandığı kelimeleri, bunlara yapılan referansları ve eserlerinde kullanım sıklığını alfabetik olarak listeleyen bir sözlük.

Açıkçası, uyum (sözlük) eserlerin kaynak metinlerinden çok daha kompakttır ve içinde doğru kelimeyi bulmak, doğru kelimeye rastlamayı umarak kitabı çevirmekten çok daha kolaydır.

dizin oluşturma

İndeks yapım şeması, Şek. 4.23. Web ajanları veya örümcek robotları, Web üzerinde "sürünerek" Web sayfalarının içeriğini analiz eder ve hangi sayfada ne olduğu hakkında bilgi toplar.


Pirinç. 4.23.

Bir sonraki HTML sayfasını bulurken, çoğu arama motoru, içerdiği kelimeleri, resimleri, bağlantıları ve diğer öğeleri (farklı arama motorlarında farklı şekillerde) yakalar. Ayrıca, bir sayfadaki kelimeleri takip ederken, sadece varlıkları değil aynı zamanda konumları da kaydedilir, yani. bu kelimelerin bulunduğu yer: başlıkta (başlık), altyazılarda ( alt yazılar), meta etiketlerde 1 Meta etiketler, geliştiricilerin, arama motorunu yönlendirmek de dahil olmak üzere, hizmet bilgilerini Web sayfalarına yerleştirmesine olanak tanıyan hizmet etiketleridir.( meta etiketler ) veya başka bir yerde. Bu durumda, anlamlı sözcükler genellikle sabitlenir ve "a", "but" ve "veya" gibi bağlaçlar ve ünlemler yok sayılır. Meta etiketler, sayfa sahiplerinin bir sayfanın dizine eklendiği anahtar kelimeleri ve konuları tanımlamasına olanak tanır. Bu, anahtar kelimelerin birden çok anlamı olduğunda alakalı olabilir. Meta etiketler, bir kelimenin birkaç anlamından tek doğru olana doğru seçim yaparken arama motoruna rehberlik edebilir. Ancak meta etiketler yalnızca dürüst site sahipleri tarafından doldurulduğunda güvenilir şekilde çalışır. Vicdansız Web sitesi sahipleri, meta etiketlerine, sitenin temasıyla ilgisi olmayan Web'deki en popüler kelimeleri koyarlar. Sonuç olarak, ziyaretçiler istenmeyen sitelere girerek sıralamalarını yükseltir. Bu nedenle birçok modern arama motoru ya meta etiketleri görmezden gelir ya da onları sayfa metnine ek olarak görür. Her robot, haksız reklam nedeniyle cezalandırılan kendi kaynak listesini tutar.

Açıkçası, "köpek" anahtar kelimesini kullanan siteleri ararsanız, arama motoru yalnızca "köpek" kelimesinin geçtiği tüm sayfaları değil, bu kelimenin sitenin konusuyla ilgili olduğu sayfaları da bulmalıdır. Belirli bir kelimenin belirli bir Web sayfasının profiliyle ne ölçüde alakalı olduğunu belirlemek için, sayfada ne sıklıkta geçtiğini, bu kelime için başka sayfalara bağlantı olup olmadığını değerlendirmek gerekir. Kısacası sayfada bulunan kelimeleri önem sırasına göre sıralamak gerekir. Kelimelere, kaç kez ve nerede geçtiklerine bağlı olarak ağırlık verilir (sayfa başlığında, sayfanın başında veya sonunda, bir bağlantıda, bir meta etikette vb.). Her arama motorunun kendi ağırlıklandırma algoritması vardır - bu, arama motorlarının aynı anahtar kelime için farklı kaynak listeleri vermesinin nedenlerinden biridir. Sayfalar sürekli güncellendiğinden, indeksleme işlemi devam etmelidir. Örümcek robotları, bağlantıları geçer ve oldukça büyük olabilen bir dizin içeren bir dosya oluşturur. Boyutunu küçültmek için bilgi miktarını en aza indirmeye ve dosyayı sıkıştırmaya başvururlar. Birden fazla robotla, bir arama motoru saniyede yüzlerce sayfayı işleyebilir. Bugün, güçlü arama motorları yüz milyonlarca sayfa depolar ve her gün on milyonlarca sorgu alır.

Bir dizin oluştururken, kopya sayısını azaltma sorunu da çözülür - önemsiz olmayan bir görev, doğru bir karşılaştırma için önce belge kodlamasını belirlemeniz gerekir. Daha da zor bir görev, yalnızca başlığın farklı olduğu ve metnin çoğaltıldığı çok benzer belgeleri ("yakın kopyalar" olarak adlandırılır) ayırmaktır. Web'de pek çok benzer belge var - örneğin, biri bir özet yazdı ve sitede kendi imzasıyla yayınladı. Modern arama motorları, bu tür sorunları çözmenize izin verir.



Fok
Konunun devamı:
pencereler

Natalya Komarova , 28/05/2009 (03/25/2018) Bir forum veya blog okuduğunuzda, gönderilerin yazarlarını takma adla ve ... kullanıcının resmiyle, sözde avatarla hatırlarsınız ....