Acasă→Depozitare→ Conceptualizare bazată pe interpretarea informațiilor textuale. Conceptualizarea și categorizarea ca mijloc de organizare a spațiului informațional. Lista recomandată de dizertații

Conceptualizare bazată pe interpretarea informațiilor textuale. Conceptualizarea și categorizarea ca mijloc de organizare a spațiului informațional. Lista recomandată de dizertații

Sistem de căutare este un întreg complex software și hardware care are o interfață cu utilizatorul care vă permite să căutați informații la cererea utilizatorilor. De obicei, un PS este înțeles ca un site funcțional, care este conceput pentru a se asigura că orice utilizator poate găsi informații de interes pentru el pe Internet. Procesul în sine este destul de simplu și implică introducerea unui cuvânt cheie sau a unei expresii în câmpul de căutare („șir”), urmată de apăsarea butonului „Căutare”. Ca răspuns, sistemul va emite o listă de link-uri către acele pagini de resurse care se potrivesc cel mai bine cu această solicitare.

Astăzi sunt diferite tipuri de motoare de căutare:

global - face posibilă căutarea de informații pe internet;
local - vă permite să căutați în retea locala sau site-uri individuale.

În plus, sistemele globale sunt de obicei clasificate în:

specializate - furnizează informațiile care corespund unui număr de parametri specifici. Acestea vă permit să căutați fișiere pe servere, în magazine virtuale etc.;
universal - face posibilă căutarea unei varietăți de conținut, și anume nu numai text, ci și imagini, fișiere audio și video. În acest caz, căutarea se efectuează pe toate site-urile care sunt reprezentate pe World Wide Web. Google PS este considerat pe merit lider în acest domeniu;
tematice – concepute pentru a căuta informații care prezintă interes pentru anumite comunități. Această definiție se poate aplica atât mișcărilor profesionale, cât și diferitelor mișcări religioase.

Ce este un motor de căutare?

Este demn de remarcat următoarele. Chiar dacă există tipuri diferite motoarele de căutare, toate au același principiu de funcționare. Acestea se bazează pe un set de programe, pentru care se folosesc termenii „motor de căutare” sau „motor”. Ei colectează date pentru asta roboții de căutare numiți și „păianjeni”. Sarcina lor este să scaneze Internetul pentru link-uri și să introducă paginile pe care le găsesc într-un fișier index. Acesta din urmă se numește indicele PS.

Un alt element al motorului de căutare include un modul conceput pentru a procesa cererile utilizatorilor. El este cel care caută în index cuvinte cheie și expresii. Aceasta înseamnă că cererea în sine este procesată într-un index deja compilat și nu corespunde întotdeauna pe deplin cu informațiile prezentate pe Web.

Principalele caracteristici ale calității emiterii includ:

relevanța rezultatelor căutării, adică cât de aproape se potrivesc cu interogarea;
ținând cont de morfologia și trăsăturile limbii în care a fost făcută cererea;
completitudinea indexului, care poate fi limitată de algoritmul utilizat de robotul de căutare.

Utilizatorul vede doar o mică parte a motorului de căutare, care este o resursă cu o interfață. Datorită lui, utilizatorul creează interogări către motorul de căutare, iar ea îi oferă rezultate ca răspuns.

Sistem de căutare- un complex software și hardware cu o interfață web care oferă posibilitatea de a căuta informații pe Internet.

Toate motoare de căutare ceea ce au în comun este că sunt localizate pe servere puternice special dedicate și sunt legate de canale de comunicare eficiente. Motoarele de căutare mai sunt numite și sisteme de regăsire a informațiilor (IPS). Numărul de vizitatori serviți simultan din cele mai populare sisteme ajunge la multe mii. Cele mai faimoase servesc milioane de clienți pe zi. În cazurile în care un motor de căutare se bazează pe un director, acesta se numește director. Se bazează pe munca moderatorilor. În centrul IPS cu căutare full-text se află colectarea automată a informațiilor. Se realizează prin programe speciale. Aceste programe examinează periodic conținutul tuturor resurselor de pe Internet. Pentru a face acest lucru, ei se deplasează sau, după cum se spune, se târăsc prin diferite resurse. În consecință, astfel de programe se numesc roboți. Există și alte denumiri: întrucât WWW este o abreviere pentru expresia World Wide Web, este firesc să numim un astfel de program un păianjen în engleză. - păianjen. Recent, s-au folosit și alte nume: indexuri sau directoare automate. Toate aceste programe explorează și „descărcă” informații de la diferite adrese URL. Programele de tipul specificat vizitează fiecare resursă după un anumit timp. Niciun motor de căutare nu poate indexa întregul Internet. Prin urmare, bazele de date în care sunt colectate adresele resurselor indexate sunt diferite pentru diferite motoare de căutare. Cu toate acestea, mulți dintre ei se străduiesc, dacă este posibil, să acopere în munca lor întreg spațiul World Wide Web.

Pentru a căuta informații folosind un motor de căutare, utilizatorul formulează o interogare de căutare. Pe baza interogării utilizatorului, motorul de căutare generează o pagină cu rezultatele căutării. Astfel de rezultate ale căutării pot combina diferite tipuri de fișiere, de exemplu: pagini web, imagini, fișiere video. Unele motoare de căutare extrag și date din baze de date și directoare de resurse de pe Internet.

În funcție de metodele de căutare și întreținere, se împart patru tipuri de motoare de căutare:

1.sisteme care utilizează roboți de căutare.

2. sisteme controlate de om

3.sisteme hibride

4.meta-sisteme.

Arhitectura motorului de căutare include: un robot de căutare care scanează site-uri Internet, un indexator care oferă o căutare rapidă și un motor de căutare - o interfață grafică pentru utilizator.

Scopul unui motor de căutare este de a găsi documente care conțin fie cuvinte cheie, fie cuvinte legate de cuvintele cheie într-un fel. Motorul de căutare este mai bun, cu cât va returna mai multe documente relevante pentru interogarea utilizatorului.

Exemple de motoare de căutare

Google- unul dintre cele mai complete și populare IPS străine. O caracteristică distinctivă a Google IPS este tehnologia de determinare a gradului de relevanță a unui document prin analiza legăturilor din alte surse către această resursă. Cu cât sunt mai multe link-uri către o pagină din alte pagini, cu atât este mai mare clasarea acesteia în Google IPS. Google folosește algoritmul de calcul al autorității PageRank. PageRank este unul dintre factorii auxiliari în clasarea site-urilor în rezultatele căutării. PageRank nu este singurul, dar foarte important mod de a determina poziția unui site în rezultatele căutării Google. Google folosește PageRank-ul paginilor găsite pentru o anumită interogare pentru a determina ordinea în care acele pagini sunt prezentate vizitatorului în rezultatele căutării.În 2010, compania a lansat căutarea vocală în Rusia. Pentru a căuta, trebuie să apăsați butonul de lângă bara de căutare de pe telefon și să spuneți interogarea dvs., telefonul vă va trimite vocea către server, iar browserul va afișa un șir cu interogarea recunoscută și rezultatele căutării pentru aceasta.

Yandex este în prezent cel mai popular motor de căutare autohton. Începută în 1997. Își menține propriul catalog de resurse Internet. Este, de asemenea, cel mai bun motor de căutare pentru identificarea ilustrațiilor. Versiunea în limba engleză este furnizată cu un director de resurse Internet. Are un sistem dezvoltat de generare a cererilor. În special, este permisă introducerea unei prescripții de căutare în limbaj natural - în acest caz, toate extensiile necesare sunt făcute automat.

Pe lângă paginile web HTML, Yandex indexează documentele în PDF (Adobe Acrobat), format text îmbogățit (RTF), Word binar (.doc), Excel (.xls), PowerPoint (.ppt), RSS (bloguri și forumuri).

Motorul de căutare Mail.ru a început să lucreze în 2007. Volumul fișierului index în primăvara anului 2009 a fost de peste 1,5 miliarde de pagini situate pe servere în limba rusă. Pe lângă căutarea de texte, sistemul caută ilustrații și clipuri video găzduite pe servere rusești specializate „auto-umplute”: [email protected], Flamber.Ru, 35Photo.ru, PhotoForum.ru, [email protected], RuTube, Loadup, Rambler Vision și altele asemenea. Gogo.ru vă permite să limitați zona de căutare la site-uri comerciale, site-uri de informații, precum și forumuri și bloguri. Formularul „Căutare avansată” face, de asemenea, posibilă limitarea căutărilor la anumite tipuri de fișiere (PDF, DOC, XLS, PPT), poziția cuvintelor de căutare în document sau un anumit domeniu. noiembrie 2013 Google Play a apărut o nouă versiune a aplicației de căutare de la compania Mail.Ru, care vă permite să treceți de pe ecranul principal la orice rețele sociale și conține acces rapid pentru a căuta imagini, videoclipuri și știri. Aplicația Android s-a transformat într-un mini-browser conceput pentru a găsi eficient informațiile de care aveți nevoie. De asemenea, utilitarul a învățat să recunoască interogările de căutare care sunt specificate nu prin text, ci prin voce. Dezvoltatorii mai notează că au creat un widget special care poate fi plasat pe ecranul principal al unui smartphone sau tabletă bazat pe sistemul Google Android. Se înțelege că acest lucru va reduce și mai mult timpul petrecut în căutare.

AltaVista- unul dintre cele mai vechi motoare de căutare ocupă unul dintre primele locuri în ceea ce privește volumul documentelor - peste 350 de milioane. AltaVista permite căutări simple și avansate. „Ajutor” permite chiar și utilizatorilor fără experiență să compună corect interogări simple și complexe.

Hoinar- unul dintre primele IRS rusești, deschis în 1996. La sfârșitul anului 2002, a fost realizată o modernizare radicală, după care Rambler a reintrat în grupul liderilor de căutare în rețea. În prezent, volumul indexului este de aproximativ 150 de milioane de documente. Pentru a compune interogări complexe, se recomandă utilizarea modului „Interogare detaliată”, care oferă oportunități ample de compilare a unei prescripții de căutare folosind elemente de meniu.

APORT. Până în prezent, volumul bazei de date este de peste 20 de milioane de documente. Sistemul are o gamă largă de capabilități de căutare. APORT are funcția de traducător încorporat, acesta dând utilizatorului posibilitatea de a formula cereri, atât în limba rusă, cât și în Engleză. În plus, APORT are moduri speciale pentru căutarea ilustrațiilor și fișierelor audio.

Motoarele de căutare de ultimă generație indexează toate cuvintele de pe o pagină web sau dintr-un articol de conferință, în timp ce anterior sfera de indexare era de obicei limitată la titlu, titluri, primele rânduri și adresa documentului. Acest lucru a limitat semnificativ posibilitatea de a identifica materiale pe un subiect restrâns, deoarece rezultatele căutării nu au reflectat întotdeauna datele reale. Prin eliminarea acestui neajuns, motoarele de căutare moderne sunt mult mai fiabile decât predecesorii lor.

Următoarea caracteristică cea mai importantă este îmbunătățirea mecanismului intern de căutare, care se exprimă printr-o creștere a numărului de operatori și a altor elemente de interogare. În urmă cu câțiva ani, erau utilizați doar doi, în cel mai bun caz, trei operatori booleeni clasici: AND (și), OR (sau) și NOT (nu). Acum există NEAR (near, about) în Alta Vista și FOLLOWED BY (follows) în OpenText - operatori de distanță extrem de utili care vă permit să specificați cât mai mult interogarea. Multe sisteme vă permit să trunchiați terminațiile termenilor, să limitați căutările după data creării documentului, să căutați cuvinte cheie numai în elementele desemnate ale paginii web (titlu, titluri, adresa de e-mail etc.) și să căutați expresii exacte. Cele mai recente dezvoltări vă permit, de asemenea, să detectați fișiere de un anumit tip (de exemplu, grafică sau audio) și sunt sensibile la literele mici și mari. Devine obișnuit să cauți date în orice limbă. Toate acestea fac posibilă alcătuirea unei prescripții de căutare cu un grad ridicat de acuratețe, ceea ce desigur crește relevanța rezultatelor obținute.

În prezent, cele mai populare motoare de căutare Google și Yandex, să le comparăm:

Numărul de pagini indexate. Google are 8 miliarde, iar Yandex are doar 2 miliarde. Adică de patru ori mai puțin. Victorie pentru Google.

Viteza de indexare a paginii. Google indexează pagini noi într-o zi, în timp ce Yandex poate dura câteva zile pentru a face acest lucru. Google câștigă din nou.

Relevanța emiterii. Relevanța se referă la corespondența rezultatelor afișate pe pagina motorului de căutare cu interogarea dvs. Trebuie să spun imediat că aici este dificil să determin câștigătorul. Google a arătat rezultate bune în segmentul străin al internetului, dar în Runet, Yandex a fost întotdeauna puțin înainte.

Servicii suplimentare de internet. Aici avantajul este clar pentru Yandex. Are zeci de servicii diferite care sunt grupate convenabil în categorii, în timp ce Google are mai puține dintre ele, plus că există integrare cu rețea socială Google+, care multora nu le place.

Arhitectura unui motor de căutare include de obicei:

YouTube enciclopedic

1 / 5

✪ Lecția 3: Cum funcționează un motor de căutare. Introducere în SEO

✪ Motor de căutare din interior

✪ Shodan - Google negru

✪ Motorul de căutare Cheburashka va înlocui Google și Yandex în Rusia

✪ Lecția 1 - Cum funcționează un motor de căutare

Subtitrări

Poveste

Cronologie
An	Sistem	Eveniment
1993	W3Catalog?!	lansa
	Aliweb	lansa
	JumpStation	lansa
1994	crawler web	lansa
	infoseek	lansa
	Lycos	lansa
1995	AltaVista	lansa
	Daum	Baza
	text deschis index web	lansa
	Magellan	lansa
	Excita	lansa
	SAPO	lansa
	Yahoo!	lansa
1996	Dogpile	lansa
	Inktomi	Baza
	Hoinar	Baza
	hotbot	Baza
	Întreabă-l pe Jeeves	Baza
1997	Lumina Nordului	lansa
1997	Yandex	lansa
1998	Google	lansa
1999	AlltheWeb	lansa
	Genie Knows	Baza
	Naver	lansa
	Teoma	Baza
	Vivisimo	Baza
2000	Baidu	Baza
2000	Exalead	Baza
2003	info.com	lansa
2004	Yahoo! Căutare	Lansare finală
	A9.com	lansa
	sogou	lansa
2005	Căutare MSN	Lansare finală
	Ask.com	lansa
	Nigma	lansa
	goodsearch	lansa
Cauta-ma	Baza
2006	wikiseek	Baza
	Quaero	Baza
	Cautare in timp real	lansa
	ChaCha	Lansare (beta)
	Guruji.com	Lansare (beta)
2007	wikiseek	lansa
	Sproose	lansa
	Căutare Wikia	lansa
	blackle.com	lansa
2008	DuckDuckGo	lansa
	Tooby	lansa
	Picolator	lansa
	Viewzi	lansa
	Cuil	lansa
	Boogami	lansa
	LeapFish	Lansare (beta)
	Forestle	lansa
	VADLO	lansa
	powerset	lansa
2009	bing	lansa
	KAZ.KZ	lansa
	Yebol	Lansare (beta)
	Mugurdy	închidere
	cercetaș	lansa
2010	Cuil	închidere
	Blekko	Lansare (beta)
	Viewzi	închidere
2012	WAZZUB	lansa
2014	Satelit	Lansare (beta)

Într-un stadiu incipient al dezvoltării Internetului, Tim Berners-Lee a menținut o listă de servere web postată pe site-ul CERN. Au existat tot mai multe site-uri, iar menținerea manuală a unei astfel de liste a devenit din ce în ce mai dificilă. Site-ul NCSA avea o secțiune dedicată „Ce este nou!”. (ing. Ce este nou!), unde au publicat link-uri către site-uri noi.

Primul program de calculator pentru căutarea pe Internet a fost Archie(Engleză archie - arhivă fără litera „c”). A fost creat în 1990 de către Alan Emtage, Bill Heelan și J. Peter Deutsch, studenți la informatică la Universitatea McGill din Montreal. Programul a descărcat liste cu toate fișierele de pe toate serverele FTP anonime disponibile și a construit o bază de date care putea fi căutată după numele fișierelor. Cu toate acestea, programul lui Archie nu a indexat conținutul acestor fișiere, deoarece cantitatea de date era atât de mică încât totul putea fi găsit cu ușurință manual.

Dezvoltarea și diseminarea protocolului de rețea Gopher, inventat în 1991 de Mark McCahill la Universitatea din Minnesota, a condus la crearea a două noi programe de căutare, Veronicași Jughead. Ca și Archie, au căutat numele fișierelor și anteturile stocate în sistemele de index ale lui Gopher. Veronica (engleză) Foarte ușor, orientat spre rozătoare, index la nivelul rețelei la arhivele computerizate) au permis căutări de cuvinte cheie pentru majoritatea titlurilor de meniu Gopher din toate listele Gopher. Programul Jughead Excavarea și afișarea ierarhiei universale a lui Jonzy) a preluat informații de meniu de la anumite servere Gopher. Deși numele motorului de căutare al lui Archie nu avea legătură cu seria de benzi desenate "Archie", cu toate acestea Veronica și Jughead sunt personaje din aceste benzi desenate.

Până în vara lui 1993, nu exista încă un singur sistem de căutare pe web, deși numeroase directoare specializate au fost întreținute manual. Oscar Nierstrasz de la Universitatea din Geneva a scris o serie de scripturi Perl care copiau periodic aceste pagini și le rescriu într-un format standard. Aceasta a devenit baza pentru W3Catalog?!, primul motor de căutare web primitiv, lansat pe 2 septembrie 1993.

Probabil că primul motor de căutare scris în Perl a fost „World Wide Web Wanderer”, un bot de Matthew Gray din iunie 1993. Acest robot a creat indexul de căutare „Wandex”. Scopul robotului Wanderer a fost să măsoare dimensiunea World Wide Web și să găsească toate paginile web care conțin cuvintele din interogare. În 1993, a apărut al doilea motor de căutare Aliweb. Aliweb nu a folosit un crawler, ci a așteptat în schimb notificări de la administratorii site-urilor web despre prezența unui fișier index într-un anumit format pe site-urile lor.

JumpStation, creat în decembrie 1993 de Jonathan Fletcher, a căutat și indexat pagini web folosind un crawler și a folosit un formular web ca interfață pentru formularea interogărilor de căutare. A fost primul instrument de căutare pe Internet care a combinat cele trei funcții esențiale ale unui motor de căutare (verificare, indexare și căutare reală). Datorită resurselor computerizate limitate ale vremii, indexarea și, prin urmare, căutarea, era limitată doar la titlurile și titlurile paginilor web găsite de crawler.

Motoarele de căutare au participat la Dot-com Bubble de la sfârșitul anilor 1990. Mai multe companii au intrat pe piață într-un mod spectaculos, generând profituri record în timpul IPO-urilor lor. Unii au abandonat piața motoarelor de căutare publice și lucrează doar cu sectorul corporativ, cum ar fi Lumina Nordului.

Google a preluat ideea de a vinde cuvinte cheie în 1998, când era o companie mică care rula un motor de căutare la goto.com. Mișcarea a marcat o schimbare pentru motoarele de căutare de la concurența între ele la a deveni una dintre cele mai profitabile întreprinderi de afaceri de pe Internet. Motoarele de căutare au început să vândă companiile individuale primele locuri în rezultatele căutării.

Motorul de căutare Google a fost într-o poziție proeminentă încă de la începutul anilor 2000. Compania a atins o poziție înaltă datorită rezultatelor bune de căutare folosind algoritmul PageRank. Algoritmul a fost prezentat publicului în articolul „The Anatomy of Search Engine” scris de Sergey Brin și Larry Page, fondatorii Google. Acest algoritm iterativ clasifică paginile web pe baza unei estimări a numărului de hyperlinkuri către o pagină web, presupunând că paginile „bune” și „importante” primesc mai multe link-uri decât altele. Interfața Google este concepută într-un stil spartan, unde nu este nimic de prisos, spre deosebire de mulți dintre concurenții săi care au integrat motorul de căutare în portalul web. Motorul de căutare Google a devenit atât de popular încât au apărut imitatori ai acestuia, de exemplu, Căutător de mistere(motor de căutare secret).

Căutați informații în rusă

În 1996, a fost implementată o căutare ținând cont de morfologia rusă pe motorul de căutare Altavista și au fost lansate motoarele de căutare originale rusești Rambler și Aport. La 23 septembrie 1997, motorul de căutare Yandex a fost deschis. Pe 22 mai 2014, motorul național de căutare Sputnik a fost deschis de către Rostelecom, care la momentul anului 2015 se află în testare beta. Pe 22 aprilie 2015 a fost lansat un nou serviciu Sputnik. Copii special pentru copii cu siguranta sporita.

Metodele de analiză a clusterelor și căutarea metadatelor au câștigat o mare popularitate. Dintre mașinile internaționale de acest fel, cel mai faimos a fost „Clusty” companiilor Vivisimo. În 2005, cu sprijinul Universității de Stat din Moscova, motorul de căutare Nigma a fost lansat în Rusia, care acceptă gruparea automată. În 2006, a fost deschisă metamașina rusă Quintura, oferind grupare vizuală sub forma unui nor de etichete. Nigma a experimentat și gruparea vizuală.

Cum funcționează motorul de căutare

Principalele componente ale unui motor de căutare: robot de căutare, indexer, motor de căutare.

De regulă, sistemele funcționează în etape. În primul rând, crawler-ul primește conținutul, apoi indexerul generează un index care poate fi căutat și, în sfârșit, crawler-ul oferă funcționalitatea de a căuta datele indexate. Pentru a actualiza motorul de căutare, acest ciclu de indexare se repetă.

Motoarele de căutare funcționează prin stocarea informațiilor despre multe pagini web pe care le obțin din paginile HTML. Robot de căutare sau „crawler” (ing. Crawler) – un program care urmărește automat toate linkurile găsite pe pagină și le evidențiază. Crawler-ul, pe baza link-urilor sau pe baza unei liste predefinite de adrese, caută noi documente care nu sunt încă cunoscute de motorul de căutare. Proprietarul site-ului poate exclude anumite pagini folosind robots.txt , care poate fi folosit pentru a preveni indexarea fișierelor, paginilor sau directoarelor site-ului.

Motorul de căutare analizează conținutul fiecărei pagini pentru o indexare ulterioară. Cuvintele pot fi extrase din titluri, textul paginii sau câmpuri speciale - meta tag-uri. Un indexator este un modul care analizează o pagină, după împărțirea ei în părți, folosind proprii algoritmi lexicali și morfologici. Toate elementele unei pagini web sunt izolate și analizate separat. Datele paginilor web sunt stocate într-o bază de date index pentru a fi utilizate în solicitările ulterioare. Indexul vă permite să găsiți rapid informații despre solicitarea utilizatorului. O serie de motoare de căutare, cum ar fi Google, stochează toată sau o parte din pagina originală, așa-numita cache, precum și diverse informații despre pagina web. Alte sisteme, cum ar fi AltaVista, stochează fiecare cuvânt din fiecare pagină găsită. Utilizarea memoriei cache ajută la accelerarea extragerii informațiilor din paginile deja vizitate. Paginile stocate în cache conțin întotdeauna textul specificat de utilizator în interogarea de căutare. Acest lucru poate fi util atunci când pagina web a fost actualizată, adică nu mai conține textul solicitării utilizatorului, iar pagina din cache este încă veche. Această situație este legată de pierderea legăturilor (ing. linkrot) și abordarea Google ușor de utilizat (utilizabilitate). Aceasta implică emiterea unor bucăți scurte de text din memoria cache care conține textul interogării. Se aplică principiul celei mai mici surprize, utilizatorul se așteaptă de obicei să vadă cuvintele căutate în textele paginilor primite ( așteptările utilizatorilor). Pe lângă accelerarea căutărilor folosind paginile din cache, paginile din cache pot conține informații care nu mai sunt disponibile în altă parte.

Motorul de căutare funcționează cu fișierele de ieșire primite de la indexator. Motorul de căutare acceptă solicitările utilizatorilor, le procesează folosind un index și returnează rezultatele căutării.

Când un utilizator introduce o interogare într-un motor de căutare (de obicei folosind cuvinte cheie), sistemul își verifică indexul și returnează o listă cu cele mai relevante pagini web (sortate după un anumit criteriu), de obicei cu o scurtă adnotare care conține titlul documentului și uneori părți ale textului. Indexul de căutare este construit după o tehnică specială bazată pe informații extrase din paginile web. Din 2007, motorul de căutare Google vă permite să căutați în funcție de timp, să creați documentele pe care le căutați (apelați meniul „Instrumente de căutare” și specificați intervalul de timp). Majoritatea motoarelor de căutare acceptă utilizarea operatorilor boolean AND, OR, NOT în interogări, ceea ce vă permite să rafinați sau să extindeți lista de cuvinte cheie căutate. În acest caz, sistemul va căuta cuvinte sau expresii exact așa cum au fost introduse. Unele motoare de căutare permit căutare aproximativă, în acest caz, utilizatorii extind zona de căutare specificând distanța până la cuvintele cheie . Există, de asemenea căutare conceptuală, care utilizează o analiză statistică a utilizării cuvintelor și expresiilor de căutare în textele paginilor web. Aceste sisteme vă permit să compuneți interogări în limbaj natural. Un exemplu de astfel de motor de căutare este site-ul ask com.

Utilitatea unui motor de căutare depinde de relevanța paginilor pe care le găsește. În timp ce milioane de pagini web pot include un cuvânt sau o expresie, unele pot fi mai relevante, populare sau mai autorizate decât altele. Majoritatea motoarelor de căutare folosesc metode de clasare pentru a aduce cele mai bune rezultate în fruntea listei. Motoarele de căutare decid ce pagini sunt mai relevante și în ce ordine rezultatele ar trebui afișate în moduri diferite. Metodele de căutare, precum Internetul însuși, se schimbă în timp. Astfel, au apărut două tipuri principale de motoare de căutare: sisteme de cuvinte cheie predefinite și ordonate ierarhic și sisteme în care se generează un index inversat pe baza analizei textului.

Majoritatea motoarelor de căutare sunt întreprinderi comerciale care realizează profit din publicitate, în unele motoare de căutare poți cumpăra poziții de top în rezultatele căutării pentru anumite cuvinte cheie contra cost. Acele motoare de căutare care nu iau bani pentru ordinea rezultatelor, câștigă din publicitate contextuală, în timp ce mesajele publicitare corespund solicitării utilizatorului. Astfel de anunțuri sunt afișate pe pagină cu o listă de rezultate de căutare, iar motoarele de căutare câștigă de fiecare dată când un utilizator dă clic pe mesaje publicitare.

Tipuri de motoare de căutare

Există patru tipuri de motoare de căutare: robotizate, conduse de oameni, hibride și meta-sisteme.

sisteme care utilizează roboți de căutare

Consta din trei părți: crawler („bot”, „robot” sau „păianjen”), software de indexare și motor de căutare. Crawler-ul este necesar pentru a ocoli rețeaua și pentru a crea liste de pagini web. Un index este o arhivă mare de copii ale paginilor web. Ţintă software- Evaluați rezultatele căutării. Datorită faptului că crawler-ul din acest mecanism explorează în mod constant rețeaua, informațiile sunt mai actualizate. Majoritatea motoarelor de căutare moderne sunt sisteme de acest tip.

sisteme controlate de om (cataloage de resurse)

Aceste motoare de căutare primesc liste de pagini web. Directorul conține o adresă, un titlu și scurta descriere site-ul. Catalogul de resurse caută rezultate numai din descrierile paginilor trimise acestuia de webmasteri. Avantajul directoarelor este că toate resursele sunt verificate manual, prin urmare, calitatea conținutului va fi mai bună în comparație cu rezultatele obținute de sistemul de primul tip automat. Dar există și un dezavantaj - actualizarea acestor directoare se face manual și poate rămâne semnificativ în urma situației reale. Clasamentul paginilor nu se poate schimba instantaneu. Exemple de astfel de sisteme sunt directorul Yahoo, dmoz și Galaxy.

sisteme hibride

Motoarele de căutare precum Yahoo, Google, MSN combină funcțiile sistemelor folosind roboți de căutare și sisteme controlate de om.

meta-sisteme

Motoarele de metacăutare combină și clasifică rezultatele mai multor motoare de căutare simultan. Aceste motoare de căutare erau utile atunci când fiecare motor de căutare avea un index unic, iar motoarele de căutare erau mai puțin „inteligente”. Deoarece căutarea s-a îmbunătățit atât de mult acum, nevoia de ele a scăzut. Exemple: MetaCrawlerși MSN Search.

Piața motoarelor de căutare

Google este cel mai popular motor de căutare din lume, cu o cotă de piață de 68,69%. Bing ocupă poziţia a doua, cota sa fiind de 12,26%.

Cele mai populare motoare de căutare din lume:

Sistem de căutare	Cota de piata in iulie 2014	Cota de piata in octombrie 2014	Cota de piata in septembrie 2015
Google	68,69 %	58,01 %	69,24%
Baidu	17,17 %	29,06 %	6,48%
bing	6,22 %	8,01 %	12,26%
Yahoo!	6,74 %	4,01 %	9,19%
AOL	0,13 %	0,21 %	1,11%
Excita	0,22 %	0,00 %	0,00 %
Cere	0,13 %	0,10 %	0,24%

Asia

În țările din Asia de Est și în Rusia, Google nu este cel mai popular motor de căutare. În China, de exemplu, mai popular motor de căutare Soso?!.

În Coreea de Sud, portalul de căutare proprietar al Naver este folosit de aproximativ 70% din Yahoo! Japonia și Yahoo! Taiwan sunt cele mai populare motoare de căutare din Japonia și, respectiv, Taiwan.

Rusia și motoarele de căutare în limba rusă

Conform datelor LiveInternet din iunie 2015 privind acoperirea interogărilor de căutare în limba rusă:

Toate limbi:
- Yahoo! (0,1%) și motoarele de căutare deținute de această companie: Inktomi, AltaVista , Alltheweb
vorbitor de engleză și internațional:
- Întreabă-l pe Jeeves(mecanismul Teoma)
Limbă rusă - majoritatea motoarelor de căutare „vorbitoare rusă” indexează și caută texte în multe limbi - ucraineană, belarusă, engleză, tătără și altele. Ele diferă de sistemele „tot-lingvistice” care indexează toate documentele la rând, prin aceea că indexează în principal resursele situate în zonele de domeniu în care domină limba rusă sau, altfel, își limitează roboții la site-uri în limba rusă.

Unele dintre motoarele de căutare folosesc algoritmi de căutare externi.

Date cantitative ale motorului de căutare Google

Numărul utilizatorilor de internet și motoarelor de căutare și cerințele utilizatorilor pentru aceste sisteme este în continuă creștere. Pentru a crește viteza de căutare a informațiilor necesare, motoarele de căutare mari conțin un număr mare de servere. Serverele sunt de obicei grupate în centre de servere (centre de date). Motoarele de căutare populare au centre de server împrăștiate în toată lumea.

În octombrie 2012, Google a lansat proiectul Where the Internet Lives, unde utilizatorilor li se oferă posibilitatea de a se familiariza cu centrele de date ale companiei.

Motorul de căutare Google știe următoarele despre activitatea centrelor de date:

Capacitatea totală a tuturor centrelor de date Google, începând cu 2011, a fost estimată la 220 MW.
Când Google a plănuit să deschidă un nou complex cu trei clădiri în Oregon în 2008, cu o suprafață totală de 6,5 milioane de metri pătrați, Harper's Magazine a calculat că un complex atât de mare consumă peste 100 MW de energie electrică, ceea ce este comparabil cu consumul de energie al un oraș cu 300.000 de oameni.
Numărul estimat de servere Google în 2012 este de 1.000.000.
Cheltuielile Google pentru centrele de date au fost de 1,9 miliarde de dolari în 2006 și de 2,4 miliarde de dolari în 2007.

Dimensiunea World Wide Web indexată de Google în decembrie 2014 este de aproximativ 4,36 miliarde de pagini.

Motoare de căutare care țin cont de interdicțiile religioase

Răspândirea globală a internetului și popularitatea tot mai mare a dispozitivelor electronice în lumea arabă și musulmană, în special în țările din Orientul Mijlociu și subcontinentul indian, au contribuit la dezvoltarea motoarelor de căutare locale care țin cont de tradițiile islamice. Astfel de motoare de căutare conțin filtre speciale care ajută utilizatorii să evite accesarea site-urilor interzise, cum ar fi site-urile cu pornografie, și le permit să utilizeze numai acele site-uri al căror conținut nu este contrar credinței islamice. Cu puțin timp înainte de luna musulmană Ramadan, în iulie 2013, a fost introdusă lumea Google-ul halal- un sistem care oferă utilizatorilor numai linkuri „corecte” halal prin filtrarea rezultatelor căutării primite de la alte motoare de căutare precum Google și Bing. Cu doi ani mai devreme, în septembrie 2011, motorul de căutare I'mHalal a fost lansat pentru a servi utilizatorilor din Orientul Mijlociu. Totuși, acest serviciu de căutare a trebuit să fie închis în scurt timp, potrivit proprietarului, din lipsă de finanțare.

Lipsa investițiilor și ritmul lent de difuzare a tehnologiei în lumea musulmană a împiedicat progresul și a împiedicat succesul unui motor de căutare islamic serios. Eșecul investițiilor uriașe în proiecte web de stil de viață musulman, dintre care unul a fost Muxlim. El a primit milioane de dolari de la investitori precum Rite Internet Ventures și acum - conform ultimei postări de la I'mHalal înainte de a se închide - vine cu ideea dubioasă că „următorul Facebook sau Google ar putea fi doar în Orientul Mijlociu. . dacă ne susțineți tineretul strălucit." Cu toate acestea, experții islamici în internet au fost ocupați de ani de zile cu definirea a ceea ce este sau nu în conformitate cu Sharia și clasifică site-urile web drept „halal” sau „haram”. Toate motoarele de căutare islamice anterioare și actuale sunt doar un set special de date indexate sau sunt motoare de căutare majore, cum ar fi Google, Yahoo și Bing, cu un fel de sistem de filtrare folosit pentru a împiedica utilizatorii să acceseze site-uri haraam, cum ar fi site-uri despre nuditate, LGBT, jocurile de noroc și orice altceva care este considerat anti-islam.

Printre alte motoare de căutare orientate spre religie, Jewogle, versiunea evreiască a Google și SeekFind.org, un site creștin care include filtre pentru a ține utilizatorii departe de conținutul care le-ar putea submina sau slăbi credința, sunt comune.

Rezultate personale și bule de filtrare

Multe motoare de căutare, cum ar fi Google și Bing, folosesc algoritmi pentru a ghici selectiv ce informații ar dori să vadă un utilizator pe baza activităților sale anterioare pe sistem. Ca urmare, site-urile web afișează doar informații care sunt în concordanță cu interesele trecute ale utilizatorului. Acest efect se numește „bulă de filtru”.

Toate acestea duc la faptul că utilizatorii primesc mult mai puține informații care contrazic punctul lor de vedere și devin izolați intelectual în propria „bulă informațională”. Astfel, „efectul de bule” poate avea Consecințe negative pentru a forma o opinie civică.

Prejudecata motorului de căutare

Deși motoarele de căutare sunt programate să clasifice site-urile web pe baza unei combinații de popularitate și relevanță, realitatea este că cercetările experimentale indică faptul că diverși factori politici, economici și sociali influențează SERP-urile.

Această părtinire poate fi un rezultat direct al proceselor economice și comerciale: companiile care fac publicitate pe un motor de căutare pot deveni mai populare în rezultatele căutării organice pe acel motor de căutare. Eliminarea rezultatelor căutării care nu respectă legile locale este un exemplu de influență a proceselor politice. De exemplu, Google nu va afișa unele site-uri web neonaziste în Franța și Germania, unde negarea Holocaustului este ilegală.

Prejudecățile pot fi, de asemenea, o consecință a proceselor sociale, deoarece algoritmii motoarelor de căutare sunt adesea proiectați pentru a exclude punctele de vedere neformatate în favoarea unor rezultate mai „populare”. Algoritmii de indexare ai marilor motoare de căutare prioritizează site-urile americane.

Bomba de căutare este un exemplu de încercare de a manipula rezultatele căutării din motive politice, sociale sau comerciale.

Vezi si

Qwika
Bibliotecă electronică#Liste biblioteci și sisteme de căutare
Bara de instrumente pentru dezvoltatori web

Note

Literatură

Ashmanov I. S., Ivanov A.A. Promovarea site-ului web în motoarele de căutare. - M. : Williams, 2007. - 304 p. - ISBN 978-5-8459-1155-1.
Baikov V.D. Internet. Căutați informații. Promovarea site-ului web. - St.Petersburg. : BHV-Petersburg, 2000. - 288 p. - ISBN 5-8206-0095-9.
Kolisnichenko D. N. Motoarele de căutare și promovarea site-urilor pe Internet. - M.: Dialectică, 2007. - 272 p. - ISBN 978-5-8459-1269-5.

Lande D.V. Căutați cunoștințe pe Internet. - M. : Dialectică, 2005. - 272 p. - ISBN 5-8459-0764-0.

Lande D.V., Snarsky A. A., Bezsudnov I.V. Internet: Navigarea în rețele complexe: modele și algoritmi. - M.: Librokom (Editorial URSS), 2009. - 264 p. - ISBN 978-5-397-00497-8.

Chu H., Rosenthal M.

Salutare dragi cititori! Cu tine Ekaterina Kalmykova. Articolul de astăzi va fi dedicat unui astfel de concept precum un motor de căutare, ce este, pentru ce este. De asemenea, vom arunca o privire mai atentă asupra tipurilor de motoare de căutare de pe Internet.

Dacă aveți o întrebare: „De ce ar trebui să știu despre aceste motoare de căutare?”, atunci voi răspunde astfel. Când mănânci supa gustoasaîntr-un restaurant, ai vrea să știi din ce ingrediente este făcut pentru a-l repeta și tu acasă? La urma urmei, dacă ești mulțumit de rezultatul final, adică de gustul supei, atunci cu siguranță ai fi interesat să știi ce a dus la un astfel de rezultat?

Puteți spune și despre lucrul cu un motor de căutare (PS). Dacă vă creați propriul blog în viitor, atunci cunoscând activitatea PS nu va trebui să căutați ajutor de la specialiști. Veți putea să vă gestionați independent proiectul în așa fel încât motorul de căutare să îl vadă și să îl arate altor utilizatori. La urma urmei, prezența resursei tale și, în consecință, câștigurile vor depinde de acest lucru.

Asadar, haideti sa începem.

Ce este un motor de căutare?

Un motor de căutare este o resursă specială pe Internet care furnizează informații utilizatorului în conformitate cu solicitarea acestuia. Adică, această resursă colectează toate datele din rețeaua globală, toate proiectele web, iar atunci când se primește o cerere specifică de la utilizator, oferă informațiile necesare, trimițându-le, de exemplu, către un blog tematic sau un site web.

Astfel, după crearea proiectului, sarcina ta va fi să intri în problemă, adică în „lista” sau baza de date a motorului de căutare. Deoarece promovarea site-ului pe Internet pur și simplu nu este posibilă fără utilizarea oricărui motor de căutare, de aceea, va trebui să aveți grijă de calitatea resursei dvs., de optimizarea acesteia internă și externă. Vom discuta cum să facem acest lucru în articolele viitoare. Deci nu ratați.

Între timp, dacă decideți să vă creați propriul blog, vă recomand să citiți aceste articole:

Deoarece noi resurse web apar aproape în fiecare zi, baza de date a motoarelor de căutare trebuie actualizată în mod constant în consecință. Fiecare site nou creat trebuie să fie indexat de robot. În termeni simpli, asistenții PS - roboții trebuie să se familiarizeze cu noua resursă și să transfere aceste date către motorul de căutare însuși.

Ei bine, aici probabil ați ghicit că atunci când un robot vă vizitează blogul, ar trebui să-i placă totul. Soarta ta viitoare va depinde de acest oaspete.

Cum să faci robotul din proiectul tău complet încântat, o voi spune într-unul dintre articolele următoare. Nu o ratați, vor fi informații interesante și foarte curioase pe care vi le voi împărtăși.

Munca motoarelor de căutare

Toate lucrările legate de PS începe cu introducerea interogării dorite în bara de căutare. Ce ar putea căuta utilizatorii? Da, orice, de la o rețetă de plăcinte cu varză la întrebarea veche „cum să faci mai mulți bani fără să faci nimic”.

Pentru ca resursa ta să apară ca răspuns la o întrebare, trebuie să fii înaintea concurenților tăi. Pentru a face acest lucru, trebuie să acordați o atenție deosebită promovării proiectului dvs., care include activități precum scrierea de conținut optimizat de înaltă calitate, adică răspunsul la solicitările articolului, îmbunătățirea factorului comportamental, adică cititorul dvs. interesat să fie pe resursă, aceasta este o îmbunătățire a gradului de utilizare, adică confortul vizitatorilor și mulți alți factori. Asta vom învăța să facem cu toții.

Componentele motorului de căutare

Și ce ajută motoarele de căutare, de exemplu, același Google să indexeze resursa dvs.?

Agenții sunt lucrători care fac cea mai mare parte a muncii - ei indexează și analizează site-urile.
Păianjeni (păianjen) - un program care poate descărca paginile unei resurse web și poate colecta informații generale despre aceasta.
Crawler (crawler) - un program care găsește toate legăturile din pagini, în urma cărora caută date noi necunoscute motoarelor de căutare.
Indexator - analizează textul, titlurile, stilul etc.
Roboți - indexați paginile conținutului dvs. și, de asemenea, studiați o varietate de link-uri.

Pentru ca indexarea să aibă loc așa cum aveți nevoie, creați un document special „robots.txt”. Permite sistemului să verifice numai paginile de care aveți nevoie și să le elimine pe cele pe care nu doriți să le vedeți.

Tipuri de motoare de căutare

Există mai multe opțiuni pentru sistemele de recuperare a informațiilor:

Cataloagele. O simplă comparație de căutare este un raft de cărți într-o bibliotecă. Totul este stocat acolo în subcategorii și categorii ale unui anumit subiect. Dacă ai intrat într-un astfel de motor de căutare, atunci crede-mă, informațiile pe care le vei găsi acolo vor fi mai mult decât utile și de înțeles pentru percepția ta. Ați ghicit despre ce site comun în cauză? Desigur, despre Wikipedia, care a adunat un întreg director de informații utile.
Căutați indicatori. Căutarea în date se efectuează în detrimentul frazelor cheie. Este atât convenabil, cât și incomod în același timp. Cred că acei oameni care caută, de exemplu, „Girl shows class” mă vor înțelege, pentru a afla cum o fată își arată degetul mare, iar în căutare iese ceva nu foarte decent. 🙂 Acest tip de căutare caracterizează majoritatea motoarelor de căutare.
sisteme de rating. Determinați-vă popularitatea datorită numărului de vizite. Desigur, nu este cel mai bun criteriu, deoarece utilitatea și calitatea resursei în sine nu este întotdeauna luată în considerare. Un exemplu de astfel de sistem este resursa de internet alexa.com.

Motoarele de căutare sunt, de asemenea, împărțite în generale si de specialitate. Motoarele de căutare generale sortează informațiile fără nicio selecție pentru toate resursele web cunoscute de ei. Acestea includ Yandex, Rambler, Google. Specializat - sortați după limba folosită.

De asemenea, motoarele de căutare pot fi împărțite în distribuție regională și mondială.

Până în prezent, toate motoarele de căutare își îmbunătățesc constant algoritmii de selectare a resurselor relevante, de înaltă calitate.

Un pic de istorie

PS a apărut în Runet în 1996 - acestea sunt Aport și Rambler. Un an mai târziu, în 1997, s-a format Yandex, iar un an mai târziu, în 1998, a apărut un alt concurent - Google. În acest moment, cele mai populare sunt Yandex și Google.

Care sunt cele mai populare motoare de căutare în acest moment?

Iată statisticile:

După cum puteți vedea, Yandex este acum cel mai popular din Rusia, împreună cu Google și Mail.

Astfel, puteți vedea căutările de top pe care ar trebui să vă concentrați atunci când vă creați și promovați proiectul.

Motor de căutare Yandex (Yandex)

Principiul de funcționare este următorul: introduceți interogarea de căutare în caseta de căutare, faceți clic pe „Găsiți” și vedeți rezultatul. Yandex a primit 13 milioane de răspunsuri la solicitarea dvs. Puteți căuta și în imagini, videoclipuri, piață (uitați-vă în coloana din stânga).

În plus, puteți seta regiunea de căutare. Pentru a face acest lucru, faceți clic pe pictograma de lângă cruce din bara de căutare și selectați regiunea dorită în fereastra de filtrare.

Motor de căutare Google (Google)

Google funcționează similar cu Yandex. Puteți căuta informații în diferite secțiuni: imagini, videoclipuri, știri, hărți etc.

Dacă faceți clic pe „Instrumente de căutare”, se va deschide un panou de setări unde puteți selecta regiunea, limba și cât timp să căutați informații.

Acum știi ce motoare de căutare există pe Internet, le-ai văzut și pe cele mai populare dintre ele, iar acum, înarmat cu informații, îți poți construi conexiunile și interacțiunea cu motoarele de căutare.

Asta e tot pentru azi. Cum iti place articolul?

Toate pentru moment.

Vă sfătuiesc să actualizați blogul pentru a nu rata ultimele noutăți.

Ekaterina Kalmykova