19.10.2019

Kateri je najboljši iskalnik. Kaj so iskalniki


Glavna naloga iskalnika je hitro ustvariti stran s pravilnimi odgovori na uporabnikovo poizvedbo. Na prvi pogled preprosto opravilo, a če upoštevate število uporabnikov, nekaj sto načinov vnosa iskalnih poizvedb in več deset milijonov spletnih mest, ni več tako preprosto.

Vodilni na trgu v Rusiji sta nedvomno Yandex ali Google, zaradi česar strokovnjaki za SEO prisilijo, da jim posvetijo večino svojega časa. Večina uporabnikov ne razmišlja o tem, kako iskalniki delujejo in kako koristni so lahko. Danes bom v celoti obravnaval to vprašanje.

Vsebinske teme

Kako delujejo iskalniki?

Iskalniki lahko v celoti delujejo s pomočjo robotov ali ljudi, lahko pa so tudi hibridni sistemi. Arhitektura iskalnika najpogosteje vključuje:

  • robot - zbira informacije iz različnih dokumentov (strani spletnega mesta),
  • indekser - odgovoren za hitro iskanje informacij,
  • iskalnik - ustvari stran z rezultati iskanja.

Glavne značilnosti kakovostnega iskanja:

  • Popolnost. Več dokumentov kot je analiziranih, popolnejše je iskanje.
  • Natančnost. Uporabnik ne bo želel iskati igle v kupu sena. Odgovor mora biti relevanten.
  • Ustreznost. Še posebej pomembno pri temah novic.
  • Hitrost iskanja. Nihče ne bo čakal, da sistem ustvari stran z odgovori.
  • vidnost. Priročna predstavitev informacij.

Na internetu je veliko dokumentov, vendar ste lahko vedno boljši in ustvarite bolj uporabne strani za uporabnika. Uporabnost se lahko kaže v vsebini in priročnosti njenega zaznavanja. Večina optimizatorjev SEO izboljša kakovost iskanja tako, da vam omogoči iskanje zahtevane dokumente. Zato svoje storitve za nas razvijajo predstavniki PS: spletni skrbniki, lastniki projektov in SEO.

Kakšne so prednosti iskalnikov za nas?

  • Hiter način do odgovora na vaše vprašanje;
  • Iskalniki so že dolgo odličen vir pridobivanja novih strank;
  • Zaradi povpraševanja po prometu se je pojavil trg storitev: SEO promocija, kontekstualno oglaševanje itd.

Danes vam ni treba predložiti svoje strani sodobnim iskalnikom. Prej ali slej bodo roboti pregledali vaše spletno mesto in ga vključili v indeks, če z njim ni težav. Toda za doseganje učinkovitih rezultatov je nujno treba izdelati vir - začenši s semantičnim jedrom in strukturo spletnega mesta ter končati z revizijo tehničnih napak.

Mimogrede, prej sem se že dotaknil teme iskalnikov:

  • Iskalne poizvedbe: klasifikacija, vrste, vrste

Največji iskalniki v Rusiji

Google je vodilni na svetu, vendar Yandex ostaja najbolj priljubljen iskalnik v Rusiji. To je opazno po virih prometa na podlagi podatkov iz Yandex.Metrice.

  • Več o Yandex.ru

Iskanje №1 v Rusiji po številu klikov na spletna mesta iz rezultatov iskanja. LiveInternet (junij 2017). Yandex predstavlja približno 50% iskalnega prometa, vendar Google postopoma dohiteva domači iskalnik. IN Zadnje čase Yandex je postal bolj aktiven v oglaševalskih akcijah, morda bo to upočasnilo rast Googlovega deleža na ruskem trgu. Eden glavnih virov prometa na ruskem trgu.

  • Google.com

Zasedi velik delež v mobilnem iskanju Rusije. Je tudi eden glavnih virov prometa za naše projekte. Zahvaljujoč rasti obiskovalcev iz mobilnih naprav se Googlov delež povečuje.

Uporabni in zanimivi iskalniki

  • wikipedia.org

Najobsežnejša brezplačna spletna enciklopedija, izdana leta 2001. Vsebino ustvarjajo uporabniki interneta.

  • DuckDuckGo.com

Zasebni in zaupni iskalnik, katerega strežniki se nahajajo v ZDA. Ima svojega robota, uporablja pa tudi podatke drugih storitev (na primer Wikipedia, Wolfram|Alpha). Za razliko od Yandexa in Googla, to iskalni sistem ne poskuša prilagoditi rezultatov iskanja.

  • youtube.com

Največja knjižnica video datotek ima tudi iskanje, ki ga uporablja veliko število ljudi. Na žalost ni podatka o številu zahtevkov, a če seštejete občinstvo Googla in YouTuba, je Googlov delež zelo otipljiv. Toda Yandex ima tudi svoje zanimive projekte.

  • Nigma.ru

Iskalnik diplomantov MSU uporablja indekse iz drugih sistemov. Nič več iskanja iste poizvedbe v različne sisteme. Poleg tega vam omogoča reševanje problemov pri matematiki in kemiji.

  • Pipl.com

Iskanje informacij o določena oseba v ZDA in Evropi. Ni zelo dobro za ruski trg.

  • kinopoisk.ru

Ogromna baza podatkov o filmih. Projekt je v lasti Yandexa, zaradi česar je njegov tržni delež še večji.

  • Bing.com je Microsoftov sistem, ki se v Rusiji praktično ne uporablja.
  • www.baidu.com je kitajski iskalnik.
  • mail.ru je pomemben igralec na trgu, ki ima v lasti družbena omrežja vk.com, ok.ru in številne druge velike projekte. Delež iskanja je žal zanemarljiv.
  • rambler.ru - razvija tudi lastne projekte, na primer: lenta.ru, livejournal, plakat.

  • www.multitran.ru je eno najbolj priljubljenih orodij med prevajalci.
  • avia.travel.ru - iskanje letalskih kart.
  • www.sputnik.ru je še en razmeroma nov projekt Rostelecoma.

Obstaja veliko dobrih iskalnikov. Prinesel sem jih le majhen del. Zdi se mi, da je za iskanje, kot za vsak projekt, pomembno občinstvo, ki ga je treba privabiti s pomočjo oglaševalskih podjetij in tehnologij.

Če poznate zanimive iskalnike ali trike pri delu z njimi, jih delite v komentarjih.

Na prvi pogled se morda zdi, da tam boljši od googla lahko samo Yandex, pa tudi to ni dejstvo. Ta podjetja vlagajo ogromne vsote v inovacije in razvoj. Ali ima kdo res možnost ne le tekmovati z vodilnimi, ampak tudi zmagati? Lifehackerjev odgovor: "Da!" Obstaja več iskalnikov, ki so uspeli. Poglejmo naše junake.

Kaj je to

Je dokaj znan odprtokodni iskalnik. Strežniki se nahajajo v ZDA. Poleg lastnega robota iskalnik uporablja rezultate iz drugih virov: Yahoo! Iskanje BOSS, Wikipedia, Wolfram|Alpha.

Boljše

DuckDuckGo se postavlja kot ultimativni iskalnik zasebnosti in zasebnosti. Sistem ne zbira nobenih podatkov o uporabniku, ne shranjuje dnevnikov (ni zgodovine iskanja), uporaba piškotkov je čim bolj omejena.

DuckDuckGo ne zbira in ne deli osebnih podatkov uporabnikov. To je naša politika zasebnosti.
Gabriel Weinberg, ustanovitelj DuckDuckGo

Zakaj potrebuješ to

Vsi večji iskalniki poskušajo rezultate iskanja personalizirati na podlagi podatkov o osebi pred monitorjem. Ta pojav se imenuje "filtrirni mehurček": uporabnik vidi le tiste rezultate, ki so v skladu z njegovimi preferencami ali jih sistem šteje za take.

DuckDuckGo oblikuje objektivno sliko, ki ni odvisna od vašega preteklega vedenja v spletu, in se znebi tematskega oglaševanja Google in Yandex na podlagi vaših zahtev. DuckDuckGo olajša iskanje informacij o tuji jeziki: Google in Yandex privzeto dajeta prednost spletnim mestom v ruskem jeziku, tudi če je poizvedba vnesena v drugem jeziku.

Kaj je to

"" je ruski metaiskalnik, ki sta ga razvila diplomanta Moskovske državne univerze Viktor Lavrenko in Vladimir Černišov. Išče po indeksih Google, Bing, Yandex in drugih, ima pa tudi svoj iskalni algoritem.

Boljše

Iskanje po indeksih vseh večjih iskalnikov vam omogoča ustvarjanje ustreznih rezultatov. Poleg tega "Nigma" razdeli rezultate v več tematskih skupin (grozdov) in uporabnika pozove, da zoži iskalno polje, zavrže nepotrebno ali da prednost. Zahvaljujoč moduloma "Matematika" in "Kemija" lahko rešujete matematične probleme in zahtevate rezultate kemijskih reakcij neposredno v iskalni vrstici.

Zakaj potrebuješ to

Odpravlja potrebo po iskanju iste poizvedbe v različnih iskalnikih. Sistem grozdov olajša manipulacijo rezultatov iskanja. Na primer, "Nigma" zbira rezultate iz spletnih trgovin v ločenem grozdu. Če ne nameravate nečesa kupiti, potem preprosto izključite to skupino. Če izberete gručo »Spletna mesta v angleškem jeziku«, boste rezultate iskanja prejeli samo v angleščini. Modula "Matematika" in "Kemija" bosta v pomoč šolarjem.

Na žalost se projekt trenutno ne razvija, saj so razvijalci svojo dejavnost preusmerili na vietnamski trg. Kljub temu "Nigma" ne samo da ni zastarela, ampak v nekaterih stvareh še vedno prekaša Google. Upajmo, da se bo razvoj nadaljeval.

Kaj je to

not Evil je sistem, ki išče anonimno omrežje Tor. Če ga želite uporabiti, morate iti v to omrežje, na primer z zagonom specializiranega brskalnika z istim imenom. not Evil ni edini iskalnik te vrste. Obstaja LOOK (privzeto iskanje v brskalniku Tor, dostopno z običajnega interneta) ali TORCH (eden najstarejših iskalnikov v omrežju Tor) in drugi. Odločili smo se za not Evil zaradi nedvoumne aluzije na sam Google (samo poglejte na začetno stran).

Boljše

Išče, kje je Google, Yandex in drugi iskalniki načeloma prepovedan dostop.

Zakaj potrebuješ to

V omrežju Tor je veliko virov, ki jih ni mogoče najti v internetu, ki spoštuje zakone. In ko bodo oblasti poostrovale nadzor nad vsebino spleta, bo njihovo število raslo. Tor je nekakšno omrežje znotraj omrežja: s svojimi socialnimi omrežji, sledilniki torrentov, mediji, tržnicami, blogi, knjižnicami itd.

YaCy

Kaj je to

YaCy je decentraliziran iskalnik, ki deluje po principu P2P omrežij. Vsak računalnik, na katerem je nameščen glavni programski modul, sam skenira internet, torej je analog iskalnega robota. Dobljeni rezultati se zbirajo v skupni bazi podatkov, ki jo uporabljajo vsi udeleženci YaCy.

Boljše

Tukaj je težko reči, ali je to boljše ali slabše, saj je YaCy popolnoma drugačen pristop k organizaciji iskanja. Ker ni enotnega strežnika in lastniškega podjetja, so rezultati popolnoma neodvisni od preferenc kogar koli. Avtonomija vsakega vozlišča izključuje cenzuro. YaCy je sposoben iskati po globokem spletu in neindeksiranih javnih omrežjih.

Zakaj potrebuješ to

Če ste zagovornik odprtokodne programske opreme in brezplačnega interneta, na katerega ne vpliva vladne agencije in velike korporacije, potem je YaCy vaša izbira. Uporablja se lahko tudi za organizacijo iskanj znotraj podjetja ali drugega avtonomnega omrežja. In čeprav YaCy ni zelo uporaben v vsakdanjem življenju, je vredna alternativa Googlu v smislu postopka iskanja.

Pipl

Kaj je to

Pipl je sistem, namenjen iskanju informacij o določeni osebi.

Boljše

Avtorji Pipla trdijo, da njihovi specializirani algoritmi iščejo učinkoviteje kot »navadni« iskalniki. Predvsem prednostni viri informacij so profili na družbenih omrežjih, komentarji, seznami udeležencev in različne baze podatkov, kjer so objavljeni podatki o osebah, kot so baze sodnih odločb. Piplovo vodilno vlogo na tem področju potrjujejo Lifehacker.com, TechCrunch in druge publikacije.

Zakaj potrebuješ to

Če morate najti podatke o osebi, ki živi v ZDA, bo Pipl veliko bolj učinkovit kot Google. Zbirke podatkov ruskih sodišč očitno niso dostopne iskalniku. Zato se ne spopada tako dobro z državljani Rusije.

Kaj je to

Še en specializiran iskalnik. Išče različne zvoke (hiša, narava, avtomobili, ljudje itd.) v odprtih virih. Storitev ne podpira zahtev v ruščini, vendar obstaja impresiven seznam oznak v ruskem jeziku, ki jih lahko iščete.

Boljše

Pri izdaji samo zvokov in nič več. V nastavitvah iskanja lahko nastavite želeno obliko in kakovost zvoka. Vsi najdeni zvoki so na voljo za prenos. Obstaja iskanje zvokov po vzorcu.

Zakaj potrebuješ to

Če morate hitro najti zvok strela iz muškete, udarec sesajoče žolne ali krik Homerja Simpsona, potem je ta storitev za vas. In to sem izbral samo med razpoložljivimi poizvedbami v ruskem jeziku. Vklopljeno angleški jezik spekter je še širši. Toda resno, specializirana storitev pomeni specializirano občinstvo. Toda ali bo prišel prav tudi vam?

Življenje alternativnih iskalnikov je pogosto minljivo. Lifehacker je povprašal nekdanjega izvršnega direktorja ukrajinske podružnice Yandexa Sergeja Petrenka o dolgoročnih možnostih za tovrstne projekte.

Kar zadeva usodo alternativnih iskalnikov, je preprosta: biti zelo nišni projekti z majhnim občinstvom, torej brez jasnih komercialnih obetov ali, nasprotno, s popolno jasnostjo njihove odsotnosti.

Če pogledate primere v članku, lahko vidite, da so takšni iskalniki bodisi specializirani za ozko, a zahtevano nišo, ki morda le do zdaj še ni dovolj zrasla, da bi bila opazna na radarjih Googla ali Yandexa, ali preizkušajo izvirno hipotezo pri razvrščanju, ki še ni uporabna pri običajnem iskanju.

Na primer, če se nenadoma izkaže, da je iskanje po Tor-u povpraševanje, to pomeni, da bo vsaj odstotek Googlovega občinstva potreboval rezultate od tam, potem bodo seveda običajni iskalniki začeli reševati problem, kako jih poiščite in pokažite uporabniku. Če vedenje občinstva kaže, da ima pomemben delež uporabnikov v znatnem številu poizvedb ustreznejše rezultate, podatke brez upoštevanja dejavnikov, ki so odvisni od uporabnika, bosta Yandex ali Google začela dajati takšne rezultate.

"Biti boljši" v kontekstu tega članka ne pomeni "biti boljši v vsem". Da, v mnogih pogledih so naši junaki daleč od Googla in Yandexa (celo daleč od Binga). Toda vsaka od teh storitev daje uporabniku nekaj, česar velikani iskalne industrije ne morejo ponuditi.

Že dolgo so postali sestavni del ruskega interneta. Iskalniki so zdaj ogromni in zapleteni mehanizmi, ki niso le orodje za iskanje informacij, temveč tudi mamljiva področja za poslovanje.

Večina uporabnikov iskalnikov nikoli ni razmišljala (ali razmišljala, vendar ni našla odgovora) o principu delovanja iskalnikov, o shemi obdelave uporabniških zahtev, o tem, iz česa so ti sistemi sestavljeni in kako delujejo ...

Ta mojstrski tečaj je zasnovan tako, da odgovori na vprašanje, kako delujejo iskalniki. Vendar tukaj ne boste našli dejavnikov, ki vplivajo na razvrščanje dokumentov. Še več, ne smete računati na podrobno razlago algoritma Yandex. Njega, po besedah ​​​​Ilye Segaloviča, - direktorja tehnologije in razvoja iskalnika Yandex, lahko "pod mučenjem" prepozna le sam Ilya Segalovič ...

2. Pojem in funkcije iskalnika

Iskalnik je sistem programske in strojne opreme, namenjen iskanju po internetu in odzivanju na uporabnikovo zahtevo, določeno v obliki besedilne fraze (iskalne poizvedbe), z izdajo seznama povezav do virov informacij, razvrščenih po pomembnosti (v v skladu z zahtevo). Največji mednarodni iskalniki: Google, Yahoo , MSN . V ruskem internetu je to Yandex, Rambler, Aport.

Oglejmo si podrobneje koncept iskalne poizvedbe na primeru iskalnika Yandex. Iskalno poizvedbo naj uporabnik oblikuje v skladu s tem, kar želi najti, čim bolj kratko in preprosto. Recimo, da želimo v Yandexu najti informacije o tem, kako izbrati avto. Za to odpremo domača stran"Yandex" in vnesite besedilo iskalne poizvedbe "kako izbrati avto." Poleg tega je naša naloga, da na našo zahtevo odpremo povezave do virov informacij na internetu. Vendar je povsem mogoče, da ne najdemo informacij, ki jih potrebujemo. Če se je to zgodilo, potem morate preoblikovati svojo zahtevo ali pa baza podatkov iskalnika res nima ustreznih informacij o naši zahtevi (to se lahko zgodi pri nastavitvi zelo "ozkih" poizvedb, kot je "kako izbrati avto v Arhangelsku ”)

Primarni cilj vsakega iskalnika je zagotoviti točno tiste informacije, ki jih iščejo. In naučiti uporabnike postavljati "pravilne" zahteve sistemu, tj. zahteve, ki ustrezajo principom delovanja iskalnikov, niso možne. Zato razvijalci ustvarjajo takšne algoritme in načela delovanja iskalnikov, ki bi uporabnikom omogočili, da najdejo informacije, ki jih iščejo.

To pomeni, da mora iskalnik »razmišljati« tako, kot razmišlja uporabnik pri iskanju informacij. Ko uporabnik odda povpraševanje iskalniku, želi čim hitreje in čim bolj preprosto najti tisto, kar potrebuje. Ko prejme rezultat, oceni delovanje sistema, ki ga vodi več osnovnih parametrov. Je našel, kar je iskal? Če ni bil najden, kolikokrat je moral preoblikovati poizvedbo, da je našel, kar je iskal? Kako posodobljene informacije bi lahko našel? Kako hitro je iskalnik obdelal poizvedbo? Kako priročni so bili predstavljeni rezultati iskanja? Je bil želeni rezultat prvi ali stoti? Koliko nepotrebnih smeti se je našlo v paru z koristne informacije? Ali bo potrebne informacije, pri dostopu do iskalnika, recimo čez teden ali mesec?

Da bi z odgovori zadovoljili vsa ta vprašanja, razvijalci iskalnikov nenehno izboljšujejo iskalne algoritme in principe, dodajajo nove funkcije in zmožnosti ter na vse možne načine poskušajo pohitriti sistem.

3. Glavne značilnosti iskalnika

Opišimo glavne značilnosti iskalnikov:

  • popolnost

    Popolnost je ena glavnih značilnosti iskalnika, ki je razmerje med številom dokumentov, najdenih z zahtevo, in skupno število dokumente na internetu, ki izpolnjujejo to zahtevo. Na primer, če je na internetu 100 strani, ki vsebujejo besedno zvezo "kako izbrati avto", in le 60 jih je bilo najdenih za ustrezno poizvedbo, bo iskalni priklic 0,6. Očitno je, da bolj ko je iskanje popolno, manj verjetno je, da uporabnik ne bo našel dokumenta, ki ga potrebuje, pod pogojem, da sploh obstaja na internetu.

  • Natančnost

    Natančnost je še ena glavna značilnost iskalnika, ki jo določa stopnja ujemanja najdenih dokumentov z uporabnikovo poizvedbo. Na primer, če poizvedba »kako izbrati avto« vsebuje 100 dokumentov, jih 50 vsebuje besedno zvezo »kako izbrati avto«, ostali pa preprosto vsebujejo te besede (»kako izbrati pravi radio in ga namestiti v avto«), potem je natančnost iskanja enaka 50/100 (=0,5). Bolj natančno kot je iskanje, hitreje bo uporabnik našel dokumente, ki jih potrebuje, manj različne vrste»smeti« med njimi, redkeje najdeni dokumenti ne bodo ustrezali zahtevi.

  • Ustreznost

    Relevantnost je prav tako pomembna komponenta iskanja, ki jo označuje čas, ki preteče od trenutka, ko so dokumenti objavljeni na internetu, do vnosa v indeksno bazo iskalnika. Na primer, dan po pojavu zanimivih novic se je veliko število uporabnikov obrnilo na iskalnike z ustreznimi poizvedbami. Objektivno je od objave novic o tej temi minil manj kot en dan, vendar so glavni dokumenti že indeksirani in jih je mogoče iskati, zahvaljujoč obstoju tako imenovane »hitre baze« velikih iskalnikov, ki je posodobljen večkrat na dan.

  • Hitrost iskanja

    Hitrost iskanja je tesno povezana z njegovo toleranco obremenitve. Na primer, po podatkih OOO Rambler Internet Holding danes na iskalnik Rambler med delovnim časom pride približno 60 zahtev na sekundo. Takšna delovna obremenitev zahteva skrajšanje časa obdelave ene same zahteve. Tu se interesi uporabnika in iskalnika ujemajo: obiskovalec želi čim hitreje dobiti rezultate, iskalnik pa mora zahtevo obdelati čim hitreje, da ne upočasni izračunavanja naslednjih zahtev.

  • vidnost

4. Kratka zgodba razvoj iskalnika

IN začetno obdobje Z razvojem interneta je bilo število njegovih uporabnikov majhno, količina dostopnih informacij pa relativno majhna. Večinoma so imeli dostop do interneta le raziskovalci. Takrat naloga iskanja informacij na internetu ni bila tako pomembna, kot je zdaj.

Eden od prvih načinov organiziranja dostopa do informacijskih virov omrežja je bilo ustvarjanje odprtih katalogov spletnih mest, povezave do virov, v katerih so bile razvrščene glede na predmet. Prvi tak projekt je bil Yahoo.com, ki je bil odprt spomladi 1994. Ko se je število spletnih mest v katalogu znatno povečalo, je bila dodana možnost iskanja potrebnih informacij v katalogu. V popolnem smislu to še ni bil iskalnik, saj je bil obseg iskanja omejen le na vire v imeniku in ne na vse internetne vire.

Imeniki povezav so bili v preteklosti zelo razširjeni, a so danes skoraj povsem izgubili priljubljenost. Ker tudi sodobni, ogromni katalogi vsebujejo informacije le o zanemarljivem delu interneta. Največji omrežni imenik DMOZ (imenovan tudi Open Directory Project) vsebuje informacije o 5 milijonih virov, medtem ko baza podatkov iskalnika Google obsega več kot 8 milijard dokumentov.

Leta 1995 sta se pojavila iskalnika Lycos in AltaVista. Slednji je že vrsto let vodilni na področju iskanja informacij na internetu.

Leta 1997 sta Sergey Brin in Larry Page ustvarila iskalnik Google kot del raziskovalni projekt na univerzi Stanford. Google je trenutno najbolj priljubljen iskalnik na svetu!

Septembra 1997 je bil uradno objavljen iskalnik Yandex, ki je najbolj priljubljen na rusko govorečem internetu.

Trenutno obstajajo trije glavni iskalniki (mednarodni) - Google, Yahoo in imajo svoje baze in iskalne algoritme. Večina drugih iskalnikov (teh je veliko) uporablja rezultate treh navedenih v takšni ali drugačni obliki. Iskanje AOL (search.aol.com) na primer uporablja Google, medtem ko AltaVista, Lycos in AllTheWeb uporabljajo Yahoo.

5. Sestava in principi iskalnika

V Rusiji je glavni iskalnik Yandex, nadalje - Rambler.ru, Google.ru, Aport.ru, Mail.ru. Poleg tega Mail.ru trenutno uporablja iskalnik in bazo podatkov Yandex.

Skoraj vsi glavni iskalniki imajo svojo strukturo, ki se razlikuje od drugih. Vendar pa je mogoče izpostaviti glavne komponente, ki so skupne vsem iskalnikom. Razlike v strukturi so lahko le v obliki izvajanja mehanizmov interakcije teh komponent.

Modul za indeksiranje

Modul za indeksiranje je sestavljen iz treh pomožnih programov (robotov):

Spider (pajek) - program za prenos spletnih strani. "Pajek" prenese stran in izvleče vse notranje povezave s te strani. Prenese se html koda vsake strani. Roboti za prenos strani uporabljajo protokole HTTP. "Pajek" deluje na naslednji način. Robot strežniku pošlje zahtevo »get/path/document« in nekatere druge ukaze zahteve HTTP. Kot odgovor robot prejme besedilni tok, ki vsebuje storitvene informacije in sam dokument.

  • URL strani
  • datum prenosa strani
  • http glava odgovora strežnika
  • telo strani (html koda)

Crawler ("potujoči" pajek) - program, ki samodejno sledi vsem povezavam, ki jih najdete na strani. Izbere vse povezave na strani. Njegova naloga je, da na podlagi povezav ali na podlagi vnaprej določenega seznama naslovov določi, kam naj gre pajek naprej. Pajek po najdenih povezavah išče nove dokumente, ki jih iskalnik še ne pozna.

Indexer (robot-indexer) - program, ki analizira spletne strani, ki jih prenesejo pajki. Indeksator razčleni stran na sestavne dele in jih analizira z lastnimi leksikalnimi in morfološkimi algoritmi. Analizirajo se različni elementi strani, kot so besedilo, naslovi, povezave, strukturne in slogovne značilnosti, posebne storitvene oznake html itd.

Tako modul za indeksiranje omogoča pregledovanje danega nabora virov s sklicevanjem, prenos najdenih strani, ekstrahiranje povezav do novih strani iz prejetih dokumentov in izvedbo popolne analize teh dokumentov.

Baza podatkov

Podatkovna baza ali indeks iskalnika je sistem za shranjevanje podatkov, informacijski niz, ki shranjuje posebej pretvorjene parametre vseh dokumentov, ki jih prenese in obdela modul za indeksiranje.

iskalni strežnik

Iskalni strežnik je bistveni element celotnega sistema, saj sta kakovost in hitrost iskanja neposredno odvisni od algoritmov, na katerih temelji njegovo delovanje.

Iskalni strežnik deluje takole:

  • Zahteva, ki jo prejme uporabnik, je podvržena morfološki analizi. Informacijsko okolje se ustvari za vsak dokument v bazi podatkov (ki bo pozneje prikazan v obliki , to je v skladu z zahtevo besedilnih informacij na strani za izdajo rezultatov iskanja).
  • Prejeti podatki se kot vhodni parametri posredujejo posebnemu modulu za rangiranje. Podatki se obdelujejo za vse dokumente, posledično se za vsak dokument izračuna lastna ocena, ki označuje ustreznost poizvedbe, ki jo vnese uporabnik, in različne komponente tega dokumenta, shranjene v indeksu iskalnika.
  • Glede na izbiro uporabnika se lahko ta ocena prilagodi z dodatnimi pogoji (na primer tako imenovano "napredno iskanje").
  • Nato se ustvari izrezek, to je, da se za vsak najdeni dokument iz tabele dokumentov izvleče naslov, kratka opomba, ki najbolj ustreza poizvedbi, in povezava do samega dokumenta, najdene besede pa so označene.
  • Prejeti rezultati iskanja se posredujejo uporabniku v obliki SERP (Search Engine Result Page) - stran za izdajo rezultatov iskanja.

Kot lahko vidite, so vse te komponente med seboj tesno povezane in delujejo v interakciji ter tvorijo jasno, pravično zapleten mehanizem delo iskalnika, ki zahteva ogromno sredstev.

6. Zaključek

Zdaj pa povzamemo vse zgoraj.

  • Primarni cilj vsakega iskalnika je zagotoviti točno tiste informacije, ki jih iščejo.
  • Glavne značilnosti iskalnikov:
    1. popolnost
    2. Natančnost
    3. Ustreznost
    4. Hitrost iskanja
    5. vidnost
  • Prvi polnopravni iskalnik je bil projekt WebCrawler, ki je izšel leta 1994.
  • Iskalnik vključuje naslednje komponente:
    1. Modul za indeksiranje
    2. Baza podatkov
    3. iskalni strežnik

Upamo, da vam bo naš mojstrski tečaj omogočil, da se bolje seznanite s konceptom PS, da boste bolje razumeli glavne funkcije, značilnosti in načela delovanja iskalnikov.

Kaj je to

DuckDuckGo je dokaj znan odprtokodni iskalnik. Strežniki se nahajajo v ZDA. Poleg lastnega robota iskalnik uporablja rezultate drugih virov: Yahoo, Bing, Wikipedia.

Boljše

DuckDuckGo se postavlja kot ultimativni iskalnik zasebnosti in zasebnosti. Sistem ne zbira nobenih podatkov o uporabniku, ne shranjuje dnevnikov (ni zgodovine iskanja), uporaba piškotkov je čim bolj omejena.

DuckDuckGo ne zbira in ne deli osebnih podatkov uporabnikov. To je naša politika zasebnosti.

Gabriel Weinberg, ustanovitelj DuckDuckGo

Zakaj potrebuješ to

Vsi večji iskalniki poskušajo rezultate iskanja personalizirati na podlagi podatkov o osebi pred monitorjem. Ta pojav se imenuje "filtrirni mehurček": uporabnik vidi le tiste rezultate, ki so v skladu z njegovimi preferencami ali jih sistem šteje za take.

Oblikuje objektivno sliko, ki ni odvisna od vašega preteklega vedenja v spletu, in se znebi tematskega oglaševanja Google in Yandex na podlagi vaših zahtev. S pomočjo DuckDuckGo je enostavno iskanje informacij v tujih jezikih, medtem ko Google in Yandex privzeto dajeta prednost spletnim mestom v ruskem jeziku, tudi če je poizvedba vnesena v drugem jeziku.


Kaj je to

not Evil je sistem, ki išče anonimno omrežje Tor. Če ga želite uporabiti, morate iti v to omrežje, na primer z zagonom specializiranega .

not Evil ni edini iskalnik te vrste. Obstaja LOOK (privzeto iskanje v brskalniku Tor, dostopno z običajnega interneta) ali TORCH (eden najstarejših iskalnikov v omrežju Tor) in drugi. Odločili smo se za not Evil zaradi nedvoumne aluzije na Google (samo poglejte na začetno stran).

Boljše

Išče, kje je Google, Yandex in drugi iskalniki načeloma prepovedan dostop.

Zakaj potrebuješ to

V omrežju Tor je veliko virov, ki jih ni mogoče najti v internetu, ki spoštuje zakone. In njihovo število bo raslo, ko se bo nadzor oblasti nad vsebino spleta zaostril. Tor je nekakšno omrežje znotraj spleta s svojimi družabnimi omrežji, sledilniki torrentov, mediji, tržnicami, blogi, knjižnicami itd.

3. YaCy

Kaj je to

YaCy je decentraliziran iskalnik, ki deluje po principu P2P omrežij. Vsak računalnik, na katerem je nameščen glavni programski modul, sam skenira internet, torej je analog iskalnega robota. Dobljeni rezultati se zbirajo v skupni bazi podatkov, ki jo uporabljajo vsi udeleženci YaCy.

Boljše

Tukaj je težko reči, ali je to boljše ali slabše, saj je YaCy popolnoma drugačen pristop k organizaciji iskanja. Ker ni enotnega strežnika in lastniškega podjetja, so rezultati popolnoma neodvisni od preferenc kogar koli. Avtonomija vsakega vozlišča izključuje cenzuro. YaCy je sposoben iskati po globokem spletu in neindeksiranih javnih omrežjih.

Zakaj potrebuješ to

Če ste zagovornik odprtokodne programske opreme in brezplačnega interneta, na katerega ne vplivajo vladne agencije in velike korporacije, potem je YaCy vaša izbira. Uporablja se lahko tudi za organizacijo iskanj znotraj podjetja ali drugega avtonomnega omrežja. In čeprav YaCy ni zelo uporaben v vsakdanjem življenju, je vredna alternativa Googlu v smislu postopka iskanja.

4. Pipl

Kaj je to

Pipl je sistem, namenjen iskanju informacij o določeni osebi.

Boljše

Avtorji Pipla trdijo, da njihovi specializirani algoritmi iščejo učinkoviteje kot »navadni« iskalniki. Prioritetni so predvsem profili na družbenih omrežjih, komentarji, seznami udeležencev in različne baze podatkov, kjer so objavljeni podatki o osebah, kot so baze sodnih odločb. Piplovo vodilno vlogo na tem področju potrjujejo Lifehacker.com, TechCrunch in druge publikacije.

Zakaj potrebuješ to

Če morate najti podatke o osebi, ki živi v ZDA, bo Pipl veliko bolj učinkovit kot Google. Zbirke podatkov ruskih sodišč očitno niso dostopne iskalniku. Zato se ne spopada tako dobro z državljani Rusije.

Kaj je to

FindSounds je še en specializiran iskalnik. Išče odprte vire za različne zvoke: hiša, narava, avtomobili, ljudje itd. Storitev ne podpira zahtev v ruščini, vendar obstaja impresiven seznam oznak v ruskem jeziku, ki jih lahko iščete.

Boljše

Pri izdaji samo zvokov in nič več. V nastavitvah lahko nastavite želeni format in kakovost zvoka. Vsi najdeni zvoki so na voljo za prenos. Obstaja iskanje vzorcev.

Zakaj potrebuješ to

Če morate hitro najti zvok strela iz muškete, udarec sesajoče žolne ali krik Homerja Simpsona, potem je ta storitev za vas. In to smo izbrali le med razpoložljivimi poizvedbami v ruskem jeziku. V angleščini je spekter še širši.

Resno, specializirana storitev pomeni specializirano občinstvo. Toda ali bo prišel prav tudi vam?

Kaj je to

Wolfram|Alpha je računalniški iskalnik. Namesto povezav do člankov, ki vsebujejo ključne besede, daje že pripravljen odgovor na zahtevo uporabnika. Na primer, če v iskalni obrazec vnesete "primerjaj prebivalstvo New Yorka in San Francisca" v angleščini, bo Wolfram|Alpha takoj prikazal tabele in grafe s primerjavo.

Boljše

Ta storitev je boljša od drugih za iskanje dejstev in izračunavanje podatkov. Wolfram|Alpha zbira in organizira znanje, ki je na voljo na spletu z različnih področij, vključno z znanostjo, kulturo in zabavo. Če ta baza vsebuje pripravljen odgovor na iskalno poizvedbo, ga sistem prikaže, če ne, izračuna in prikaže rezultat. V tem primeru uporabnik vidi samo in nič več.

Zakaj potrebuješ to

Če ste na primer študent, analitik, novinar ali raziskovalec, lahko uporabite Wolfram|Alpha za iskanje in izračun podatkov, povezanih z vašimi dejavnostmi. Storitev ne razume vseh zahtev, ampak se nenehno razvija in postaja pametnejša.

Kaj je to

Metaiskalnik Dogpile prikaže združen seznam rezultatov iz Googla, Yahooja in drugih priljubljenih iskalnikov.

Boljše

Prvič, Dogpile prikazuje manj oglasov. Drugič, storitev uporablja poseben algoritem za iskanje in prikaz najboljših rezultatov iz različnih iskalnikov. Po mnenju razvijalcev Dogpile njihov sistem ustvari najbolj popolno težavo na celotnem internetu.

Zakaj potrebuješ to

Če ne najdete informacij v Googlu ali drugem standardnem iskalniku, jih poiščite v več iskalnikih hkrati s pomočjo Dogpile.

Kaj je to

BoardReader je sistem za iskanje besedila za forume, storitve vprašanj in odgovorov ter druge skupnosti.

Boljše

Storitev vam omogoča zožitev iskalnega polja na družbena spletna mesta. Zahvaljujoč posebnim filtrom lahko hitro najdete objave in komentarje, ki ustrezajo vašim kriterijem: jezik, datum objave in ime spletnega mesta.

Zakaj potrebuješ to

BoardReader je lahko koristen za strokovnjake za odnose z javnostmi in druge medijske strokovnjake, ki jih zanima mnenje množičnih medijev o določenih vprašanjih.

Končno

Življenje alternativnih iskalnikov je pogosto minljivo. Lifehacker je nekdanjega izvršnega direktorja ukrajinske podružnice podjetja Yandex Sergeja Petrenka povprašal o dolgoročnih obetih za takšne projekte.


Sergej Petrenko

nekdanji direktor"Yandex.Ukrajina".

Kar zadeva usodo alternativnih iskalnikov, je preprosta: biti zelo nišni projekti z majhnim občinstvom, torej brez jasnih komercialnih obetov ali, nasprotno, s popolno jasnostjo njihove odsotnosti.

Če pogledate primere v članku, lahko vidite, da so takšni iskalniki bodisi specializirani za ozko, a zahtevano nišo, ki morda le do zdaj še ni dovolj zrasla, da bi bila opazna na radarjih Googla ali Yandexa, ali preizkušajo izvirno hipotezo pri razvrščanju, ki še ni uporabna pri običajnem iskanju.

Na primer, če se nenadoma izkaže, da je iskanje po Tor-u povpraševanje, to pomeni, da bo vsaj odstotek Googlovega občinstva potreboval rezultate od tam, potem bodo seveda običajni iskalniki začeli reševati problem, kako jih poiščite in pokažite uporabniku. Če vedenje občinstva kaže, da ima pomemben delež uporabnikov v znatnem številu poizvedb ustreznejše rezultate, podatke brez upoštevanja dejavnikov, ki so odvisni od uporabnika, bosta Yandex ali Google začela dajati takšne rezultate.

"Biti boljši" v kontekstu tega članka ne pomeni "biti boljši v vsem". Da, v mnogih pogledih so naši junaki daleč od Yandexa (celo daleč od Binga). Toda vsaka od teh storitev daje uporabniku nekaj, česar velikani iskalne industrije ne morejo ponuditi. Zagotovo poznate tudi podobne projekte. Delite z nami - pogovorimo se.

Iskalnik je poleg vsebine in brskalnika eden ključnih nivojev interneta. Iskalnik "Yandex" ali podobni sistemi ("Google", "Bing", DuckDuckGo in drugi) uporabniku omogočajo iskanje informacij na svetovnem spletu z oblikovanjem zahteve.

Naloga iskalnika je najti vse dokumente, strani, videe, torej vso vsebino za to poizvedbo (ključno besedo ali frazo).

Kateri je najboljši iskalnik? Ali obstajajo alternativne možnosti, kaj drugega kot Google in Yandex? Kateri internetni iskalnik je primernejši za pregledovanje virov v angleškem jeziku ali na primer glasbe? Prav o tem bo govora v članku.

Ocena: vodilni na trgu

Če govorimo o svetu kot celoti, potem je Google najbolj priljubljen iskalnik. Korporacija zavzema skoraj 70% trga. Drugo mesto v oceni zaseda "Bing" (delež - 12,26%). Za drugo linijo se bori sistem Baidu (6,48% septembra 2015). Od časa do časa zamenjajo mesta.

Tako so bile na primer leta 2014 »moči« porazdeljene drugače: na prvem mestu je bil iskalnik Google z 68,69 %, na drugem Baidu (17,7 %), na tretjem Bing s tržno kapitalizacijo 6, 22 %.

Toda globalni podatki so zelo posplošeni. Kateri je najboljši iskalnik?

Na Kitajskem na primer zelo majhen odstotek prebivalstva skenira z Googlom, večina uporablja domači sistem Soso. IN Južna Koreja večina prebivalcev uporablja lasten razvoj - internetni iskalnik Naver. Res je, v zadnjih nekaj mesecih je število zahtev v tem sistemu začelo hitro upadati.

Na Japonskem in Tajvanu bodo uporabniki bolj verjetno uporabljali Yahoo!

Ocena: rusko govoreči sistemi

Kateri je najboljši iskalnik? V Rusiji razvrstitev iskalnikov sploh ni podobna svetovni. Vodilni na trgu v rusko govorečem segmentu interneta je Yandex, ki ga uporablja več kot 55% uporabnikov.

Na drugem mestu je Google s 37,6 %. Po podatkih storitve LiveInternet je bila pokritost iskalnih poizvedb v ruskem jeziku na svetovnem spletu razdeljena na naslednji način:

  1. Univerzalni iskalniki: Google (37,6 %), Bing (0,3 %), Yahoo! (0,1 %).
  2. Angleško govoreči in mednarodni (AskJeeves, na primer).
  3. Iskalniki v ruskem jeziku: Yandex (56,2%), Mail (5,3%), Rambler (0,5%).

DuckDuckGo

Začnimo govoriti o alternativnih iskalnikih z DuckDuckGo. Gre za dokaj znan in razširjen odprtokodni sistem. Strežniki DuckDuckGo se nahajajo v Združenih državah Amerike. Rezultati iskanja so precej obsežni, saj sistem ne uporablja le lastnih algoritmov, ampak tudi rezultate nekaterih drugih virov, kot so Wikipedia, iskalnik Bing in Yahoo!

Iskalnik DuckDuckGo zagotavlja maksimalno varnost uporabnikovih osebnih podatkov, zasebnost in zaupnost. Sistem ne zbira nobenih uporabniških podatkov, ne shranjuje nobene zgodovine in kar najbolj omejuje uporabo piškotkov.

Razlika z DuckDuckGo je v tem, da ta sistem ne prilagaja rezultatov iskanja, kot to počnejo drugi sistemi. V "Googlu" ali "Yandexu", na primer, uporabnik vidi samo informacije, ki so v skladu z njegovimi nastavitvami. Toda DuckDuckGo oblikuje resnično sliko in vam omogoča, da se znebite vsiljivega specifičnega oglaševanja. Iskalna storitev zlahka išče informacije v tujih jezikih, medtem ko Yandex in Google privzeto dajeta prednost virom v ruskem jeziku, tudi če je poizvedba vnesena v angleščini, nemščini ali drugem jeziku.

Vmesnik v sistemu lahko prilagodite: barve, pisave, povezave in druge parametre lahko spremenite v samo nekaj klikih.

Zaenkrat je ta iskalnik daleč od velikana Googla, a račka se razvija, zato je povsem možno, da bo DuckDuckGo v prihodnosti prevzel eno od vodilnih mest. Ekipa je ustvarila odličen izdelek, ki zagotavlja anonimno, hitro in funkcionalno iskanje, ki si zasluži pozornost uporabnika.

NotEvil

To je sistem, ki išče anonimno omrežje Tor. Iskalnik je vnaprej nameščen v istoimenskem brskalniku. Zakaj je notEvil boljši? »Prehaja« tja, kjer iskalnik Google ali Yandex ne doseže. Na splošno je v omrežju Tor veliko virov, ki jih ni mogoče obiskati na "navadnem" (zakonom spoštljivem) internetu. To je taka platforma v omrežju s svojimi socialnimi platformami, torrent sledilci, mediji, blogi, nakupovalna središča, forumi, knjižnice itd.

Mimogrede, notEvil ni edini iskalnik te vrste. Tu je tudi Look, ki je privzeto na voljo v istem brskalniku Tor, TORCH pa je eden najstarejših iskalnikov v anonimnem spletu.

YaCy

Brezplačni iskalnik YaCy je povsem drugačen pristop k organizaciji iskanja po svetovnem spletu. Sistem deluje po principu P2P. To pomeni, da vsak računalnik, na katerem je nameščen modul, samostojno skenira internet, nato pa se vsi rezultati zberejo v enotni bazi podatkov, ki jo lahko uporabljajo vsi uporabniki YaCy.

Sistem je popolnoma neodvisen, avtonomen in zagotavlja anonimnost vsakega uporabnika. YaCy bo ustrezal podpornikom odprt internet, na katerega ne vplivajo velike korporacije in vladne agencije.

V vsakdanjem življenju iskalnik še ni zelo uporaben, vendar je v prihodnosti vredna alternativa Googlu, tudi v smislu organizacije procesa iskanja informacij.

Pipl

Pipl je sistem, namenjen iskanju informacij o določeni osebi. Razvijalci trdijo, da algoritmi iskalnikov iščejo ljudi učinkoviteje kot Google ali Yandex, ki sta pogosta po vsem svetu.

Prednostni viri so profili v v socialnih omrežjih komentarji, seznami udeležencev, baze, kjer so objavljeni različni podatki o ljudeh, na primer baze sodnih odločb. Vendar obstaja tudi pomanjkljivost. Ni na voljo za Pipl ruske baze podatkov, zato bo uporaben samo za iskanje informacij o državljanih ZDA.

Poiščite zvoke

Kateri je najboljši iskalnik? Če morate najti glasbo ali zvoke, potem bo seveda FindSounds najboljši. To je specializiran iskalnik, kjer je seznam oznak. Tukaj lahko izberete želeno obliko ali kakovost zvočne datoteke. Vsi rezultati iskanja so na voljo za prenos.

volfram|alfa

Ta sistem ne prikazuje strani, ki vsebujejo informacije, ki jih uporabnik potrebuje, ampak končni rezultat. Na primer zemljevidi, grafi, tabele, kratki odgovori. Storitev je najbolj primerna za izračunavanje podatkov in iskanje konkretnih dejstev. Iskalnik še ne razume vseh zahtev, se pa nenehno razvija.

Z uporabo Wolfram|Alpha je priročno na primer primerjati parametre za nastavitev kamere, pametnega telefona ali prenosnika. Izračunajte tudi stopnjo alkohola v krvi (sistem uporabnika vpraša po teži in višini, količini popitega alkohola, času, nato pa pove, koliko časa se bo alkohol popolnoma izločal iz telesa).

Orodje lahko pretvori številke čevljev in oblačil, šteje kalorije, si ogleda valutne tečaje ali uglasi glasbilo.

Dogpile

Dogpile prikaže rezultate iz vseh večjih iskalnikov hkrati. Storitev uporablja izboljšan algoritem in po mnenju razvijalcev ustvarja najboljše rezultate iskanja na internetu. Poleg tega je malo oglasov. Lahko poskusite uporabiti Dogpile, če informacij, ki jih potrebujete, ni v standardnem Googlu ali Yandexu.

BoardReader

Ta sistem išče informacije na forumih, anketah, storitvah za vprašanja in odgovore, družabnih skupnostih, zožuje iskalno polje na družbena spletna mesta. Nastavite lahko filtre: jezik in datum objave, ime strani in podobno.

Iskalnik je lahko koristen za strokovnjake za oglaševanje, ki jih zanima mnenje občinstva.

Končno

Alternativni iskalniki so pogosto minljivi. Pojavijo se tako hitro, kot umrejo. Večina alternativnih sistemov je danes specializirana za ozko nišo ali preizkuša originalni algoritem pri generiranju rezultatov iskanja.

V kontekstu opisovanja alternativnih iskalnikov kriterij »boljši« sploh ne pomeni »boljši v vsem«. Vsaka od zgoraj naštetih storitev daje določenemu uporabniku nekaj, česar ni v Googlu ali Yandexu. Vsekakor pa je spoznavanje alternativnih možnosti (čeprav se zdi, da je sistem praktično monopoliziran s strani iskalnih velikanov) zanimivo in koristno za vsakega uporabnika.