Porazdeljeno indeksiranje spleta...
avtor ruph
Peer2Peer Spletni Iskalnik.
Tale ideja se mi zdi naravnost fantastična. Že nekaj časa nazaj sem se poigraval z mislijo porazdeljeneda indexiranja interneta. Vsak malo prispeva in je. Podobno kot pri torrentu/muli. No na žalost (ali mogoče veselje) se kompleksnost iskalnika ne more primerjati s programjem za distribuiran prenos podatkov. Sprehajanje, indeksiranje, iskanje, ...
V svoji statistiki sem zasledil http://www.yacy.net/yacy/ in me je zanimalo kaj to je. Izkazalo se je, da je YaCy P2P Spletni Iskalnik (Distributed Web Indexing & P2P WEB SEARCH). Kot je razvidno iz njihove strani oz. vsaj popularnosti nemškega foruma ga razvijajo nemško govoreči programerji.
Nikoli nisem naletel na kaj podobnega, zato sem inštaliral. Med tem ko tole pišem se yacy veselo sprehaja po slo-spletu™. Sem ga že včeraj spustil na matkurjo in ga pustil delati čez noč, ampak se je vmes ustavil zaradi antivirusa. Pač antivirus je ustavil YaCy, ker naj bi bil v eni indeks datoteki virus - tečno.
Nekaj ugotovitev. Inštalacija je šla brez problemov, klik na install je naredil svoje. YaCy se upravlja preko web vmesnika. Ta vmesnik recimo da je pregleden, sem se kar znašel. Sicer se res nisem poglabljal vanj. Je pa YaCy narejen v javi, kar se mi vedno zatakne v grlu čim se mi zdi pomembna hitrost. Sicer se da nastaviti neke omejitve porabe različnih virov, ampak trenutne (privzete) mi opazno upočasnjujejo računalnik.
Sprehajanje (crawling) mislim, da deluje v redu. Določi se mu začetno spletno stran, globino sprehajanja in še nekaj drugih nastavitev. Ob sprehajanju se dela lokalni indeks, ki se nato razpošlje sodelujočim v mreži YaCy.
Če ob sprehajanju in iskanju nisem dobil kakšnih pomislekov in se mi je zdelo vse zelo delujoče, je pri iskanju problem. Ker mora yacy obiskati čim več peer-e v mreži ob iskanju je to lahko zelo časovno zahtevno. Iz tega razloga si lahko izbereš koliko časa naj se iščejo rezultati. Možnost izbire je od 1sec - 60sec. Privzeta vrednost je 6sec. Rezultate pod 2sec prosim! (v bistvu se mi zdi že 1sec čez glavo...). O relavnosti in vrstnem redu rezulatov ne morem ravno soditi, ker jih je premalo. Mu pa šumniki delajo težave. Dokaj neuporabno. Naj pa bi deloval tudi kot proxy, hmm..
Trenutno ima verzijo v0.44. Res ne gre za zrel produkt.
Sem še malo pogledal če mogoče obstaja še kakšen tak p2p iskalec in
sem našel še Majestic-12. Ga mislim namestiti in preveriti, potem pa kakšno napisati...
Mislim, da je eden najbolj znanih odprtokodnih spletnih iskalnikov Nutch. No Nutch na distribuirano sprehajanje in indeksiranje pravi naslednje:
We don't think it is presently possible to build a peer-to-peer search engine that is competitive with existing search engines. It would just be too slow. Returning results in less than a second is important: it lets people rapidly reformulate their queries so that they can more often find what they're looking for. In short, a fast search engine is a better search engine. I don't think many people would want to use a search engine that takes ten or more seconds to return results.Če na hitro povzamem citat - porazdeljeno iskanje je prepočasno za resno rabo. Ljudje hočejo (hočemo?) rezultate takoj in samo hiter iskalnik je dober iskalnik.
April 2nd, 2006 at 21:03 Spletni Iskalnik Majestic-12... Da nadaljujem Porazdeljeno indeksiranje spleta…. Majestic-12 je drugi spletni iskalnik, ki deluje po principu porazdeljenega indeksiranja interneta. […] ......