Porazdeljeno indeksiranje spleta...

avtor ruph
Peer2Peer Spletni Iskalnik. Tale ideja se mi zdi naravnost fantastična. Že nekaj časa nazaj sem se poigraval z mislijo porazdeljeneda indexiranja interneta. Vsak malo prispeva in je. Podobno kot pri torrentu/muli. No na žalost (ali mogoče veselje) se kompleksnost iskalnika ne more primerjati s programjem za distribuiran prenos podatkov. Sprehajanje, indeksiranje, iskanje, ... V svoji statistiki sem zasledil http://www.yacy.net/yacy/ in me je zanimalo kaj to je. Izkazalo se je, da je YaCy P2P Spletni Iskalnik (Distributed Web Indexing & P2P WEB SEARCH). Kot je razvidno iz njihove strani oz. vsaj popularnosti nemškega foruma ga razvijajo nemško govoreči programerji. Nikoli nisem naletel na kaj podobnega, zato sem inštaliral. Med tem ko tole pišem se yacy veselo sprehaja po slo-spletu™. Sem ga že včeraj spustil na matkurjo in ga pustil delati čez noč, ampak se je vmes ustavil zaradi antivirusa. Pač antivirus je ustavil YaCy, ker naj bi bil v eni indeks datoteki virus - tečno. Nekaj ugotovitev. Inštalacija je šla brez problemov, klik na install je naredil svoje. YaCy se upravlja preko web vmesnika. Ta vmesnik recimo da je pregleden, sem se kar znašel. Sicer se res nisem poglabljal vanj. Je pa YaCy narejen v javi, kar se mi vedno zatakne v grlu čim se mi zdi pomembna hitrost. Sicer se da nastaviti neke omejitve porabe različnih virov, ampak trenutne (privzete) mi opazno upočasnjujejo računalnik. Sprehajanje (crawling) mislim, da deluje v redu. Določi se mu začetno spletno stran, globino sprehajanja in še nekaj drugih nastavitev. Ob sprehajanju se dela lokalni indeks, ki se nato razpošlje sodelujočim v mreži YaCy. Če ob sprehajanju in iskanju nisem dobil kakšnih pomislekov in se mi je zdelo vse zelo delujoče, je pri iskanju problem. Ker mora yacy obiskati čim več peer-e v mreži ob iskanju je to lahko zelo časovno zahtevno. Iz tega razloga si lahko izbereš koliko časa naj se iščejo rezultati. Možnost izbire je od 1sec - 60sec. Privzeta vrednost je 6sec. Rezultate pod 2sec prosim! (v bistvu se mi zdi že 1sec čez glavo...). O relavnosti in vrstnem redu rezulatov ne morem ravno soditi, ker jih je premalo. Mu pa šumniki delajo težave. Dokaj neuporabno. Naj pa bi deloval tudi kot proxy, hmm.. Trenutno ima verzijo v0.44. Res ne gre za zrel produkt. Sem še malo pogledal če mogoče obstaja še kakšen tak p2p iskalec in sem našel še Majestic-12. Ga mislim namestiti in preveriti, potem pa kakšno napisati... Mislim, da je eden najbolj znanih odprtokodnih spletnih iskalnikov Nutch. No Nutch na distribuirano sprehajanje in indeksiranje pravi naslednje:
We don't think it is presently possible to build a peer-to-peer search engine that is competitive with existing search engines. It would just be too slow. Returning results in less than a second is important: it lets people rapidly reformulate their queries so that they can more often find what they're looking for. In short, a fast search engine is a better search engine. I don't think many people would want to use a search engine that takes ten or more seconds to return results.
Če na hitro povzamem citat - porazdeljeno iskanje je prepočasno za resno rabo. Ljudje hočejo (hočemo?) rezultate takoj in samo hiter iskalnik je dober iskalnik.

En komentar:

  1. rufbetten [moje postelje] Says:
    Spletni Iskalnik Majestic-12... Da nadaljujem Porazdeljeno indeksiranje spleta…. Majestic-12 je drugi spletni iskalnik, ki deluje po principu porazdeljenega indeksiranja interneta. […] ......
Komentiranje onemogočeno.

Iskane ključne besede za dotično objavo: indeksiranje (8) yacy (5) peer2peer (2) kaj je indeksiranje (2) porazdeljeno (1) spleta (1) p2p iskalniki za mulo (1) nutch (1) spletni (1) naj yacy igre (1) p2p iskalniki (1) nastavit googlo slovenija privzetno stran (1)


Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 2.5 License.
Deprecated: Function ereg_replace() is deprecated in /var/www/sopca.com/web/ruph/wp-content/plugins/bsuite.php on line 229 Deprecated: Function ereg_replace() is deprecated in /var/www/sopca.com/web/ruph/wp-content/plugins/bsuite.php on line 230 Deprecated: Function ereg() is deprecated in /var/www/sopca.com/web/ruph/wp-content/plugins/bsuite.php on line 236 Deprecated: Function ereg() is deprecated in /var/www/sopca.com/web/ruph/wp-content/plugins/bsuite.php on line 236 Deprecated: Function ereg() is deprecated in /var/www/sopca.com/web/ruph/wp-content/plugins/bsuite.php on line 236 Deprecated: Function ereg() is deprecated in /var/www/sopca.com/web/ruph/wp-content/plugins/bsuite.php on line 236 Deprecated: Function split() is deprecated in /var/www/sopca.com/web/ruph/wp-content/plugins/bsuite.php on line 136 Deprecated: Function split() is deprecated in /var/www/sopca.com/web/ruph/wp-content/plugins/bsuite.php on line 138 Deprecated: Function ereg() is deprecated in /var/www/sopca.com/web/ruph/wp-content/plugins/bsuite.php on line 187 Deprecated: Function ereg() is deprecated in /var/www/sopca.com/web/ruph/wp-content/plugins/bsuite.php on line 198 Deprecated: Function eregi() is deprecated in /var/www/sopca.com/web/ruph/wp-content/plugins/bsuite.php on line 341