sâmbătă, 22 noiembrie 2008

De ce trebuie sa stim despre rangul paginilor web

Majoritatea motoarelor web de cautare folosesc diversi algoritmi pentru a realiza o cautare corecta si o gasire rapida a informatiilor dorite.
Astfel Google a adoptat un algoritm de gasire a datelor cautate prin calcularea rangului unei pagini numit PageRank. Acesta reprezinta o valoare regasita in intervalul [1,10] ce exprima popularitatea unei pagini web.

Denumirea PageRank aminteste de autorul algoritmului Larry Page.
PageRank-ul creste in functie de calitatea, cat si cantitatea linkurilor care trimit la o pagina web.

Cu alte cuvinte o pagina va fi importanta, daca alte pagini cu o importanta mare contin legaturi catre ea.

Primele 3 pagini care au format Internetul in 1839 erau: Netscape, Amazon si Microsoft. Legaturile intre acestea se pot vizualiza in graful de mai jos.





Calcularea rangului unei pagini se realizeaza cu ajutorul unei matrici stochastica (suma pe fiecare coloana este egala cu valoarea 1) a Internetului, unde pagina i corespunde liniei i si coloanei i a matricei.
De exemplu daca exista o pagina j care are n legaturi, elemnentul (i,j) al matricii poate fi 1/n sau 0 , in functie daca pagina i este una din legaturile paginii j.

Cele mai intalnite probleme in lumea Internetului sunt cele descrise de notiunile "dead end" si "trap".
Primul termen se refera la paginile care nu au legaturi. Astfel de pagini isi pierd din rang, deoarece nu il mai distribuie catre alte pagini, si astfel acesta va ajunge sa tinda catre 0. Deci apare un rezultat nedorit si pentru a-l evita trebuie ca pagina respectiva sa aiba succesori.

Al doilea termen cunoscut si sub numele de "capcane" descrie fenomenul in care o pagina dorind sa isi creasca rangul, va avea legaturi doar catre ea insasi.

In aceste doua cazuri, Google pare sa fie nemilos si sa taxeze paginile aflate in aceste situatii,asa ca va sfatuim sa nu apelati la astfel de modalitati de crestere a rangului, deoarece veti constata ca se intampla exact contrarul asteptarilor voastre.

Google nu se lasa pacalit prea usor, si aplica diverse procedee pentru a calcula corect PageRank-ul fiecarei pagini. Unul dintre acestea este anti-spam si consta in potrivirea cuvintelor cautate cu cele aflate in paginile web, astfel incat site-urile web sa contina informatii despre subiectul cautat.

Sper ca aceste informatii sa va fie folositoare si va promitem ca vom reveni asupra acestui subiect cu mai multe detalii interesante.
Asa ca stati cu ochii pe noi. :)

3 comentarii:

  1. Ati scris aici niste lucruri chiar interesante. Daca ne puteti spune si cum sa activam PageRank-ul ar fi si mai bine sau sa ne dati un link...ca eu ma tot chinuiesc sa aflu de vreo doua saptamani si inca nu am reusit.

    Multumim :)

    monica

    RăspundețiȘtergere
  2. Acest comentariu a fost eliminat de administratorul blogului.

    RăspundețiȘtergere
  3. modificati macar anul 1839. Nu de alta, dar la copy-paste si inca gresit s-ar putea sa fiti penalizati. Si toti stim ca nu exista internet in1839, ori Microsoft, ori celelalte companii :)

    RăspundețiȘtergere