Căutare în lume: căutare, extragere de text, date mari

Péter Tempfli, autor invitat al unuia dintre autorii blogului Computational Linguistics

puteți

Yandex este al optulea cel mai mare motor de căutare din lume, deși Rusia ar putea fi mai bine să vorbească despre „internetul în limba rusă” (RUNETĂ) deoarece este folosit în întreaga lume de limbă rusă. Faptul că îl învinge pe Google pe pista internă - rusă spune foarte multe: Yandex deține 64% din piață, în timp ce compania americană are peste 21%.

Ce știe Yandex?

Practic tot ce v-ați aștepta de la un motor de căutare. Putem introduce termeni de căutare complexi la fel cum facem pe Google. Ghilimelele, semnele plus și minus pot fi utilizate în mod similar; de asemenea, puteți specifica simbolul * (orice cuvânt), setați exact câte cuvinte apar între două cuvinte și puteți specifica operatorul „sau”. Deoarece limba rusă este o limbă foarte conjugativă, formele de cuvinte joacă un rol important. În mod implicit, caută toate versiunile flexate ale cuvintelor, ceea ce înseamnă că nu contează dacă specificați „ceai” sau „cu ceai” în rusă. Cu toate acestea, dacă forma cuvântului este importantă, putem prescrie un semn de exclamare și se va comporta ca și cum ar fi între semne de timp. Și dacă doriți să găsiți forma de dicționar a unei forme conjugate, puteți instrui programul cu două puncte de exclamare. Apropo, Google știe, de asemenea, să caute formulare flexibile, dar Yandex, care este mai ascuțit în limba rusă, este mult mai flexibil la introducerea termenilor de căutare.

Cu cât este mai puțin este mai mult?

Celelalte trucuri ale Google sunt cunoscute și de motorul de căutare rus: imagini, videoclipuri, hărți, traduceri, precum și accesări recente, termeni de căutare completați automat. Yandex face încă câteva oferte și, în aprecierea mea subiectivă, este puțin mai exactă în sensul că propunerile par „mai rusești”. Apropo, rezultatele căutării Yandex par, de asemenea, mai bune uneori, cartografând mai bine internetul în limba rusă. De exemplu, Google caută „социальная сеть” (rețea socială) pentru practic informații numai despre film, iar Yandex furnizează mai întâi cel mai mare site de rețele sociale din Rusia (Vkontakte.ru), apoi primim un articol Wikipedia, câteva informații despre film, și alte site-uri de rețele sociale rusești vor apărea, de asemenea, în primele 10 rezultate. Acest lucru se poate explica prin faptul că site-urile locale trebuie să concureze cu datele din întreaga lume în baza de date Google, în timp ce la un „nivel de acasă”, site-urile care nu sunt la fel de relevante la nivel global se pot clasa, de asemenea, la un nivel înalt. Potrivit lor, mai puțin uneori poate chiar mai mult? (De asemenea, trebuie adăugat că numărul de pagini ruse indexate de Yandex este în concurență cu baza de date Google în limba rusă)

Căutați în plus

Este o idee bună și un serviciu care există, de asemenea, la Google, să includeți diverse „extras” în căutare, dacă este relevant, de ex. hartă, dicționar obsesie rate de schimb. Bursa, vremea, geografica și lucruri similare „auto-explicative” pe care le știe Yandex, pe lângă afișarea unor trucuri uneori drăguțe și alteori utile. De exemplu, recunoaște cu o precizie bună dacă versuri căutăm și oferim întregul text deodată. Dacă ne este sete și dorim ceva băutură alcoolică, imediat rețete de cocteiluritrebuie să ne grăbim în ajutorul nostru. Dacă tastăm „мой айпи”, adică „ai-pím”, vom primi informații despre adresa noastră IP și viteza conexiunii noastre, dacă este ora curentă de vară din orașul nostru. blocaje de apă vrem să știm ceva, vom primi răspunsul imediat (aceasta din urmă este o realitate rusească foarte obișnuită!).

Mayakovsky: O poezie despre pașaportul sovietic

Cocktail-ul „Tirbușon”. În dreapta, puteți folosi busola pentru a comanda o băutură mai complicată și/sau mai puternică.

Poate că dezvoltatorii s-au gândit puțin la ei înșiși când l-au încorporat pe cel mai mare în motorul de căutare o descriere a principalelor funcții ale limbajelor de programare - primul rezultat al termenului „sortat cu python” oferă imediat sintaxa termenului și elementele de bază. Lista de limbi este impresionantă: Perl, PHP, PostgreSQL, Python, C/C ++/STL, Win32, Java, HTML/CSS/JavaScript, MySQL.

Serviciul de furnizare a informațiilor cu privire la elementele chimice poate să nu fie foarte interesant, cu atât mai mult cu privire la timp. Nu este prea surprinzător faptul că acordați ora locală pentru a introduce cuvântul „время” (ora), este puțin mai interesant să puteți pune întrebarea în mai multe moduri: Ce oră este? Cat este ceasul? Termenul „Разница во времени между Москвой и Будапештом” - „Diferența dintre timpul Moscovei și Budapesta” poate fi interpretat și de mașină, în care lucrul interesant este că trebuie să recunoașteți formele conjugate ale numelor orașelor.

Călătorie către adâncurile Matricei (net)

Yandex are o filială în California numită Yandex-Labs, care efectuează cercetări privind tehnologiile de căutare și domeniile conexe (procesarea limbilor străine, învățarea automată). Aici se dezvoltă și algoritmul Matrixnet care rulează adânc în Yandex, care este responsabil pentru clasarea hiturilor. Această procedură nu se bazează pe o formulă simplă, ci pe o clasare dinamică a diferiților factori și învățarea statistică din succesul rezultatelor de căutare anterioare. Principalul lucru interesant este că algoritmul în sine se modifică cu fiecare căutare, astfel încât să se adapteze atât termenului de căutare, cât și naturii rezultatelor.

Prin aceasta înțelegem că aparatul ia în considerare faptul că căutăm, să zicem, un nume de oraș sau o funcție a unui limbaj de programare și, de asemenea, revizuiește conținutul rezultatelor obținute înainte de a crea clasamentul final. De exemplu, pentru unele căutări, numărul de linkuri contează mai mult decât relevanța unei căutări, în timp ce pentru alte tipuri de căutări, opiniile altor utilizatori despre acel document sunt mai importante. În plus, învățarea automată supravegheată a fost integrată în sistem, ceea ce înseamnă că resursele umane sunt utilizate pentru a crea eșantioane de rezultate „bune”, iar algoritmul rafinează rezultatele pe baza acestora.

Prin urmare, tehnica de mai sus diferă în ex. dintr-o căutare Google pentru a personaliza nu numai rezultatele, ci și formula de pornire în sine (acesta este algoritmul PageRank pentru Google). Desigur, formula este evident aceeași cu Yandex, dar aceasta, conform propriei afirmații, este extrem de lungă și complicată, cu o mulțime de parametri care o schimbă pentru a crea un algoritm practic independent pentru fiecare căutare.

În cele din urmă, se știe și de la Yandex că, din cauza cantității uriașe de date, căutările au loc în paralel în diferite părți ale indexului, iar rezultatele sunt combinate într-un singur pas final. Yandex, ca și alte motoare de căutare, nu are server central sau sediu central, dar găzduiește mașini în mai multe centre de date. Nici nu este surprinzător pentru mulți că majoritatea angajaților Yandex nu au nicio idee unde sunt amplasate mașinile.