Zajímavosti z historie i současnosti Seznam.cz

28. 8. 2012 20:54 Rubrika: Tiskové zprávy

"Jsme jednou ze čtyř zemí na světě, kde nemá ve vyhledávání Google většinový podíl na hledání. Navíc jsme jedinou zemí na světě, která používá latinku a kde lokální hráč nepustí Google k nadvládě nad hledáním. Pro českého uživatele je to jen dobře. Vzájemně si s Googlem hlídáme kvalitu poskytovaných služeb, což platí i o vyhledávání. Jsem hrdý na to, že se nám za poslední rok podařilo podstatně vylepšit kvalitu výsledků hledání. A rozhodně nekončíme. Náš fulltextový tým se rozrůstá a čekám od něj další výsledky, které uživatelé ocení," Pavel Zima, generální ředitel Seznam.cz.

Co možná o Seznam.cz Vyhledávání nevíte…

Za jednu vteřinu odpovíme 350 dotazů, ve špičce je to více než 500 dotazů za vteřinu.

Náš robot má staženo přes 1 miliardu dokumentů (průměrný dokument v sobě obsahuje 11 dalších nových odkazů), databáze zabírá 35 TB.

Rychlost robota se pohybuje mezi 500 a 5 000 URL za vteřinu.

Seznam.cz Vyhledávání využívá 500 strojů (300 pro hledací farmu, 150 je cluster robot), dalších 60 strojů používáme jako testovací prostředí pro vývoj a výzkum.

Typická konfigurace jednoho stroje: 24 jader, 32 GB RAM a disky (pro hledání na jednom stroji 2x 300 GB SAS disk, pro robota 4x 2TB SATA, pro vývoj 8x 300GB SAS).

Poslední novinky ve vyhledávání od Seznam.cz

Seznam.cz na vyhledávání pracuje neustále. Od toho, co loni v květnu Seznam.cz nasadil nového robota, je indexování stránek rychlejší a umožňuje další vývoj. Letos se Seznam.cz pustil do indexování i nečeských (zahraničních) stránek a velikost indexu se tak rozrostla na téměř 700 milionů stránek.

Seznam.cz také do výsledků hledání začíná implementovat nejen pouhé linky na obecné stránky, kde lze na zadané dotazy najít odpovědi, ale přináší rovnou odpovědi na tyto dotazy. Zatím to platí o tematických dotazech z oblasti zábavy či zpravodajství. Jde o tak trochu jiný pohled na výsledky hledání, který by měl uživatelům přinést další komfort a rychlejší odpovědi na zadané dotazy – bez nutnosti dlouze klikat a hledat požadované informace.

Jak to všechno začalo?

Už rok po založení měl Seznam.cz, tehdy ještě katalog zajímavých stránek na českém Internetu, svoje vlastní fulltextové hledání. Kompas bylo první fulltextové vyhledávání na Seznam.cz. Využívalo robot v Perlu, bylo uzpůsobené pro češtinu a bylo ho možné použít jako alternativu k hledání v tehdejším katalogu stránek. V roce 2002 nahradila Kompas externí fulltextová řešení (od Empyreum, pak Googlu a nakonec Jyxa), přece jen Seznam.cz byl tehdy ještě stále primárně katalog stránek. Jak se pomalu situace měnila, začala být externí outsourcovaná řešení vyhledávání nedostatečná. A v roce 2005, konkrétně 15. března, přišla opravdová revoluce – fulltextové vyhledávání, které si vyvíjel Seznam.cz sám, převzalo primární roli nad hledáním v katalogu. Hledání se tehdy opíralo o 30 milionů dokumentů v indexu, mělo 6 strojů pro výdej a samotný robot měl 5 strojů. Dodejme, že na vyhledávání v roce 2005 pracovali v Seznam.cz 4 lidé. Až v roce 2008 (kdy už index Seznam.cz vyhledávání obsahoval 100 milionů dokumentů) se rozběl pořádný kontinuální vývoj na Seznam.cz Vyhledávání. Postupně se začalo přidávat více „železa“ i lidí. Nyní se Seznam.cz ve svém hledání soustředí především na neustálé vylepšování relevance výsledků a práce s jazykem. Výzkum a vývoj ve vyhledávání jde neustále kupředu a přináší další prouživatelská vylepšení.

Jak šel čas v Seznam.cz vyhledávání aneb pár čísel

Kdo stojí za Seznam.cz Vyhledáváním…

Na vyhledávání ve společnosti Seznam.cz pracuje tým o 67 lidech. Kromě 32 programátorů máme 12 výzkumníků, 16 produkťáků a 6 administrátorů (a to nepočítáme armádu kalibrátorů, kteří se starají o hodnocení stránek podle našich předem daných interních pravidel pro účely zvyšování relevance našich výsledků). Navíc nepracují na jednom místě – na Seznam.cz Vyhledávání se pracuje v Praze, Brně i Českých Budějovicích.

Práce na Seznam.cz Vyhledávání je hodně rozmanitá, stejně jako lidé, kteří ji dělají. Aby se Vám alespoň částečně představili, připravili si sérii rozhovorů, které budou od podzimu pravidelně na svém blogu zveřejňovat (http://fulltext.sblog.cz/). Najdete mezi nimi i tento – přijměte ho jako ochutnávku. Rozhodně se máte na co těšit…

Vladimír Kadlec: Výzkumník, vášnivý cyklista a bývalý tester leteckých simulátorů

Vladimír Kadlec vede od dubna 2011 jednu ze skupin výzkumníků, kteří pracují ve fulltextovém vyhledávání společnosti Seznam.cz. Předtím se věnoval převážně výzkumné činnosti v rámci doktorského studia na Masarykově univerzitě v Brně. Mimo to pracoval pro Nortel a testoval letecké simulátory. Vladimír Kadlec ale není pouze výzkumník a programátor, ale také sportovec. Každé ráno se při cestě do práce prohání po Brně na kole.

Nortel byl tehdy (1997) velká firma. Jak ses k té práci dostal?

Dohodila mi ji dcera bratra mé babičky. Ani nevím, jak se tomu v rodinné hierarchii říká. Bydlela v paneláku s jedním ze spolumajitelů firmy, která dostala od Nortelu zakázku. Přes ni se nějak dostali ke mně a nabídli mi spolupráci na tomto poměrně velkém projektu, a to hned po prváku na vysoké škole. Jednalo se pro mě o velký zlom – první full-time práce v mém životě, i když byla ještě z domova.

Co bylo tvým úkolem?

Vytvořit překladač z jednoho programovacího jazyka do druhého, takové výukové prostředí pro jejich lidi, které jsem měl naprogramovat. Jel jsem tehdy do Severní Karolíny na školení jejich programovacího jazyka a zároveň Smalltalku, v němž to probíhalo.

To se v prváku zas tak často někomu nepovede. Co ti utkvělo v paměti z Nortelu?

Byla to tehdy jedna z největších telekomunikačních společností. Pro mě byl především zážitek podívat se do kanceláře, kde sedělo naráz 4000 programátorů.

Studoval jsi při tom informatiku na Masarykově univerzitě. Jak jsi řešil propojení práce a studia? Jak dlouho to trvalo?

V průběhu druhého a třetího ročníku na vysoké škole. Potom byl projekt hotov. Propojení práce a školy nebyl až takový problém. Pracoval jsem z domova, dostal jsem pracovní stanici a obrovský monitor, což bylo k programování ve Smalltalku potřeba.

Jak velký monitor?

Dvacet palců. V roce 1997! Byla to velká atrakce, kamarádi se na něj chodili dívat.

Co přišlo po skončení práce na projektu pro Nortel?

Přišel čas na studium. Po dokončení magisterského studia jsem se přihlásil na doktorské. I když jsme měli grant, tak jsem střídal různé brigády. Jedna z nich byla testování leteckého simulátoru L-159. Teda ne jako pilot, ale jako tester softwaru. Ale s piloty jsem se potkával – oni věděli, jak se to má chovat, a já zase, jak to udělat. To mě doopravdy bavilo.

Čím ses zabýval v rámci doktorského studia?

Zpracováním přirozeného jazyka na počítačích, především syntaktickou analýzou. Musím říct, že mě to bavilo, ale po sedmi letech už jsem cítil potřebu změny.

Pak přišel Seznam.cz? Jak ses tam dostal?

Zareagoval jsem na inzerát, ve kterém hledali výzkumníka. Zaujalo mě to. Baví mě programovat a navíc se fulltext dost týká toho, co jsem dělal předtím na doktorátu.

Čemu ses věnoval po nástupu do Seznam.cz?

Pokud si dobře vzpomínám, tak expandování zkratek v dotazu.

Co všechno se skrývá za pojmem expandování zkratek?

Když někdo zadá dotaz na „NFS Shift“, tak vyhledávač má hledat také „Need for Speed Shift“ a zároveň nehledat „Network File Systém Shift“. Zdá se to jako triviální úloha řešitelná třeba slovníkem, ale je spousta zkratek, které jsou mimo jiné také reálná slova. U těch se musí nějak obecně vymyslet, jak přijít na to, kdy danou zkratku rozvíjet a kdy ne, aby nedošlo k nějakým absurdním chybám. Navíc lidé moc nedodržují správnou velikost písmen nebo diakritiku. To pak dělá problémy. Třeba u slov ODA a óda zadaná bez diakritiky.

Jak vyhledávání pozná, kterou zkratku měl uživatel na mysli? Vypadá to, že zkratka může mít obrovské množství významů.

Podle ostatních slov v dotazu a taky podle kontextu, v němž se zkratka nachází v dokumentech. My disponujeme velmi širokým korpusem textů, zahrnuje téměř celý český internet, a můžeme si tím pádem vytvořit jakýsi slovník nejčastějšího kontextu, v němž se dané zkratky nacházejí. V okolí významu „NFS“ jako „Need for Speed“ se tak budou vyskytovat slova jako „hra“, „game“, „auta“. Tato slova se v kontextu významu „Network File System“ vyskytovat nebudou.

A když se bude „NFS“ vyskytovat v dotazu osamoceně, jak se vyhledávač rozhodne uspořádat výsledky?

Jednoslovné dotazy jsou při expandování zkratek obecně problematické. Dá se to řešit minimálně dvěma způsoby. Zkratku nerozvíjet, nebo použít každý rozvoj, který dává smysl. Záleží na okolnostech.

Tohle všechno řešíš sám?

Ne, to ne. Mám v týmu ještě 3 výzkumníky.

A co dalšího tedy tvůj tým řeší?

Je toho víc. Třeba reformulací dotazů a nahrazení synonymy, závislostmi významu slov na velikosti písmen, pochopením významu interpunkce a třeba detekcí pornostránek.

Detekcí pornostránek?

Děláme to proto, abychom na dotaz, který nemá porno charakteristiku, nedávali ve výsledcích vyhledávání pornostránky, což je pro uživatele nepříjemné. Na dotaz „medvídek Pů“ lidé asi nechtějí porno, ale přitom takové stránky existují. Platí to ale také naopak – pokud je dotaz směřovaný k pornostránkám, relevantní je vrátit uživateli právě porno.

To si musíte prohlížet pornostránky v pracovní době?

Ano, ale zajímá nás především jejich text a chybně rozpoznané stránky. Koukání na video nás v detekci nikam neposune...

Takové stránky se tedy posuzují pouze podle textu?

Je to nejpřímočařejší přístup. Ale u spousty webů to může být problém, jelikož na spoustě pornostránek text moc není. Takové stránky zase nikdo nedohledá ve vyhledávači, jelikož bez slov nejsou zaindexované.

Změňme nyní téma. Dozvěděl jsem se, že navrhuješ ve fulltextu novou analýzu, jak měřit, že nová úprava hledání pomohla kvalitě hledání. Můžeš mi k tomu říci něco bližšího?

Jmenuje se to ceiling analysis. Jde o obecnou metodu analýzy, jak zjišťovat potenciál stávajícího systému. Každý systém se skládá z určitých komponent a ceiling analysis nám pomůže vytipovat, na které části hledání se máme soustředit, aby to mělo největší efekt.

Jak jsi se o ceiling analysis dozvěděl? Na Wikipedii asi ne...

Dozvěděl jsem se o tom v kurzu ze Stanfordu. Začalo to kurzem umělé inteligence a strojového učení, o kterých přednáší kapacity v oboru. Ale je to hodně zásadní změna v přístupu.

Jak se v týmu vyhledávání staví k takovým novinkám?

Budu o tom mluvit na workbuilding fulltextu, kde prodiskutujeme výhody a nevýhody. Docela se na to těším, protože sám si nejsem úplně jistý, jestli by stálo za to tu metodu využívat. Ceiling analysis vyžaduje totiž mnoho ruční práce a má to mnoho dalších aspektů, které se budou muset vyjasnit. Každopádně se Seznam staví k inovacím pozitivně a na Ceiling analysis jsem dostal i prostor v rámci pracovní doby k samostudiu.

Co je to workbuilding?

Přes den workshop a v noci teambuilding (směje se). Jednou za čas celé oddělení vyhledávání, programátoři, výzkumníci, produkťáci, admistrátoři vyjedou z Brna, Prahy a Budějovic na jedno místo, kde se všichni setkají, přednáší se, diskutuje se, řeší se aktuální témata i plány a nápady do budoucna. A taky se jednou za čas vidíme všichni naživo.