Jdou získat data z našeptávače?

Nedávno jsem se v příspěvku o příkazové řádce zmínil o tom že jsem si nedávno napsal skript pro získávání dat z našeptávače seznamu. Několik lidí se na mě obrátilo s dotazem, jak skript pro získání dat z našeptávače funguje. Nechci však prozradit detaily, ty si ponechám jako své know how. Tento text můžete brát pouze jako inspiraci a důkaz že hledaná slova jdou z našeptávače bez problému získat i s počty hledání, nenajdete zde ale žádné technické detaily.

Našeptávač seznamu

Základní informace

Skript je psán v jazyku Python, pracuje pod Windows i Linuxem. Pokud někdo neví, co je jazyk Python a jaké má vlastnosti, pak doporučuji začít zde: www.py.cz, nebo si přečíst seriál, který vycházel na rootu . Zkušenější programátoři jistě znají referenční příručku. Python je objektově orientovaný, interpretovaný a interaktivní programovací jazyk. Často je srovnáván s jazyky C, Java, Perl nebo PHP, jeho velkou výhodou je že se v něm píše kód velice efektivně. Hodně programátorů v Pythonu zná pravidlo které říká, že 1 řádek programu v Pythonu se rovná 10 řádkům programu v jazyce C. V takovém kódu je skoro 10 krát menší šance na vznik nějaké chyby a vývoj je navíc mnohem rychlejší. Python je navržený v roce 1990 Guidem van Rossumem, který za ním stojí doposud. Je vyvíjen jako open source a interpret existuje pro většinu dnešních systémů, včetně Windows a Linuxu.

Popis skriptu na získání dat z vychledávače

Výhodou skriptu je, že získá i počty hledání každého výrazu v našeptávači, i přesto že je seznam standarně přestal zobrazovat. Skriptu se zadá parametr hloubka hledání, např. pro hloubka=2 projde všechny dvojice znaků např. aa, ab, ac,..,zy,zz, což je přibližně 1000 kombinací a z našeptávače vytáhne 10 slov začínajících na tuto kombinace, například pro kombinaci znaků "hr" našeptávač seznamu nabízí následující výrazy, které si uloží do paměti:

hrady a zámky 131
hračky 162
hrej 134
hry na mobil 136
hry on-line 114
hry online 646
hry pro dva 215
hry zdarma 305
hry.cz 180

Až skript načte všechny možné kombinace, výsledek vypíše seřazený na standardní výstup, na každý řádek kombinaci hledané slovo + průměrný počet hledání v našeptávači za den, takto (Nalezených výrazů je přibližně 10000):

hublist 43
hubnutí 101
hudba 289
hudba ke stažení zdarma 39
hudy 61
hudy sport 85
hukvaldy 68
humanic 77
hummer 42
husky 158
hvar 29
hvb bank 34
hvezdna brana 29
hvězda 7
hvězdná brána 115
hvězdná brána epizody 21
hvězdná brána x 8
hvězdné války 12
hvězdy 8
hw info 2
hw klíč 1
hw nároky 1
hw obchod 1
hw.cz 2
hwarangdo 1
hwc club 1
hwinfo 3
hwoarang 1
hx 4700 1
hx24 1
hx2790 1
hx4700 2
hxc 24 1
hxd870 1
hxpernova 1
hxpn 1
hyperinzerce 269
hyperinzerce.cz 37
hypernova 300
hypertgp 34
hypoteky 21
hypoteční banka 45
hypoteční kalkulačka 23
hypotéka 43
hypotéky 56
hyundai 100
hzs brno 4
hzs praha 9
hzs zlínského kraje 7
hzs.sk 4
hzshk 7
hzslk 5
hzsmsk.cz 4
hádanky 52
hřbitov 5
hřebíky 5
hřensko 49
hřib kovář 6
hřib satan 7
hřiby 8
hříchy severuse snapea 6
hříšný tanec 14
hříšný tanec 2 8
hříšný tanec mp3 9
hš rustikal 1
hšh 1
hšh architekti 1

Výsledný soubor má přibližně 0,25MB a je možné z něj dalším parametrem skriptu pro lepší přehlednost odstranit slova jejichž délka je menší než 3 a slovní spojení, jejichž průměrný počet hledání za den byl menší než 5. V tom případě je výstup přibližně poloviční. Hloubku procházení našeptávače je možné měnit, pro hodnotu 2 skript data stahuje přibližně 15 minut na lince 256kbps. Princip získávání odpovědi našeptávače seznamu si ponechám jako své know how:-).

Pokud bych v některých případech chtěl jít v našeptávači více do hloubky, na konkrétní znaky (třeba pro hloubku 2 je u kombinace znaků "fr" tento výsledek nedostačující), je možné zadat skriptu prefix pod kterým má našeptávač prohledat. například když se zadá prefix "free" a hloubka 2, skript projde všechny kombinace začínající na free a vrátí tyto data:

free antivirus 3
free avg 3
free brutal 2
free cad 2
free call 14
free commander 3
free d bar 3
free download 4
free download manager 5
free download mp3 3
free e-books 1
free easy burner 1
free easy cd dvd burner 1
free filmy 6
free foto 128
free foto.cz 6
free galerie 2
free game 9
free games 23
free hentai 2
free hosting 10
free hry 41
free hry na mobil 2
free hudba 3
free icq 1
free line 14
free mmorpg 7
free movies 4
free mp3 69
free mp3 download 7
free music 12
free naked celebrities video 1
free programy 4
free proxy 6
free radio 2
free ride 2
free rip 4
free running 3
free sms 29
free teen 5
free templates 7
free tv 133
free tv zdarma 6
free tv.cz 9
free videa 20
free video 144
free video.cz 10
free wallpapers 2
free web 3
free web hosting 3
free web templates 4
free webhosting 6
free wifi 3
free xxx 3
free xxx tv 3
free.cz 3
free.hentaicenter.pl 2
free.net 1
free.tv 11
free6 2
free6.com 3
freeads 1
freeadultmedia 1
freeair 2
freeband 2
freeband.cz 1
freebandy 3
freebbwmovs.com 1
freebsd 4
freecall 36
freecall crack 2
freecall download 2
freecall čeština 2
freecall.com 3
freecell 4
freediving 5
freedom 12
freedom call 4
freedom fighters 4
freedom writers 3
freedos 4
freee 4
freee foto 1
freeefoto 14
freeefoto.cz 3
freeetv 4
freeevideo 8
freeevideo.cz 3
freef 20
freefo 8
freefot 26
freefoto 3538
freefoto.cz 601
freefoto.sk 11
freefun 9
freegalleries 3
freegalleries.cz 2
freegame 50
freegame.cz 12
freegames 19
freegames.cz 4
freegonzo 3
freehand 2
freehosting 12
freehry 50
freehry.cz 8
freeideo 1
freejava 1
freejump 2
freek 1
freekick 4
freekick.org 1
freekickbox 2
freekino 22
freekino.cz 6
freelancer 20
freelancer download 2
freelancer mody 2
freelancer wow 3
freeland 16
freelander 4
freeline 10
freeline skates 5
freelineskates 3
freeman 5
freemp3 19
freemp3.cz 4
freemusic 12
freemusic.cz 4
freenet 4
freenet liberec 1
freenet milevsko 1
freenet.cz 1
freenet.de 1
freeon 2
freeones 58
freeones board 2
freeones.com 20
freeones.cz 5
freeonlinegames 2
freeonlinegames.com 3
freephoto 2
freepoint 3
freeport 36
freeport hatě 10
freeport.cz 4
freeride 23
freeride bazar 2
freeride bike 3
freeride kola 7
freeride.cz 9
freerip 8
freesms 40
freesms.cz 9
freestreamtv 8
freestreamtv.com 11
freestyle 20
freestyle bmx 8
freestyle kola 7
freestyle mp3 5
freesutra 5
freetekno 36
freetekno.cz 14
freetv 641
freetv.cz 215
freev 19
freevide 14
freevidea 33
freevidea.cz 9
freevideo 1785
freevideo.cz 581
freevidoe 7
freeware 15
freeware games 2
freeware hry 8
freeweb 3
freexcafe 2
freexcafe.com 1
freeyayo 2
freez 1
freezart 2
freezart plus 1
freezbee 1
freeze 1
freeze dance 1
freeze hunters 1
freeze.com 1
freezer 1

Závěrem

Závěrem dodám známé pravidlo, že vždy jde napsat program, který vám libovolnou práci usnadní. Stačí jenom sepsat vaše požadavky a předat je šikovnému programátorovi.. Doufám, že vám tyto informace stačí pro základní přehled o našeptávači seznamu, detailnější popis si nechám pro sebe. Získaná data je možné s výhodu použít při seo optimalizaci stránek, data našeptávače jsou veřejně přístupná. Napsat tento skript pro automatické získávání dat z našeptávače seznamu trvalo pár hodin, a myslím, že mi ušetřil spoustu času při hledání vhodných klíčových slov pro optimalizaci webu.

Vyšlo 25.09.2007, v blogu: 0 1 2 3 4 5 6 7 8

Děkuji, že jste se rozhodl(a) přečíst tento článek. Budu rád i za komentář. Pokud Vás tento článek zaujal a rádi byste jej doporučili ostatním, podpořte mně prosím tím, že věnujete minutku svého času a uděláte mi reklamu na linkuj.cz, vybrali.sme.sk či jagg.cz. Přeji příjemné čtení

Poslední články

Diskuse k blogu

Py script 
Nechtěl by jsi napsat článek o tom, jak v pythonu dolovat data z webu? Taková názorná ukázka, jak třeba vypadá zdrojový kód pro zadani hesel do formulařů a jeho odeslani, přes logovani se na stránky a tak? K tomuto tematu je na našem internetu velmi málo článků. 
Vložil: Scar (13.01.2008 23:45:53)
Přidání příspěvku
©PC-guru.cz 2000-2008 | Optimalizováno pro 1024*768