Słowem wstępu

Na po­czą­tek wy­ja­śnię po­krótce, że Googlebot to ro­bot in­dek­su­jący sieć. Robot ten po­biera nie­zli­czone ilo­ści stron. Podczas tego pro­cesu Googlebot wy­krywa nowe lub też zak­tu­ali­zo­wane strony i do­daje je do in­deksu Google. Taki pro­ces spra­wia, że ro­bot wi­dzi o wiele wię­cej niż wi­dzi prze­ciętny użyt­kow­nik. Kiedy Googlebot tra­fia już na stronę to na po­czątku za­wsze spraw­dza czy do­stępny jest plik robots.txt, który służy do za­wę­że­nia za­kresu dzia­ła­nia ro­bota na stro­nie. Tak więc ist­nieje moż­li­wość omi­nię­cia kilku miejsc przez bota i nie­za­in­dek­so­wa­nie ich. Najczęściej jed­nak za­ka­zuje się wstępu (di­sal­low) do ka­ta­lo­gów cgi-bin, pry­wat­nych, tym­cza­so­wych. Jednak cała reszta strony jest do­stępna do wglądu dla ro­bota.

Zrób do­brze a wej­dziesz

W Internecie można spo­tkać wiele stron do któ­rych użyt­kow­nik nie ma do­stępu. Idąc jed­nak tro­pem po­da­nym we wstę­pie można śmiało stwier­dzić, że jed­nak do czę­ści ta­kich stron Google ma do­stęp. Sprawa ta jest za­pewne dla wielu z Was iry­tu­jąca, do­dat­kowo je­śli kie­dyś do­stęp do da­nej strony nie był kło­po­tem. Do ta­kich sy­tu­acji można za­li­czyć wsze­la­kie fora in­ter­ne­towe, por­tale z in­for­ma­cjami, po­rad­ni­kami czy też opra­co­wa­niami gdzie wi­doczny jest tylko sam wstęp oraz ma­giczny od­no­śnik po­każ wię­cej. Po klik­nię­ciu na ma­giczny od­no­śnik oka­zuje się, że aby zo­ba­czyć dal­szą część tego ar­ty­kułu na­leży się w naj­lep­szym wy­padku za­re­je­stro­wać, a w naj­gor­szym wy­słać SMS i wy­ku­pić so­bie do­stęp do wi­tryny. Jak się oka­zuje czę­sto są to rze­czy zu­peł­nie nie po­trzebne, bo­wiem czę­sto Google wi­dzi te strony w ca­ło­ści. A do­kład­niej rzecz uj­mu­jąc to do­stęp do ca­łej strony ma Googlebot.

Przebieranie – uda­wa­nie

Tak więc czemu tego nie wy­ko­rzy­stać? Przebierzmy się za Googlebota i po­uda­wajmy go. Jak za­pewne wielu z Was wie na­sze prze­glą­darki dys­po­nują czymś co na­zy­wane jest User Agent, czyli na­głów­kami słu­żą­cymi ser­wi­som in­ter­ne­to­wym do roz­po­zna­wa­nia pro­gramu klienc­kiego.

Poniżej po­dam kilka UAStringów:

  • Opera/9.80 (Windows NT 6.1; U; pl) Presto/2.7.62 Version/11.00
  • Mozilla/5.0 (Windows NT 5.1; rv:2.0b7) Gecko/20100101 Firefox/4.0b7
  • Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.15 (KHTML, like Gecko) Chrome 10.0.612.1 Safari/534.15
  • Mozilla/5.0 (iPad; U; CPU OS 3_2_1 like Mac OS X; en-us) AppleWebKit/531.21.10 (KHTML, like Gecko) Mobile/7B405
  • Mozilla/5.0 (com­pa­ti­ble; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
  • W3C_Validator/1.305.2.148libwww-perl/5.803,Jigsaw/2.2.3 W3C_CSS_Validator_JFouffa/2.0
  • Googlebot/2.1 (+http://www.googlebot.com/bot.html)

Same User Agenty prze­glą­da­rek po­winny być użyt­kow­ni­kom do­brze znane. Tym bar­dziej, że co­raz wię­cej por­tali daje moż­li­wość pod­gląd­nię­cia nie tylko swo­jego User Agenta ale też po­zo­sta­łych in­ter­nau­tów np. ko­men­tu­ją­cych. Trzy osta­nie przy­kłady UAStringów to iden­ty­fi­ka­tory po­pu­lar­nych ro­bo­tów in­ter­ne­to­wych. I tak ko­lejno mamy Slupr – ro­bot Yahoo, wa­li­da­tor W3C i Googlebota. Nas oczy­wi­ście w kon­tek­ście ca­łego wpisu in­te­re­suje ostatni User Agent.

Opera

Tak więc ma­jąc pod­sta­wową wie­dzę można przy­stą­pić do dzia­ła­nia. Na po­czą­tek po­każę jak prze­brać Operę za ro­bota Google. Sprawa jest bar­dzo pro­sta i spro­wa­dza się do edy­cji jed­nej opcji spod prze­glą­darki. Mianowicie na­szym za­da­niem jest zmiana war­to­ści ID w sek­cji ISP w edy­to­rze pre­fe­ren­cji. Wystarczy wkleić w pole ad­resu:

opera:config#ISP|Id

i au­to­ma­tycz­nie zo­sta­niemy prze­kie­ro­wani do oma­wia­nej opcji. Teraz nie po­zo­staje nam nic in­nego jak wpi­sać war­tość:

googlebot/2.1

za­pi­sać i zre­star­to­wać Operę. Teraz mo­żemy się cie­szyć do­stę­pem do ca­łej wi­tryny, która wcze­śniej była nie­do­stępna w ca­ło­ści.

Firefox

Podobnie można po­stą­pić w przy­padku prze­glą­darki Firefox. Na pa­sku ad­resu wpi­su­jemy about:config, a na li­ście wy­szu­ku­jemy pa­ra­metr:

general.useragent.extra.firefox

i wpi­su­jemy nową war­tość:

Googlebot 2.1

za­pi­suje i re­star­tu­jemy prze­glą­darkę.

Internet Explorer

Uruchamiamy edy­tor re­je­stru (uru­chom: re­ge­dit), od­naj­du­jemy klucz:

HKEY_LOCAL_MACHINESOFTWAREMicrosoftWindowsCurrentVersionInternet Settings5.0User Agent

(je­śli klucz nie ist­nieje na­leży go utwo­rzyć)

W tej lo­ka­li­za­cji po­winna znaj­do­wać się war­tość (Domyślna), a typ to REG_SZ. Teraz na­leży tę war­tość zmo­dy­fi­ko­wać i jako „Dane war­to­ści” po­dać:

Googlebot/2.1 (+http://www.googlebot.com/bot.html)

Chrome

W Chrome ist­nieją dwa spo­soby na zmianę User Agenta. Można to zro­bić na stałe mo­dy­fi­ku­jąc plik chrome.dll za po­mocą edy­tora hek­sa­de­cy­mal­nego lub też można wy­ko­nać zmianę chwi­lową. Opiszę tu­taj spo­sób drugi, który jest ła­twiej­szy a za­ra­zem czę­ściej wy­ko­rzy­sty­wany. Jednak je­śli zaj­dzie taka po­trzeba i w ko­men­ta­rzach znajdą się prośby o po­ka­za­nie jak wy­ko­nać zmianę w chrome.dll to uzu­peł­nię wpis.

Tak więc aby wy­ko­nać chwi­lową zmianę User Agent, na jedno uru­cho­mie­nie, na­leży sko­rzy­stać z wier­sza po­le­ceń sys­temu Windows (uru­chom: cmd).

Gdy już mamy przed sobą com­mand line mu­simy przejść do ka­ta­logu Google Chrome. Domyślnie prze­glą­darka jest za­in­sta­lo­wana w ka­ta­logu:

%HomePath%AppDataLocalGoogleChromeApplication

W tym celu wpi­su­jemy w wiersz po­le­ceń ko­mendę:

cd „%HomePath%AppDataLocalGoogleChromeApplication”

za­twier­dza­jąc przy­ci­skiem  Enter. Następnie na­leży wy­ko­nać po­le­ce­nie:

chrome –user-agent=” Googlebot/2.1 (+http://www.googlebot.com/bot.html)”

Efekty po­winny być wi­doczne tak samo jak w po­zo­sta­łych prze­glą­dar­kach.

Aby nie być go­ło­słow­nym przed­sta­wiam scre­en­shot wy­ko­nany pod Operą, na któ­rym wi­dać, że po drob­nej zmia­nie, do­stępny jest cały wpis:

Strona przed mo­dy­fi­ka­cją i po mo­dy­fi­ka­cji UAString

Nie wszystko złoto, co się świeci

We wpi­sie tym po­ka­za­łem jak wy­ko­rzy­stać Googlebota. Jednak frag­ment do­ty­czący zmian User Agentów w prze­glą­dar­kach może Wam po­słu­żyć jako mały in­struk­taż wła­śnie do zmian w na­głów­kach prze­glą­da­rek. Wcale nie jest po­wie­dziane, że mu­si­cie tam wpi­sy­wać UAString Googlebota. Może bę­dzie­cie chcieli zmie­nić iden­ty­fi­ka­tor Waszej prze­glą­darki na inną, wtedy rów­nież mo­że­cie kie­ro­wać się tym wpi­sem. Pamiętajcie jed­nak, że zmiana UAStringów po­mimo wielu swo­ich za­let nie­sie za sobą kilka  za­gro­żeń. Podstawowym z nich jest fakt, że wiele stron zo­stało na­pi­sa­nych w kilku wer­sjach przy­go­to­wa­nych dla kilku prze­glą­da­rek. Tak więc zmie­nia­jąc iden­ty­fi­ka­tor mo­żemy na­tra­fić na nie­ocze­ki­wane pro­blemy. Może to być na przy­kład zmiana bu­dowy strony, która w efek­cie unie­moż­li­wia nam ko­rzy­sta­nie z da­nej wi­tryny. Najczęściej dzieje się tak gdy zmie­nimy nasz iden­ty­fi­ka­tor na User Agent urzą­dzeń mo­bil­nych (iden­ty­fi­ka­tor prze­glą­darki na sys­temy mo­bilne, ta­kie jak Android, BadaOS, BlackBerry OS, iOS, Symbian, Windows Mobile/Phone). Zdarza się jed­nak też, że wła­śnie zmiana iden­ty­fi­ka­tora na któ­re­go­kol­wiek bota, rów­nież wy­wo­łuje pro­blemy. Tak więc na­leży pa­mię­tać o tymi zda­wać so­bie z tego sprawę, a zmie­niony UAString uży­wać tylko wtedy, kiedy jest to na­prawdę ko­nieczne.

Spodobał Ci się ten wpis? Podziel się nim: