Słowem wstę­pu

Na po­czą­tek wy­ja­śnię po­krót­ce, że Googlebot to ro­bot in­dek­su­ją­cy sieć. Robot ten po­bie­ra nie­zli­czo­ne ilo­ści stron. Podczas te­go pro­ce­su Googlebot wy­kry­wa no­we lub też zak­tu­ali­zo­wa­ne stro­ny i do­da­je je do in­dek­su Google. Taki pro­ces spra­wia, że ro­bot wi­dzi o wie­le wię­cej niż wi­dzi prze­cięt­ny użyt­kow­nik. Kiedy Googlebot tra­fia już na stro­nę to na po­cząt­ku za­wsze spraw­dza czy do­stęp­ny jest plik robots.txt, któ­ry słu­ży do za­wę­że­nia za­kre­su dzia­ła­nia ro­bo­ta na stro­nie. Tak więc ist­nie­je moż­li­wość omi­nię­cia kil­ku miejsc przez bo­ta i nie­za­in­dek­so­wa­nie ich. Najczęściej jed­nak za­ka­zu­je się wstę­pu (di­sal­low) do ka­ta­lo­gów cgi-bin, pry­wat­nych, tym­cza­so­wych. Jednak ca­ła resz­ta stro­ny jest do­stęp­na do wglą­du dla ro­bo­ta.

Zrób do­brze a wej­dziesz

W Internecie moż­na spo­tkać wie­le stron do któ­rych użyt­kow­nik nie ma do­stę­pu. Idąc jed­nak tro­pem po­da­nym we wstę­pie moż­na śmia­ło stwier­dzić, że jed­nak do czę­ści ta­kich stron Google ma do­stęp. Sprawa ta jest za­pew­ne dla wie­lu z Was iry­tu­ją­ca, do­dat­ko­wo je­śli kie­dyś do­stęp do da­nej stro­ny nie był kło­po­tem. Do ta­kich sy­tu­acji moż­na za­li­czyć wsze­la­kie fo­ra in­ter­ne­to­we, por­ta­le z in­for­ma­cja­mi, po­rad­ni­ka­mi czy też opra­co­wa­nia­mi gdzie wi­docz­ny jest tyl­ko sam wstęp oraz ma­gicz­ny od­no­śnik po­każ wię­cej. Po klik­nię­ciu na ma­gicz­ny od­no­śnik oka­zu­je się, że aby zo­ba­czyć dal­szą część te­go ar­ty­ku­łu na­le­ży się w naj­lep­szym wy­pad­ku za­re­je­stro­wać, a w naj­gor­szym wy­słać SMS i wy­ku­pić so­bie do­stęp do wi­try­ny. Jak się oka­zu­je czę­sto są to rze­czy zu­peł­nie nie po­trzeb­ne, bo­wiem czę­sto Google wi­dzi te stro­ny w ca­ło­ści. A do­kład­niej rzecz uj­mu­jąc to do­stęp do ca­łej stro­ny ma Googlebot.

Przebieranie – uda­wa­nie

Tak więc cze­mu te­go nie wy­ko­rzy­stać? Przebierzmy się za Googlebota i po­uda­waj­my go. Jak za­pew­ne wie­lu z Was wie na­sze prze­glą­dar­ki dys­po­nu­ją czymś co na­zy­wa­ne jest User Agent, czy­li na­głów­ka­mi słu­żą­cy­mi ser­wi­som in­ter­ne­to­wym do roz­po­zna­wa­nia pro­gra­mu klienc­kie­go.

Poniżej po­dam kil­ka UAStringów:

  • Opera/9.80 (Windows NT 6.1; U; pl) Presto/2.7.62 Version/11.00
  • Mozilla/5.0 (Windows NT 5.1; rv:2.0b7) Gecko/20100101 Firefox/4.0b7
  • Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.15 (KHTML, li­ke Gecko) Chrome 10.0.612.1 Safari/534.15
  • Mozilla/5.0 (iPad; U; CPU OS 3_2_1 li­ke Mac OS X; en-us) AppleWebKit/531.21.10 (KHTML, li­ke Gecko) Mobile/7B405
  • Mozilla/5.0 (com­pa­ti­ble; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
  • W3C_Validator/1.305.2.148libwww-perl/5.803,Jigsaw/2.2.3 W3C_CSS_Validator_JFouffa/2.0
  • Googlebot/2.1 (+http://www.googlebot.com/bot.html)

Same User Agenty prze­glą­da­rek po­win­ny być użyt­kow­ni­kom do­brze zna­ne. Tym bar­dziej, że co­raz wię­cej por­ta­li da­je moż­li­wość pod­gląd­nię­cia nie tyl­ko swo­je­go User Agenta ale też po­zo­sta­łych in­ter­nau­tów np. ko­men­tu­ją­cych. Trzy osta­nie przy­kła­dy UAStringów to iden­ty­fi­ka­to­ry po­pu­lar­nych ro­bo­tów in­ter­ne­to­wych. I tak ko­lej­no ma­my Slupr – ro­bot Yahoo, wa­li­da­tor W3C i Googlebota. Nas oczy­wi­ście w kon­tek­ście ca­łe­go wpi­su in­te­re­su­je ostat­ni User Agent.

Opera

Tak więc ma­jąc pod­sta­wo­wą wie­dzę moż­na przy­stą­pić do dzia­ła­nia. Na po­czą­tek po­ka­żę jak prze­brać Operę za ro­bo­ta Google. Sprawa jest bar­dzo pro­sta i spro­wa­dza się do edy­cji jed­nej opcji spod prze­glą­dar­ki. Mianowicie na­szym za­da­niem jest zmia­na war­to­ści ID w sek­cji ISP w edy­to­rze pre­fe­ren­cji. Wystarczy wkle­ić w po­le ad­re­su:

opera:config#ISP|Id

i au­to­ma­tycz­nie zo­sta­nie­my prze­kie­ro­wa­ni do oma­wia­nej opcji. Teraz nie po­zo­sta­je nam nic in­ne­go jak wpi­sać war­tość:

googlebot/2.1

za­pi­sać i zre­star­to­wać Operę. Teraz mo­że­my się cie­szyć do­stę­pem do ca­łej wi­try­ny, któ­ra wcze­śniej by­ła nie­do­stęp­na w ca­ło­ści.

Firefox

Podobnie moż­na po­stą­pić w przy­pad­ku prze­glą­dar­ki Firefox. Na pa­sku ad­re­su wpi­su­je­my about:config, a na li­ście wy­szu­ku­je­my pa­ra­metr:

general.useragent.extra.firefox

i wpi­su­je­my no­wą war­tość:

Googlebot 2.1

za­pi­su­je i re­star­tu­je­my prze­glą­dar­kę.

Internet Explorer

Uruchamiamy edy­tor re­je­stru (uru­chom: re­ge­dit), od­naj­du­je­my klucz:

HKEY_LOCAL_MACHINESOFTWAREMicrosoftWindowsCurrentVersionInternet Settings5.0User Agent

(je­śli klucz nie ist­nie­je na­le­ży go utwo­rzyć)

W tej lo­ka­li­za­cji po­win­na znaj­do­wać się war­tość (Domyślna), a typ to REG_SZ. Teraz na­le­ży tę war­tość zmo­dy­fi­ko­wać i ja­ko „Dane war­to­ści” po­dać:

Googlebot/2.1 (+http://www.googlebot.com/bot.html)

Chrome

W Chrome ist­nie­ją dwa spo­so­by na zmia­nę User Agenta. Można to zro­bić na sta­łe mo­dy­fi­ku­jąc plik chrome.dll za po­mo­cą edy­to­ra hek­sa­de­cy­mal­ne­go lub też moż­na wy­ko­nać zmia­nę chwi­lo­wą. Opiszę tu­taj spo­sób dru­gi, któ­ry jest ła­twiej­szy a za­ra­zem czę­ściej wy­ko­rzy­sty­wa­ny. Jednak je­śli zaj­dzie ta­ka po­trze­ba i w ko­men­ta­rzach znaj­dą się proś­by o po­ka­za­nie jak wy­ko­nać zmia­nę w chrome.dll to uzu­peł­nię wpis.

Tak więc aby wy­ko­nać chwi­lo­wą zmia­nę User Agent, na jed­no uru­cho­mie­nie, na­le­ży sko­rzy­stać z wier­sza po­le­ceń sys­te­mu Windows (uru­chom: cmd).

Gdy już ma­my przed so­bą com­mand li­ne mu­si­my przejść do ka­ta­lo­gu Google Chrome. Domyślnie prze­glą­dar­ka jest za­in­sta­lo­wa­na w ka­ta­lo­gu:

%HomePath%AppDataLocalGoogleChromeApplication

W tym ce­lu wpi­su­je­my w wiersz po­le­ceń ko­men­dę:

cd „%HomePath%AppDataLocalGoogleChromeApplication”

za­twier­dza­jąc przy­ci­skiem  Enter. Następnie na­le­ży wy­ko­nać po­le­ce­nie:

chro­me –user-agent=” Googlebot/2.1 (+http://www.googlebot.com/bot.html)”

Efekty po­win­ny być wi­docz­ne tak sa­mo jak w po­zo­sta­łych prze­glą­dar­kach.

Aby nie być go­ło­słow­nym przed­sta­wiam scre­en­shot wy­ko­na­ny pod Operą, na któ­rym wi­dać, że po drob­nej zmia­nie, do­stęp­ny jest ca­ły wpis:

Strona przed mo­dy­fi­ka­cją i po mo­dy­fi­ka­cji UAString

Nie wszyst­ko zło­to, co się świe­ci

We wpi­sie tym po­ka­za­łem jak wy­ko­rzy­stać Googlebota. Jednak frag­ment do­ty­czą­cy zmian User Agentów w prze­glą­dar­kach mo­że Wam po­słu­żyć ja­ko ma­ły in­struk­taż wła­śnie do zmian w na­głów­kach prze­glą­da­rek. Wcale nie jest po­wie­dzia­ne, że mu­si­cie tam wpi­sy­wać UAString Googlebota. Może bę­dzie­cie chcie­li zmie­nić iden­ty­fi­ka­tor Waszej prze­glą­dar­ki na in­ną, wte­dy rów­nież mo­że­cie kie­ro­wać się tym wpi­sem. Pamiętajcie jed­nak, że zmia­na UAStringów po­mi­mo wie­lu swo­ich za­let nie­sie za so­bą kil­ka  za­gro­żeń. Podstawowym z nich jest fakt, że wie­le stron zo­sta­ło na­pi­sa­nych w kil­ku wer­sjach przy­go­to­wa­nych dla kil­ku prze­glą­da­rek. Tak więc zmie­nia­jąc iden­ty­fi­ka­tor mo­że­my na­tra­fić na nie­ocze­ki­wa­ne pro­ble­my. Może to być na przy­kład zmia­na bu­do­wy stro­ny, któ­ra w efek­cie unie­moż­li­wia nam ko­rzy­sta­nie z da­nej wi­try­ny. Najczęściej dzie­je się tak gdy zmie­ni­my nasz iden­ty­fi­ka­tor na User Agent urzą­dzeń mo­bil­nych (iden­ty­fi­ka­tor prze­glą­dar­ki na sys­te­my mo­bil­ne, ta­kie jak Android, BadaOS, BlackBerry OS, iOS, Symbian, Windows Mobile/Phone). Zdarza się jed­nak też, że wła­śnie zmia­na iden­ty­fi­ka­to­ra na któ­re­go­kol­wiek bo­ta, rów­nież wy­wo­łu­je pro­ble­my. Tak więc na­le­ży pa­mię­tać o ty­mi zda­wać so­bie z te­go spra­wę, a zmie­nio­ny UAString uży­wać tyl­ko wte­dy, kie­dy jest to na­praw­dę ko­niecz­ne.

Spodobał Ci się ten wpis? Podziel się nim: