WEB-Robotok -- [Crawler] - [Bot]

2013.05.22. 21:18

 Ajánlotta:MarceeForrás: phpbb.hu

 Módosította:Papa1724
 Ajánlott verzió:3.0.11
 Tartalom:973 db. [Bot]

  
robotok.zip


Note:


Ma már el lehet mondani, hogy nem az információ hiánya jelenti a nagyobb problémát, hanem a szükséges ismeretnek az egyre nagyobb internetes információhalmazban való megtalálása. Erre a megoldást a Web-Robotok jelentik.

A web robotok, vagy ügynökök olyan számítógépes programok, melyeknek célja az Internet oldalain történő jóindulatú adat gyűjtés vagy keresés. Jellemzi őket az önállóság, és a rekurzivitás.
Önállóság – bizonyos előre meghatározott korlátok között a működésüket emberi beavatkozás és irányítás nélkül végzik.
Rekurzivitás – egy adott pontról kiindulva, képesek bejárni az összes olyan oldalt, mely a kiindulási ponttal közvetlen kapcsolatban áll, majd képesek a kapcsolt oldalt mint kiindulási pontot tekinteni és a folyamatot egészen addig folytatni, amíg valamilyen kilépési feltétel érvényre nem jut.

Működésükre nagyon sok leírás található az interneten, de ami a lényeges, használata a számunkra kétirányú.
Egyrészt számunkra hasznos, amikor keresünk valamit, mert a böngészők keresője az ilyen web-robotok által létrehozott, és folyamatosan frissített adatbázist használják.
Másrészt amikor valaki más beír egy kulcsszót a keresőbe, a robotok által indexel adatok között megtalálják a mi oldalunkat is, ahol számukra fontos, vagy érdekes dolgokat találhatnak. Ezzel a módszerrel sok ember megtalálhatja az oldalunkat a böngészők keresőjében akkor is, ha egyébként nem reklámozzuk sehol.

Azt viszont tudni kell, hogy ha szeretnénk kereső-indexelő robotokat látni az oldalunkon, pár feltételt biztosítani kell a számukra.
  • Először is engedélyezni kel a robotoknak az oldal megtekintését.
    Ezt a styles/megjelenésünk/template/overall_header.html fájlban tehetjük meg a megfelelő META TAG-ek alkalmazásával (a neten van erre százezer számmal leírás). Több megjelenés használata esetén elegendő az elsődleges megjelenésnél megoldani, hiszen a robotok nem fognak kinézetet váltani, csak az elsődlegest használják. Viszont arra ügyeljünk, hogy ne legyen túl bonyolítva, mert ez csak erősen ronthat a helyzeten.

    Igazából annyi is elegendő, hogy NE legyen tiltva a robotok indexelése (pontosabban jobban járunk, ha nem teszünk be semmit, úgy hagyjuk ahogy van!).

    Valójában sokkal fontosabb a két META TAG megfelelő használata:

    Kód:
    <META NAME="keywords" CONTENT="kulcsszavak, elhelyezése, kisbetűvel, és, vesszővel, elválasztva, xxx, xxx" />
    <META NAME="description" CONTENT="A fórum 'leírása' röviden, de lehetséges, itt, is, kulcsszavakat, használni, kisbetűvel, és, vesszővel, elválasztva, xxx, xxx" />

  • A másik fontos feladat, hogy a robotoknak szabad mozgási lehetőséget biztosítsunk akkor is, ha nincsenek beregisztrálva. Ugyanis nem mindegyik robot tud az oldalunkon indexelni akkor, ha vendégként nincs engedélyezve az oldalunk láthatása. A be nem regisztrált robotok jó része ilyenkor csak vendégként tud benézni az oldalunkra, és ha a vendégeknek egyáltalán nincs rálátási lehetőségük, a robotok jó része is így jár.
  • Ezt a problémát oldja meg (részben) ez az egyszerű MOD, mivel nagyon sok robotot gyorsan beregisztrál az oldalra. Innentől kezdve már csak annyi a dolgunk, hogy mindenhol engedélyezzük a robot-hozzáférést úgy a fórumokban (alfórumokban), mint a topikokban, és egyéb helyeken (kivéve, ahol kifejezetten nem akarjuk).
Természetesen mindenki a saját belátása szerint vélekedik, és használja - nem használja ki a web-robotok adta lehetőséget. Aki "idegenkedik" ennek használatától, vagy az oldalának jellege olyan, az akár le is tilthatja, hogy az oldalára robotok egyáltalán benézhessenek.
Aki viszont szeretné saját előnyére fordítani ezt a lehetőséget, érdemes ezt a fájlt feltölteni, és lefuttatni.

A csomag egyetlen fájlt tartalmaz robotok.php néven. Tartalma (jelenleg!) 973 robot beregisztrálása a fórumunk adatbázisába az "users" táblába aktív állapotban, felírása a "bots" táblába, valamint elhelyezése a Robotok felhasználói csoportba.
Ez a telepítő program nem töröl semmit, nem hoz létre sem új táblákat, sem új oszlopokat az adatbázisban.
Csak az új, az oldalon még nem regisztrált robotokat teszi fel, az oldalunkon már meglévő robotokhoz sem nyúl hozzá, azokat sem írja újra, egyszerűen átlépi, ha már fenn van az adatbázisban.
Így, ha véletlen később újra lefuttatjuk, semmi sem fog történni, semmi probléma nem lesz belőle.

Egy kis php ismerettel, egy kis odafigyeléssel mi magunk is módosíthatjuk a robotok.php tartalmát.
Egy ilyen sor egy robot fontos adatait tartalmazza:

Kód:
'user name (a robot neve)'         => array('user agent (ügynöki meghatározás)', 'A Robot IP-címe'),

Egy-egy robot beregisztrálásánál két fontos adatra van szükségünk:
  • User name (a robot neve):
    • Nem kizáró tényező, de ajánlott lehetőség szerint megtartani az eredeti nevet.
  • User agent (ügynöki meghatározás)
    • Ez egy fajta kliens azonosító, mely alapján azonosítja magát a robot, és így a hozzá megadott név megjelenik számunkra, így láthatjuk, hogy a robot az oldalunkon járt (vagy még ott van). Bár részleges illeszkedés használható, de ezt pontosan ajánlott megadni a keresőrobot adatlapja szerint, különben lehetséges, hogy nem fog megjelenni a listánkon, és nem látjuk, hogy az oldalon jár (legfeljebb a vendég látogatók száma eggyel több lesz).
  • A Robot IP-címe
    • Ezt a rész jobb, ha üresen hagyjuk. Bár itt is lehetséges a részleges azonosítás, megadhatunk akár több IP címet is, de manapság sok robot egyszerre több IP címet is használ, és ha nem az általunk megadottról néz be az oldalra, megint csak előfordulhat, hogy nem látjuk.
Ez a lista sem teljes, és nem 100%-os, mert egyrészt változnak, főleg sokasodnak az ilyen jellegű robotok, másrészt időnként változik az "user agent" meghatározás is a saját oldalán történt esetleges változások következtében.
Nem mellékesen még mindig nincs (és talán nem is lesz) egységes lista, vagy adatbázis, ezért sok helyen egészen más adat van megadva egyes robotok "user agent"-jaként.

Viszont ez a program félig letörölt, vagy hiányos adatú robotot helyre állítani nem tud! És nem tud módosítani sem az adatokban történt esetleges változáskor, módosításkor.

Ezért érdemes ellenőrizni, hogy a "bots" táblában, az "users" táblában, az "user_group" táblában, és "robotok" csoportban is ugyanannyi robotnak kell lennie.
Ezt úgy tudjuk leellenőrizni, megnézzük az AVP-be, hogy a Robotok csoportba mennyi tagot jelez.
Ezután be kell lépni phpMyAdmin felületünkre, és megnyitni az adatbázisunkat.
  • Legelőször nézzük meg a "bots" táblát (alap esetben: "phpbb_bots").
      Futtassul le a következőt SQL parancsot:

      Kód:
      SELECT COUNT(*) FROM phpbb_bots
  • Nézzük meg az "users" táblát (alap esetben: "phpbb_users").
      Futtassul le a következőt SQL parancsot:

      Kód:
      SELECT COUNT(*) FROM phpbb_users WHERE group_id = 6
  • Nézzük meg az "user_group" táblát (alap esetben: "phpbb_user_group").
      Futtassul le a következőt SQL parancsot:

      Kód:
      SELECT COUNT(*) FROM phpbb_user_group WHERE group_id = 6
Mindhárom esetben ugyanazt az értéket kell kapnunk, mint ahány tagja van a Robotok csoportnak!
Ha valamelyik valahol hiányzik, az a robot nem fog rendesen működni az oldalunkon, az is elképzelhető, hogy egyáltalán belépni sem tud, legfeljebb vendégként, amit megint csak nem láthatunk.
Érdemes kibogarászni, melyik az a robot, de mivel nincsen helyreállító progi, javasolt kitörölni.
A robotok.php-t megnézhetjük szerkesztővel, és ha az a robot benne van a listában, akkor le lehet újra futtatni, berakja rendesen a helyére, és csak azt!.

Robotok törlése:

Amennyiben ez jelezve van, ajánlott a robotok.php futtatása előtt letörölni az összes fenn lévő robotot, mivel nem csak új robotok vannak benne, hanem soknál változhatott, frissült az user_agent meghatározás is.

Frissített, módosított robotok.php telepítése esetén:
  • A már fenn lévő, adott nevű robotok adataihoz nem nyúl, hanem átlépi. Így az abban történt módosítás nem fog érvényesülni.
  • Ha megváltoztatjuk a robot nevét (user name), akkor fel fogja tenni új robotnak a megfelelő adatokkal, de ott marad a régi is teljesen feleslegesen, ráadásul nem biztos, hogy jót teszünk a név megváltoztatásával!
Ezért ajánlott inkább az összes robotot először törölni az oldalról, majd utána a friss robotok.php fájlt telepíteni. Ez nem befolyásolja a robotok látogatását, max. erre a kis időre nem lesz dokumentált adatunk arról, hogy az oldalon jártak. Ráadásul még kezdő, vagy kevésbé gyakorlott felhasználóknak is 5 perc alatt megvan a teljes törlés az újra telepítéssel együtt!

A robotokat törölni az oldalunkról akár egyenként, akár egyszerre többet, vagy akár egyszerre mindet, az AVP-ből lehet.
Lépjünk be az AVP-be:
  1. Az általános fülön bal oldalt megtaláljuk a (Kereső)robotok menüpontot, klikk rá.
  2. A bejövő ablakban választhatunk, a jobb szélső kockát egyenként kijelöljük (ha csak egy, vagy pár robotot akarunk törölni, vagy legalul a jobb oldalon klikkelünk az Összes kijelölése opcióra.
    Újra menjünk le a legaljára, majd görgessük le a választható menüpontot, és jelöljük be a Törlés opciót, majd klikk az Elküld gombra. A kijelölésnek megfelelően törlődnek a Robotok a rendszerből.
  3. Klikk a visszatérés lehetőségre, majd az Általános fülre, és ott középen futtassuk le a Statisztika újraszinkronizálása, majd a Gyorsítótár kiürítése menüpontot.

Ezzel kész is vagyunk, vissza léphetünk a fórumba, az összes robot törölve lett az oldalunkról.

Ha mindezt azért tettük meg, hogy a régiektől megszabadulva tisztán telepíthessük fel a robotokat, akkor ezután nyugodtan lehet futtatni a robotok.php fájlt a lentebb írt telepítési útmutató alapján.

Robotok telepítése:

  • Mint mindig egy MOD telepítésénél, vagy olyan változtatásnál, ami az adatbázist is érinti, mindenképpen készítsünk biztonságból egy teljes adatbázis mentést.

  • Töltsük fel a robotok.php fájlt az oldalunkra a fórum gyökér könyvtárába.

  • Valamelyik böngészőből futtassuk le a fájlt:

    Kód:
    http://oldalad.tld/robotok.php

  • Ha rendben lefutott, egy üres ablakban A telepítés kész, a fájl törölhető, és beléphetsz a fórumodba üzenetet kapsz.
  • Ekkor lépjünk be az AVP-be az Általános fülre, és ott középen futtassuk le a Statisztika újraszinkronizálása, majd a Gyorsítótár kiürítése menüpontot. Ezután letörölheted a robotok.php fájlt az oldaladról, és visszaléphetsz a fórumodba, készen van! :)
Nincs meg a kellő jogosultságod a hozzászóláshoz csatolt állományok megtekintéséhez.