• 2025-04-23

Definícia Web Spidering a Web Crawlers

Ciclo del defin

Ciclo del defin

Obsah:

Anonim

Pavúky sú programy (alebo automatizované skripty), ktoré „prechádzajú“ cez web a hľadajú údaje. Pavúky cestujú cez adresy URL webových stránok a môžu sťahovať údaje z webových stránok, ako sú e-mailové adresy. Pavúky sa tiež používajú na informovanie vyhľadávačov na webových stránkach.

Pavúky, ktoré sa tiež označujú ako „prehľadávače na webe“, vyhľadávajú na webe a nie všetky sú v ich úmysle priateľské.

Spameri Spider Websites zhromažďovať informácie

Google, Yahoo! a iné vyhľadávače nie sú jediní, ktorí sa zaujímajú o prehľadávanie webových stránok - tak sú podvodníci a spameri.

Pavúky a iné automatizované nástroje používajú spameri na vyhľadávanie e-mailových adries (na internete sa táto prax často označuje ako „zber“) na webových stránkach a potom ich používa na vytváranie spamových zoznamov.

Pavúky sú tiež nástrojom, ktorý vyhľadávače používajú na to, aby zistili viac informácií o vašej webovej stránke, ale ponechali bez kontroly, webovú stránku bez inštrukcií (alebo „oprávnení“) o tom, ako prehľadávať vaše stránky, ktoré môžu predstavovať hlavné riziká bezpečnosti informácií. Pavúky cestujú nasledujúcimi odkazmi a sú veľmi dobrí v hľadaní odkazov na databázy, programové súbory a ďalšie informácie, ku ktorým nemusíte mať prístup.

Webmasteri môžu zobraziť protokoly, aby videli, čo ich pavúky a iné roboty navštívili. Tieto informácie pomáhajú webmasterom vedieť, kto ich indexuje a ako často.

Táto informácia je užitočná, pretože umožňuje správcom webu doladiť svoje súbory SEO a aktualizovať súbory robot.txt, aby zakázali určitým robotom prehľadávať ich stránky v budúcnosti.

Tipy na ochranu vašich webových stránok z nežiaduce Robot Crawlers

Tam je pomerne jednoduchý spôsob, ako udržať nežiaduce prehľadávače z vašich webových stránok. Dokonca aj keď sa nezaujímate o škodlivých pavúkov, ktorí prehľadávajú vaše stránky (zahanbujúca e-mailová adresa vás nebude chrániť pred väčšinou prehľadávačov), mali by ste stále potrebovať poskytovať vyhľadávače dôležité pokyny.

Všetky webové stránky by mali mať súbor umiestnený v koreňovom adresári s názvom súbor robots.txt. Tento súbor vám umožňuje inštruovať webové prehľadávače, v ktorých chcete, aby sa pozreli na indexové stránky (pokiaľ nie je v metaúdajoch konkrétnej stránky uvedené inak ako indexované), ak ide o vyhľadávací nástroj.

Rovnako ako môžete povedať, že vyhľadávané prehľadávače, kde chcete, aby prechádzali, môžete tiež povedať, kde nemusia ísť a dokonca blokovať konkrétne prehľadávače z celej webovej stránky.

Je dôležité mať na pamäti, že dobre zostavený súbor robots.txt bude mať pre vyhľadávače obrovskú hodnotu a mohol by byť aj kľúčovým prvkom pri zlepšovaní výkonnosti vašich webových stránok, ale niektoré robotické prehľadávače budú stále ignorovať vaše pokyny. Z tohto dôvodu je dôležité neustále aktualizovať všetok softvér, doplnky a aplikácie.

Súvisiace články a informácie

V dôsledku prevalencie zberu informácií, ktorý sa používa na hanlivé (spam) účely, boli v roku 2003 prijaté právne predpisy, aby sa určité praktiky stali nezákonnými. Tieto zákony na ochranu spotrebiteľa spadajú pod zákon o CAN-SPAM z roku 2003.

Je dôležité, aby ste si našli čas na prečítanie zákona o SPAM-SPAM, ak sa vaša spoločnosť zaoberá hromadným zasielaním alebo zberom informácií.

Môžete sa dozvedieť viac o zákonoch proti spamu a o tom, ako sa vysporiadať so spamermi, a čo nemusíte robiť ako vlastník firmy.

  • CAN-SPAM Act 2003
  • CAN-SPAM Zákon pre neziskové organizácie
  • 5 Pravidlá CAN-SPAM Majitelia malých podnikov potrebujú porozumieť

Zaujímavé články

Minimálne mzdové sadzby a informácie v New Yorku

Minimálne mzdové sadzby a informácie v New Yorku

Naučte sa súčasnú minimálnu mzdovú sadzbu v štáte New York, keď zamestnanci môžu byť platení menej, než je minimálna mzdová história NY, a plánované zvýšenie.

Informácie o práci špecialistu na bezpečnosť NFL

Informácie o práci špecialistu na bezpečnosť NFL

V NFL existujú pracovné príležitosti v oblasti trestnej justície. Naučte sa, ako môžete udržať svoj tím v bezpečí a pracovať ako bezpečnostný špecialista NFL.

Nočná letecká regulácia pre pilot VFR

Nočná letecká regulácia pre pilot VFR

Tu je rýchly kontrolný zoznam, aby ste sa uistili, že ste legálne lietať v noci, vrátane pilotnej meny, vybavenia lietadla a špecifických operácií.

Čo je NextGen? História a vrcholy

Čo je NextGen? História a vrcholy

NextGen: Čo je to? Tento program FAA bol vyvinutý s cieľom modernizovať súčasný národný systém vzdušného priestoru s pomocou celého priemyslu.

Deväť-Box Matrix pre plánovanie nástupníctva a rozvoj

Deväť-Box Matrix pre plánovanie nástupníctva a rozvoj

Naučte sa usmernenia a osvedčené postupy pre používanie výkonnostnej a potenciálnej deväť-boxovej maticovej metódy pre plánovanie a vývoj nástupníctva.

Politická diskusia na pracovisku

Politická diskusia na pracovisku

Odrádzať od politickej diskusie v práci, aby sa zachovala harmónia, rozmanitosť a vzťahy so spolupracovníkmi, ktorí potrebujú spoločne dosahovať výsledky.