Handledning från Semalt om hur man skraper mest kända webbplatser från Wikipedia

Dynamiska webbplatser använder robots.txt-filer för att reglera och kontrollera alla skrapningsaktiviteter. Dessa webbplatser skyddas av webbskrapsvillkor och policyer för att förhindra bloggare och marknadsförare från att skrapa sina webbplatser. För nybörjare är webbskrapning en process att samla in data från webbplatser och webbsidor och spara och sedan spara dem i läsbara format.

Att hämta användbar data från dynamiska webbplatser kan vara en besvärlig uppgift. För att förenkla processen för utvinning av data använder webbansvariga robotar för att få nödvändig information så snabbt som möjligt. Dynamiska webbplatser består av ”tillåtna” och ”avvisa” -direktiv som säger robotar där skrotning är tillåten och var inte.

Skrapa de mest kända platserna från Wikipedia

Denna handledning täcker en fallstudie som genomfördes av Brendan Bailey på skrotningsplatser från Internet. Brendan började med att samla en lista över de mest potenta webbplatserna från Wikipedia. Brendans främsta mål var att identifiera webbplatser som är öppna för utvinning av webbdata baserade på reglerna för robot.txt. Om du ska skrapa en webbplats kan du överväga att besöka webbplatsens användarvillkor för att undvika brott mot upphovsrätten.

Regler för att skrapa dynamiska webbplatser

Med verktyg för utvinning av webbdata är skrapning av webbplatser bara en fråga om klick. Den detaljerade analysen av hur Brendan Bailey klassificerade Wikipedia-webbplatserna och kriterierna han använde beskrivs nedan:

Blandad

Enligt Brendans fallstudie kan de mest populära webbplatserna grupperas som blandade. På cirkeldiagrammet representerar webbplatser med en blandning av regler 69%. Googles robots.txt är ett utmärkt exempel på blandade robots.txt.

Komplett tillåt

Komplett Tillåt, å andra sidan, markerar 8%. I det här sammanhanget betyder Komplett tillåt att webbplatsen robots.txt-fil ger automatiserade program åtkomst till att skrapa hela webbplatsen. SoundCloud är det bästa exemplet att ta. Andra exempel på kompletta tillåtna webbplatser inkluderar:

  • fc2.comv
  • popads.net
  • uol.com.br
  • livejasmin.com
  • 360.cn

Inte inställd

Webbplatser med "Not Set" stod för 11% av det totala antalet som presenteras i diagrammet. Not Set betyder följande två saker: antingen webbplatserna saknar robots.txt-fil, eller webbplatserna saknar regler för "User-Agent." Exempel på webbplatser där robots.txt-filen är "Not Set" inkluderar:

  • Live.com
  • Jd.com
  • Cnzz.com

Komplett Disallow

Komplett Disallow-webbplatser förbjuder automatiserade program att skrapa sina webbplatser. Linked In är ett utmärkt exempel på Complete Disallow-webbplatser. Andra exempel på kompletta disallow-webbplatser inkluderar:

  • Naver.com
  • Facebook.com
  • Soso.com
  • Taobao.com
  • T.co

Webskrapning är den bästa lösningen för att extrahera data. Men genom att skrapa vissa dynamiska webbplatser kan du få stora problem. Denna handledning hjälper dig att förstå mer om robots.txt-filen och förhindra problem som kan uppstå i framtiden.

mass gmail