Jump to content
Ard-Sc

Aantal pagina's website

Recommended Posts

Is er een hulpmiddel om het aantal pagina's waaruit een website bestaat te tellen?

 

Het gaat om het bepalen van het aantal pagina's van een omvangrijke website.

 

Ter verduidelijking een voorbeeld: www.belastingdienst.nl

 

Hoe kom je erachter uit hoeveel pagina's deze website is opgebouwd.

 

Thnx voor de input.

Link to post
Share on other sites

wat je snel kunt zien is het aantal url's dat google geindexeerd heeft

 

gebruik in google het commando site: gevolg door de url van het domein

 

belastingdienst heeft dit tot gevolg met 217.000 pagina's

 

Dit heeft wel beperkingen en is niet 100% zuiver maar geeft wel een aardige indicatie

 

Link to post
Share on other sites

wat je snel kunt zien is het aantal url's dat google geindexeerd heeft

 

gebruik in google het commando site: gevolg door de url van het domein

 

belastingdienst heeft dit tot gevolg met 217.000 pagina's

 

Dit heeft wel beperkingen en is niet 100% zuiver maar geeft wel een aardige indicatie

 

 

met WWW werkt niet zo goed.

Link to post
Share on other sites

Dank jullie voor je reacties.

 

Als ik er inhoudelijk naar kijk wordt het lastig, volgens de ene methode dik 200.000 pagina's, de andere 18.000 ...

Ik zie dat er allerhande zoekresultaten inzitten die niet van de belastingdienst zijn.

 

Deze "telmethode" is dus voor deze toepassing niet geschikt. Er mag best een afwijking zijn van een paar % maar dit is voor mij helaas niet bruikbaar.

 

Hopelijk nog andere input.

 

Link to post
Share on other sites

is het een eigen url? (kun je op de server?) Dan kan je systeem admin het wel automatisch tellen

Nee. Ik moet het doen via internet.

 

De website is van een kaliber zoals de BD (of Wehkamp). Handmatig niet aan te beginnen om dat te tellen i.v.m. het vierkante ogen syndroom. Ben dus op zoek naar een geschikte (zo betrouwbaar mogelijke) tool.

Link to post
Share on other sites
Deze "telmethode" is dus voor deze toepassing niet geschikt. Er mag best een afwijking zijn van een paar % maar dit is voor mij helaas niet bruikbaar.

 

Paar procent gaat niet lukken denk ik. De definitie van 'een pagina' is om te beginnen al niet zuiver. Een url met een productoverzicht biedt meestal een sorteer mogelijkheid. Telt iedere sorteeroptie als aparte pagina? Dezelfde pagina heeft de optie om 5, 10 of 25 resultaten per pagina te tonen. Is iedere optie een aparte pagina? Printfunctie toont een pagina in een popup voor afdruk. Aantal pagina's van de site ineens verdubbeld. Een site heeft een kalender staan, klik je op de volgende maand dan ververst de pagina om die maand te tonen. Je ziet dus tweemaal dezelfde pagina met als enige verschil een andere maand in de kalender. En ga zo maar door.

Link to post
Share on other sites
Maar stel dat jij zou willen bepalen uit hoeveel pagina's de site van de BD bestaat en je moet het van buitenaf doen, welke telmethode zou je dan hanteren?

 

Grove schatting: siteexplorer van Yahoo zoals genoemd.

 

Voor een echte telling eerst een definitie van pagina opstellen en dan zoiets proberen:

 

- misschien hebben ze een sitemap voor google met alle unieke pagina's

- zoekfunctie misbruiken en zoeken op de/het/een en unieke url's of titles tellen

- zelf crawlen / spideren met bijvoorbeeld wget (tooltje om sites te clonen) of een eigen spider

- site: zoekfunctie van google met verschillende zoekwoorden, levert iets betere resultaten als zonder zoekwoord (helaas is het geautomatiseerd gebruik van google wat beperkt tegenwoordig)

- als ze urls als index.php?index= gebruiken alle urls van 1 tot een miljoen opvragen

- kijken welk cms / blog ze gebruiken en kijken of daar structuur in zit

 

Nogal afhankelijk van de site dus.

 

Bedenk me nu dat je met je vraag ook mijn definitie van 'pagina' kunt bedoelen. Zo ja, roep even ;)

Link to post
Share on other sites

"vroeger" toen alle websites nog gewoon 100% HTML waren met wat CGI-scriptjes, kon je je nog afvragen "hoeveel pagina's heeft deze website" en daar een duidelijk, redelijk nauwkeurig antwoord op krijgen.

 

Tegenwoordig kan dit echt niet meer! Veel pagina's worden dynamisch gegenereerd. Je kan in webshops zoeken naar producten, de resultaten (of categoriën) sorteren op naam, prijs, het aantal resulaten per pagina instellen... zijn dat allemaal pagina's? Nee! Maar 1 pagina kan wel uit veel schillende achterliggende bestanden bestaan. Daarnaast, met nieuwe technieken als 'ajax' heeft 1 URL ook niet altijd dezelfde inhoud!!!

 

De relatie directe relatie tussen een bestand op de server en een webpagina, die is er niet meer!

 

Neem bijvoorbeeld mijn website http://www.agendavoorondernemers.nl. Je kan in de kalender steeds een maand verder gaan, tot in het oneindige! (eigenlijk tot december 2030 om technische redenen ;)) .. maar ik heb echt niet elke pagina geschreven! Je zou dus kunnen zeggen dat mijn site een oneindig aantal pagina's heeft!

 

De vraag uit hoeveel pagina's een website bestaat is mijns inziens een onzinnige (no offence).

 

Groet,

 

AgendaVoorOndernemers

 


Alle evenementen voor ondernemers online: http://www.agendavoorondernemers.nl

Seminars, beurzen, congressen, workshops over onderwerpen die jou als ondernemer aanspreken.

Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now

  • Bring your business plan to a higher level!

    All topics related to entrepreneurship are discussed on this forum.

    • Ask your entrepreneur questions
    • Answers / solutions from fellow entrepreneurs
    • > 65,000 registered members
    • > 100,000 visitors per month
    •  Available 24/7 / within <6 hours of response
    •  Always free

  • Who's Online

    Er zijn 8 leden online en 143 gasten

    (See full list)    
  • Also interesting:

  • Ondernemersplein



EN

×

Cookies on HigherLevel.nl

Cookies are necessary for Higherlevel.nl to function properly. By using HigherLevel.nl you declare to have read and accepted our terms and conditions.

 More information   I accept