• 0

De wegen van Google zijn ondoorgrondelijk…

Beste mede HL'ers,

 

Althans voor mij zijn zij nogal ondoorgrondelijk. Is er iemand die in "mensentaal" kan uitleggen hoe al deze getallen zich tot elkaar verhouden (want ik begrijp 'em niet helemaal):

 

Van een dynamische website van mij (PHP/MySQL applicatie) wordt er op dit moment ruim 13.000 URL's verzonden naar Google (via de sitemap).

Circa 3.000 URL's zijn geïndexeerd.

Dat allemaal volgens de 'Dashboard' in de 'Search Console' van Google. In de database zijn er op dit moment ook circa 13.000 records, dus dat lijkt ook wel redelijk te kunnen kloppen (in de ogen van deze leek).

 

Bij "indexeringsstatus" (ook in de Search Console) staat vermeld dat er circa 9.000 URL's in totaal geïndexeerd zijn, dus toegevoegd aan de index van Google.

 

Als je (bijvoorbeeld door "site:www.xxxxx.nl" in te tikken) bij de zoekresultaten in Google kijkt, dan vind je zo'n 100 pagina's terug.

 

 

Weet iemand hoe deze getallen nou in elkaar 'hangen'?

 

Wat betekent het in de praktijk dat pagina's "geïndexeerd zijn", hoewel zij niet in de zoekresultaten naar voren komen? Dat zij bekeken zijn maar niet interessant genoeg gevonden worden misschien…

 

Wat zal het verschil zijn tussen die 9.000 geïndexeerde pagina's bij de "indexeringsstatus" en de 3.000 geïndexeerde pagina's bij de "dashboard"? Zijn er misschien 6.000 'oude' URL's, dus pagina's van records die op dit moment niet meer verzonden worden (want dat zou ook best kunnen – de inhoud van de database is nogal veranderlijk)…

 

 

Leuk als iemand hier verstand van heeft! (Ook is het wel een beetje technisch allemaal)

 

Peter

 

 

Link naar reactie

Aanbevolen berichten

  • 0

In de database zijn er op dit moment ook circa 13.000 records, dus dat lijkt ook wel redelijk te kunnen kloppen (in de ogen van deze leek).

[…]

Zijn er misschien 6.000 'oude' URL's, dus pagina's van records die op dit moment niet meer verzonden worden (want dat zou ook best kunnen – de inhoud van de database is nogal veranderlijk)…

Dat laatste moet je éérst controleren, alleen al voor de kwaliteitsscores: noemt de sitemap URL's die niet meer bestaan, niet langer relevant zijn, een opvolger kregen, enzovoort?

 

Link naar reactie
  • 0

Allicht heb je URL parameters die zorgen voor ogenschijnlijk dubbele content. Dat dus eenzelfde pagina 2 of 3 keer voorkomt, maar dan met een URL parameter. Die kun je ook uitschakelen, als dat het geval is. In Search Console van Google kun je URL parameters opgeven die Google dient te negeren. Allicht richt dat iets uit?

 

Dan heb je nog de mogelijkheid, dat je content aan de gebruiker biedt via www. en zonder www.. Het is aan te bevelen 1 van beide te kiezen en de rest 301 te redirecten. Zelfde is van toepassing voor http:// en https://

 

Je sitemap stuurt waarschijnlijk dan wel slechts 1 in, maar de content staat op meerdere. Daardoor heb je dan dat niet de hele sitemap geïndexeerd is, maar wel pagina's geïndexeerd staan, die niet in de sitemap voorkomen.

 

Ik hoop dat deze suggesties je helpen. Ben benieuwd of ik goed gok met deze mogelijkheden. Verder zou ik ook zo niets kunnen bedenken.

Link naar reactie
  • 0

Hoe kom je dan van 13.000 records op 9.000 URL's?

(Bij URL-parameters zou je een tegenovergesteld effect zien: veel meer URL's dan records.)

 

Schuilt in dat verschil een logica die Google ook zou kunnen volgen om die 9.000 vervolgens tot 3.000 te reduceren?

 

Mijn eerste ingeving zou dan namelijk zijn dat veel content "meer van hetzelfde" is. Dat maakt het dan niet per se duplicate content, maar wel een massa content waarin de meer relevante pagina's het van de minder relevante gaan winnen. Bijvoorbeeld op zoekvolume of anciënniteit.

 

 

Link naar reactie
  • 0

Er zijn 13.000 records (op dit moment) in de database, dat is een feit.

Dat zijn 13.000 artikelen die "te koop" zijn bij diverse leveranciers.

 

De sitemap neemt de titel van deze 13.000 records en stuurt dit (als URL) naar Google. Dat is ook een feit en dat staat ook in de Dashboard (Search Console).

 

Google indexeert (op dit moment) dus 3.000 van deze URL's, wat dat nou precies inhoudt (dat weet ik dus niet precies - zij verschijnen in ieder geval niet met z'n allen in de zoekresultaten).

 

Uiteraard kunnen er meerdere records zijn met (bijna) dezelfde titel, want er zijn meerdere aanbieders van hetzelfde product (soms met verschillende prijzen, soms met andere verschillen, soms bijna hetzelfde). Dat is geen 'duplicate content', maar Google zou best kunnen denken "die heb ik al eerder gehad...!" of dergelijke.

 

En dan zijn er kennelijk 6.000 URL's die eerder door Google geïndexeerd zijn maar die nu niet meer voorkomen in 'het assortiment'. Maar ik weet dus niet zeker of het werkelijk zo werkt. Vandaar deze post trouwens.

Ook weet ik niet of dit veel uitmaakt. Lijkt mij erg lastig om te proberen om elk product die niet meer (soms tijdelijk) niet te koop is uit het index van Google te krijgen...

 

En het zou natuurlijk fijn zijn als Google alle 13.000 records zou indexeren en nog beter in de zoekresultaten weergeven, maar dat lijkt mij hoog gegrepen.

Dat zal ook niet in een keer kunnen lijkt mij. Op dit moment dus (volgens de Dashboard) 3.000 records.

 

Waarvan dus 100 in de zoekresultaten verschijnen.

 

 

 

 

Link naar reactie
  • 0
Hoe kom je dan van 13.000 records op 9.000 URL's?

(Bij URL-parameters zou je een tegenovergesteld effect zien: veel meer URL's dan records.)

 

Schuilt in dat verschil een logica die Google ook zou kunnen volgen om die 9.000 vervolgens tot 3.000 te reduceren?

 

Mijn eerste ingeving zou dan namelijk zijn dat veel content "meer van hetzelfde" is. Dat maakt het dan niet per se duplicate content, maar wel een massa content waarin de meer relevante pagina's het van de minder relevante gaan winnen. Bijvoorbeeld op zoekvolume of anciënniteit.

 

Simpel, wat hij al aangeeft er zijn 3000 uit sitemap geïndexeerd. Als alle pagina's via www. en zonder www. geïndexeerd zouden staan, zit je al op 6000. Pak je ook nog https:// en http:// erbij, verdubbelt het naar 12000. Zelfde idee voor URL parameters. Dat is natuurlijk te zwart wit, omdat de kans klein is, dat alle varianten een zelfde crawl rate etc hebben. Dat zal niet zo zijn. Vandaar dat het dan niet vreemd is. Je hebt dan dus, dat pagina's die je niet wilt wel geïndexeerd zijn en pagina's die je wilt niet geïndexeerd zijn.

 

Dan is er daarbij inderdaad ook allicht een deel oude content wat nog geïndexeerd staat? Lijkt me echter wel wat veel, als dat 6000 pagina's zijn? Je zou daarvoor nog kunnen nakijken dat je website geen soft 404's genereert. Als een pagina er niet meer is, dient daar of een 301 of een 404 te komen. Geen 'soft 404'.

 

Je kunt een hoop van deze oorzaken uitsluiten door www. en zonder www. 1 van beiden van te kiezen en de een naar de ander te 301 redirecten en https en http hetzelfde mee doen. Als je dan ook nog je URL parameters controleert en tot slot nog even nakijkt of je in de metatag een rel="canonical" gebruikt.

 

Door dat te doen ga je als het goed is dan pagina's die via verschillende URL's toegankelijk zijn met elkaar fuseren. Dat zou ten goede moeten komen aan de ranking.

 

Heb ik zelf vorige week ook gedaan. Bij mij is het beeld nog vreemder. Ik hoop, dat dit langzaam maar zeker opgelost is hiermee. Bij mij is het nu:

 

sitemap:

 

57.921 URL's verzonden

36.847 URL's geïndexeerd

 

indexeringsstatus:

 

Totaal geïndexeerd

333.589

Link naar reactie
  • 0

Je moet op het dashboard van Google afgaan. Zoekopdrachten met site: en link: worden met opzet onbetrouwbaar gemaakt om te verhullen hoe het algoritme precies werkt (want je zou anders direct het effect van elke klein wijziging terugzien).

 

De sitemap is verder geen crawl-instructie. Google gebruikt de sitemap als wegenkaart om URL's te vinden, maar de sitemap reguleert niet wat daarvan vervolgens wel of niet geïndexeerd wordt. Een mogelijke verklaring van het verschil is dan dat de sitemap URL's noemt die uitsluitend voorkomen in de sitemap, maar die een normaal navigerende gebruiker nooit aantreft. (En ja, dat kunnen dan bijvoorbeeld URL-parameters zijn.)

 

Als het over producten gaat, kunnen verder nog productvarianten roet in het eten gooien. Googlebot begrijpt steeds beter dat bijvoorbeeld 50 artikelen in 10 kleuren tot 500 URL's kunnen leiden, maar zal die niet allemaal indexeren.

Link naar reactie
  • 0

Dan ga ik er maar van uit dat de 13.000 (huidige) records goed verzonden zijn en dat Google vinden dat 3.000 hiervan interessant genoeg zijn om te indexeren?

 

En dat deze wel in de zoekresultaten verschijnen (niet bovenaan natuurlijk, want de concurrentie is groot!), hoewel je dat niet ziet met bijvoorbeeld site: enzovoort?

 

En ter verduidelijking: dingen als kleurenvariaties etc is hier niet aan de orde. Wel dus (soms) meerdere aanbieders van hetzelfde product, meestal met variaties.

 

 

Deze snap ik trouwens niet:

 

Een mogelijke verklaring van het verschil is dan dat de sitemap URL's noemt die uitsluitend voorkomen in de sitemap, maar die een normaal navigerende gebruiker nooit aantreft. (En ja, dat kunnen dan bijvoorbeeld URL-parameters zijn.)

 

De sitemap noemt in dit geval alleen URL's die je als bezoeker gewoon in de database kan opzoeken. Verder niets.

Mis ik iets?

 

 

 

Link naar reactie
  • 0

Als het om je ranking gaat, zou ik meer proberen uit te sluiten dat content via verschillende wegen bereikbaar lijkt. Nogmaals, je geeft aan, dat uit je sitemap 3000 geïndexeerd zijn, maar indexering status geeft aan dat er 9000 pagina's geïndexeerd staan? Google indexeert dubbele content gewoon. Echter laat Google in de resultaten dan vrijwel altijd slechts 1 zien. Zelf zie ik dat in mijn search console heel duidelijk terug. Daarom zou ik je dus echt met klem willen adviseren voor elke pagina een rel="canonical" toe te voegen met de URL, zoals deze in de sitemap staat. Dan sluit je dat 100% uit. Dat is een aanbeveling van Google zelf. Tips om content dubbel indexeren te voorkomen van Google zelf:

 

https://support.google.com/webmasters/answer/139066?hl=nl

 

Link naar reactie
  • 0

Google indexeert dubbele content gewoon. Echter laat Google in de resultaten dan vrijwel altijd slechts 1 zien.

 

Maar is dat "erg" dan?

 

Als er slechts één keer een bepaald product weergegeven wordt wanneer er sprake is van slechts een product. Of bedoel je dat Google "het waardeert" dat je dit zo doet, zodat zij dan minder te indexeren krijgen?

Ik volg het niet helemaal (maar bedankt voor de link trouwens! - ga ik zeker bestuderen).

 

En ik heb geen dubbele content. Vanuit de sitemap worden alleen unieke records verzonden (de titel van 13.000 artikelen).

 

 

Link naar reactie
  • 0

Dat kan vervelend voor je zijn lijkt mij. Volgens mij zal ook de 'linkjuice' over de 'dubbele' paginas verdeelt worden. Immers is een link naar de ene, dan niet een link naar de andere en omgekeerd. Waardoor ze allebei hun eigen ranking krijgen. Als je dus kenbaar maakt, dat het eigenlijk gewoon 1 pagina is, heb je dat probleem niet. Dan hebben ze immers een gezamenlijke ranking.

Link naar reactie
  • 0

@peter geen idee wat jou link met het verhaal te maken heeft. Dat is toch echt een compleet ander onderwerp. Een voorkeursdomein aangeven is toch echt wel wat Google aanbeveelt. Heb je mijn link überhaupt bekeken?

 

Kijk dan even welk stukje ik van je quote - niet dat stukje met die link. Met of zonder www maakt, zoals al eerder gezegd, helemaal niks uit. Sterker nog - 301 redirects kunnen zelfs nadelig werken.

 

 

Link naar reactie
  • 0

Google schrijft er zelf dit over:

Google crawlt niet alle pagina's op internet en we indexeren niet alle pagina's die we crawlen. Het is volstrekt normaal dat niet alle pagina's op een site worden geïndexeerd.

De eerste bullet noemt daarna het met-en-zonder-www-conflict.

 

Van een hobbyproject met big data waarin we alles aanklikbaar hebben gemaakt, weet ik dat Google inderdaad selectief wordt als je vele duizenden links aanbiedt. Niet alles wordt dan meer geïndexeerd en dat heeft in ons geval ook helemaal geen zin.

 

Toch wordt die site goed gevonden op alle relevante zoekwoorden. Ik denk, afgaande op onze eigen sitestatistieken, dat vooral twee factoren bepalen wat daarvoor geïndexeerd wordt: het zoekvolume en het bezoekersverkeer. Een selectie uit het totaalaanbod is voor de vindbaarheid kennelijk meer dan voldoende.

 

Daarom vermoed ik dat Google die 3.000 geïndexeerde URL's vooralsnog voldoende representatief vindt voor het totale aanbod van 13.000 records. Er is een soort afnemende meeropbrengst: met veel meer geïndexeerde URL's worden de zoekresultaten bij homogene content niet noemenswaardig beter. Of meer statistisch: er komt een punt waarop een steekproef voldoende representatief is voor de gehele populatie.

 

Dat laatste zou dan commercieel gezien uiteindelijk mijn eerste zorg zijn: word je met die 3.000 geïndexeerde pagina's inderdaad goed gevonden.

 

 

Link naar reactie
  • 0
Kijk dan even welk stukje ik van je quote - niet dat stukje met die link. Met of zonder www maakt, zoals al eerder gezegd, helemaal niks uit. Sterker nog - 301 redirects kunnen zelfs nadelig werken.

 

Daar heeft jou link helemaal niets mee te maken. Die gaat enkel over het feit, dat subdomeinen niet langer als external gerekend worden en dus ook links van website met www. naar delen zonder www. niet meer als external links tellen.

 

In de stukken die daadwerkelijk wel over een voorkeursdomein gaan, legt Google uit hoe je een voorkeursdomein (met of zonder www) in kunt stellen en waarom dit verstandig is. Lees zelf je eigen link en mijn link even nog een keer aandachtig door. Kan allicht verhelderend voor je zijn.

Link naar reactie
  • 0

Lees zelf je eigen link en mijn link even nog een keer aandachtig door. Kan allicht verhelderend voor je zijn.

Je hebt gelijk dat mijn link niet on-topic is - excuses.

 

Wat de jouwe betreft is dit het belangrijkste stukje: Hoewel we u aanraden een van deze methoden te gebruiken, is geen van de methoden vereist. Als u geen canonieke URL aangeeft, identificeren we de versie of URL die volgens ons het beste is.

 

Oftewel: "we komen er wel uit, ook als je het ons niet makkelijker maakt. Alleen kiezen wij dan de URL die we weergeven.". Ik lees nergens dat meerdere URL's dubbele content met een negatieve impact opleveren.

Link naar reactie
  • 0
Linksignalen consolideren voor dubbele of vergelijkbare inhoud. Hierdoor kunnen zoekmachines de informatie die ze voor de afzonderlijke URL's hebben (zoals links naar de URL's), consolideren tot één voorkeurs-URL. Dit betekent dat links van andere sites naar http://example.com/dresses/cocktail?gclid=ABCD worden geconsolideerd met links naar https://www.example.com/dresses/green/greendress.html.

 

Dat zie ik toch wel als iets heel erg positiefs aan werken met voorkeursdomein, canonical URL, etc..

Link naar reactie
  • 0

Ik denk dat dit simpel weg te maken heeft met de reikheid van de content van de pagina's.

 

Ooit wel eens gehoord van de silo structuur van een website?

Google vind dit steeds belangrijker als ik veel mensen mag geloven.

Het blijft lastig omdat het natuurlijk geen exate wetenschap is hellaas.

 

Wat is jullie ervaring met de silo strutuur opbouw?

Digital Marketing http://agency.eoi.digital/ | Digital Transformation https://transform.eoi.digital/

Link naar reactie
  • 0

@peter dat zegt de link wel.

 

Linksignalen consolideren voor dubbele of vergelijkbare inhoud. Hierdoor kunnen zoekmachines de informatie die ze voor de afzonderlijke URL's hebben (zoals links naar de URL's), consolideren tot één voorkeurs-URL. Dit betekent dat links van andere sites naar http://example.com/dresses/cocktail?gclid=ABCD worden geconsolideerd met links naar https://www.example.com/dresses/green/greendress.html.

 

Als je er nog niet bekend mee was, ranking wordt deel bepaald door de hoeveelheid backlinks naar een pagina.

Link naar reactie
Gast
Dit topic is nu gesloten voor nieuwe reacties.
Hide Sidebar
  • Wil je onze Nieuwsflits ontvangen?
    Deze verzenden we elk kwartaal.

  • Wie is er online?
    10 leden, 267 Gasten

  • Breng jouw businessplan naar een higher level!

    Op dit forum worden alle onderwerpen m.b.t. ondernemerschap besproken.

    • Stel jouw ondernemersvragen
    • Antwoorden/oplossingen van collega ondernemers
    • > 75.000 geregistreerde leden
    • > 100.000 bezoekers per maand
    • 24/7 bereikbaar / binnen < 6 uur antwoord
    •  Altijd gratis

  • Ook interessant:

    Ook interessant:

×
×
  • Nieuwe aanmaken...

Cookies op HigherLevel.nl

We hebben cookies geplaatst op je toestel om deze website voor jou beter te kunnen maken. Je kunt de cookie instellingen aanpassen, anders gaan we er van uit dat het goed is om verder te gaan.