Podpora indexace ve vyhledávačích pomocí sitemap.xml

  •   2 minutes read
Tento článek jsem měl rozepsaný několik let a jeho fragmenty posílal podle potřeby kolegům. Martin Pešout mě přivedl ke KontentKing a jejich skvělým článkům — směle čtěte Soubor sitemap XML ve zkratce anebo souhrn níže.

Na co nezapomenout

  • Zahrnout pouze URL důležité z hlediska SEO. Google chápe URL uvedené v sitemap.xml jako důležité a indexuje je primárně.
  • Je výborným místem, kde definovat URL, které mají být z indexu vyhozeny. Zde uvedené URL pro vyhození se nejrychleji zpracují.
  • Tag loc je povinný, musí obsahovat absolutní a kanonickou URL (samozřejmě stejná jako v meta značce). Za kanonickou URL považujeme i tzv. self-canonical.
  • V případě více jazyků nezapomenout uvést jazykové alternace hreflang a opět propsat do příslušných meta.
  • Tag lastmod je sice nepovinný, ale velice důležitý, protože informuje robota o změně, a tedy vhodnosti reindexace. Při generování je nutné, aby se změna datumu provedla vždy při větší změně obsahu stránky. Tj. nejen při opravě překlepů :-) Google často aktualizované stránky s minimální změnou částečně penalizuje.
  • Tagy changefreqprio nejsou při správném používání lastmod důležité.
  • Podívat se na specifikaci pro vkládání obrázků nebo videí, u větších projektů opět k vůli cwarl budgetu nezahrnovat a využít JSON-LD.
  • Do sitemap nevkládat URL na články (novinky) a místo toho využít formát pro RSS/Atom feedy. Nezapomenout propsat do meta značky.
  • Pro větší projekty je dobré si ověřit aktuální specifikaci, např. omezení na 50 MB v nekomprimovaném stavu (lze index.xml.gz), max. 50000 URL, využít sitemap-index.xml resp. sitemap-index.xml.gz.

Co by se nemělo do XML dostat

  • Ne-kanonické stránky
  • Duplicitní stránky
  • Stánky se stránkováním 2+ včetně
  • S parametry nebo session ID
  • Výsledky vyhledávání (interní)
  • Různé verze vzniklé pro sdílení (zkrácené pro twitter, do e‑mailu atp.)
  • URL vzniklé použitím filtrováním, které nejsou důležité pro indexaci (viz SEO vzorce a noindex)
  • Archivované stránky
  • Jakákoli přesměrování 3xx, chybějící stránky 4xx nebo chybové 5xx
  • Stránky blokované v robots.txt
  • Stránky v noindex
  • Stránky po odeslání formuláře atp.
  • Stránky, které mají význam jen pro uživatele jako je login, kontaktní formulář, privacy policy atp.

Závěr

Snad sumarizace pomohla v zorientování se v tématu sitemap :-)