Podpora indexace ve vyhledávačích pomocí sitemap.xml

  •   2 minutes read
Tento článek jsem měl rozepsaný několik let a jeho fragmenty posílal podle potřeby kolegům. Martin Pešout mě přivedl ke KontentKing a jejich skvělým článkům — směle čtěte Soubor sitemap XML ve zkratce anebo souhrn níže.

Na co nezapomenout

 • Zahrnout pouze URL důležité z hlediska SEO. Google chápe URL uvedené v sitemap.xml jako důležité a indexuje je primárně.
 • Je výborným místem, kde definovat URL, které mají být z indexu vyhozeny. Zde uvedené URL pro vyhození se nejrychleji zpracují.
 • Tag loc je povinný, musí obsahovat absolutní a kanonickou URL (samozřejmě stejná jako v meta značce). Za kanonickou URL považujeme i tzv. self-canonical.
 • V případě více jazyků nezapomenout uvést jazykové alternace hreflang a opět propsat do příslušných meta.
 • Tag lastmod je sice nepovinný, ale velice důležitý, protože informuje robota o změně, a tedy vhodnosti reindexace. Při generování je nutné, aby se změna datumu provedla vždy při větší změně obsahu stránky. Tj. nejen při opravě překlepů :-) Google často aktualizované stránky s minimální změnou částečně penalizuje.
 • Tagy changefreqprio nejsou při správném používání lastmod důležité.
 • Podívat se na specifikaci pro vkládání obrázků nebo videí, u větších projektů opět k vůli cwarl budgetu nezahrnovat a využít JSON-LD.
 • Do sitemap nevkládat URL na články (novinky) a místo toho využít formát pro RSS/Atom feedy. Nezapomenout propsat do meta značky.
 • Pro větší projekty je dobré si ověřit aktuální specifikaci, např. omezení na 50 MB v nekomprimovaném stavu (lze index.xml.gz), max. 50000 URL, využít sitemap-index.xml resp. sitemap-index.xml.gz.

Co by se nemělo do XML dostat

 • Ne-kanonické stránky
 • Duplicitní stránky
 • Stánky se stránkováním 2+ včetně
 • S parametry nebo session ID
 • Výsledky vyhledávání (interní)
 • Různé verze vzniklé pro sdílení (zkrácené pro twitter, do e‑mailu atp.)
 • URL vzniklé použitím filtrováním, které nejsou důležité pro indexaci (viz SEO vzorce a noindex)
 • Archivované stránky
 • Jakákoli přesměrování 3xx, chybějící stránky 4xx nebo chybové 5xx
 • Stránky blokované v robots.txt
 • Stránky v noindex
 • Stránky po odeslání formuláře atp.
 • Stránky, které mají význam jen pro uživatele jako je login, kontaktní formulář, privacy policy atp.

Závěr

Snad sumarizace pomohla v zorientování se v tématu sitemap :-)