Analisi SEO del sito: 68 controlli tecnici da fare prima di tutto

L’analisi SEO del sito web – secondo alcuni – è l’operazione che definisce il ruolo del consulente SEO e della disciplina della SEO. Ma queste analisi tecniche hanno naturalmente valore solo se riescono ad avere un impatto: se, dopo aver fatto l’analisi, le aree di intervento sono chiare e si sa dove andare ad intervenire per migliorare le performance del proprio sito web (o di quello dei propri clienti) e auspicabilmente anche del relativo posizionamento.

Ispirato all’articolo inglese “The Technical Audit Checklist Made for Human Beings” ecco una bella checklist di controlli da fare nel proprio sito web ed in quelli dei propri clienti.

C’è una buona ragione per il fatto che i contenuti del sito non vengono indicizzati?

I crawler riescono a scoprire le URL del sito?

La prima cosa che controlliamo è che tutte le url del sito (o quelle che ci interessa indicizzare) siano raggiungibili dai crawler, che la sitemap (o le sitemap) sia stata inviata alla Search Console di Google (ex Webmaster Tools) e che non ci siano errori strutturali o ostacoli di natura tecnica che potrebbero impedire o rallentare l’indicizzazione.

  1. E’ stata inviata la sitemap XML alla Search Console?
    Vedi Creazione e invio di una Sitemap nella Guida della Search Console.
  2. La sitemap XML (o le sitemap) contiene tutte url valide?
    Eventuali errori e avvisi saranno presenti nel rapporto Sitemap della Search Console.
  3. La navigazione interna del sito funziona attraverso link html (es. no javascript)?
    E’ ancora buona norma che per navigare all’interno delle diverse pagine del sito si utilizzino dei banalissimi link html.
  4. Ci sono meno di 300 link nelle pagine importanti?
    Non dovrebbe essere più un problema e in alcuni casi può essere comune ritrovarsi con più di 300 link (si pensi ad esempio ad un calendario di 365 approfondimenti per ogni giorno dell’anno). Ma se ci sono problemi nell’indicizzazione del sito meglio andare sul sicuro.
  5. I contenuti importanti sono a meno di (o a un massimo di) 4 click dalla home page?
    Anche questa potrebbe essere una raccomandazione obsoleta anche se ha decisamente senso dal punto di vista dell’usabilità. Di nuovo: se ci sono problemi meglio andare sul sicuro.
  6. Il Robots.txt non starà mica bloccando contenuti che vogliamo indicizzare?
    In caso affermativo e se abbiamo inserito le url di questi contenuti nella sitemap.xml il rapporto ‘Sitemap’ della Search Console dovrebbe avvisarci dell’errore.
    In ogni caso non conviene usare il “robots.txt come mezzo per nascondere le pagine web dai risultati della Ricerca Google“! Per approfondire: Informazioni sui file robots.txt
  7. Il tempo di caricamento del sito solitamente è sufficiente ai crawler?
    In questa fase si esegue un semplice controllo manuale per controllare che il sito non ci metta una vita a caricarsi.
  8. Il sito non è in down, vero?
    Come sopra: veloce controllo manuale.

Le Url non corrette vengono presentate ai crawler come corrette?

Controllato che non ci siano ostacoli al processo di indicizzazione delle nostre pagine controlliamo che non ci siano errori sulle pagine inesistenti, sui link interni e di nuovo sulle url inviate tramite la sitemap.

  1. Le pagine di errore (404) ritornano un corretto codice di stato HTTP 404?
    Controlliamo che a) ci sia una pagina 404 utile, funzionale e usabile e soprattutto b) che restituisca un codice di stato HTTP 404 (raro ma può succedere in caso ad esempio di sviluppo di un CMS personalizzato). Naturalmente poi dovremmo gestire gli errori 404 in maniera appropriata…
  2. I link interni puntano a pagine che ritornano un codice di stato 2XX (no 404 ma neanche 301)?
    Tramite Screaming Frog SEO Spider, Xenu o altri software che effettuano una scansione del sito individueremo errori sui link interni, che rimandano ad esempio a pagine inesistenti… ma anche a reindirizzamenti 301!
    Mentre c’è un apposito – e importantissimo – report nella Search Console che ci mostra gli errori di scansione trovati da Google sul nostro sito.
  3. Il Robots.txt sta bloccando i contenuti che non vogliamo indicizzare?
    Come accennato sopra Google consiglia di non usare il robots.txt per evitare l’indicizzazione di determinati contenuti. Non è che caschi il mondo, ma Google potrebbe decidere di indicizzarle in quanto sono presenti dei link che rimandano a quelle pagine. Per evitare l’indicizzazione delle pagine che non vogliamo siano indicizzate dovremmo usare invece le direttive o tag noindex (esempio “<meta name=”robots” content=”noindex” />”). Il robots.txt lo usiamo invece per non sovraccaricare il server al passaggio del crawler di google e per non sprecare il “budget di scansione” lasciando che il crawler esegua la scansione di pagine poco importanti.
  4. La sitemap XML non conterrà mica URL che non vogliamo indicizzare?
    Ritorniamo sulla sitemap e rifacciamo anche questo controllo.
  5. La sitemap XML contiene solo URL che restituiscono un codice di stato HTTP 200?
    Anche in questo caso il rapporto ‘Sitemap’ della Search Console dovrebbe avvisarci dell’errore.

La duplicazione dei contenuti sta causando dei problemi?

La duplicazione “tecnica” dei contenuti di un sito web può avvenire per diversi motivi: url dinamici, post inserito in diverse categorie di un blog, nessun reindizzamento tra http, https e www e non-www. Ottimi e rapidi esempi di contenuti duplicati per motivi tecnici li potrai trovare qui: https://support.google.com/webmasters/answer/139066?hl=it; Mentre per una spiegazione più generali dei contenuti duplicati: https://support.google.com/webmasters/answer/66359?hl=it.

  1. Abbiamo implementato il canonical tag per associare i contenuti duplicati?
    Possiamo risolvere tutti i problemi di duplicazione contenuti per motivi tecnici implementando il link canonical:
    <link rel="canonical" href="https://blog.sito.it/categoria/articolo/" />
    Vedi esempi: https://support.google.com/webmasters/answer/139066?hl=it
  2. Tutte le URL funzionano tramite HTTP o HTTPS, ma non in entrambe le maniere, vero?
    E’ importante che ci siano opportuni reindirizzamenti 301 e utilizzare un server web che supporti HTTP Strict Transport Security. Ulteriori informazioni qui: https://support.google.com/webmasters/answer/6073543?hl=it
  3. Abbiamo contenuti duplicati in altri domini o sottodomini (www e non-www)?
    Questo passaggio contempla anche l’assicurarsi di aver impostato il proprio dominio preferito (altrimenti detto “dominio canonico”) nella Search Console.
    L’impostazione la potrai trovare a questa pagina della Search Console.
  4. Ci sono schemi di URL multipli o diversi parametri nelle URL che riportano allo stesso contenuto?
    Per questo passaggio di nuovo come risorsa di riferimento viene data questa. Possiamo tuttavia fare un controllo dell’indicizzazione del sito tramite l’operatore site: e vedere se troviamo degli errori di questo tipo ed utilizzare anche lo strumento per la gestione dei parametri nella Search Console.
  5. Se sito mobile e sito desktop risiedono in URL differenti… abbiamo implementato correttamente il codice?
    Si utilizza uno speciale markup in questi casi attraverso il quale si inserisce un link rel=”alternate” nel sito desktop e un link rel=”canonical” nel sito mobile, si implemtano dei reindirizzamenti (raccomandati i 302!) a seconda dell’user agent e altre eventuali implementazioni. Per approfondire: https://developers.google.com/webmasters/mobile-sites/mobile-seo/separate-urls.

Il nostro sito genera troppe pagine?

  1. Abbiamo implementato correttamente i rel=next, rel=prev?
  2. La paginazione dei contenuti genera un numero ragionevole di URL?
  3. Abbiamo specificato (o dobbiamo specificare) i parametri URL nella Search Console?

I nostri contenuti on-page non sono leggibili dai crawlers?

  1. Il testo della pagina è visibile anche senza JavaScript?
  2. C’è del contenuto importante caricato tramite iframe?
  3. C’è del contenuto importante in Flash?
  4. Stiamo presentando lo stesso contenuto a tutti gli user agent, crawler compresi?
  5. Le URL del sito mobile presentano contenuto appropriato a prescindere dagli user agent o dal device?

Abbiamo segnalato chiaramente quali contenuti non vogliamo che siano scoperti o indicizzati?

  1. Usiamo l’attributo nofollow solo per i link che rimandano a contenuti che non vogliamo vengano sottoposti a scansione?
  2. Abbiamo configurato i meta tags (meta robots) in accordo ai contenuti che non vogliamo indicizzare?

C’è una buona ragione per cui le nostre pagine non si posizionano per le parole chiave desiderate?

La struttura di link interni non rispecchia l’importanza dei contenuti del sito web?

  1. Stiamo usando solo redirect 301 (per reindirizzare le vecchie URL alle nuove)?
  2. Mica ci sono dei reindirizzamenti in JavaScript?
  3. Mica ci sono dei reindirizzamenti con meta refresh?
  4. Mica ci sono dei reindirizzamenti a catena (redirect chains)?
  5. Le pagine più importanti del nostro sito ricevono più link delle pagine meno importanti?

I più importanti elementi della pagina aiutano i crawler a capire il nostro contenuto?

  1. I tag Title hanno una lunghezza corretta?
  2. Non ci sono tag Title duplicati in numerose pagine del sito, vero?
  3. Le pagine non hanno più di un tag Title, vero?
  4. Tutte le pagine hanno un tag Title, vero?
  5. Non ci sono tag H1 duplicati in numerose pagine del sito, vero?
  6. Tutte le pagine hanno un tag H1, vero?
  7. Le pagine non hanno più di un tag H1, vero?

Abbiamo implementato le SEO best practice all’avanguardia?

  1. Il sito usa HTTPS?
  2. Il sito usa HTTP/2?

Stiamo pubblicando contenuti che sono stati pubblicati in precedenza in altri siti web?

  1. I testi del sito sono originali, non duplicati, non copiati (not scraped) da altri siti?

Il sito è così lento che Google preferisce non mostrarlo ai suoi utenti?

  1. I contenuti importanti ottengono un voto positivo (verde) nel Page Speed Insights?
  2. Viene utilizzata la compressione dove appropriato?
  3. La cache è stata abilitata dove possibile?
  4. Il codice è stato minimizzato dove possibile?
  5. Non ci sono richieste eccessive da risorse esterne?

C’è una buona ragione per la quale i contenuti non sono ben presentati nei motori di ricerca?

Abbiamo indicato chiaramente i nostri contenuti preferiti?

  1. Abbiamo numerose pagine con grosse sovrapposizioni nei contenuti?
  2. Stiamo indicando i contenuti che desideriamo mostrare con il rel canonical?
  3. Abbiamo specificato la versione del sito preferita nella Search Console?

Stiamo mostrando l’importanza relativa dei nostri contenuti tramite la matrice di link interni?

  1. La matrice dei link interni riflette la priorità dei nostri contenuti?

Ci sono problemi con i codici di schema markup (markup strutturato)?

  1. Il nostro markup strutturato è mancante o incompleto?
  2. Il nostro markup strutturato contiene SPAM?

Abbiamo segnalato correttamente le differenti versioni in lingua del nostro sito?

  1. Abbiamo inserito correttamente gli attributi hreflang in tutto il sito e nelle diverse versioni del sito?
  2. Stiamo linkando in maniera appropriata le differenti versioni del sito?
  3. Abbiamo configurato correttamente il targeting internazionale nella Search Console?
  4. Non stiamo usando parametri URL per differenziare il contenuto e il targeting?

Abbiamo segnalato in maniera appropriata i nostri contenuti mobile?

  1. Se stiamo utilizzando una pubblicazione dinamica abbiamo implementato l’intestazione HTTP Vary?

Stiamo mica rischiando una penalizzazione a causa di configurazioni tecniche?

Abbiamo fatto qualcosa che ci fa rischiare una penalizzazione algoritmica?

  1. Abbiamo “contenuti scarni con poco o nessun valore aggiunto” o troppi annunci pubblicitari above the fold?
  2. Il sito non è stato hackerato, vero?
  3. E’ per caso presente della user-generated spam sul sito?
  4. Ci sono link innaturali sul sito?

Abbiamo fatto qualcosa che ci fa rischiare un’azione manuale?

  1. Non stiamo facendo del cloaking, vero?
  2. Non stiamo facendo keyword stuffing, vero?

Abbiamo tutte le informazioni necessarie per fare una diagnosi del sito?

Non siamo in grado di valutare le performance di alcune pagine?

  1. Sitemap is organized to reflect different site sections.

Non stiamo registrando le informazioni sulla user engagement del sito?

  1. Le visualizzazioni vengono registrate in ogni pagina?
  2. Abbiamo configurato la ricerca all’interno del sito?

2 Commenti

  1. eleonora ha detto:

    questo capitolo mi ha scoraggiata…Arabo per me 🙁

Lascia un commento

Compila qui sotto tutti i campi e clicca "Invia Commento"


Ebook SEO (SEO per Scrittori sull'Orlo di una Crisi di Nervi)

La ricerca (sulle) parole chiave

1.3 La ricerca (sulle) parole chiave
E se ti dicessi che la ricerca sulle parole chiave è il succo del lavoro del SEO? Ammettiamolo: il web sarà...

Come si fa un'Analisi SEO di un Sito Web. Completa! E per principianti!

1.2.2 Site: e altre diagnosi
In questo capitolo una guida completa per principianti su come analizzare lo stato di salute di un sito web attraverso...

L'obiettivo di un sito web

1.1 Obiettivo sito
Iniziamo il nostro percorso pratico (leggi il capitolo precedente "Come si lavora (quando si fa SEO)") con la fase di...

...vai all'indice dell'ebook »

Incredibile! C'è ancora roba qui sotto!