Gli spider di Google, per quanto potenti e affidabili, non riescono a indicizzare tutti i contenuti dei siti. Infatti, per trovare le pagine e i contenuti di un sito da indicizzare, gli spider necessitano che questi siano linkati a pagine già presenti nell'archivio del "motorone di ricerca", riscontrando per questo delle difficoltà oggettive che gli impediscono di visualizzare alcuni contenuti "fantasma". Ebbene, vediamo allora come è possibile fare in modo che il più grande motore di ricerca della Rete riesca ad entrare anche nei siti più "difficili"...
Alcune situazioni rendono particolarmente complessa l'indicizzazione dell'intero sito Web realizzato. Tra i casi più delicati, non si può non citare l'architettura che prevede l'utilizzo di motori di ricerca interni al sito attraverso i quali accedere a contenuti non linkati tra di loro o relazionati ad altre pagine. Nel caso, per esempio, di un sito di e-commerce che dispone di un archivio di prodotti ripartito in schede indipendenti tra loro, queste ultime rese sì accessibili attraverso un pratico motore interno, ma non collegate direttamente ad altre sezioni del sito, è molto probabile che tali contenuti non saranno visitati dagli spider di Google. I contenuti fantasma, spesso resi irreperibili da link interrotti anche involontariamente, magari a seguito della cancellazione di una pagina, non sono l'unico problema difficilmente gestibile attraverso il sistema di indicizzazione automatico di Google. Accade, per esempio, che all'interno di un sito esistano pagine aggiornate quotidianamente e altri contenuti totalmente statici o, perlomeno, soggetti a revisioni sporadiche. Gli spider di Google, che non sono in grado di distinguere la frequenza dell'aggiornamento dei diversi contenuti, rivisitano con periodicità regolare tutte le pagine del sito, causando, a volte il ritardo dell'aggiornamento dell'indicizzazione di alcune pagine.
UN AIUTO ANCHE PER GOOGLE
Considerate tali difficoltà tecniche, gli ideatori di Google hanno predisposto un sistema che consente al motore di ricerca di accedere a informazioni supplementari quali, appunto, quelle che descrivono la struttura completa di un sito o la periodicità prevista per gli aggiornamenti di ciascun contenuto. Grazie ad appositi file resi reperibili al motore di Google attraverso il servizio Google Sitemaps i Webmaster possono codificare e divulgare agli spider di Google tali preziosissime informazioni, ottenendo risultati di indicizzazione molto più precisi ed accurati. La mappatura del sito e l'inserimento di funzioni contestuali vengono effettuate sfruttando un protocollo XML denominato, per l'appunto Sitemaps. Tale protocollo è in grado di schematizzare in un file testuale i dati che, una volta forniti a Google attraverso il servizio gratuito Google Sitemaps, possono essere correttamente interpretati dagli spider. Vediamo ora come, grazie ad appositi programmi, sia possibile generare file perfettamente compatibili col formato Sitemaps in modo manuale o semi-atomatico.
UN PROGRAMMA STAND ALONE
In seguito alla nascita del protocollo Sitemaps, si sono subito moltiplicati i programmi e le applicazioni che consentono di creare file Sitemaps per Google. Tra le decine di applicazioni in circolazione, la maggior parte delle quali gratuite, GsiteCrawler è uno ei più versatili e semplici da usare. Si tratta di un programma per Windows la cui installazione, a differenza di altre soluzioni o script da utilizzare lato server, è davvero semplice. È totalmente indipendente dalla tecnologia del server su cui sono ospitati i nostri siti, e non è necessaria nessuna configurazione tecnica. Una volta installato il software, grazie al sistema di analisi automatico e di integrazione manuale dei contenuti, è possibile ottenere dei file XML perfettamente compatibili con lo standard Sitemaps che, successivamente, potranno essere caricati sul nostro FTP nella posizione in cui avremo indicato nel servizio Google Sitemaps essere reperibile il file di controllo. Uno dei maggiori punti di forza di questo software consiste proprio nella possibilità di abbinare a funzionalità automatiche una serie di integrazioni manuali che, per esempio, permettono di integrare le scansioni effettuate con pagine e contenuti non raggiungibili tramite link e di impostare, pagina per pagina se necessario, la frequenza di aggiornamento di ciascun elemento del nostro sito.
PASSO DOPO PASSO
Appena avviato GSite Crawler vedremo comparire una schermata con diversi pannelli. Clicchiamo in basso a sinistra sul tasto Add per aggiungere un nuovo progetto di mappatura a quelli esistenti. Ci viene richiesto se attivare la modalità assistita. Accettiamo la richiesta e, inserendo alcuni semplici dati relativi al sito da scansionare, saremo pronti per iniziare la procedura di generazione della mappa. Come ultima opzione della modalità assistita ci viene richiesto se desideriamo che il programma si occupi direttamente del caricamento dei Sitemaps generati sul nostro FTP. Questa funzione si rivela particolarmente utile qualora volessimo aggiornare di frequente le mappe poiché, una volta impostato l'url di destinazione, permetteremo al servizio Google Sitemaps di leggere in tempo reale gli aggiornamenti ai file. Terminate le impostazioni assistite, GSiteCrawler inizia in automatico la scansione del sito, attività che, a seconda delle dimensioni del progetto Web analizzato, può richiedere anche ore di elaborazione. I risultati saranno resi disponibili all'interno del pannello URL list e Statistics. Per ottenere una scansione più precisa e corrispondente alle nostre esigenze, prima di generare il file Sitemaps da caricare possiamo, nel pannello Settings, indicare alcuni parametri che saranno utili allo spider del programma per individuare correttamente i link. Possiamo, per esempio, digitare una per una le estensioni delle pagine e dei contenuti che vogliamo includere nella scansione. Per escludere parti del nostro sito, all'interno del pannello Filter è possibile definire una serie di eccezioni e di parametri che eviteranno la scansione di aree riservate o protette. Un volta impostate regole e filtri, lanciamo la nuova scansione del sito cliccando su re-crawl, tasto posto nella barra orizzontale superiore. La fase conclusiva consiste nella generazione del file XML vero e proprio, attività che si avvia cliccando sul tasto Generate della barra orizzontale (Figura 1).
Figura 1 - GSiteCrawler consente di salvare file XML realizzati secondo i dettami del protocollo Sitemaps di Google
Creato il documento, se non abbiamo impostato il caricamento FTP automatico, non dobbiamo fare altro che effettuare l'upload del file sul nostro server (Figura 2).
Figura 2 - Occorre indicare a Google la posizione della Sitemaps affinché gli spider possano accedere alle informazioni supplementari per l'indicizzazione
PROGRAMMI ALTERNATIVI
Esistono numerosi sistemi per generare Sitempas. Primo tra tutti, lo script Python ufficiale di Google Sitemap Generator. Trattandosi di uno script specifico, richiede la presenza sul server di una versione aggiornata di Python. Tra i software indipendenti dalle tecnologie server, valide alternative a GsiteCrawler sono Gsitemap, Sitemap Builder, Winsitemap.
Figura 3 - Tra le funzioni più apprezzate di GSiteCrawler, il caricamento automatico via FTP dei file creati pè una delle più pratiche
Qualora la nostra scelta fosse quella di servirci di script lato server, soluzione consigliabile specialmente nel caso in cui utilizzassimo piattaforme di content management, in questo caso sarà opportuno utilizzare i plugin specifici reperibili per le diverse piattaforme o svilupparne di totalmente personalizzate, sempre che siamo programmatori abbastanza esperti. I servizi Web come quelli disponibili agli indirizzi www.seoutility.com/it/google_sitemap.asp e www.xmlsitemaps.com, invece, non richiedono l'istallazione di nessuno programma o script. Solitamente meno potenti degli script lato server e dei programmi stand alone, questi applicativi Web sono semplici da usare ma hanno limiti come, per esempio, il numero massimo di pagine gestite.