Punto informatico Network
Login Esegui login | Non sei registrato? Iscriviti ora (è gratuito!)
Username: Password:
  • Annuncio Pubblicitario

File robots.txt: lo sto usando bene?

Cerchi consigli per migliorare il tuo sito? Vuoi aprire un sito in poco tempo?
Discuti con altri webmaster, chiedi chiarimenti ed opinioni in tutta libertà.
Lo spam verrà cancellato.

File robots.txt: lo sto usando bene?

Messaggioda 19Natale83 » dom giu 01, 2014 12:11 pm

Ciao a tutti!
Ho un sito fatto con Drupal 7, sitemap inviata a Google e file robots.txt.
Fino a due giorni fa il file robots.txt non era stato modificato, quindi era di questo tipo:

#
# robots.txt
#
# This file is to prevent the crawling and indexing of certain parts
# of your site by web crawlers and spiders run by sites like Yahoo!
# and Google. By telling these "robots" where not to go on your site,
# you save bandwidth and server resources.
#
# This file will be ignored unless it is at the root of your host:
# Used: http://example.com/robots.txt
# Ignored: http://example.com/site/robots.txt
#
# For more information about the robots.txt standard, see:
# http://www.robotstxt.org/wc/robots.html
#
# For syntax checking, see:
# http://www.sxw.org.uk/computing/robots/check.html

User-agent: *
Crawl-delay: 10
# Directories
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
Disallow: /profiles/
Disallow: /scripts/
Disallow: /themes/
# Files
Disallow: /CHANGELOG.txt
Disallow: /cron.php
Disallow: /INSTALL.mysql.txt
Disallow: /INSTALL.pgsql.txt
Disallow: /INSTALL.sqlite.txt
Disallow: /install.php
Disallow: /INSTALL.txt
Disallow: /LICENSE.txt
Disallow: /MAINTAINERS.txt
Disallow: /update.php
Disallow: /UPGRADE.txt
Disallow: /xmlrpc.php
# Paths (clean URLs)
Disallow: /admin/
Disallow: /comment/reply/
Disallow: /filter/tips/
Disallow: /node/add/
Disallow: /search/
Disallow: /user/register/
Disallow: /user/password/
Disallow: /user/login/
Disallow: /user/logout/
# Paths (no clean URLs)
Disallow: /?q=admin/
Disallow: /?q=comment/reply/
Disallow: /?q=filter/tips/
Disallow: /?q=node/add/
Disallow: /?q=search/
Disallow: /?q=user/password/
Disallow: /?q=user/register/
Disallow: /?q=user/login/
Disallow: /?q=user/logout/

Siccome mi sono accorto che nella sitemap venivano inseriti e indicizzati da Google alcuni URL (sono 70) che non voglio lo siano per evitare il problema dei contenuti duplicati, ho modificato il file robots.txt aggiungendo gli URL in questione (in neretto); in più ho aggiunto anche il richiamo alla sitemap.
Il nuovo file robots.txt è quindi il seguente:

#
# robots.txt
#
# This file is to prevent the crawling and indexing of certain parts
# of your site by web crawlers and spiders run by sites like Yahoo!
# and Google. By telling these "robots" where not to go on your site,
# you save bandwidth and server resources.
#
# This file will be ignored unless it is at the root of your host:
# Used: http://example.com/robots.txt
# Ignored: http://example.com/site/robots.txt
#
# For more information about the robots.txt standard, see:
# http://www.robotstxt.org/wc/robots.html
#
# For syntax checking, see:
# http://www.sxw.org.uk/computing/robots/check.html

User-agent: *
Crawl-delay: 10
# Directories
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
Disallow: /profiles/
Disallow: /scripts/
Disallow: /themes/
# Files
Disallow: /CHANGELOG.txt
Disallow: /cron.php
Disallow: /INSTALL.mysql.txt
Disallow: /INSTALL.pgsql.txt
Disallow: /INSTALL.sqlite.txt
Disallow: /install.php
Disallow: /INSTALL.txt
Disallow: /LICENSE.txt
Disallow: /MAINTAINERS.txt
Disallow: /update.php
Disallow: /UPGRADE.txt
Disallow: /xmlrpc.php
# Paths (clean URLs)
Disallow: /admin/
Disallow: /comment/reply/
Disallow: /filter/tips/
Disallow: /node/add/
Disallow: /search/
Disallow: /user/register/
Disallow: /user/password/
Disallow: /user/login/
Disallow: /user/logout/
Disallow: /argomento/cavità-orbitarie-od-orbite-rif
Disallow: /argomento/nervo-ottico-rif
Disallow: /argomento/vascolarizzazione-del-midollo-spinale-rif
Disallow: /argomento/muscolo-costrittore-inferiore-della-faringe-rif
Disallow: /argomento/muscolo-faringopalatino-o-faringostafilino-rif-2
Disallow: /argomento/muscolo-stilofaringeo-rif-0
Disallow: /argomento/muscolo-tiroioideo-rif
Disallow: /argomento/muscolo-sternotiroideo-rif
Disallow: /argomento/muscolo-faringopalatino-o-faringostafilino-rif-0
Disallow: /argomento/muscolo-tensore-del-palato-o-peristafilino-esterno-rif
Disallow: /argomento/muscolo-elevatore-del-palato-o-peristafilino-interno-rif
Disallow: /argomento/muscolo-di-ugola-o-palatostafilino-rif
Disallow: /argomento/muscolo-glossopalatino-o-glossostafilino-rif
Disallow: /argomento/muscoli-del-palato-molle-rif
Disallow: /argomento/muscolo-stilofaringeo-rif
Disallow: /argomento/muscolo-costrittore-inferiore-rif
Disallow: /argomento/muscolo-costrittore-medio-rif
Disallow: /argomento/muscolo-costrittore-superiore-rif
Disallow: /argomento/muscolo-faringopalatino-o-faringostafilino-rif-1
Disallow: /argomento/muscoli-della-faringe-rif
Disallow: /argomento/cavità-nasali-rif
Disallow: /argomento/loggia-lienale-o-splenica-rif
Disallow: /argomento/tessuto-linfoide-associato-alla-cute-rif
Disallow: /argomento/tessuto-linfoide-associato-alle-mucose-rif
Disallow: /argomento/midollo-osseo-rif
Disallow: /argomento/cavità-buccale-o-orale-propriamente-detta-rif
Disallow: /argomento/seno-petroso-inferiore-rif
Disallow: /argomento/mesentere-rif
Disallow: /argomento/muscolo-faringopalatino-o-faringostafilino-rif
Disallow: /argomento/muscolo-faringoglosso-rif
Disallow: /argomento/muscolo-glossopalatino-o-glossostafilino-rif-0
Disallow: /argomento/tube-uterine-o-salpingi-rif
Disallow: /argomento/ovaie-rif
Disallow: /argomento/utero-rif
Disallow: /argomento/apparato-genitale-femminile-rif
Disallow: /argomento/fibra-muscolare-striata-cardiaca-rif
Disallow: /argomento/tessuto-osseo-lamellare-o-stratificato
Disallow: /argomento/struttura-del-midollo-osseo-rosso-rif
Disallow: /argomento/acetilcolina-rif
Disallow: /argomento/trasportatori-degli-aminoacidi-eccitatori-rif
Disallow: /argomento/trasportatori-delle-amine-rif
Disallow: /argomento/trasportatori-del-glucosio-rif
Disallow: /argomento/trasportatore-sodio-calcio-rif
Disallow: /argomento/trasportatore-sodio-idrogeno-rif
Disallow: /argomento/trasportatore-cloro-bicarbonato-rif
Disallow: /argomento/trasportatore-sodio-glucosio-rif
Disallow: /argomento/trasportatore-sodio-potassio-cloro-rif
Disallow: /argomento/pompa-sodio-potassio-rif2
Disallow: /argomento/pompa-sodio-potassio-rif-0
Disallow: /argomento/pompa-calcio-atpasi-rif
Disallow: /argomento/pompa-idrogeno-potassio-o-prompa-protonica-rif
Disallow: /argomento/pompa-protonica-o-idrogeno-potassio-rif
Disallow: /argomento/recettori-intracellulari-rif
Disallow: /argomento/classificazione-dei-recettori-intracellulari-rif
Disallow: /argomento/delleffettore-fosfolipasi-c-rif
Disallow: /argomento/delleffettore-adenilato-ciclasi-rif
Disallow: /argomento/trasportatori-di-membrana-rif
Disallow: /argomento/pompe-di-tipo-abc-rif
Disallow: /argomento/pompe-di-tipo-f-rif
Disallow: /argomento/pompe-di-tipo-v-rif
Disallow: /argomento/pompe-di-tipo-p-rif
Disallow: /argomento/pompe-cellulari-rif
Disallow: /argomento/classificazione-delle-proteine-g-rif
Disallow: /argomento/proteine-g-monomeriche-rif
Disallow: /argomento/diffusione-o-diffusione-semplice-rif
Disallow: /argomento/glicoproteina-p-o-atpasi-trasportatrice-di-farmaci-rif
Disallow: /argomento/classificazione-dei-recettori-di-membrana-o-di-superficie-rif
Disallow: /argomento/recettori-rif
Disallow: /argomento/recettori-di-membrana-o-di-superficie-rif
Disallow: /argomento/emoglobina-rif

# Paths (no clean URLs)
Disallow: /?q=admin/
Disallow: /?q=comment/reply/
Disallow: /?q=filter/tips/
Disallow: /?q=node/add/
Disallow: /?q=search/
Disallow: /?q=user/password/
Disallow: /?q=user/register/
Disallow: /?q=user/login/
Disallow: /?q=user/logout/

Sitemap: http://medicinapertutti.altervista.org/sitemap.xml

A partire da questa modifica la sitemap risulta comunque inviata e indicizzata (1980 URL su 2020) ma nel GWT trovo un avviso riguardo la sitemap che mi dice che il file robots.txt blocca alcuni URL presenti nella sitemap. Direi "ovvio" ma il problema è che ieri mi dava 140 avvisi, oggi sono diventati 220.
Qualcuno saprebbe spiegarmi perché? Potrei capire se gli avvisi fossero 70 (quanti gli URL per cui ho impostato il "disallow") ma 220 non me li so spiegare (e comunque sono aumentati rispetto a ieri).
Potrei con un "artificio" fare in modo che quelle pagine non siano proprio inserite nella sitemap, ma se utilizzando il file robots.txt come sto facendo va ugualmente bene, mi viene più facile fare così.

Grazie!
http://medicinapertutti.it
Avatar utente
19Natale83
Bronze Member
Bronze Member
 
Messaggi: 719
Iscritto il: lun ott 29, 2007 9:22 am
Località: Bari

Torna a Sviluppo Web

Chi c’è in linea

Visitano il forum: Nessuno e 4 ospiti

Powered by phpBB © 2002, 2005, 2007, 2008 phpBB Group
Traduzione Italiana phpBB.it

megalab.it: testata telematica quotidiana registrata al Tribunale di Cosenza n. 22/09 del 13.08.2009, editore Master New Media S.r.l.; © Copyright 2008 Master New Media S.r.l. a socio unico - P.I. 02947530784. GRUPPO EDIZIONI MASTER Spa Tutti i diritti sono riservati. Per la pubblicità: Master Advertising