File robots.txt: lo sto usando bene?

Messaggioda 19Natale83 » dom giu 01, 2014 12:11 pm

Ciao a tutti!
Ho un sito fatto con Drupal 7, sitemap inviata a Google e file robots.txt.
Fino a due giorni fa il file robots.txt non era stato modificato, quindi era di questo tipo:

# robots.txt
# This file is to prevent the crawling and indexing of certain parts
# of your site by web crawlers and spiders run by sites like Yahoo!
# and Google. By telling these "robots" where not to go on your site,
# you save bandwidth and server resources.
# This file will be ignored unless it is at the root of your host:
# Used: http://example.com/robots.txt
# Ignored: http://example.com/site/robots.txt
# For more information about the robots.txt standard, see:
# http://www.robotstxt.org/wc/robots.html
# For syntax checking, see:
# http://www.sxw.org.uk/computing/robots/check.html

User-agent: *
Crawl-delay: 10
# Directories
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
Disallow: /profiles/
Disallow: /scripts/
Disallow: /themes/
# Files
Disallow: /CHANGELOG.txt
Disallow: /cron.php
Disallow: /INSTALL.mysql.txt
Disallow: /INSTALL.pgsql.txt
Disallow: /INSTALL.sqlite.txt
Disallow: /install.php
Disallow: /INSTALL.txt
Disallow: /LICENSE.txt
Disallow: /MAINTAINERS.txt
Disallow: /update.php
Disallow: /UPGRADE.txt
Disallow: /xmlrpc.php
# Paths (clean URLs)
Disallow: /admin/
Disallow: /comment/reply/
Disallow: /filter/tips/
Disallow: /node/add/
Disallow: /search/
Disallow: /user/register/
Disallow: /user/password/
Disallow: /user/login/
Disallow: /user/logout/
# Paths (no clean URLs)
Disallow: /?q=admin/
Disallow: /?q=comment/reply/
Disallow: /?q=filter/tips/
Disallow: /?q=node/add/
Disallow: /?q=search/
Disallow: /?q=user/password/
Disallow: /?q=user/register/
Disallow: /?q=user/login/
Disallow: /?q=user/logout/

Siccome mi sono accorto che nella sitemap venivano inseriti e indicizzati da Google alcuni URL (sono 70) che non voglio lo siano per evitare il problema dei contenuti duplicati, ho modificato il file robots.txt aggiungendo gli URL in questione (in neretto); in più ho aggiunto anche il richiamo alla sitemap.
Il nuovo file robots.txt è quindi il seguente:

User-agent: *
Crawl-delay: 10
# Directories
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
Disallow: /profiles/
Disallow: /scripts/
Disallow: /themes/
# Files
Disallow: /CHANGELOG.txt
Disallow: /cron.php
Disallow: /INSTALL.mysql.txt
Disallow: /INSTALL.pgsql.txt
Disallow: /INSTALL.sqlite.txt
Disallow: /install.php
Disallow: /INSTALL.txt
Disallow: /LICENSE.txt
Disallow: /MAINTAINERS.txt
Disallow: /update.php
Disallow: /UPGRADE.txt
Disallow: /xmlrpc.php
# Paths (clean URLs)
Disallow: /admin/
Disallow: /comment/reply/
Disallow: /filter/tips/
Disallow: /node/add/
Disallow: /search/
Disallow: /user/register/
Disallow: /user/password/
Disallow: /user/login/
Disallow: /user/logout/
Disallow: /argomento/cavità-orbitarie-od-orbite-rif
Disallow: /argomento/nervo-ottico-rif
Disallow: /argomento/vascolarizzazione-del-midollo-spinale-rif
Disallow: /argomento/muscolo-costrittore-inferiore-della-faringe-rif
Disallow: /argomento/muscolo-faringopalatino-o-faringostafilino-rif-2
Disallow: /argomento/muscolo-stilofaringeo-rif-0
Disallow: /argomento/muscolo-tiroioideo-rif
Disallow: /argomento/muscolo-sternotiroideo-rif
Disallow: /argomento/muscolo-faringopalatino-o-faringostafilino-rif-0
Disallow: /argomento/muscolo-tensore-del-palato-o-peristafilino-esterno-rif
Disallow: /argomento/muscolo-elevatore-del-palato-o-peristafilino-interno-rif
Disallow: /argomento/muscolo-di-ugola-o-palatostafilino-rif
Disallow: /argomento/muscolo-glossopalatino-o-glossostafilino-rif
Disallow: /argomento/muscoli-del-palato-molle-rif
Disallow: /argomento/muscolo-stilofaringeo-rif
Disallow: /argomento/muscolo-costrittore-inferiore-rif
Disallow: /argomento/muscolo-costrittore-medio-rif
Disallow: /argomento/muscolo-costrittore-superiore-rif
Disallow: /argomento/muscolo-faringopalatino-o-faringostafilino-rif-1
Disallow: /argomento/muscoli-della-faringe-rif
Disallow: /argomento/cavità-nasali-rif
Disallow: /argomento/loggia-lienale-o-splenica-rif
Disallow: /argomento/tessuto-linfoide-associato-alla-cute-rif
Disallow: /argomento/tessuto-linfoide-associato-alle-mucose-rif
Disallow: /argomento/midollo-osseo-rif
Disallow: /argomento/cavità-buccale-o-orale-propriamente-detta-rif
Disallow: /argomento/seno-petroso-inferiore-rif
Disallow: /argomento/mesentere-rif
Disallow: /argomento/muscolo-faringopalatino-o-faringostafilino-rif
Disallow: /argomento/muscolo-faringoglosso-rif
Disallow: /argomento/muscolo-glossopalatino-o-glossostafilino-rif-0
Disallow: /argomento/tube-uterine-o-salpingi-rif
Disallow: /argomento/ovaie-rif
Disallow: /argomento/utero-rif
Disallow: /argomento/apparato-genitale-femminile-rif
Disallow: /argomento/fibra-muscolare-striata-cardiaca-rif
Disallow: /argomento/tessuto-osseo-lamellare-o-stratificato
Disallow: /argomento/struttura-del-midollo-osseo-rosso-rif
Disallow: /argomento/acetilcolina-rif
Disallow: /argomento/trasportatori-degli-aminoacidi-eccitatori-rif
Disallow: /argomento/trasportatori-delle-amine-rif
Disallow: /argomento/trasportatori-del-glucosio-rif
Disallow: /argomento/trasportatore-sodio-calcio-rif
Disallow: /argomento/trasportatore-sodio-idrogeno-rif
Disallow: /argomento/trasportatore-cloro-bicarbonato-rif
Disallow: /argomento/trasportatore-sodio-glucosio-rif
Disallow: /argomento/trasportatore-sodio-potassio-cloro-rif
Disallow: /argomento/pompa-sodio-potassio-rif2
Disallow: /argomento/pompa-sodio-potassio-rif-0
Disallow: /argomento/pompa-calcio-atpasi-rif
Disallow: /argomento/pompa-idrogeno-potassio-o-prompa-protonica-rif
Disallow: /argomento/pompa-protonica-o-idrogeno-potassio-rif
Disallow: /argomento/recettori-intracellulari-rif
Disallow: /argomento/classificazione-dei-recettori-intracellulari-rif
Disallow: /argomento/delleffettore-fosfolipasi-c-rif
Disallow: /argomento/delleffettore-adenilato-ciclasi-rif
Disallow: /argomento/trasportatori-di-membrana-rif
Disallow: /argomento/pompe-di-tipo-abc-rif
Disallow: /argomento/pompe-di-tipo-f-rif
Disallow: /argomento/pompe-di-tipo-v-rif
Disallow: /argomento/pompe-di-tipo-p-rif
Disallow: /argomento/pompe-cellulari-rif
Disallow: /argomento/classificazione-delle-proteine-g-rif
Disallow: /argomento/proteine-g-monomeriche-rif
Disallow: /argomento/diffusione-o-diffusione-semplice-rif
Disallow: /argomento/glicoproteina-p-o-atpasi-trasportatrice-di-farmaci-rif
Disallow: /argomento/classificazione-dei-recettori-di-membrana-o-di-superficie-rif
Disallow: /argomento/recettori-rif
Disallow: /argomento/recettori-di-membrana-o-di-superficie-rif
Disallow: /argomento/emoglobina-rif

# Paths (no clean URLs)
Disallow: /?q=admin/
Disallow: /?q=comment/reply/
Disallow: /?q=filter/tips/
Disallow: /?q=node/add/
Disallow: /?q=search/
Disallow: /?q=user/password/
Disallow: /?q=user/register/
Disallow: /?q=user/login/
Disallow: /?q=user/logout/

Sitemap: http://medicinapertutti.altervista.org/sitemap.xml

A partire da questa modifica la sitemap risulta comunque inviata e indicizzata (1980 URL su 2020) ma nel GWT trovo un avviso riguardo la sitemap che mi dice che il file robots.txt blocca alcuni URL presenti nella sitemap. Direi "ovvio" ma il problema è che ieri mi dava 140 avvisi, oggi sono diventati 220.
Qualcuno saprebbe spiegarmi perché? Potrei capire se gli avvisi fossero 70 (quanti gli URL per cui ho impostato il "disallow") ma 220 non me li so spiegare (e comunque sono aumentati rispetto a ieri).
Potrei con un "artificio" fare in modo che quelle pagine non siano proprio inserite nella sitemap, ma se utilizzando il file robots.txt come sto facendo va ugualmente bene, mi viene più facile fare così.

