Autore | Messaggio |
Dino Fedele
Registrato: Mar 23, 2006 Messaggi: 105
|
Oggetto: [RISOLTO]-file robots.txt |
|
|
Eccomi
E' da un po' che non .... "rompevo"
In genere tale file esclude l'accesso dei robot alla cartella modules, ed è fatto così:
--------------------------------------------
User-agent: *
Disallow: /modules/
ecc. ecc.
--------------------------------------------
Se io volessi invece consentire l'accesso dei robot al solo modulo Reviews, il file robot.txt sara così:
--------------------------------------------
User-agent: *
Disallow: /modules/News
Disallow: /modules/Content
Disallow: /modules/.... (a seguire l'elenco di tutti i moduli da escludere meno quello reviews)
--------------------------------------------
Ho bisogno di sapere se quello che dico è corretto oppure se sbaglio qualcosa (non vorrei fare pasticci ).
Grazie, ciao
Dino.
P.S.: se invece voglio escludere un solo file (per es. in root) quale delle seguenti righe è corretta?
a) Disallow: pippo.php
b) Disallow: /pippo.php/
c) Disallow: /pippo.php
|
|
Inviato:
Sab Nov 17, 2007 5:32 pm |
|
|
|
|
Sniffer Amministratore
Registrato: Jul 20, 2003 Messaggi: 3218
Località: Verona
|
Oggetto: |
|
|
Citazione: | Ho bisogno di sapere se quello che dico è corretto oppure se sbaglio qualcosa (non vorrei fare pasticci |
Si è corretto
Citazione: | P.S.: se invece voglio escludere un solo file (per es. in root) quale delle seguenti righe è corretta?
a) Disallow: pippo.php
b) Disallow: /pippo.php/
c) Disallow: /pippo.php |
è corretta la c quindi Disallow: /pippo.php devi sempre mettere una / prima del nome del file anche se il file è nella root.
Se ti può interessare su
Su questo forum solo gli utenti registrati possono vedere i links! Registrati o fai il login | sito trovi come realizzarlo e un test per verificare se è corretto.
_________________ Non inviatemi pm con richieste di aiuto grazie.
Su questo forum solo gli utenti registrati possono vedere i links! Registrati o fai il login |
|
|
Inviato:
Sab Nov 17, 2007 6:40 pm |
|
|
Dino Fedele
Registrato: Mar 23, 2006 Messaggi: 105
|
Oggetto: Re |
|
|
Grazie Sniffer, gentilissimo come al solito!
Per prima cosa scusa se non mi sono fatto vivo prima ma ho "staccato" per un po' e poi avevo accantonato qs problema del file robots.txt per affrontarne altri .....
Scusa ma mi sorgono altri dubbi:
1.) per i Files: la / va quindi sempre messa prima del nome del file e mai dopo:
es.: Disallow: /admin.php
(nel mio robots.txt ho entrambe qs righe:
Disallow: admin.php
Disallow: /admin.php
Devo cancellare la prima?
2.) per le cartelle in root: la / va messa sia prima che dopo il nome della cartella
es.: Disallow: /blocks/
3.) per cartelle dentro altre cartelle: la / va messa tre volte:
es.: Disallow: /modules/News/
E' tutto giusto quel che dico?
4.) Ho trovato che Google visita l'index dei moduli e non capisco se li scansiona oppure no, visto che nel robots.txt c'è:
User-agent: *
Disallow: /modules/
5.)I moduli visibili ai soli utenti registrati non possono essere indicizzati dai motori di ricerca, giusto? Se è così com'è che storyhost mi riporta degli indirizzi di pagine del modulo Kalender (ad es. quelle del mese) visibile ai soli registrati e visitate invece da Google? (se infatti ci vado da anonimo ho la pagina classica di accesso negato).
Spero che tu abbia avuto la tu solita e proverbiale pazienza nel leggere tutto il mio post e ti ringrazio come sempre per la tua disponibilità.
Ciao, Dino
P.S.: ho ancora la vecchia cara 6.9.
|
|
Inviato:
Dom Gen 20, 2008 7:06 pm |
|
|
Sniffer Amministratore
Registrato: Jul 20, 2003 Messaggi: 3218
Località: Verona
|
Oggetto: |
|
|
Citazione: | Scusa ma mi sorgono altri dubbi:
1.) per i Files: la / va quindi sempre messa prima del nome del file e mai dopo:
es.: Disallow: /admin.php
(nel mio robots.txt ho entrambe qs righe:
Disallow: admin.php
Disallow: /admin.php
Devo cancellare la prima? |
Si la prima è da cancellare.
Citazione: | 2.) per le cartelle in root: la / va messa sia prima che dopo il nome della cartella
es.: Disallow: /blocks/
3.) per cartelle dentro altre cartelle: la / va messa tre volte:
es.: Disallow: /modules/News/
E' tutto giusto quel che dico?
|
Si esatto
Citazione: | 4.) Ho trovato che Google visita l'index dei moduli e non capisco se li scansiona oppure no, visto che nel robots.txt c'è:
User-agent: *
Disallow: /modules/ |
Se lo scrivi in quel modo indichi a tutti gli spider che non devono scansionare l'interno della cartella modules, puoi scriverlo anche in questo modo
User-agent: googlebot
Disallow: /admin.php
Disallow: /modules/
in questo caso solo gli spider di google non possono scansionare il file admin.php e neppure l'interno della cartella modules, gli altri hanno libero accesso.
Citazione: | 5.)I moduli visibili ai soli utenti registrati non possono essere indicizzati dai motori di ricerca, giusto? Se è così com'è che storyhost mi riporta degli indirizzi di pagine del modulo Kalender (ad es. quelle del mese) visibile ai soli registrati e visitate invece da Google? (se infatti ci vado da anonimo ho la pagina classica di accesso negato). |
No lo devi indicare nel file robots.txt
_________________ Non inviatemi pm con richieste di aiuto grazie.
Su questo forum solo gli utenti registrati possono vedere i links! Registrati o fai il login |
|
|
Inviato:
Mer Gen 23, 2008 6:54 pm |
|
|
Dino Fedele
Registrato: Mar 23, 2006 Messaggi: 105
|
Oggetto: Grazie |
|
|
Grazie mille Sniffer, il tuo aiuto è sempre prezioso e non saprei come fare senza la tua collaborazione
Tutto ok per i punti 1, 2 e 3.
Mi permangono però un paio di perplessità:
4.) nel mio robots.txt c'è
Disallow: /modules/
e quindi il fatto che google (ma anche glialtri spider) vadano sull'index-p-h-p (come rilevo da storyhost) è normale: ma lì si fermano: ho capito giusto?
5.) questo punto è invece per me inspiegabile:
ok, rendere i moduli riservato ai soli registrati non li protegge dagli spider e qui ora ci sono (giusto?).
Nel mio robots.txt però c'è già:
Disallow: /modules/
coma mai quindi gli spider riescono a visitare le pagine di alcuni moduli (pagine che non solo non sono visibili agli anonimi direttamente - ma a qs punto lo diventano se gli spider le indicizzano!! - ma non dovrebbero esserlo neanche per gli spider visto che si trovano nella cartella modules!!) come ad es. Kalender, bookmarks, Globalnews (modulo di blocchi per le news dei quotidiani by Piermin), ..
Grazie ancora, ciao.
Con riconoscenza, Dino.
|
|
Inviato:
Gio Gen 24, 2008 11:13 pm |
|
|
Sniffer Amministratore
Registrato: Jul 20, 2003 Messaggi: 3218
Località: Verona
|
Oggetto: |
|
|
Non viene indicizzato il contenuto della cartella ma se il sito ha un link che lo porta al modulo allora ovviamente lo sarà.
_________________ Non inviatemi pm con richieste di aiuto grazie.
Su questo forum solo gli utenti registrati possono vedere i links! Registrati o fai il login |
|
|
Inviato:
Sab Gen 26, 2008 6:55 pm |
|
|
Dino Fedele
Registrato: Mar 23, 2006 Messaggi: 105
|
Oggetto: Re |
|
|
Spero di aver capito male
Nel mio robots.txt c'è: Disallow: /modules/
Nel menù presente nella mia Home Page è presente un link al modulo News. ---> gli Spider mi indicizzano tutte le News e quindi attraverso una ricerca con google chiunque può leggerle? (quindi anche se io avevo reso il modulo visibile ai soli registrati?)
La mia Home è piena di link alle diverse sezioni del sito, ma non mi sembra che queste vengano tutte indicizzate ..... ad eccezione di quelle che ti dicevo.
scusami ma ci sono delle cose che mi "sfuggono" e non riesco a capire! (porta pazienza San Sniffer )
Ciao, Dino
|
|
Inviato:
Sab Gen 26, 2008 7:42 pm |
|
|
Sniffer Amministratore
Registrato: Jul 20, 2003 Messaggi: 3218
Località: Verona
|
Oggetto: |
|
|
Forse non mi sono spiegato io, i link presenti sul sito se visibili solo agli iscritti non verranno indicizzati, se il link è visibile ma porta a una zona riservata verrà indicizzato ma verrà visualizzata la pagina di default.
Comunque tutto questo dipende anche dal criterio utilizzato dagli spider e non sempre a noi comuni mortali è dato sapere
_________________ Non inviatemi pm con richieste di aiuto grazie.
Su questo forum solo gli utenti registrati possono vedere i links! Registrati o fai il login |
|
|
Inviato:
Dom Gen 27, 2008 2:32 am |
|
|
Dino Fedele
Registrato: Mar 23, 2006 Messaggi: 105
|
Oggetto: Grazie |
|
|
Ti ringrazio per l'ennesima volta .. ora la situazione mi è un po' più chiara
Se non è dato sapere a un "mortale" come a te ..... figuriamoci ad uno come me
Mistero fitto: neanche a farlo apposta proprio oggi google, per la prima volta, è andato su delle news visibili solo ai registrati che non avevano alcun link nella home
Ciao e grazie ancora
Dino.
A proposito: buon 2008
|
|
Inviato:
Dom Gen 27, 2008 10:39 pm |
|
|
Sniffer Amministratore
Registrato: Jul 20, 2003 Messaggi: 3218
Località: Verona
|
Oggetto: |
|
|
Buon 2008 anche a te
_________________ Non inviatemi pm con richieste di aiuto grazie.
Su questo forum solo gli utenti registrati possono vedere i links! Registrati o fai il login |
|
|
Inviato:
Dom Feb 03, 2008 5:14 pm |
|
|
|