Dans un soucis de transparence et de communication avec vous, les utilisateurs de KreuZZ, j'ai installé un petit forum pour que nous fassions un peu mieux connaissance, et que les échanges d'informations soient facilités.
Ce forum, vous pourrez le retrouver à l'adresse http://forum.kreuzz.com.
Pour vous connecter, munissez vous de votre login / mot de passe KreuZZ.
Si vous souhaitez vous inscrire et participer au forum, il vous suffit de créer un compte KreuZZ à cette adresse
A vous la parole !
T'as décidé de te présenter aux élections présidentielles ?
Sans cette info, ça va être difficile.
L'usage pour les robots est de créer une page "about" sur laquelle le user-agent permettant le blocage du crawler est explicitement annoncé.
Mon site est un blog dotclear de base, je doute que ce problème n'affecte que moi. Et ce n'est pas à moi d'adapter mon site à votre crawler. Je n'ai rien contre les crawlers, ni contre Kreuzz, mais prenez vos dispositions, les bad bots sont mal vus en ce moment et ils commencent à énerver du monde :
http://incredibill.blogspot.com/
Faudra m'expliquer comment une simple cron fait mieux que le crawler google ! Parce que là, c'est impressionnant... D'autant que dotclear est prévu pour ce genre de requêtes massives...
Mathieu ? Une piste pour aider ce monsieur qui refuse de donner son adresse pour te simplifier la tâche ?
<a href="http://imageshack.us"><img src="http://img233.imageshack.us/img233/4526/kreuzzjj6.jpg" border="0" alt="Image Hosted by ImageShack.us" /></a>
Un user-Agent valide est un robots.txt respecté me suffirait, par besoin d'autre aide.
1300 chargements en 1 passe ? Pour information, KreuZZ comporte actuellement pas loin de 1900 flux différents. A vous seul donc vous hébergez plus de 70% des blogs sur lesquels le KreuZZ Bot vient chercher ses flux ? Chapeau bas :)
%%%
Le bot possède bien un "about" selon les normes en vigueur pour les bots, comme le montre cette ligne de log apache :
%%%
82.234.98.112 - - [21/Nov/2006:20:50:35 +0100] "GET /flux/ HTTP/1.0" 200 11927 "-" "Kreuzz.com bot/0.87 (+http://www.kreuzz.com/about/)"
%%%
Accessoirement, KreuZZ récupère aussi le flux de ce blog (qui n'est pas un dotclear, mais peu importe) et je n'ai pas le moindre soucis qui apparait dans les logs apache : le bot passe une fois toute les 20 minutes, c'est tout.
%%%
Enfin, pour finir dans les précisions, le bot est basé sur un wget (pour ceux qui connaissent) et n'est pas configuré pour aspirer le web en entier, bien au contraire.
%%%
Donc, si voulez que je puisse résoudre votre problème, si problème il y a, mentionnez l'url appelée, et je ferais le nécessaire. Si maintenant, vous refusez de communiquer cette info sur un simple blog, vous avez mon email : maverick@eskuel.net
%%%Si malgré tout cela vous ne me communiquez pas ces infos, malheureusement, je ne peux rien pour vous :-/
Si je ne veux pas donner l'adresse de mon site, c'est plus une question de principe qu'autre chose.
Chaque fois que Kreuzz passe sur mon blog, il le met down.
Hors il n'a rien de particulier, un dotclear sur un mutu 1&1.
Je ne vois pas pourquoi je serais le seul dans ce cas, j'imagine que cela arrive à d'autres, mais peut être ne s'en rendent ils pas compte, (les log apache et outils de stats, tout le monde n'utilise pas), c'est pour cela que je ne veux pas que mon cas soit considérer comme particulier relatif à une URL.
Un bot est sensé respecter certaines règles, et la prolifération des scrappers "hostiles" me saoule.
Je ne dis pas que Kreuzz en est un, mais le fait est que qu'il cause des problèmes sur certains sites.
Une de ces règles, bien qu'elle ne soit dictée que par la netiquette, est le respect des robots.txt.
Ce serait à mon sens une bonne chose de votre part de faire en sorte que votre bot tienne compte de ses directives pour permettre aux sites qui le souhaitent de ne pas être crawlés.
Si c'est déjà le cas (respect du robots.txt), merci de me le confirmer.
%%%
%%%
Par ailleurs, à confirmer, mais des services similaires comme netvibes ne tiennent pas comptent du robots.txt il me semble. (Attention toutefois je ne dis pas que si eux ne le font pas, je ne devrais pas le faire aussi)
Il vient de repasser, toutes les 2O minutes effectivement. 1094 chargements.
Votre crawler plante mon site 3 fois par heure en me piquant mon contenu et vous me feriez une faveur en respectant le robots.txt ?
C'est à vous de régler votre crawler, si vous ne savez pas faire, ne faites pas de crawler, en attendant, rendez le compliant avec le fichier robots.txt.
Je vais faire un deny sur IP et faire passer le mot concernant kreuzz, on verra, ce que cela donne, au pire cela vous fera de la pub gratuite.
JE n'ai pas décidé de "piquer" votre contenu. Si votre flux est indexé, c'est parce qu'un utilisateur a décidé de le lire. Si vous ne voulez pas que votre contenu soit repris par vos lecteurs, ne le proposez pas.
%%%
Mon crawler plante votre site ? J'en suis sincèrement désolé. Mais si un simple appel HTTP plante votre hébergeur ou votre script, changez le. Le dit crawler n'est qu'un simple Wget. Rien d'extravagant donc.
%%%
Sachez également que je ne parlais pas de faveur dans mon précédent message. Je ne faisais que reprendre votre argument de principe et non de cas particulier.
%%%
De plus, vous pouvez parfaitement bloquer mon IP et/ou parler de KreuZZ autour de vous, grand bien vous en fasse. Je vous propose mon aide en attendant une solution définitive concernant de problème de robots.txt, vous bottez en touche. Que voulez-vous de plus ? Je ne vais pas pénaliser 300 utilisateurs, uniquement pour vous, alors que je vous propose d'arrêter le préjudice que vous subissez.
Maintenant il y a des exceptions qui confirment les règles. Je pense que pour votre bien Mr John, donner l'url de votre site serait une idée plus qu'intelligente. Maintenant c'est votre droit de ne pas la communiquer, mais dans ce cas postez sur votre blog pour demander au(x) lecteur(s) de votre prose de cesser d'utiliser Kreuzz.
Il y avait une pub qui avait pour slogan "Ne passons pas à côté des choses simples"... cela ne semble pas être votre doctrine certes, mais pensez-y !
%%%
Voici leur réponse concernant les robots.txt sur l'appel des flux RSS :
[ici|http://www.google.com/support/webmasters/bin/answer.py?answer=33545&topic=8461]
et
[là|http://www.google.com/support/webmasters/bin/answer.py?answer=33542&topic=8461]
La page contenant toutes ces informations est accessible [par là|http://www.google.com/support/webmasters/bin/topic.py?topic=8843], catégorie "Feedfetcher"