KreuZZ, exprimez-vous !

Dans un soucis de transparence et de communication avec vous, les utilisateurs de KreuZZ, j'ai installé un petit forum pour que nous fassions un peu mieux connaissance, et que les échanges d'informations soient facilités.

Ce forum, vous pourrez le retrouver à l'adresse http://forum.kreuzz.com.

Pour vous connecter, munissez vous de votre login / mot de passe KreuZZ.

Si vous souhaitez vous inscrire et participer au forum, il vous suffit de créer un compte KreuZZ à cette adresse

A vous la parole !

Publié le :

15/11/2006

Dans la catégorie :

kreuzz.com

Auteur :

Mathieu LESNIAK

Commentaires :

François

"Dans un soucis de transparence et de communication"
T'as décidé de te présenter aux élections présidentielles ?

16/11/2006 08:50:29

Maverick

Non non, j'ai pas envie d'être président, j'ai déjà bien assez de choses à faire durant mes journées :)

16/11/2006 10:07:12

John

C'est bien les crawlers, mais il faudrait les contrôler. A chaque fois que votre bot passe sur mon site, il le met down : + de 1000 chargements de page à la minute.

21/11/2006 13:11:08

Mathieu

Hmm, et si vous me donniez la ou les adresses de votre site, je pourrais y faire quelque chose.
Sans cette info, ça va être difficile.

21/11/2006 13:37:28

john

Il vienr de repasser, + de 1300 chargements. Est-ce qu'il respecte le User-Agent du robots.txt ? Essayé avec Kreuzz, mais cela ne marche pas. Vais tenter avec Kreuzz.com.
L'usage pour les robots est de créer une page "about" sur laquelle le user-agent permettant le blocage du crawler est explicitement annoncé.

Mon site est un blog dotclear de base, je doute que ce problème n'affecte que moi. Et ce n'est pas à moi d'adapter mon site à votre crawler. Je n'ai rien contre les crawlers, ni contre Kreuzz, mais prenez vos dispositions, les bad bots sont mal vus en ce moment et ils commencent à énerver du monde :
http://incredibill.blogspot.com/

21/11/2006 19:52:44

loranger

1000 chargements à la seconde pour un flux rss ??
Faudra m'expliquer comment une simple cron fait mieux que le crawler google ! Parce que là, c'est impressionnant... D'autant que dotclear est prévu pour ce genre de requêtes massives...

Mathieu ? Une piste pour aider ce monsieur qui refuse de donner son adresse pour te simplifier la tâche ?

21/11/2006 20:41:58

John

Jamais parlé de 1000/seconde.
<a href="http://imageshack.us"><img src="http://img233.imageshack.us/img233/4526/kreuzzjj6.jpg" border="0" alt="Image Hosted by ImageShack.us" /></a>
Un user-Agent valide est un robots.txt respecté me suffirait, par besoin d'autre aide.

21/11/2006 21:03:58

Maverick

Bon, tout le monde se calme, y'a pas de quoi s'affoler.

1300 chargements en 1 passe ? Pour information, KreuZZ comporte actuellement pas loin de 1900 flux différents. A vous seul donc vous hébergez plus de 70% des blogs sur lesquels le KreuZZ Bot vient chercher ses flux ? Chapeau bas :)
%%%
Le bot possède bien un "about" selon les normes en vigueur pour les bots, comme le montre cette ligne de log apache :
%%%
82.234.98.112 - - [21/Nov/2006:20:50:35 +0100] "GET /flux/ HTTP/1.0" 200 11927 "-" "Kreuzz.com bot/0.87 (+http://www.kreuzz.com/about/)"
%%%

Accessoirement, KreuZZ récupère aussi le flux de ce blog (qui n'est pas un dotclear, mais peu importe) et je n'ai pas le moindre soucis qui apparait dans les logs apache : le bot passe une fois toute les 20 minutes, c'est tout.
%%%
Enfin, pour finir dans les précisions, le bot est basé sur un wget (pour ceux qui connaissent) et n'est pas configuré pour aspirer le web en entier, bien au contraire.
%%%
Donc, si voulez que je puisse résoudre votre problème, si problème il y a, mentionnez l'url appelée, et je ferais le nécessaire. Si maintenant, vous refusez de communiquer cette info sur un simple blog, vous avez mon email : maverick@eskuel.net
%%%Si malgré tout cela vous ne me communiquez pas ces infos, malheureusement, je ne peux rien pour vous :-/

21/11/2006 21:06:33

John

Bon effectivement, ce n'est pas la peine de s'énerver.
Si je ne veux pas donner l'adresse de mon site, c'est plus une question de principe qu'autre chose.

Chaque fois que Kreuzz passe sur mon blog, il le met down.

Hors il n'a rien de particulier, un dotclear sur un mutu 1&1.
Je ne vois pas pourquoi je serais le seul dans ce cas, j'imagine que cela arrive à d'autres, mais peut être ne s'en rendent ils pas compte, (les log apache et outils de stats, tout le monde n'utilise pas), c'est pour cela que je ne veux pas que mon cas soit considérer comme particulier relatif à une URL.

Un bot est sensé respecter certaines règles, et la prolifération des scrappers "hostiles" me saoule.
Je ne dis pas que Kreuzz en est un, mais le fait est que qu'il cause des problèmes sur certains sites.
Une de ces règles, bien qu'elle ne soit dictée que par la netiquette, est le respect des robots.txt.
Ce serait à mon sens une bonne chose de votre part de faire en sorte que votre bot tienne compte de ses directives pour permettre aux sites qui le souhaitent de ne pas être crawlés.
Si c'est déjà le cas (respect du robots.txt), merci de me le confirmer.

21/11/2006 21:20:36

Maverick

Ce n'est pas une question de cas particulier ou autre traitement de faveur, mais pour pouvoir débuguer correctement, l'url de votre site serait la bienvenue. Plus tôt je pourrais débugguer, plutôt vous et toutes les autres personnes concernées par ce problème pourront être soulagées.
%%%
%%%
Par ailleurs, à confirmer, mais des services similaires comme netvibes ne tiennent pas comptent du robots.txt il me semble. (Attention toutefois je ne dis pas que si eux ne le font pas, je ne devrais pas le faire aussi)

21/11/2006 21:25:15

John

Vous plaisantez j'espère en parlant de faveur ?
Il vient de repasser, toutes les 2O minutes effectivement. 1094 chargements.
Votre crawler plante mon site 3 fois par heure en me piquant mon contenu et vous me feriez une faveur en respectant le robots.txt ?
C'est à vous de régler votre crawler, si vous ne savez pas faire, ne faites pas de crawler, en attendant, rendez le compliant avec le fichier robots.txt.
Je vais faire un deny sur IP et faire passer le mot concernant kreuzz, on verra, ce que cela donne, au pire cela vous fera de la pub gratuite.

21/11/2006 22:43:10

Maverick

Que les choses soient claires.

JE n'ai pas décidé de "piquer" votre contenu. Si votre flux est indexé, c'est parce qu'un utilisateur a décidé de le lire. Si vous ne voulez pas que votre contenu soit repris par vos lecteurs, ne le proposez pas.
%%%
Mon crawler plante votre site ? J'en suis sincèrement désolé. Mais si un simple appel HTTP plante votre hébergeur ou votre script, changez le. Le dit crawler n'est qu'un simple Wget. Rien d'extravagant donc.
%%%
Sachez également que je ne parlais pas de faveur dans mon précédent message. Je ne faisais que reprendre votre argument de principe et non de cas particulier.
%%%
De plus, vous pouvez parfaitement bloquer mon IP et/ou parler de KreuZZ autour de vous, grand bien vous en fasse. Je vous propose mon aide en attendant une solution définitive concernant de problème de robots.txt, vous bottez en touche. Que voulez-vous de plus ? Je ne vais pas pénaliser 300 utilisateurs, uniquement pour vous, alors que je vous propose d'arrêter le préjudice que vous subissez.

21/11/2006 23:03:14

Mister Cham

Euh, suis pas totalement au fait des subtilités techniques dont vous débattez, mais pour info je suis indexé sur Kreuzz, j'utilise un Dotclear et tout va bien !
Maintenant il y a des exceptions qui confirment les règles. Je pense que pour votre bien Mr John, donner l'url de votre site serait une idée plus qu'intelligente. Maintenant c'est votre droit de ne pas la communiquer, mais dans ce cas postez sur votre blog pour demander au(x) lecteur(s) de votre prose de cesser d'utiliser Kreuzz.
Il y avait une pub qui avait pour slogan "Ne passons pas à côté des choses simples"... cela ne semble pas être votre doctrine certes, mais pensez-y !

22/11/2006 09:48:37

Maverick

Juste pour information : d'autre bots passent sur ce blog, dont celui de Google pour leur service de lecteur RSS / page d'accueil personnalisée.
%%%
Voici leur réponse concernant les robots.txt sur l'appel des flux RSS :
[ici|http://www.google.com/support/webmasters/bin/answer.py?answer=33545&topic=8461]
et
[là|http://www.google.com/support/webmasters/bin/answer.py?answer=33542&topic=8461]

La page contenant toutes ces informations est accessible [par là|http://www.google.com/support/webmasters/bin/topic.py?topic=8843], catégorie "Feedfetcher"

22/11/2006 10:24:08

rlxeudjj

[URL=http://vivujwyj.com]amseledt[/URL] rmilhozk http://mwghrbrc.com hlsyeavi nsjpmuoz <a href="http://glcjceza.com">dyrgqjtl</a>

13/02/2007 14:39:09

ddvpyfdg

[URL=http://ondpohzt.com]oishjgdf[/URL] <a href="http://jhlwfdyn.com">udlgbxny</a> qxblbnrc http://sklucymj.com zilwqgxf ishwlqen

13/02/2007 17:46:32

tygmybvo

qzrkwwoj http://gelvrazc.com svzlfocg itpmtudg [URL=http://vnezzcqz.com]icydkkat[/URL] <a href="http://lytxoryo.com">rayqenhg</a>

15/02/2007 02:06:21

jbkonbxr

[URL=http://vqmkwppy.com]ytrqkggj[/URL] <a href="http://hytgvhwt.com">yybynney</a> xltwomur http://wmditlcf.com accoalfv ivhcpfjr

17/03/2007 08:21:19