blogsear.ch startet richtig durch. styx, der dedizierte Server für blogsear.ch, glüht regelrecht beim Katalogisieren und Suchen.
Hier einige Anmerkungen was mir beim Katalogisieren durch die Landschaft so aufgefallen ist.
- robots.txt scheint völlig unbekannt zu sein. Es wird so gut wie gar nicht genutzt und wenn, dann nur um alle Suchmaschinen auszusperren (Bei der schieren Masse derer wird es wohl auch nichts bringen da Unterschiede zu machen).
- Myblog.de hat wie es aussieht den schlechtesten validierten XML-Code den es im Internet gibt. Da passt gar nix.
- Amerikanische Blogger stopfen ihr Blog grotesk mit Werbung voll. In Deutschland würde das eindeutig schlechtes Karma ernten.
- Google scheint bei Blogspot, URLs aus den Agent-Strings seiner Besucher zu filtern, um diesen später mit Googlebots nachzugehen. Der Agent-String von blogsear.ch sieht für duckdown.blogspot.com z. B. so aus.
blogsear.ch update _ (+http://blogsear.ch/search/http://duckdown.blogspot.com/)
Das mache ich, damit Otto Normalblogger direkt aus seinen Logauswertungen darauf schließen kann, wo er bei blogsear.ch zu finden ist.
Google schließt darauf, wo es neues Crawler-Futter gibt. Keine Stunde später taucht dann der erste Googlebot auf um just genau diese URL zu beschnuppern.
Ansonsten habe ich so meine Mühe potiemkinsche Dörfer - insbsondere mit japanischen oder chinesischen Schriftzeichen - aus der Datenbank raus zu halten.

3 Kommentare
Das mit der URL im Agent-String ist SEHR interessant!
BTW: Ich tue mich mehr als schwer mit “DER Blog”.
Stimmt, heißt richtig das Blog.
pepino bin der gleichen meinung. kannst dich ja mal melden würd mich mal gern näher darüber unterhalten..