← Journal · Archiv

Unleserliche CAPTCHAs

December 30, 2004

CAPTCHAS werden verwendet um Menschen von Maschinen zu trennen. CAPTCHAs sind in der Regel Bildchen mit Text die von ihrer Natur her schon schwierig für Maschinen zu lesen sind. Meistens werden die Schriften auch noch soweit verstümmelt dass nur ein menschliches Gehirn in der Lage ist, noch Assoziationen zu Buchstaben zustande zu bringen. Das ist dann noch sicherer. Nachteil bei der ganzen Angelegenheit ist, dass Sehbehinderte ebenfalls mit ihrer Braille-Tastatur kein Captcha lesen können.
Um nicht noch mehr Menschen auszusperren, sollte ein CAPTCHA für einen Menschen gut lesbar bleiben. Ein Spagat: Ist das CAPTCHA zu leicht, kann es der Computer erkennen. Ist es zu schwierig, kann es ein Mensch auch nicht mehr lesen.
Diverse CAPTCHAsBeim Beispiel 1, gefunden auf einer Seite des XEROX PARC, hatte ich Mühe das Wort »obviouse« zu entziffern. »Offensichtlich« aus dem Englischen übersetzt. Buchstaben zu verstümmeln ist keine gute Methode, da ich bereits einen einfachen OCR-Algorithmus auf Basis eines künstlichen neuralen Netzwerkes schon in Aktion gesehen habe. Die Lernphase beträgt für jeden Buchstaben einer Schrift wenige Millisekunden. Zudem ist es ein Wort das in einem Wörterbuch vorkommt. Ein Computer hätte die Schrift schneller gelernt und das Wort nachgeschlagen, als ich es hätte entziffern können. Praktikabler ist es den Text zu »verwischen«. Die Universität Berkeley hat eine Studie über einige Methoden veröffentlicht. So konnte z.B. trotz Verwendung eines im Wörterbuch bekannten Textes das Beispiel 2 nicht entziffert werden. Der Computer favorisierte die Wörter roof, tight, star, till und full, kam aber nicht auf pull.
Für den Menschen ist das Beispiel ohne Probleme lesbar. Es geht auch anders herum. Ich konnte einen Kommentar nicht speichern, da es nicht möglich war das CAPTCHA zu entziffern. Für einen den o. e. OCR-Algorithmus wäre es ein Kinderspiel gewesen. Kleinere Probleme hatte ich häufiger mit CAPTCHAs von Wordpress-Blogs. So z. B. auf der Seite von Alp Uçkan (Siehe Bsp. 3). Dort wurde eine Schrift verwendet die meiner Ansicht nach ungeeignet für so etwas ist. Das kleine L ähnelte sehr stark der 1, da es im Gegensatz zu allen anderen Buchstaben Serifen besaß. Dazu kam noch dass das große O wie eine 0 (Null) aussah.
Mein Vorschlag wäre es entweder nur Zahlen oder nur Text zu verwenden um Verwirrungen vorzubeugen. Nur Schriften zu verwenden die entweder komplett Serifen haben oder nur Schriften verwenden die auf Serifen komplett verzichten. Werden Zahlen und Buchstaben gemischt, dann sollte die Null mit einem Querstrich kenntlich gemacht werden und auf kleine Buchstaben verzichtet werden.

6 Kommentare

Pepino ·

Man könnte bei den Captchas ja auch auf die 0, 1, L und das O verzichten. Damit gäbe es dann weniger Verwirrungen…

dasbenni ·

Vielmehr ist doch die Frage, ob ein so komplexer Verstümmelungsalgorithmus sein muss. Gerade Kommentarspammer haben es schwer, erstmal das richtige Bild zu lokalisieren, dann noch für jeden Eintrag eine Erkennung drüberlaufen lassen braucht doch immense Rechenzeit - und so viel Geld bringt der Spam ja dann auch nicht, dass es sich noch lohnt.

Oder?

lemming ·

Pepino, da hast du natürlich recht. Das würde die Verwirrung auch beseitigen.

dasbenni, ein CAPTCHA das wie bei mir nur aus Zahlen besteht ist für normale OCR-Programme (ReadIris, OMNIpage, etc.) kein Problem. Aber es reicht ewig zur Abschreckung von Spammern - das stimmt. Dort draussen gibt es ebensoviele ungeschützte Blogs die darauf warten gepflügt zu werden wie unverschlüsselte WLANs. Wenn der Wardriver ein mit lächerlichen 52Bit verschlüsseltes WEP-WLAN findet, dann fährt er auch nur zwei Hausnummern weiter und findet dort zwei unverschlüsselte.

Dennoch, für Lycos und Yahoo die Dinge wie Gratis-SMS anbieten sind solche CAPTCHAs unabdingbar, wenn sie nicht bankrot gehen wollen.

frank ·

Also ich schütze meinen Weblog erst, wenn ich Opfer eines Spamers geworden bin. Solange lasse ich keinen irgendwelche Zahlen oder Buchstaben entziffern.

Zur Zeit habe ich eher ein “menschliches Problem” – ich habe einen, der auf einen älteren Beitrag immer obszöne Kommentare schreibt. Alle par Tage einen. Wie wird man so etwas wieder los?

gukgu ·

efef

Thomas Hölzl ·

Und welchen Plugin verwendest Du hier? Der hier ist auf jeden Fall einfach lesbar. Aber ich denke, der sortiert 90% aus, oder?

Kommentar hinterlassen