cómo funciona CAPTCHA | Constant Reader

¿qué es ?

seguramente está familiarizado con esta tecnología, incluso si realmente no conoce el nombre. significa Prueba pública de Turing completamente automatizada para distinguir a las computadoras y a los humanos. Su objetivo es comprobar si un usuario de una aplicación o un sitio web) es una persona real o un bot. Para hacer eso, se basa en rasgos específicos que las personas tienen y las máquinas no. es ampliamente utilizado en la industria web como una buena protección contra el spam, los bots o los ataques DOS.

¿por Qué necesitamos ?,

hay muchas personas que quieren dañar su sitio web, por diferentes razones. Competencia desleal, publicidad, a veces comportamiento malicioso o simplemente diversión. Puede implicar que » no es la mayoría de los usuarios web que están tratando de explotar las debilidades de su sistema, pero el problema sigue siendo.

el ejemplo más simple es el DOS (la denegación de servicio), que es un tipo de ataque que se centra en hacer que un recurso no esté disponible. El atacante envía una gran cantidad de solicitudes al servidor para que no pueda devolver los resultados. Simplemente bloquea su sitio web., Hacer este ataque individualmente, por una persona real, sería un horror. Sería aburrido, agotador y simplemente imposible. No puede hacer manualmente la cantidad eficiente de solicitudes, pero las computadoras no se agotan ni se aburren. No es un problema para ellos hacer cientos de solicitudes cada uno… segundo. le ayuda a identificar tales comportamientos y bloquearlos.

otro ejemplo es la táctica de publicidad maliciosa. Todos los usuarios de internet están familiarizados con el spam. Recibe toneladas de correos electrónicos no deseados todos los días. Es fácil bloquear un correo electrónico en particular, pero es difícil protegerse contra los desconocidos., Si un spammer utiliza solo una cuenta de correo electrónico, podemos bloquearla fácilmente. Pero imagine ahora que él / ella contrata a un bot para usar uno de los proveedores de correo electrónico gratuitos (el que no usa ). De esa manera, puede configurar una nueva cuenta cada varios minutos y enviar contenido de spam desde las diferentes direcciones.

Un tercer ejemplo más trivial – comentarios. Muchos sitios web, incluso pequeños blogs, están luchando con anuncios no deseados. Por supuesto, podemos hacer la vista gorda en uno o dos mensajes de spam. Desafortunadamente, a menudo vemos cientos de ellos. Es habitual encontrar contenido bien escrito con una sección de comentarios spam., Si ves una publicación con cientos del mismo mensaje (no relacionado realmente con el texto), el propietario probablemente no lo use . Incluso para personas reales, pero con malas intenciones (los llamados «trolls»), puede ser una barricada desalentadora.

¿Cómo funciona?

Las raíces se remontan a principios del siglo XX, cuando Alan Turing quería responder a una pregunta: ¿son las computadoras capaces de pensar como los humanos? Organizó un juego de imitación, donde un interrogador estaba obligado a hacer una serie de preguntas a dos participantes. Los participantes eran humanos y máquinas., El reto del interrogador era averiguar cuál era el ser humano. The interrogator was unable to see or hear them and needed to rely only on responses. Si el interrogador no pudo decidir o decidió mal, la máquina pasó la prueba de Turing. El objetivo es hacer tal pregunta o hacer tal desafío que las computadoras son incapaces de hacer frente. Al mismo tiempo, debería ser fácil de responder para los humanos.

El esquema es simple. Escriba algunos datos o realice cualquier otra acción y, a continuación, confirme pasando una prueba., El tipo más común de prueba es una imagen de un montón de letras distorsionadas. Utiliza el tema de que las computadoras no pueden pensar de manera abstracta y «ver» el mundo de la manera en que lo hacen las personas. Mientras que los humanos son realmente sofisticados con el procesamiento de datos visuales, las computadoras carecen de esas habilidades. Cuando miras la imagen, puedes leer rápidamente el patrón. El cerebro de los seres humanos está construido de tal manera que siempre está buscando un patrón o forma conocida. Conoces la paradoja de ver caras y formas en Árboles, Nubes… incluso es sólo una ilusión. Se llama pareidolia.,

Mientras que son fácilmente capaces de leer estas palabras y escribirlas, para los equipos que se»s sólo una masa de ceros y unos. Sin embargo, tenemos que recordar cómo funcionan las máquinas. los desafíos no deberían limitarse a un número fijo. Si lo hicieran, sería fácil enseñar a una computadora qué texto corresponde a una imagen dada. Por lo tanto, muchos creadores utilizan algoritmos sofisticados para generar sus textos Distorsionados al azar. Los creadores de re descubrieron otra idea. Usaron el proceso de…, digitalizando libros y pidiendo a los usuarios que descifraran las piezas cortas.

debido a la evolución de los Algoritmos de bot, las distorsiones de texto se han vuelto mucho más difíciles de resolver. Solo mira los dos ejemplos a continuación.

Mientras que la primera es bastante fácil de leer, el segundo ya se podría causar algunos problemas para alguien sin un agudo vista. Por lo tanto, muchos desarrolladores trataron de pensar en un nuevo tipo de ., El resultado de su trabajo fue select-images .

Se basa en el mismo fundamento, pero se»s sólo más difícil de resolver para las máquinas. Y lo que es más importante, es más fácil de resolver para los humanos.

El esquema es fácil. Tienes una colección de imágenes y tienes que elegir las que coincidan con los requisitos. Es fácil para ti elegir las correctas. Las computadoras, sin embargo, no piensan como los humanos y no es tan fácil para ellos. Se basa en un problema clásico de la visión por computadora de etiquetado de imágenes., Además, es realmente compatible con dispositivos móviles. Es más fácil tocar imágenes que corresponden con una pista que escribir una línea de texto distorsionado.

Estos enfoques tienen sus contras. Para las máquinas, son difíciles de resolver, pero los sistemas de lectura de texto también son solo algoritmos. Por lo tanto, fomentan problemas con la lectura de s y son tratados como bots. Para las personas ciegas y las personas con disfunciones de ojos diferentes, causa una barrera tecnológica. Con eso en mente, los desarrolladores a menudo agregan sonido a sus soluciones que distorsionan el texto.,

funciona de una manera similar. El script agrega ruido de fondo adicional al audio para dificultar la resolución de los bots. Tiene un pequeño impacto en los seres humanos, pero añade muchos problemas para los programas de reconocimiento de voz.

si bien todas estas soluciones son perfectas en papel, todavía pueden ser molestas y confusas. Por lo tanto, Google introdujo un nuevo (no re) que solo le pide que marque una casilla.,

Ejemplo

ya tienes algo de conocimiento general acerca de los diferentes tipos de . Ahora quiero contarles más sobre la solución más nueva y popular – no re.

fue creado como resultado de la realización bastante obvia. Los Bots avanzaron tanto que ahora es imposible generar imágenes que sean fáciles de resolver para los humanos pero insolubles para ellos. A medida que los spammers se vuelven más y más sofisticados, las imágenes se vuelven más y más difíciles de leer. Pero la investigación de Google mostró que es un callejón sin salida., La tecnología actual de IA puede resolver incluso los textos Distorsionados más difíciles (casi 99.8% de precisión).

así que en lugar de hacerlo más difícil para los humanos, han decidido encontrar una manera de hacer un algoritmo más avanzado. Su objetivo es hacer que el proceso de verificación sea fácil para usted, pero aún así efectivo para protegerse contra los bots.

no podemos decir cómo funciona realmente en detalle, porque-es comprensible-no está disponible para el público. Lo que sabemos es que Google creó una sofisticada tecnología de análisis. De alguna manera intenta adivinar si eres humano o no., Si cree que lo eres, solo tienes que marcar una casilla para probarlo.

«s simple, accesible y no molesta. Si el análisis no es suficiente para decidir, el sistema le pide que resuelva select-image . Si todavía no es suficiente, te pide que resuelvas un clásico , pero mucho más difícil que los antiguos.

Bien, ahora vamos a»s volver a analizar el motor detrás. No sabemos los detalles, pero intentemos pensar cómo podría funcionar., En GitHub puedes encontrar un gran análisis de los pasos que toma re para que todo funcione. Combinándolo con el artículo «i’m not a human: Breaking the Google re» (De Suphannee Sivakorn, Jason Polakis y Angelos D. Keromytis), sabemos que el script recopila al menos información sobre:

Plug-ins
User-agent (prueba si es real)
Tiempo de ejecución, zona horaria
Número de acciones de clic/teclado/toque en el <iframe> del
cookies probables del lado del servidor

y del mismo…,

compara el entorno con el comportamiento de muchas funciones específicas del navegador y reglas CSS
comprueba la representación de los elementos canvas.

Además, la resolución de pantalla y los eventos del ratón no importan realmente. Usamos diferentes dispositivos, usamos tabletas (casi no hay comportamiento del ratón), por lo que parece sabio. En el documento, también puede leer que mantener una cookie activa durante + 9 días le permite pasar re solo haciendo clic en la casilla de verificación.

Es una solución segura? Con el fin de romper una por completo, usted tendría que tratar de manipular su ordenador para pensar de una manera humana., No es realmente posible,pero hay algunas soluciones. Las computadoras intentan detectar el texto al menos en parte y «adivinar»cuál es el resultado o usar algoritmos sofisticados. Es realmente útil para ellos tener una base de datos de cadena s ya rota. Hay sitios web que incluso pagan a sus usuarios por resolver la imagen S. parece que puede ser realmente útil para los bots en la lucha con .

mientras la gente sepa sobre las debilidades de las computadoras, probarán diferentes enfoques. Intentarán abordarlo reduciendo su complejidad., Un hacker inteligente miraría generado y analizaría lo que los hace tan difíciles de resolver. Hay algo en el fondo? Vamos a jugar con el contraste y deshacernos de los valores medios. Si haces tu imagen en blanco y Negro, tu reto será mucho más sencillo. Si usted «ll tener en cuenta suficiente cantidad de factores, usted» ll ser capaz de construir un algoritmo realmente de trabajo.

nadie pensó que la imagen siempre sería segura y era cuestión de tiempo que se descifrara y… ya lo era. Durante mucho tiempo, Google image Re system parecía una opción segura., Desafortunadamente, los investigadores ya enseñaron a la máquina a adivinar la respuesta correcta. Con una precisión del 70,78 por ciento, según registraron. Es un gran resultado, con un tiempo promedio de resolución de menos de 20 segundos. El sistema de Facebook falló aún peor con un 83,5% de tasa de éxito.

muchos sistemas de imagen fallaron contra algoritmos avanzados. Jennifer Tam, Jiri Simsa, sean Hyde y Luis von Ahn (todos trabajando para Carnegie Mellon University, Pittsburgh) querían averiguar si era fácil engañar al sonido también. Tuvieron éxito con algunos de ellos., En la primavera de 2012, hubo informes de que el sistema de audio de Google se había roto con una tasa de éxito del 99%. Los ingenieros hicieron un pequeño descuido. El fondo de ruido (la protección principal) no usaba los sonidos de alta frecuencia. Hizo que fuera fácil para los hackers aislar cada palabra mediante la localización de las regiones con frecuencias más altas.

¿y qué pasa con la solución más nueva – no re? Esta técnica puede parecer más difícil de romper, pero no es irrompible. Este año los expertos en seguridad de la Universidad de Columbia han desplegado una técnica de ataque contra Facebook y Google no re. Tienen éxito con 41.,Tasa de éxito del 57 por ciento (alrededor de 20 segundos por desafío). Es menos del 50%, pero es suficiente para que los bots hagan que tu sitio web sea spam. Pueden bombardearte con cientos de peticiones por minuto después de todo. ¿Cómo crack? Crearon su propio algoritmo sofisticado de re-breaking y lo compararon con otros disyuntores disponibles. Gracias a eso, han implementado una solución equilibrada. Ellos » han logrado tal éxito mientras que en el modo fuera de línea. Por lo tanto, podemos suponer que una gran cantidad de energía no re proviene de analizar el historial del usuario, inaccesible sin la conexión a internet.,

contras de

Es ampliamente utilizado y puede ser realmente molesto. Seamos honestos: escribir algunas letras de formas extrañas o resolver cualquier otro tipo de desafíos una y otra vez es simplemente irritante. Bien, sabemos por qué los desarrolladores lo usan. Sin embargo, parece que están tratando de deshacerse de sus responsabilidades y hacerlo tuyo. Al decir eso, tendrías razón en parte. Hay algo de verdad en ello, pero es muy difícil encontrar otra manera de hacerlo. Puedes probar algunos algoritmos sofisticados, pero en la mayoría de los casos, es fácil engañarlos.

otro problema-accesibilidad., Incluso si tienes grandes ojos, a veces puedes enfrentar problemas. Identificar un texto o imagen válido (select-image s) no es siempre una cosa simple. ¿Y si su visión es un poco borrosa o tiene algún tipo de disfunción ocular? La versión de audio parece una solución perfecta, pero a menudo tiene mala calidad. ¿Y qué pasa si utiliza navegadores de solo texto o no tiene una tarjeta de sonido instalada?

también consume su tiempo. Se podría decir que solo toma 2,3 segundos, pero ahora imagine que cada sitio web lo utiliza. ¿A cuántos visitas al día?, ¿Cuántas acciones podría un sitio pedirte que realices para verificar tu humanidad?

A puede dañar la usabilidad y accesibilidad de su sitio web. Incluso si el nuevo re hecho por Google se ocupa bien con él, no todos los sistemas son tan buenos en eso.

Conclusión

parece Que no hay solución perfecta. Con cada nueva generación de, hay nuevas generaciones de bots. Cuanto más sofisticados sean los algoritmos que utilices para protegerte de ellos, más sabios se volverán. ¿Pero significa que es completamente inútil y solo molesta a los usuarios? No, la idea sigue siendo buena., Incluso las s simples representan una barrera significativa para la mayoría de los bots primitivos. No deberíamos privarnos de ella, pero tenga en cuenta que no lo protege a usted y/o a sus usuarios sobre la fuga de datos/credenciales, que puede ser activada por cualquier script de terceros incluido en la página, Extensiones del navegador o un troyano MitB.

¿quieres saber más? Aquí hay algunos enlaces útiles:

‘s goal

¿Cuál es el propósito de la tecnología?,

Breaking

Google re agrietado en un nuevo ataque automatizado
Los investigadores de Stanford descifran el código
Breaking Audio s
leer cómo un trío de hackers puso de rodillas el audio re de Google
Los investigadores idearon un sistema de re breaking eficaz contra Google y Facebook
Re sigue siendo vulnerable-quizás incluso más que nunca

¿Cómo funciona el no re de Google?

¿Cómo funciona el nuevo Google re?
¿Cómo funciona Google»s «No re»?,
No re challenge

accessibility

Campaign to kill arranca
¿Cómo Google » s re trata la accesibilidad?