Probamos claude.ai y la comparamos con las otras IAs

Inforserranía - miércoles, septiembre 20, 2023

Dentro de este futuro anticipado de inteligencias artificiales generativas donde estamos metidos, la primera que probamos fue ChatGPT y nos pareció espectacular como comentamos en su correspondiente artículo de Inforserranía. La siguiente en caer fue Google Bard, de la que hicimos una comparativa con ChatGPT y nos resultó un poco decepcionante. Hoy le va a tocar a claude.ai que se supone es más avanzada. Le vamos a hacer las mismas preguntas que a las otras dos IAs, y a continuación describimos el resultado. Si quieres puedes abrir los enlaces anteriores en pestañas separadas para comparar.

Son las mismas preguntas sueltas, en una misma conversación, y seguidas sin intercalar nada por medio. No se aprovechan a fondo las posibilidades del programa, pero así podemos comparar sin repetirlo todo de nuevo.

Una respuesta muy buena, muy detallada y sin inventarse líos extraños. La mejor de los tres robots comparados. Empezamos muy bien.

Cálculo y explicación correctos. No ha llegado a desarrollar el ejemplo con los años bisiestos, pero no se les han olvidado. Los otros dos lo hicieron mal, este perfecto.

Otra respuesta en línea con los anteriores, teniendo en cuenta diversos motivos técnicos y ambientales. Muy bien desarrollada.

De la misma forma que los anteriores, respuesta correcta y muy bien razonada con un extra de detalles. Perfecto.

Las calles de Puente Genil se le están haciendo demasiado cuesta arriba a las inteligencias artificiales. Usando la misma técnica que Bard ha buscado calles con nombres de cuestas. Viendo el resultado así de detallado quedaría perfecto para calcular una etapa de la próxima Vuelta Ciclista a Andalucía. El problema es que la mayoría de la información que ahí aparece es falsa, inventada. No sirve. ChatGPT fue el que nos dio una respuesta más correcta.

Muy buena respuesta, como la de ChatGPT pero bastante más detallada. Sin decir nada que no sea cierto.

Similar a la anterior, presenta muchos más detalles que ChatGPT. Algunos son bastante rebuscados, pero ninguno es falso. Muy bien

No ha caído en la trampa. En la pregunta no decimos que tenga que ser la de Madrid, y como esta no puede tener cerrojo, se ha buscado otra puerta que sí lo pueda tener. Y la ha encontrado en Toledo. Hasta aquí íbamos bien. La Puerta del Sol de Toledo no está en la catedral, sino en las murallas. Y sólo queda el arco. No sabemos si la puerta original tendría ese mecanismo de piedra sofisticado, pero suena un poco a historia inventada. ChatGPT fue quien nos dio la mejor respuesta sin concretar nada pero sin engañarnos.

Muy bien. Sí se puede ver. Lo que falla es la distancia, está mucho más cerca, y la orientación que es hacia el norte. Si se hubiera limitado a decir que sí, nos ahorramos meter la pata. La respuesta es similar a ChatGPT, con imprecisiones, pero da más detalles. Bard dijo que no.

Perfecto. Más desarrollado que ChatGPT.

Muy bueno. Para conocer la exactitud de esos detalles musicales habría que preguntarle a Jaime Altozano, pero parece todo correcto y muy bien descrito. No se ha inventado nada importante y no ha caído en la ambigüedad. La mejor respuesta

Respuesta muy detallada pero se lía con tanta carretera. La primera respuesta es la correcta, pero Istán no está en la carretera A-397, sino al otro lado de la Sierra de las Nieves. La MA-7401 va a Benaoján, en dirección contraria, y la A-7176 sí está en Istán, muy lejos de Ronda. Lo de la A-369 y la A-377 correcto aunque muy lejos. Y a Júzcar por medio de la Sierra también. Respuesta muy enrevesada. ChatGPT nos dio una respuesta bastante buena. Bard se inventó muchos kilómetros y tiempos raros. Claude.ai queda en medio.

Es una respuesta excelente, la que buscábamos desde el primer día. Todo muy bien desarrollado y explicado. El problema es que según Google Maps la puerta principal con los Leones del Congreso tiene orientación sur - suroeste. Así que está mal el primer dato de que la puerta está en el lado este. Pero luego las explicaciones de como va cambiando la sombra a lo largo del día sí son válidos estando la puerta en el sur. Bastante perfecto. Los otros muy mal y claude.ai especialmente bien.

Pregunta sencilla que todos responden bien. ChatGPT fue el más flojo y claude.ai el más detallado.

La mejor respuesta de los tres. Muy detallada con algún invento extraño como que se perdería la garantía, pero sin ninguna respuesta demasiado equivocada. Los plásticos son los mismos pero es cierto que Tente es más frágil por diseño.

A falta de comprobarlo en la realidad creo que todo lo que dice es correcto. Muy bien explicado aunque no ha dado un ejemplo de código como sí hizo ChatGPT.

Tres posibles respuestas válidas aunque habría que repasar algunos detalles. No da muchas explicaciones sobre el código.

La posible entradilla para el artículo del blog que nos escribió ChatGPT fue muy buena y de hecho la usamos en el primer artículo. La de Bard fue bastante floja. Esta está mejor aunque realmente no la hubiéramos usado por resultar muy larga y algo exagerada en su expresión.

Como conclusión de la prueba con claude.ai vemos que la cosa va avanzando. Salvo las cuestas de Puente Genil y el cerrojo de la Puerta del Sol que se los ha inventado casi entero, las otras respuestas han sido bastante buenas. Dejando a parte a la IA de Google Bard, que fue la peor, la comparación con ChatGPT 3.5 resulta que esta inteligencia claude.ai es más avanzada y ofrece respuestas más desarrolladas. Habría que comparar con ChatGPT 4 que es de características técnicas más similares.

En todo caso es una herramienta más que tenemos a nuestro alcance para sacarle provecho conociendo sus particularidades y limitaciones.