La evolución de las aplicaciones de GenAI trae unos nuevos retos a la hora de seleccionar los métodos de testing que pueden evaluar de manera efectiva la complejidad de las respuestas generadas por los LLMs. La propuesta para utiliza un LLM como un Agente Validador representa un enfoque prometedor, abriendo camino a una nueva era de desarrollo y evaluación de software en el campo del testing.
13 RSVP'd
La evolución de las aplicaciones de GenAI trae unos nuevos retos a la hora de seleccionar los métodos de testing que pueden evaluar de manera efectiva la complejidad de las respuestas generadas por los LLMs.
La propuesta para utiliza un LLM como un Agente Validador representa un enfoque prometedor, abriendo camino a una nueva era de desarrollo y evaluación de software en el campo de la inteligencia artificial.
Esta propuesta conlleva definir un criterio de evaluación detallado, usando un LLM como un "Evaluador" para determinar si las respuestas cumplen los requisitos especificados. Este enfoque puede ser aplicado para validar respuestas a preguntas específicas, basándose tanto en el conocimiento general del modelo como con información especializada. Al incorporar instrucciones detalladas y ejemplos, un Evaluador puede proporcionar evaluaciones precisas y justificadas, ofreciendo claridad sobre el por qué una respuesta sea considerada correcta o incorrecta.
En esta sesión mostraremos langchain para interactuar con los LLMs, Testcontainers para crear las dependencias necesarias para utilizar RAG, y Docker Desktop para correr LLM locales.
Docker
Software Engineer
Contact Us