POC Galtea

Descripción

Validar la capacidad de Galtea para evaluar de forma exhaustiva, eficiente y automatizada una nueva versión de Sofia, antes de su despliegue en producción.

La POC se centra en identificar edge cases, vulnerabilidades técnicas, brechas de calidad y riesgos legales o reputacionales mediante una batería de pruebas personalizadas, asegurando la fiabilidad, trazabilidad y eficiencia del sistema de IA.

Objetivos

Hipótesis 1 – Fiabilidad a escala:
Si se aplica una batería exhaustiva de validaciones adaptadas al sistema actual, entonces será posible obtener un diagnóstico robusto del nivel de fiabilidad y cobertura funcional del sistema, y el chatbot que se lleve a producción podrá mantener una fiabilidad y calidad de respuesta consistentes en distintos escenarios y a escala.

Hipótesis 2 – Identificación proactiva de vulnerabilidades y riesgos:
Si se evalúa el sistema desde una perspectiva técnica, legal y de experiencia de usuario, entonces se podrán identificar de forma proactiva vulnerabilidades que hoy no están detectadas, y priorizar los riesgos más relevantes antes de una eventual puesta en producción.

Hipótesis 3 – Valor operativo del sistema de evaluación:
Si se compara el proceso actual de evaluación con el sistema propuesto, entonces se podrá demostrar un ahorro operativo significativo en anotación, validación y seguimiento, validando la utilidad de una solución automatizada de evaluación en el ciclo de vida de LLMs.

Thanks!