Validar la capacidad de Galtea para evaluar de forma exhaustiva, eficiente y automatizada una nueva versión de Sofia, antes de su despliegue en producción.
La POC se centra en identificar edge cases, vulnerabilidades técnicas, brechas de calidad y riesgos legales o reputacionales mediante una batería de pruebas personalizadas, asegurando la fiabilidad, trazabilidad y eficiencia del sistema de IA.
Hipótesis 1 – Fiabilidad a escala:
Si se aplica una batería exhaustiva de validaciones adaptadas al sistema actual, entonces será posible obtener un diagnóstico robusto del nivel de fiabilidad y cobertura funcional del sistema, y el chatbot que se lleve a producción podrá mantener una fiabilidad y calidad de respuesta consistentes en distintos escenarios y a escala.
Hipótesis 2 – Identificación proactiva de vulnerabilidades y riesgos:
Si se evalúa el sistema desde una perspectiva técnica, legal y de experiencia de usuario, entonces se podrán identificar de forma proactiva vulnerabilidades que hoy no están detectadas, y priorizar los riesgos más relevantes antes de una eventual puesta en producción.
Hipótesis 3 – Valor operativo del sistema de evaluación:
Si se compara el proceso actual de evaluación con el sistema propuesto, entonces se podrá demostrar un ahorro operativo significativo en anotación, validación y seguimiento, validando la utilidad de una solución automatizada de evaluación en el ciclo de vida de LLMs.
Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.
Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.
