Pruebas y evaluación

PRUEBAS Y EVALUACIÓN

La calidad de software se sustenta en dos pilares complementarios: pruebas y evaluación. Las pruebas son actividades sistemáticas, planificadas y controladas destinadas a descubrir defectos y a verificar/validar el cumplimiento de requisitos funcionales y no funcionales (p. ej., rendimiento, seguridad, usabilidad, fiabilidad, mantenibilidad, compatibilidad y portabilidad). La evaluación integra los resultados de dichas pruebas con otras evidencias (métricas, auditorías y revisiones) para emitir un juicio de calidad trazable y fundamentar decisiones de liberación o mejora. Este enfoque, preferiblemente basado en riesgo, exige criterios de entrada/salida claros, ambientes controlados, gestión de defectos y métricas objetivas. El resultado es una visión cuantitativa y defendible del estado del producto, que reduce la incertidumbre operativa y orienta la priorización de acciones correctivas y preventivas.

Contenido:

Conceptualización

Pruebas de software: proceso sistemático para obtener evidencia objetiva del grado de cumplimiento de requisitos y del riesgo residual aceptable.
Evaluación de la calidad: interpretación de resultados de prueba, métricas y criterios predefinidos para emitir un juicio de calidad y sustentar decisiones (liberar, corregir, mejorar, mantener). Probar es ejecutar y observar; evaluar es analizar y concluir.

Propósitos fundamentales

Verificar conformidad con requisitos funcionales y no funcionales.
Validar adecuación al uso en el contexto operativo.
Identificar y registrar no conformidades de forma trazable.
Reducir riesgo operativo evitando fallas críticas en producción.
Generar información objetiva para decisiones de negocio.
Retroalimentar el desarrollo con análisis de causas y planes de mejora.

Enfoque por niveles

Unidad: componentes individuales; frecuente automatización continua.
Integración: interacción entre módulos e interfaces.
Sistema: comportamiento integral en entorno cercano a producción.
Aceptación (UAT): idoneidad desde la perspectiva de usuario/negocio.
La estratificación anticipa la detección de defectos y reduce costos de corrección.

Tipologías de prueba

Funcionales: caja negra, escenarios, manejo de errores.
Regresión: asegura que cambios no rompan funcionalidad existente.
Rendimiento: tiempos de respuesta, capacidad, estabilidad bajo carga.
Seguridad: autenticación, autorización, gestión de sesiones, protección de datos.
Compatibilidad/portabilidad: navegadores, SO, dispositivos, resoluciones.
Usabilidad/accesibilidad: facilidad de aprendizaje, eficiencia, cumplimiento de pautas.
Recuperación/continuidad: tolerancia a fallos y restablecimiento.

Proceso extremo a extremo

Planificación: alcance, riesgos, estrategia, criterios de entrada/salida, ambientes, datos, responsabilidades y cronograma.
Diseño: casos de prueba con identificador, trazabilidad a requisitos, precondiciones, pasos, datos de entrada, resultado esperado y criterios de aceptación.
Preparación: aprovisionamiento de ambientes y herramientas, fijación de datos.
Ejecución y registro: cumplimiento estricto de pasos y captura de evidencias.
Gestión de defectos: descripción, reproducción, evidencia, severidad, prioridad, estado y responsable.
Seguimiento: métricas, tendencias, cobertura y control de riesgos.
Cierre y evaluación: veredictos frente a criterios y recomendación de liberación.

Criterios de entrada, aceptación, salida y liberación

Entrada: versión estable, ambiente disponible, datos cargados.
Aceptación por caso: resultado esperado sin desviaciones.
Salida: ejecución mínima lograda, tasa de aprobación mínima, 0 defectos críticos/altos, metas de rendimiento cumplidas.
Liberación: condiciones para pasar a producción.
Políticas de bloqueo: cualquier defecto crítico o vulnerabilidad alta/crítica invalida la liberación, aun con promedio global favorable. Excepciones documentadas con justificación, riesgos residuales y plan de mitigación.

Métricas y tableros

De producto/proceso:
- Cobertura de pruebas = casos ejecutados / planificados.
- Tasa de aprobación = casos OK / ejecutados.
- Densidad de defectos (por módulo/KLOC).
- Distribución por severidad (críticos, altos, medios, bajos).
- Reaperturas = defectos reabiertos / cerrados.
- MTTR (tiempo medio de resolución).
Operativas/CI-CD:
- Defect leakage = defectos detectados en producción / total.
- Lead time de cambios y change failure rate.
No funcionales: p95 de respuesta, throughput, error rate, disponibilidad.
Las métricas deben analizarse de forma conjunta, con objetivos y umbrales claros.

Datos y ambientes de prueba

Datos: anonimización/mascaramiento, casos límite, versionado de datasets.
Ambientes: paridad con producción, control de configuración, registro de cambios.
Replicabilidad: guías de aprovisionamiento, scripts, semillas y evidencias.

Automatización y CI/CD

Automatizar regresión prioritaria y comprobaciones repetibles.
Integrar a pipelines con reportes por build y quality gates (umbrales mínimos).
Mantener prueba manual para exploración y UX, donde el criterio humano es esencial.

Gobierno, roles y responsabilidades

Responsable de QA/Pruebas: estrategia, supervisión y reporte.
Desarrollo: correcciones, soporte técnico y evidencias.
Usuarios/Negocio (UAT): validación de adecuación al uso.
Segregación de funciones: independencia cuando corresponda para evitar conflictos de interés.

Priorización basada en riesgo

Clasificación por impacto y probabilidad para asignar esfuerzo a funciones críticas, superficies expuestas y componentes con historial de fallos.

Trazabilidad y evidencias auditables

Matriz requisito → caso → resultado → decisión. Cada puntaje, defecto y veredicto debe vincularse a su evidencia (capturas, logs, reportes) con versionado y custodia adecuados.

Instrumento cuantitativo 0–5 con ponderación

Rúbricas por métrica con umbrales medibles (0–5).
Pesos por métrica (Σ = 100) según riesgo y objetivos.
Cálculo: Nota final (0–5) = Σ(pesoᵢ × puntajeᵢ) / 100.
Reglas de excepción: bloqueo ante hallazgos críticos.
Ejemplos de rúbrica:
Rendimiento (p95): ≤2,0 s = 5; 2,01–2,5 = 4; 2,51–3,0 = 3; 3,01–4,0 = 2; >4,0 = 1; sin dato = 0.
Seguridad (vulnerabilidades): 0 críticas/altas = 5; 1 alta = 3; ≥2 altas o 1 crítica = 1; crítica explotable = 0.
Usabilidad (SUS): ≥85 = 5; 80–84 = 4; 70–79 = 3; 60–69 = 2; <60 = 1.

Mejora continua

Ciclo de análisis de causa raíz (p. ej., “5 porqués”, Ishikawa), acciones preventivas y correctivas, y revisión periódica de cobertura, rúbricas, pesos y metas.

Anexos sugeridos

Plantilla de caso de prueba: identificador, requisito, pasos, datos, esperado, resultado, evidencia.
Plantilla de informe final: resumen ejecutivo, métricas clave, defectos por severidad, riesgos residuales, recomendación.
Glosario: caso de prueba, regresión, p95, MTTR, defect leakage, quality gate, trazabilidad.

Kit de plantillas descargables con manual de uso

Se ha preparado un kit de plantillas descargables (en español) para pruebas y evaluación de la calidad de software, alineado con ISO/IEC 29119 (pruebas), ISO/IEC 25010 (calidad del producto), ISO/IEC 12207 (procesos) y ISO/IEC 15939 (medición) con un breve manual de uso.