8. APÉNDICES


8.1. Glosario de términos clave
8.2. Plantilla de lectura crítica paso a paso
8.3. Tablas de interpretación rápida (NNT, significancia clínica)
8.4. Recursos recomendados (CONSORT, EQUATOR, Cochrane, JAMA Users’ Guides)


8.1. Glosario de términos clave (versión extendida)


Conceptos fundamentales

  • Ensayo clínico aleatorizado (ECA):
    Estudio experimental en el que los participantes se asignan al azar a una intervención o control, con el fin de evaluar causalidad. Es el estándar de oro para probar eficacia terapéutica.
    👉 Ejemplo: RECOVERY trial, que demostró beneficio de la dexametasona en COVID-19 grave.
  • Desenlace (outcome):
    Resultado que mide el efecto de la intervención.
    • Primario: definido antes del inicio; guía el cálculo de la muestra.
    • Secundario: complementarios, pueden generar hipótesis pero no deben sobreinterpretarse.
      👉 Ejemplo: en STEP-1, el desenlace primario fue el % de reducción de peso; secundarios incluyeron cambios en PA, lípidos y HbA1c.
  • Pregunta PICO:
    Acrónimo para estructurar preguntas clínicas:
    • P: Población / paciente.
    • I: Intervención.
    • C: Comparador.
    • O: Outcome.
      👉 Ejemplo: En adultos obesos (P), ¿semaglutida 2,4 mg semanal (I) comparada con placebo (C) reduce el peso corporal a 68 semanas (O)?

Diseño y metodología

  • Randomización:
    Proceso de asignar al azar a los participantes. Busca equilibrar factores pronósticos conocidos y desconocidos. Puede ser simple, estratificada o por bloques.
    👉 Sin randomización, los resultados pueden estar sesgados por diferencias de base.
  • Ocultamiento de la asignación (allocation concealment):
    Protege la secuencia de randomización antes de asignar al paciente, evitando manipulación consciente o inconsciente.
    👉 Métodos válidos: sobres opacos sellados, sistemas electrónicos centralizados.
  • Cegamiento (enmascaramiento):
    Estrategia para evitar que el conocimiento de la intervención afecte la conducta o el reporte de desenlaces.
    • Simple: paciente desconoce.
    • Doble: paciente y médico desconoce.
    • Triple: incluye al analista de datos.
      👉 Si el desenlace es objetivo (ej. mortalidad), la falta de cegamiento importa menos; si es subjetivo (ej. dolor), importa mucho.
  • Grupo control:
    El comparador frente al cual se mide la intervención.
    • Placebo: útil en ausencia de estándar de cuidado.
    • Tratamiento estándar: más ético cuando existe terapia efectiva.
    • Comparador activo: prueba de superioridad o no inferioridad.

Estadística y análisis

  • Análisis por intención de tratar (ITT):
    Incluye a todos los pacientes en el grupo al que fueron asignados, incluso si no completaron el tratamiento. Mantiene la comparabilidad y preserva validez interna.
  • Análisis por protocolo (PP):
    Considera solo a quienes siguieron estrictamente el protocolo. Tiende a sobreestimar eficacia.
  • Intervalo de confianza (IC95%):
    Rango dentro del cual se encuentra el verdadero efecto con 95% de confianza.
    👉 Si el IC de un RR no cruza 1, o de una diferencia de medias no cruza 0, el resultado se considera “estadísticamente significativo”.
  • p-valor:
    Probabilidad de encontrar un resultado igual o más extremo si la hipótesis nula fuera cierta.
    👉 p<0,05 indica significancia estadística, pero no mide la magnitud ni la relevancia clínica.

Medidas de efecto

  • Riesgo relativo (RR): riesgo en intervención / riesgo en control.
    👉 Ejemplo: RR=0,75 implica reducción del 25%.
  • Odds ratio (OR): odds en intervención / odds en control. Se usa en estudios caso-control, o cuando los eventos son poco frecuentes.
  • Hazard ratio (HR): compara tasas de ocurrencia en el tiempo, usado en análisis de supervivencia.
    👉 Ejemplo: HR=0,68 en CheckMate-214 → reducción del 32% en riesgo de muerte.
  • ARR (reducción absoluta del riesgo): diferencia de riesgos entre grupos.
  • RRR (reducción relativa del riesgo): ARR expresada en proporción.
  • NNT (Número Necesario a Tratar): número de pacientes a tratar para evitar un evento.
  • NNH (Número Necesario para Dañar): número de pacientes tratados para provocar un efecto adverso adicional.

👉 Ejemplo: en RECOVERY, dexametasona en pacientes ventilados tuvo NNT≈8 para evitar una muerte.


Sesgos y validez

  • Sesgo de selección: diferencias sistemáticas en los grupos al inicio.
  • Sesgo de desempeño: diferencias en la atención recibida además de la intervención.
  • Sesgo de detección: desenlaces medidos de forma distinta según grupo.
  • Sesgo de reporte: publicación selectiva de resultados positivos.
  • Validez interna: grado en que los resultados son confiables dentro del estudio.
  • Validez externa (generalización): aplicabilidad de los resultados a otras poblaciones o contextos.

👉 Ejemplo: STEP-1 tiene alta validez interna, pero la validez externa en Perú se limita por diferencias de acceso y perfil poblacional.


Herramientas y recursos

  • CONSORT: guía internacional para el reporte estandarizado de ensayos clínicos.
  • SPIRIT: guía para escribir protocolos de ensayos.
  • PRISMA: guía para revisiones sistemáticas y metaanálisis.
  • GRADE: sistema que clasifica la calidad de evidencia y la fuerza de recomendaciones.
  • Forest plot: representación gráfica de resultados de varios estudios en un metaanálisis.

Nota práctica (para club de revista)

Cuando leas un ensayo clínico:

  1. Identifica el desenlace primario.
  2. Mira el ARR + NNT, no solo el RR o el p-valor.
  3. Revisa si hay cegamiento, ITT y pérdidas <20%.
  4. Pregunta: ¿esto aplica a mis pacientes y contexto?

📌 Ejemplo didáctico aplicado:
En el ensayo STEP-1, la semaglutida redujo 15% del peso promedio → un paciente de 100 kg pierde 15 kg. El NNT≈2 para lograr ≥5% de reducción, pero el acceso en Perú es limitado → la validez externa es baja en hospitales públicos.


8.2. Plantilla de lectura crítica paso a paso (versión extendida)

El análisis crítico de un ensayo clínico no debe quedarse en “leer los resultados”, sino en desmenuzar la metodología, cuantificar el efecto y valorar su aplicabilidad. Esta plantilla sirve como guía estructurada para docentes, residentes y clínicos en clubes de revista y práctica diaria.


A. Pregunta de investigación y relevancia clínica

  • Pregunta PICO claramente definida:
    ¿El estudio especifica qué población, qué intervención, qué comparador y qué desenlace?
    👉 Ejemplo: En pacientes con obesidad sin diabetes (P), ¿semaglutida 2,4 mg semanal (I), comparada con placebo (C), reduce el peso corporal a 68 semanas (O)?
  • Pertinencia clínica del desenlace:
    ¿El desenlace primario es clínicamente importante (ej. mortalidad, hospitalización, calidad de vida) o solo un marcador sustituto (ej. LDL, HbA1c)?
    👉 Ejemplo: EMPA-REG usó como primario eventos cardiovasculares mayores, no solo HbA1c.
  • Justificación del estudio:
    ¿Se responde a una brecha real en la evidencia, o es un ensayo redundante?

B. Validez interna (riesgo de sesgo)

1. Selección de participantes

☑ ¿Los criterios de inclusión/exclusión son claros y razonables?
☑ ¿La muestra refleja la práctica clínica real o es demasiado selecta?
👉 Ejemplo: CheckMate-214 excluyó pacientes con riesgo favorable, lo que limita la generalización a todos los CCR.

2. Asignación de la intervención

☑ ¿La randomización fue adecuada? (computarizada, estratificada).
☑ ¿Hubo ocultamiento de la asignación? Evita manipulación de la secuencia.
👉 Ejemplo: sin ocultamiento, un reclutador podría enviar pacientes más graves al control.

3. Cegamiento

☑ ¿El estudio fue simple, doble o triple ciego?
☑ Si no hubo cegamiento, ¿los desenlaces eran objetivos (ej. muerte) o subjetivos (ej. dolor, calidad de vida)?

4. Pérdidas de seguimiento y adherencia

☑ ¿Las pérdidas fueron <10–20%?
☑ ¿Se informaron las razones de abandono?
☑ ¿Hubo análisis por Intention-To-Treat (ITT)?
👉 Ejemplo: en RECOVERY, aunque no hubo cegamiento, la adherencia fue alta y el ITT se aplicó en el análisis.


C. Resultados

1. Desenlaces

☑ ¿El desenlace primario está claramente reportado?
☑ ¿Hubo cambio del desenlace durante el estudio (switching)?

2. Medidas de efecto

☑ ¿Se presentan RR, OR o HR con IC95%?
☑ ¿Se reporta ARR (reducción absoluta del riesgo) y NNT/NNH con horizonte temporal?
👉 Ejemplo: en RECOVERY, NNT≈8 en ventilados; en STEP-1, NNT≈2 para lograr ≥5% pérdida de peso.

3. Precisión y significancia

☑ ¿Los IC son estrechos (efecto confiable) o amplios (incertidumbre)?
☑ ¿El p-valor es significativo, pero además el efecto es clínicamente relevante (MCID)?

4. Subgrupos

☑ ¿Los análisis de subgrupos fueron preespecificados y no “post hoc”?
☑ ¿Se aplicó prueba de interacción para confirmar diferencias?
👉 Ejemplo: en RECOVERY, solo los pacientes con oxígeno o VM se beneficiaron; los sin oxígeno incluso podían salir perjudicados.


D. Aplicabilidad (validez externa)

  • Población: ¿mis pacientes son comparables en edad, comorbilidades, severidad?
  • Contexto: ¿el entorno (hospitales de referencia, seguimiento estrecho) refleja mi práctica en Perú o LatAm?
  • Recursos y acceso: ¿la intervención está disponible y es costeable?
    👉 Ejemplo: semaglutida (STEP-1) es eficaz, pero acceso limitado en hospitales públicos peruanos.
  • Balance beneficio-riesgo: ¿el NNT es razonable frente al NNH y los costos?
  • Consistencia: ¿los resultados concuerdan con revisiones sistemáticas o guías GRADE?

E. Daños y seguridad

☑ ¿Se reportaron efectos adversos con el mismo detalle que los beneficios?
☑ ¿Existen cálculos de NNH?
☑ ¿Se evaluaron desenlaces de seguridad a largo plazo?
👉 Ejemplo: en inmunoterapia oncológica (CheckMate-214), los eventos autoinmunes graves obligan a balancear beneficio y riesgo.


F. Juicio final

☑ ¿El estudio tiene bajo riesgo de sesgo?
☑ ¿El efecto es relevante y consistente con otras evidencias?
☑ ¿Se puede aplicar en mi paciente y contexto?
☑ ¿Este ensayo cambia mi práctica clínica?

👉 Ejemplo: RECOVERY cambió práctica global en semanas; CheckMate-214 cambió guías, pero acceso es el gran limitante en Perú.


G. Mini–formato para clubes de revista (1 página)

Referencia: Autor, título, revista, año.
Diseño: Ensayo clínico fase…, N=…
PICO:
Desenlace primario:
Resultado: RR/HR/OR (IC95%), ARR, NNT.
Seguridad: eventos adversos, NNH.
Sesgos clave: selección □ desempeño □ detección □ desgaste □ reporte.
Aplicabilidad local: sí / no (explicar).
Juicio clínico:


📌 Ejemplo aplicado (STEP-1):

  • Diseño: ECA, doble ciego, N=1961.
  • PICO: obesos sin diabetes, semaglutida vs placebo.
  • Primario: % pérdida de peso.
  • Resultado: −14,9% vs −2,4%; NNT≈2 para ≥5% reducción.
  • Sesgos: bajo riesgo.
  • Aplicabilidad Perú: limitada por costo.
  • Juicio: altamente eficaz, cambio de paradigma, pero barreras de acceso.

8.3. Tablas de interpretación rápida (NNT, significancia clínica)


1. Introducción

La interpretación de resultados en ensayos clínicos va más allá de comprobar si un p-valor es <0,05. Lo realmente útil es entender qué magnitud de beneficio o daño obtiene el paciente promedio y cuán confiable es esa estimación.

Para ello, el uso de medidas como el NNT (Number Needed to Treat) y el NNH (Number Needed to Harm), junto con el análisis del ARR (reducción absoluta del riesgo) y la MCID (diferencia mínima clínicamente importante), son herramientas clave. Estas medidas permiten traducir resultados estadísticos en decisiones clínicas prácticas.


2. Definiciones y siglas clave

  • CER (Control Event Rate): riesgo en el grupo control.
  • EER (Experimental Event Rate): riesgo en el grupo intervención.
  • ARR (Absolute Risk Reduction): CER − EER → mide el beneficio absoluto.
  • RR (Relative Risk): EER ÷ CER → reducción relativa.
  • RRR (Relative Risk Reduction): 1 − RR → proporción de reducción del riesgo.
  • OR (Odds Ratio): razón de momios; útil en estudios caso-control, tiende a sobrestimar si el evento es común.
  • HR (Hazard Ratio): comparación de tasas de eventos en el tiempo; usado en análisis de supervivencia.
  • NNT (Number Needed to Treat): número de pacientes a tratar para evitar un evento adicional en un tiempo determinado.
  • NNH (Number Needed to Harm): número de pacientes a tratar para causar un evento adverso adicional.
  • IC95%: intervalo de confianza al 95%; rango plausible para el efecto real.
  • MCID (Minimal Clinically Important Difference): mínima diferencia percibida como relevante para el paciente.

3. Cálculos básicos

Ejemplo numérico

  • CER = 80/1000 = 0,08 (8%)
  • EER = 60/1000 = 0,06 (6%)
MedidaFórmulaResultadoInterpretación
ARRCER − EER0,02 (2%)Se evitan 2 eventos por cada 100 tratados
RREER ÷ CER0,75Reducción relativa del 25%
RRR1 − RR0,25 (25%)Una cuarta parte menos de riesgo
NNT1 ÷ ARR50Tratar 50 pacientes evita 1 evento
NNH1 ÷ AAR (si EER > CER)Número necesario para causar 1 daño

4. Interpretación del NNT

NNTMagnitud del efectoEjemplo
≤10Grande, casi siempre clínicamente relevanteDexametasona en COVID ventilados (NNT≈8)
11–25Moderado, útil en condiciones prevalentesEstatinas en prevención secundaria (NNT≈20 a 5 años)
26–50Pequeño, depende de contexto y costoAspirina en prevención primaria
>50Marginal, aplicable solo en situaciones muy específicasIntervenciones con beneficio mínimo

👉 Siempre especificar el horizonte temporal: no es igual “NNT=20 a 1 año” que “NNT=20 a 5 años”.


5. Relevancia clínica vs. significancia estadística

Un resultado puede ser:

SituaciónEjemploLectura
p<0,05 + NNT bajoRECOVERY: dexametasonaBeneficio robusto y aplicable
p<0,05 + NNT altoAspirina en prevención primariaEstadísticamente positivo, clínicamente dudoso
p>0,05 + IC estrechoEnsayos negativos grandesEvidencia convincente de ausencia de efecto
p>0,05 + IC amplioEnsayos pequeñosIncertidumbre; se necesita más evidencia

6. Intervalos de confianza y precisión

  • IC estrecho (ej. RR 0,75; IC95% 0,70–0,80): efecto confiable y clínicamente relevante.
  • IC amplio (ej. RR 0,75; IC95% 0,40–1,20): incertidumbre; puede ser beneficio o daño.
  • Si IC cruza la unidad (RR=1 o HR=1): no se descarta neutralidad.

👉 La interpretación clínica debe integrar IC + ARR + NNT.


7. Ejemplos aplicados

EnsayoDesenlaceResultadoARRNNT/NNHInterpretación
RECOVERY (2020)Mortalidad en ventilados41,4% vs 29,3%12%NNT=8Cambió práctica global
RECOVERY (sin oxígeno)Mortalidad14% vs 17,8%−3,8%NNH≈26Riesgo de daño en leves
STEP-1 (2021)≥5% pérdida de peso86% vs 31%55%NNT=2Revolución en obesidad
CheckMate-214 (2018)Supervivencia globalHR=0,68 (≈14% ARR a 30m)14%NNT≈7Impacto en oncología renal
Estatinas (prevención secundaria)Eventos CV a 5 años25% vs 20%5%NNT=20Base de prevención CV

8. El semáforo clínico

ColorCondiciónDecisión
🟢 VerdeNNT bajo, NNH alto, accesibleImplementar
🟡 AmarilloNNT intermedio, daño/costo inciertoIndividualizar
🔴 RojoNNT alto, NNH bajo, sin beneficio netoNo aplicar

9. Trampas frecuentes

  1. Reportar solo RR/OR: puede exagerar beneficio; siempre calcular ARR/NNT.
  2. Olvidar horizonte temporal: NNT siempre debe llevar el tiempo (“a 1 año”, “a 28 días”).
  3. Ensayos detenidos precozmente: suelen sobreestimar beneficios.
  4. Subgrupos post hoc: resultados exploratorios, no concluyentes.
  5. Fragilidad: algunos resultados cambian si pocos eventos se reclasifican.

10. De la estadística al paciente

Un cálculo bien traducido mejora la comunicación:

  • En términos técnicos: “ARR=12%, NNT=8 a 28 días”.
  • En lenguaje paciente: “Si tratamos a 8 pacientes como usted con este medicamento, salvamos 1 vida en un mes”.

11. Conclusión

Las tablas de interpretación rápida permiten transformar números complejos en decisiones claras:

  • El ARR y el NNT muestran beneficio real en pacientes.
  • El IC95% aporta precisión y confianza.
  • El balance NNT/NNH define el beneficio neto.
  • La MCID asegura relevancia desde la perspectiva del paciente.

👉 Frase clave:
“El valor real de un ensayo clínico se entiende no en el p-valor, sino en el NNT, el NNH y su aplicabilidad al paciente concreto.”


8.4. Recursos recomendados (CONSORT, EQUATOR, Cochrane, JAMA Users’ Guides)


1. Introducción

La calidad de la investigación clínica depende no solo de cómo se diseñan los ensayos, sino también de cómo se reportan, se sintetizan y se aplican. Para evitar sesgos de publicación, interpretaciones erróneas o decisiones clínicas basadas en evidencia incompleta, surgieron iniciativas globales que hoy son referencia en medicina basada en evidencia.

Los recursos CONSORT, EQUATOR, Cochrane y JAMA Users’ Guides representan los cuatro pilares del ciclo de la evidencia:

  1. CONSORT → asegura que un ensayo clínico esté bien reportado.
  2. EQUATOR → garantiza transparencia y rigor en todo tipo de estudios.
  3. Cochrane → sintetiza la evidencia con revisiones sistemáticas.
  4. JAMA Users’ Guides → orienta la aplicación práctica en el paciente individual.

2. CONSORT (Consolidated Standards of Reporting Trials)

  • Origen: Surgió en 1996 como respuesta a la deficiente calidad en la publicación de ensayos clínicos. Ha tenido actualizaciones importantes (2001, 2010, y extensiones posteriores).
  • Componentes principales:
    • Checklist de 25 ítems que cubre introducción, métodos, resultados y discusión.
    • Diagrama de flujo que detalla el número de pacientes reclutados, randomizados, seguidos y analizados.
    • Extensiones específicas: CONSORT para ensayos no farmacológicos, para estudios de clusters, para intervenciones pragmáticas, etc.
  • Aplicación práctica:
    • El clínico puede usar la checklist como “lente crítico” al leer un ensayo.
    • Permite detectar sesgos comunes como falta de ocultamiento, análisis por protocolo en lugar de ITT, o desenlaces cambiados durante el estudio.
  • Ejemplo: En muchos ensayos oncológicos, la ausencia de un diagrama CONSORT impide saber cuántos pacientes abandonaron, lo cual pone en duda la validez interna.

3. EQUATOR Network (Enhancing the QUAlity and Transparency Of health Research)

  • Origen: Iniciativa internacional creada en 2006 para mejorar la calidad del reporte de investigación biomédica.
  • Lo que ofrece:
    • Un repositorio centralizado de guías de reporte, actualmente con más de 400 checklists.
    • Ejemplos principales:
      • PRISMA (Preferred Reporting Items for Systematic Reviews and Meta-Analyses) → revisiones sistemáticas.
      • STROBE (Strengthening the Reporting of Observational Studies in Epidemiology) → estudios observacionales.
      • CARE → reportes de casos clínicos.
      • SPIRIT → protocolos de ensayos clínicos.
  • Utilidad práctica:
    • Permite al lector identificar rápidamente si un estudio está bien estructurado y completo.
    • Para investigadores, es una herramienta de referencia obligatoria antes de enviar un manuscrito a revista.
  • Ejemplo: En un estudio observacional sobre mortalidad en UCI, usar STROBE asegura que se reporten claramente las variables de confusión y el método de ajuste multivariado.

4. Cochrane Collaboration

  • Historia: Fundada en 1993 en honor a Archie Cochrane, pionero en el movimiento de medicina basada en evidencia.
  • Misión: Realizar revisiones sistemáticas de alta calidad que sean actualizadas periódicamente.
  • Características distintivas:
    • Uso de metodología rigurosa y transparente.
    • Incorporación de meta-análisis con forest plots fáciles de interpretar.
    • Clasificación de la certeza de la evidencia con el sistema GRADE (Grading of Recommendations Assessment, Development and Evaluation).
  • Aplicación clínica:
    • Es la mejor fuente para responder preguntas rápidas: “¿qué dice la evidencia global?”
    • Permite contrastar un ensayo individual con el cuerpo acumulado de estudios.
  • Ejemplo: Tras el ensayo RECOVERY (dexametasona en COVID), la revisión Cochrane permitió confirmar el beneficio en pacientes graves y delimitarlo en pacientes leves.

5. JAMA Users’ Guides to the Medical Literature

  • Origen: Serie publicada en los años 90 por el grupo de David Sackett y Gordon Guyatt, líderes en medicina basada en evidencia. Posteriormente compilada en formato libro.
  • Ejes principales:
    • Cómo formular preguntas clínicas estructuradas (PICO).
    • Cómo evaluar estudios de diagnóstico, tratamiento, pronóstico, y revisiones.
    • Cómo interpretar medidas de efecto, NNT/NNH y relevancia clínica.
    • Cómo aplicar los resultados a un paciente individual considerando contexto, valores y preferencias.
  • Utilidad práctica:
    • Sirve como guía pedagógica en clubes de revista, docencia y residencias.
    • Enseña a traducir números en decisiones compartidas con pacientes.
  • Ejemplo: En un paciente con alto riesgo cardiovascular, los Users’ Guides orientan a ajustar el beneficio de estatinas al riesgo basal individual, no solo al promedio del ensayo.

6. Tabla comparativa de recursos

RecursoAlcanceUtilidad principalEjemplo de aplicación
CONSORTEnsayos clínicosVerificar transparencia y validez internaSaber si un RCT describe randomización y pérdidas
EQUATORTodo tipo de diseñosChecklist adecuada según estudioAplicar PRISMA al leer una revisión sistemática
CochraneRevisiones sistemáticasSíntesis global y confiable de evidenciaVer si un nuevo anticoagulante mantiene eficacia en múltiples ensayos
JAMA Users’ GuidesAplicación clínicaPasar de la evidencia al paciente individualAjustar NNT de semaglutida al riesgo basal del paciente

7. Conclusión

Estos recursos representan etapas complementarias en el camino de la evidencia:

  • CONSORT garantiza que un ensayo esté bien reportado.
  • EQUATOR asegura que cualquier diseño de investigación se presente de manera transparente.
  • Cochrane sintetiza y contextualiza la evidencia.
  • Users’ Guides permiten aplicar el conocimiento a cada paciente, en su contexto clínico y social.

👉 Mensaje clave: Ningún recurso sustituye al otro. El lector crítico debe conocer y usar todos, combinando rigor metodológico con aplicabilidad clínica.



Descubre más desde Medicina Cardiometabólica

Suscríbete y recibe las últimas entradas en tu correo electrónico.

Deja un comentario