2. DISEÑO Y METODOLOGÍA para Interpretar Ensayos Clínicos

2.1. Randomización y ocultamiento de la asignación
2.2. Cegamiento (simple, doble, triple)
2.3. Grupo control: placebo, estándar de cuidado o comparador activo
2.4. Tamaño de muestra y poder estadístico
2.5. Criterios de inclusión y exclusión


2.1. RANDOMIZACIÓN Y OCULTAMIENTO DE LA ASIGNACIÓN


Introducción

La randomización y el ocultamiento de la asignación son dos de los componentes metodológicos más importantes en un ensayo clínico. Su correcta implementación determina en gran medida la validez interna del estudio y la credibilidad de sus resultados.

  • La randomización busca que los grupos comparados sean equivalentes en todas las características pronósticas, tanto conocidas como desconocidas.
  • El ocultamiento de la asignación protege el proceso de randomización, evitando que investigadores o pacientes influyan (consciente o inconscientemente) en la selección.

Ambos procesos, aunque diferentes, están íntimamente ligados: un ensayo puede ser correctamente randomizado pero estar mal ocultado, lo que introduce sesgo de selección y compromete sus conclusiones.


Fundamentos de la randomización

🔹 ¿Por qué randomizar?

  1. Distribuir factores de confusión: tanto conocidos (edad, sexo, comorbilidades) como desconocidos.
  2. Generar comparabilidad: asegura que las diferencias observadas en los desenlaces se atribuyan a la intervención.
  3. Facilitar el análisis estadístico: permite aplicar pruebas de hipótesis válidas bajo el supuesto de aleatoriedad.
  4. Incrementar credibilidad: la comunidad científica acepta más fácilmente los resultados de un ensayo aleatorizado.

👉 Sin randomización, un ensayo clínico se asemeja a un estudio cuasi-experimental, con riesgo de sesgo de selección.


🔹 Tipos de randomización

  1. Randomización simple
    • Equivalente a lanzar una moneda para cada paciente.
    • Ventaja: muy fácil de implementar.
    • Limitación: puede generar desequilibrios si el tamaño muestral es pequeño.
    • Ejemplo: un ensayo piloto en 40 pacientes con asma.
  2. Randomización por bloques
    • Se forman bloques de tamaño fijo (ej. 4, 6, 8) en los que se asegura igual número de asignaciones a cada grupo.
    • Evita desequilibrios en la secuencia de asignación.
    • Útil en estudios multicéntricos.
    • Limitación: si el bloque es pequeño y predecible, puede arriesgar ocultamiento.
  3. Randomización estratificada
    • Se definen estratos según variables pronósticas (edad, sexo, severidad).
    • Dentro de cada estrato se aplica randomización.
    • Garantiza equilibrio en factores críticos.
    • Ejemplo: ensayos de insuficiencia cardíaca estratificados por presencia/ausencia de diabetes.
  4. Randomización adaptativa
    • Ajusta probabilidades de asignación a medida que avanza el ensayo.
    • Ejemplo: se asigna más pacientes al tratamiento más prometedor tras resultados preliminares.
    • Ventaja: ética y eficiente.
    • Limitación: requiere análisis estadístico complejo.
  5. Minimización
    • Método dinámico que asigna pacientes de manera que se minimicen los desequilibrios globales.
    • Útil en estudios pequeños.
    • Limitación: requiere software especializado y puede ser menos “aleatorio” en percepción.

🔹 Generación de la secuencia aleatoria

  • Métodos válidos:
    • Tablas de números aleatorios.
    • Software estadístico (R, Stata, SAS, SPSS).
    • Algoritmos computacionales validados.
  • Métodos inválidos:
    • Asignación alternante (paciente 1 al grupo A, paciente 2 al grupo B).
    • Fechas de nacimiento o número de historia clínica.
    • Orden de llegada.

👉 CONSORT exige que se reporte claramente cómo se generó la secuencia de randomización.


Ocultamiento de la asignación (allocation concealment)

🔹 Concepto

Es el proceso de impedir que los investigadores y participantes conozcan de antemano la asignación del próximo paciente antes de reclutarlo.

👉 Diferencia clave:

  • Randomización = generación de la secuencia.
  • Ocultamiento = protección de la secuencia antes de la asignación.

🔹 Importancia

  • Evita el sesgo de selección, que ocurre si el investigador manipula la inclusión de pacientes en función de la asignación anticipada.
  • Asegura que la comparación entre grupos sea justa y no manipulada.

🔹 Métodos adecuados

  • Sobres opacos, sellados y numerados consecutivamente.
  • Centros de randomización externos: se llama o accede a un sistema remoto para obtener la asignación.
  • Sistemas electrónicos automatizados (IVRS/IWRS): Interactive Voice/Web Response Systems.

🔹 Métodos inadecuados

  • Sobres transparentes o mal numerados.
  • Listas accesibles en la sala de investigación.
  • Alternancia fija de asignación.

Diferencias entre randomización y ocultamiento

AspectoRandomizaciónOcultamiento de la asignación
DefiniciónProceso de asignar al azar a los gruposMantener secreta la secuencia hasta la inclusión
ObjetivoBalancear confusoresEvitar sesgo de selección
MomentoEn el diseño del ensayoDurante la inclusión de participantes
Ejemplo correctoSecuencia con software estadísticoSistema electrónico centralizado
Ejemplo erróneoAsignar por fecha de nacimientoLista visible de asignación

Consecuencias de fallar en estos procesos

  • Sin randomización: grupos no comparables → resultados no válidos.
  • Sin ocultamiento: sesgo de selección → los investigadores podrían manipular indirectamente quién entra en qué grupo.
  • Ejemplo histórico:
    • En varios ensayos tempranos de cirugía cardíaca (años 60–70), la falta de ocultamiento permitió que se asignaran pacientes más graves al grupo control → resultados artificialmente favorables a la cirugía.

Herramientas para evaluar en lectura crítica

Cuando revises un ensayo clínico, pregúntate:

  1. ¿Cómo se generó la secuencia de randomización?
    • ¿Está descrito en el artículo?
    • ¿Se usó un método válido (software, tablas aleatorias)?
  2. ¿Cómo se ocultó la asignación?
    • ¿Usaron sobres opacos o sistemas electrónicos?
    • ¿Reportan este proceso en el método?
  3. ¿Se reporta en CONSORT?
    • Ítem 8: Generación de la secuencia.
    • Ítem 9: Ocultamiento de la secuencia.
  4. ¿Hubo desequilibrios importantes en las características basales?
    • Si sí, puede indicar falla en randomización o en el ocultamiento.

2.2. CEGAMIENTO (SIMPLE, DOBLE, TRIPLE)


Introducción

El cegamiento (también llamado blinding o masking) es una estrategia metodológica que busca ocultar la asignación de tratamiento en un ensayo clínico, tanto a pacientes como a quienes administran la intervención, evalúan los resultados o analizan los datos.

Su propósito central es reducir sesgos que pueden surgir cuando el conocimiento de la asignación influye en la conducta, la percepción o la interpretación de los resultados.

👉 Sin cegamiento, los ensayos clínicos están expuestos a dos sesgos muy importantes:

  • Sesgo de desempeño (performance bias): diferencias en la atención, seguimiento o adherencia según el grupo.
  • Sesgo de detección (detection bias): evaluación diferencial de desenlaces dependiendo de la expectativa del evaluador.

Breve historia del cegamiento en investigación clínica

  • Siglo XVIII: James Lind (escorbuto) no usó cegamiento; los marineros sabían qué recibían.
  • Siglo XIX: William Withering con la digitalis, también sin cegamiento.
  • Siglo XX temprano: aparecen los primeros ensayos placebo en neurología y psiquiatría, al observar que la expectativa de los pacientes modificaba los síntomas.
  • 1946: primer ensayo controlado con placebo (estreptomicina en tuberculosis).
  • Años 70: CONSORT y metodólogos comienzan a estandarizar el reporte del cegamiento.
  • Hoy: sigue siendo estándar, pero en muchas intervenciones (ej. cirugía, estilos de vida) es impracticable.

Tipos de cegamiento

🔹 Cegamiento simple

  • Solo los pacientes desconocen el grupo de asignación.
  • Útil cuando el objetivo es controlar el efecto placebo/nocebo.
  • Ejemplo: estudios de analgésicos en que el médico conoce la asignación, pero el paciente no.
  • Limitación: el investigador puede influir en el seguimiento o medición de desenlaces.

🔹 Cegamiento doble

  • Ni pacientes ni investigadores clínicos conocen la asignación.
  • Es el estándar de oro para la mayoría de los RCT farmacológicos.
  • Evita tanto el sesgo de desempeño como el de detección.
  • Ejemplo:
    • EMPA-REG OUTCOME (2015): empagliflozina vs. placebo en DM2, comprimidos indistinguibles.
  • Limitación: no siempre es posible cuando las intervenciones son muy diferentes (inyectable vs. comprimido).

🔹 Cegamiento triple

  • Pacientes, investigadores y analistas de datos desconocen la asignación.
  • Protege contra sesgos en el análisis estadístico, decisiones de detener precozmente el ensayo o interpretación selectiva.
  • Ejemplo: algunos ensayos oncológicos, donde el comité de análisis trabaja con códigos y la clave se abre solo al final.
  • Limitación: más costoso, logísticamente complejo.

🔹 Extensiones

  • Cuádruple ciego: incluye al comité de monitoreo/adjudicación de eventos.
  • Doble-dummy: cuando las intervenciones tienen vías distintas, se da a cada grupo un placebo adicional para mantener simetría.
    • Ejemplo: clopidogrel (tableta) vs. enoxaparina (inyección): cada grupo recibe su tratamiento activo + placebo del otro.

Situaciones donde el cegamiento es difícil o imposible

  1. Cirugía: no se puede ocultar al cirujano ni al paciente que se realizó una operación.
    • Solución: sham surgery (procedimiento simulado), aunque tiene dilemas éticos.
  2. Estilo de vida: dieta, ejercicio, psicoterapia.
    • Solución: uso de evaluadores ciegos y desenlaces objetivos.
  3. Dispositivos médicos: diferentes apariencias, tamaños o efectos.
    • Solución: placebo simulado (ej. dispositivos apagados o sin función).

👉 En estos casos, aunque no se pueda cegar completamente, se debe:

  • Usar desenlaces objetivos (ej. mortalidad, biomarcadores).
  • Implementar evaluadores ciegos o comités independientes de adjudicación.

Sesgos que previene el cegamiento

  • Sesgo de desempeño:
    • Ejemplo: si un médico sabe que su paciente recibe placebo, puede darle mayor atención, modificando indirectamente el desenlace.
  • Sesgo de detección:
    • Ejemplo: un evaluador puede interpretar una mejoría clínica subjetiva más favorablemente en pacientes que reciben la intervención.
  • Sesgo de reporte subjetivo:
    • Ejemplo: pacientes pueden reportar más efectos adversos si creen estar en el grupo activo.

Evidencia del impacto del cegamiento

  • Revisiones Cochrane han mostrado que los ensayos sin cegamiento tienden a sobreestimar los beneficios en un 10–30%.
  • El efecto es mayor cuando los desenlaces son subjetivos (dolor, calidad de vida) y menor cuando son objetivos (mortalidad, infarto, laboratorio automatizado).
  • Ensayos pragmáticos (como RECOVERY en COVID-19) muestran que, con grandes muestras y desenlaces objetivos, se puede compensar parcialmente la falta de cegamiento.

Ejemplos emblemáticos

  • ALLHAT (2002): ensayo abierto (hipertensión arterial). Aunque sin cegamiento, la robustez del diseño y el desenlace objetivo (eventos cardiovasculares) le dio alta validez.
  • RECOVERY (COVID-19, 2020): ensayo abierto, pragmático y adaptativo. A pesar de no usar cegamiento, su tamaño enorme y desenlaces duros (mortalidad hospitalaria) respaldaron su solidez.
  • PLATO (2010): ticagrelor vs. clopidogrel, usando diseño doble-dummy para mantener cegamiento pese a diferentes presentaciones farmacéuticas.

Evaluación crítica del cegamiento

Cuando leas un ensayo, revisa:

  1. ¿Quién estuvo cegado?
    • Pacientes, médicos, evaluadores, analistas.
  2. ¿Cómo se implementó?
    • Placebo idéntico, doble-dummy, comité de eventos independiente.
  3. ¿Hubo rompimiento del cegamiento?
    • Algunos artículos reportan cuántos pacientes/adjudicadores adivinaron correctamente su grupo.
  4. ¿Qué desenlaces se midieron?
    • Si son subjetivos, el cegamiento es crítico.
    • Si son objetivos (mortalidad), la falta de cegamiento es menos grave.
  5. ¿Se reportó en CONSORT?
    • Ítem 11a: quién estuvo cegado.
    • Ítem 11b: cómo se mantuvo el cegamiento.

Tabla comparativa de niveles de cegamiento

Tipo de cegamiento¿Quién está cegado?VentajaLimitaciónEjemplo clínico
SimplePacienteControla efecto placebo/noceboInvestigador conoce la asignaciónEnsayos de analgésicos
DoblePaciente + investigadorEstándar de oro, evita sesgo de desempeño y detecciónPuede ser costoso o difícil (ej. cirugía)EMPA-REG OUTCOME (DM2)
TriplePaciente + investigador + analistaPreviene sesgo en análisis y decisionesLogísticamente complejoEnsayos oncológicos con análisis ciego
Doble-dummyTodos (se simulan ambas vías)Permite cegar cuando tratamientos difieren en forma de administraciónMás complejo y costosoPLATO (ticagrelor vs. clopidogrel)

2.3. GRUPO CONTROL: PLACEBO, ESTÁNDAR DE CUIDADO O COMPARADOR ACTIVO


Introducción

En un ensayo clínico, el grupo control representa la referencia con la cual se contrasta la intervención en estudio. Su correcta selección es fundamental porque:

  • Define la validez interna del estudio (qué tan confiables son sus resultados).
  • Marca la validez externa y clínica (qué tan aplicables son sus hallazgos en la práctica).
  • Responde a cuestiones éticas, ya que asignar pacientes a un control inadecuado puede ser dañino o inaceptable.

👉 En pocas palabras: sin un control adecuado, un ensayo pierde relevancia y credibilidad, por más sofisticado que sea su diseño.


Evolución histórica del concepto de grupo control

  • Siglo XVIII: James Lind (escorbuto) comparó seis grupos de marineros, pero sin uso de placebo ni control formal.
  • Siglo XIX: William Withering con la digitalis; ensayo observacional sin control comparador.
  • 1940s: el Medical Research Council (MRC) introdujo el primer ensayo controlado con placebo en tuberculosis (estreptomicina, 1948).
  • Décadas posteriores: el uso de placebo se expandió como estándar, pero surgieron debates éticos con la Declaración de Helsinki (1964 en adelante).
  • Hoy: el control depende de la disponibilidad de tratamientos efectivos, la severidad de la enfermedad y la pregunta clínica.

Tipos de grupo control

🔹 1. Placebo

Definición: sustancia o intervención sin efecto terapéutico específico, diseñada para ser indistinguible de la intervención activa.

Objetivos:

  • Controlar el efecto placebo/nocebo.
  • Medir el efecto “puro” de la intervención.

Ventajas:

  • Máxima claridad para demostrar eficacia.
  • Permite diferenciar entre efecto farmacológico real y efecto psicológico/contextual.

Limitaciones:

  • Problemas éticos cuando existe tratamiento eficaz.
  • Difícil de justificar en enfermedades graves (ej. cáncer, infecciones letales).

Ejemplo:

  • Ensayos iniciales de estatinas (1980s): demostraron clara reducción de eventos cardiovasculares frente a placebo.

🔹 2. Estándar de cuidado (standard of care)

Definición: intervención considerada la mejor práctica vigente en la comunidad médica en el momento del ensayo.

Objetivos:

  • Evaluar si la nueva intervención es mejor que lo que ya se usa en la práctica clínica.

Ventajas:

  • Éticamente sólido: no priva a los pacientes de un tratamiento eficaz.
  • Resultados directamente aplicables a guías clínicas.

Limitaciones:

  • Si el estándar ya es muy eficaz, puede ser difícil demostrar diferencias significativas.
  • El estándar puede variar entre países o regiones → afecta la generalización.

Ejemplo:

  • Ensayos de DOAC (apixabán, rivaroxabán, dabigatrán) comparados con warfarina en FA no valvular.

🔹 3. Comparador activo

Definición: se compara la nueva intervención con otro tratamiento eficaz (no necesariamente el estándar absoluto).

Objetivos:

  • Evaluar no inferioridad (la nueva intervención no es peor que la existente).
  • O equivalencia (ambas son clínicamente indistinguibles).
  • A veces demostrar superioridad frente a un fármaco similar.

Ventajas:

  • Permite introducir nuevas opciones terapéuticas con mejor perfil de seguridad, menor costo o mayor comodidad, aunque no sean superiores en eficacia.

Limitaciones:

  • Requiere definir un margen clínico aceptable para no inferioridad/equivalencia, lo que puede ser subjetivo.
  • Riesgo de falsos negativos si el comparador activo ya es muy eficaz.

Ejemplo:

  • PLATO trial (2010): ticagrelor vs. clopidogrel en síndrome coronario agudo. → Ticagrelor fue superior, modificando guías internacionales.

Consideraciones éticas

Declaración de Helsinki (2013)

  • El uso de placebo solo es ético si:
    • No existe tratamiento eficaz probado, o
    • No exponer a riesgos serios o irreversibles a los pacientes.
  • Si existe un tratamiento establecido, el control debe ser el estándar de cuidado.

Principio de beneficencia

  • No privar a pacientes de un tratamiento eficaz (ej. usar placebo en cáncer avanzado sería antiético).

Principio de justicia

  • El estándar de cuidado debe ser el que realmente se usa en la práctica local, no solo en países de altos ingresos.

👉 Ejemplo controvertido: ensayos de prevención de transmisión materno-infantil de VIH en África en los 90, donde se usó placebo en lugar de zidovudina estándar disponible en países ricos.


Impacto en la interpretación de resultados

  1. Ensayo con placebo:
    • Demuestra eficacia neta.
    • Pero puede ser irrelevante clínicamente si ya existe un tratamiento eficaz.
  2. Ensayo con estándar de cuidado:
    • Responde a la pregunta real del clínico: ¿vale la pena cambiar lo que hago hoy?
    • Directamente aplicable a guías.
  3. Ensayo con comparador activo:
    • Puede introducir alternativas equivalentes o no inferiores.
    • Útil para ampliar opciones terapéuticas o reducir costos.

Ejemplos emblemáticos

  • HOPE (2000): ramipril vs. placebo → mostró reducción de eventos CV, revolucionó prevención secundaria.
  • ARISTOTLE (2011): apixabán vs. warfarina → superioridad en FA, con menor sangrado.
  • RECOVERY (COVID-19, 2020): dexametasona vs. atención habitual → redujo mortalidad en pacientes con soporte respiratorio.
  • PLATO (2010): ticagrelor vs. clopidogrel → demostró superioridad en síndrome coronario agudo.

Lectura crítica

Preguntas clave al evaluar un ensayo:

  1. ¿El comparador elegido fue ético?
  2. ¿Refleja la práctica clínica real de mi entorno?
  3. ¿Qué diseño se usó? (superioridad, no inferioridad, equivalencia).
  4. ¿La elección del control limita la aplicabilidad externa?
    • Ejemplo: comparar contra placebo cuando ya existe estándar puede inflar resultados pero ser clínicamente irrelevante.

Tabla comparativa

Tipo de controlDefiniciónVentajaLimitaciónEjemplo clínicoAspecto ético
PlaceboSustancia inerte, indistinguible de intervenciónClaridad en eficaciaNo ético si existe tratamiento probadoEnsayos iniciales de estatinasSolo aceptable si no hay tratamiento eficaz
Estándar de cuidadoTratamiento vigente en práctica clínicaDirectamente aplicable a guíasDifícil demostrar diferencias si es muy eficazDOAC vs. warfarinaObligatorio si existe tratamiento establecido
Comparador activoOtro fármaco eficaz (no necesariamente estándar)Permite demostrar no inferioridad o equivalenciaRiesgo de márgenes inadecuadosTicagrelor vs. clopidogrel (PLATO)Ético, siempre que ambos tratamientos sean eficaces

2.4. TAMAÑO DE MUESTRA Y PODER ESTADÍSTICO


Introducción

El tamaño de muestra y el poder estadístico son elementos centrales en el diseño de un ensayo clínico. No son simples cálculos matemáticos, sino decisiones metodológicas y clínicas que determinan:

  1. La validez de los resultados: un estudio pequeño puede no detectar un efecto real.
  2. La relevancia clínica: un estudio demasiado grande puede detectar diferencias estadísticamente significativas pero sin importancia práctica.
  3. La eficiencia y ética: un tamaño muestral adecuado optimiza recursos y evita exponer a más pacientes de los necesarios.

👉 En síntesis: el tamaño muestral es el puente entre la estadística y la medicina basada en evidencia.


Breve historia del concepto

  • Década de 1920: Ronald Fisher introduce el concepto de hipótesis nula y la idea de significancia estadística (p-valores).
  • Años 40–50: Neyman y Pearson desarrollan formalmente los conceptos de error tipo I (α), error tipo II (β) y poder (1–β).
  • 1960s en adelante: los ensayos clínicos aleatorizados adoptan el cálculo muestral como estándar de rigor.
  • CONSORT (1996–actualidad): establece que todo ensayo debe reportar cómo se calculó su muestra, con parámetros de α, poder, δ y pérdidas esperadas.

Conceptos fundamentales

🔹 Error tipo I (α)

  • Probabilidad de rechazar la hipótesis nula cuando en realidad es verdadera (falso positivo).
  • Usualmente se fija en 5% (0.05).
  • Ejemplo: concluir que un nuevo antihipertensivo es eficaz cuando en realidad no lo es.

🔹 Error tipo II (β)

  • Probabilidad de aceptar la hipótesis nula cuando en realidad es falsa (falso negativo).
  • Relacionado con estudios pequeños o de bajo poder.
  • Ejemplo: no detectar que un fármaco reduce mortalidad porque la muestra fue insuficiente.

🔹 Poder estadístico (1–β)

  • Probabilidad de detectar un efecto real cuando existe.
  • Recomendado: ≥80%, preferiblemente 90% en grandes ensayos cardiovasculares u oncológicos.

🔹 Tamaño del efecto esperado (δ)

  • Diferencia mínima considerada clínicamente relevante.
  • No es lo mismo que la significancia estadística: es un juicio clínico.
  • Ejemplo: reducción del 20% en eventos cardiovasculares mayores.

🔹 Variabilidad de la medida

  • A mayor dispersión (desviación estándar), más pacientes se necesitan.
  • Ejemplo: presión arterial (alta variabilidad) requiere más muestra que glucosa (menos variable).

🔹 Pérdidas de seguimiento

  • Los cálculos deben anticipar pérdidas (drop-outs).
  • Normalmente se añade un 10–20% a la muestra estimada.

Tipos de hipótesis y su impacto en el tamaño muestral

  1. Superioridad: demostrar que una intervención es mejor que placebo/estándar.
    • Ejemplo: DAPA-HF → dapagliflozina superior al placebo en IC-FEr.
  2. No inferioridad: demostrar que una intervención no es peor que la estándar por un margen aceptable.
    • Ejemplo: DOAC vs. warfarina.
  3. Equivalencia: demostrar que dos intervenciones son prácticamente iguales.
    • Ejemplo: genéricos vs. fármaco original.

👉 Ensayos de no inferioridad y equivalencia requieren muestras mayores porque los márgenes son más estrictos.


Ejemplos clínicos

🔹 Ejemplo 1 – Superioridad (hipotético)

  • Pregunta: ¿Un nuevo antihipertensivo reduce la presión sistólica al menos 5 mmHg más que placebo?
  • Parámetros:
    • α = 0.05
    • Poder = 80%
    • DE = 10 mmHg
    • δ = 5 mmHg
  • Tamaño estimado: ~64 pacientes por grupo.

🔹 Ejemplo 2 – Ensayo de eventos poco frecuentes

  • Prevención primaria en cardiología: mortalidad esperada 5%, reducción esperada a 3%.
  • Se necesitan decenas de miles de pacientes para tener poder suficiente.
  • Ejemplo real: HOPE-3 trial (ramipril + rosuvastatina en prevención primaria) → 12,705 pacientes.

🔹 Ejemplo 3 – No inferioridad

  • Nuevo anticoagulante vs. warfarina en FA.
  • Incidencia esperada en control: 2% anual.
  • Margen de no inferioridad: 0.5%.
  • Poder: 90%.
  • Resultado: tamaño de decenas de miles → por eso ensayos como ARISTOTLE o ROCKET-AF reclutaron >14,000 pacientes.

Consecuencias de un tamaño inadecuado

Subestimación (muestra pequeña)

  • Alto riesgo de error tipo II.
  • Terapias útiles descartadas injustamente.
  • Conclusiones erróneas: “no hay diferencia” cuando en realidad el estudio no tenía poder.
  • Ejemplo: pequeños estudios iniciales de vitamina D y cáncer, luego contradichos por ensayos grandes.

Sobreestimación (muestra excesiva)

  • Costos elevados, tiempo innecesario, exposición innecesaria de pacientes.
  • Diferencias estadísticamente significativas pero clínicamente irrelevantes.
  • Ejemplo: reducción de 0.2 mmHg en PA con p<0.01 → irrelevante para el paciente.

Factores adicionales

  1. Tipo de desenlace:
    • Continuo (ej. PA, colesterol) → requiere menor muestra.
    • Binario (ej. muerte, IAM) → requiere mayor muestra.
    • Tiempo a evento (ej. sobrevida) → requiere seguimiento prolongado.
  2. Diseño del ensayo:
    • Crossover → menor muestra (cada paciente actúa como su propio control).
    • Cluster-randomizado → mayor muestra (hay que ajustar por correlación intraclase).
  3. Análisis interinos:
    • Comités de monitoreo pueden detener un ensayo por eficacia, futilidad o seguridad.
    • Esto modifica el tamaño real alcanzado (ej. STOPDAPT-2).

Evaluación crítica al leer un ensayo

Preguntas clave:

  1. ¿Reportaron cómo calcularon la muestra?
    • α, poder, δ, DE, tasa de pérdidas.
  2. ¿El desenlace principal era clínicamente relevante?
    • ¿O fue un desenlace sustituto (ej. HbA1c en lugar de mortalidad)?
  3. ¿Alcanzaron el reclutamiento previsto?
    • Ensayos detenidos precozmente por bajo reclutamiento tienen menor validez.
  4. ¿El tamaño muestral se ajustó por pérdidas?
    • Ejemplo: 15% de drop-outs en estudios de estilo de vida.
  5. ¿El ensayo tenía suficiente poder?
    • Un estudio con resultado “negativo” puede simplemente haber estado subpotenciado.

Tabla comparativa

ParámetroDefiniciónImpacto en el tamaño muestralEjemplo clínico
α (0.05)Probabilidad de error tipo IFijo, determina umbral de significanciaHOPE trial
Poder (0.8–0.9)Probabilidad de detectar efecto realA mayor poder, mayor muestraDAPA-HF (90%)
δDiferencia mínima clínicamente relevanteA menor δ, mayor muestraARISTOTLE
Variabilidad (DE)Dispersión de la medidaAlta DE → más pacientesEnsayos de PA
PérdidasSujetos que abandonanSe infla muestra inicialEstudios de estilo de vida

2.5. CRITERIOS DE INCLUSIÓN Y EXCLUSIÓN


Introducción

En todo ensayo clínico, los criterios de inclusión y exclusión determinan quién puede y quién no puede participar. Estos criterios son el filtro inicial del diseño metodológico: definen la población bajo estudio, aseguran la seguridad de los participantes y condicionan la validez de los resultados.

👉 La elección de estos criterios es un equilibrio delicado entre:

  • Validez interna: garantizar que el efecto observado se deba a la intervención y no a factores de confusión.
  • Validez externa: asegurar que los resultados puedan aplicarse al mayor número posible de pacientes en la práctica real.

Sin criterios claros y bien justificados, un ensayo puede ser irrelevante para la práctica clínica o, peor aún, poner en riesgo a los participantes.


Diferencia entre inclusión y exclusión

  • Criterios de inclusión:
    • Definen las características que los pacientes deben cumplir para ser elegibles.
    • Aseguran que los sujetos representen la condición o población de interés.
  • Criterios de exclusión:
    • Señalan condiciones o características que hacen que un paciente, aunque cumpla inclusión, no pueda participar.
    • Suelen basarse en seguridad, comorbilidades, factores de confusión o logística.

👉 Ejemplo práctico:

  • Inclusión: adultos con diabetes tipo 2, HbA1c ≥7%, tratamiento estable.
  • Exclusión: insuficiencia renal avanzada, embarazo, alergia a la intervención.

Objetivos de los criterios de inclusión

  1. Definir la población diana: representar a quienes se pretende beneficiar en la práctica clínica.
  2. Asegurar homogeneidad clínica: reducir la variabilidad y mejorar la precisión de los resultados.
  3. Garantizar validez interna: seleccionar pacientes en los que la intervención pueda mostrar el efecto con mayor claridad.
  4. Optimizar eficiencia estadística: concentrar la muestra en quienes tienen mayor probabilidad de experimentar el desenlace.

Objetivos de los criterios de exclusión

  1. Seguridad: proteger a pacientes con alto riesgo de efectos adversos.
    • Ejemplo: excluir embarazadas de estudios con fármacos teratogénicos.
  2. Reducir confusión: evitar comorbilidades que interfieran en la interpretación del desenlace.
  3. Logística: excluir pacientes con baja probabilidad de adherencia o seguimiento.
  4. Ética: proteger a poblaciones vulnerables.

Impacto en la validez del ensayo

  • Muchos criterios restrictivos:
    • Alta validez interna.
    • Población homogénea.
    • Baja validez externa (resultados poco generalizables).
  • Criterios más flexibles:
    • Mayor validez externa y aplicabilidad.
    • Más heterogeneidad, lo que puede diluir el efecto de la intervención.

👉 En la práctica, los ensayos explicativos tienden a ser restrictivos; los ensayos pragmáticos tienden a ser inclusivos.


Consideraciones éticas

Los criterios de inclusión y exclusión no son solo técnicos, también responden a principios éticos:

  • Beneficencia y no maleficencia: proteger a quienes podrían verse más perjudicados que beneficiados.
  • Justicia: evitar exclusiones innecesarias de grupos poblacionales (ej. mujeres, ancianos) que generan falta de representatividad.
  • Autonomía: los criterios no deben usarse para limitar indebidamente la participación cuando los riesgos son aceptables.

👉 Ejemplo histórico de controversia:

  • Ensayos de prevención de transmisión materno-infantil del VIH en África (1990s), que usaron placebo pese a existir zidovudina eficaz en países desarrollados. Críticas éticas se centraron en la exclusión implícita de un estándar de cuidado para mujeres africanas.

Ejemplos emblemáticos

  • HOPE trial (2000):
    • Inclusión: pacientes ≥55 años con riesgo CV elevado.
    • Exclusión: IC con FEVI <40%, ERC avanzada.
    • Impacto: resultados aplicables a prevención secundaria, pero menos a IC avanzada.
  • DAPA-HF (2019):
    • Inclusión: FEVI ≤40%, NYHA II–IV.
    • Exclusión: eGFR <30 ml/min, hipotensión sintomática.
    • Impacto: gran aplicabilidad a pacientes con IC, pero limitaciones en insuficiencia renal avanzada.
  • RECOVERY (COVID-19, 2020):
    • Inclusión: pacientes hospitalizados con COVID-19 confirmado.
    • Exclusión: mínimos (solo contraindicaciones absolutas).
    • Impacto: reclutamiento rápido de >40,000 pacientes → alta validez externa y resultados aplicables a nivel global.

Estrategias modernas para mejorar representatividad

  1. Ensayos pragmáticos: criterios amplios, mínima exclusión.
  2. Subgrupos preespecificados: permiten analizar pacientes que fueron excluidos de estudios anteriores (ej. ancianos, mujeres, multimórbidos).
  3. Registros y estudios del mundo real: complementan ensayos restrictivos con datos de práctica clínica.
  4. Inclusión equitativa: mayor presión regulatoria para incluir mujeres, minorías y adultos mayores.

Lectura crítica: preguntas clave

Cuando leas un ensayo clínico, pregúntate:

  1. ¿Los criterios son claros y reproducibles?
    • Evitar términos vagos como “pacientes de alto riesgo” sin definición objetiva.
  2. ¿El desenlace principal se puede interpretar en esa población?
    • Ejemplo: usar mortalidad en pacientes muy seleccionados puede no reflejar práctica real.
  3. ¿Se excluyen pacientes comunes en la práctica clínica?
    • Si los ancianos o comórbidos están excluidos, cuidado al aplicar el resultado en tu hospital.
  4. ¿Se justifica éticamente la exclusión?
    • Pregúntate si los criterios protegen al paciente o simplemente facilitan el análisis.
  5. ¿El balance entre validez interna y externa es razonable?
    • Ejemplo: RECOVERY optó por aplicabilidad; HOPE por rigurosidad.

Representación esquemática del proceso

Población general con la enfermedad → elegibles (aplican inclusión) → excluidos (aplican exclusión) → pacientes reclutados → pacientes analizados (tras pérdidas).

Este “embudo” define cómo se va reduciendo el universo de pacientes hasta llegar a la muestra final.


Tabla resumen

Tipo de criterioEjemploObjetivoImpacto
InclusiónEdad 40–75 años, DM2, HbA1c ≥7%Definir población objetivoAumenta validez interna
ExclusiónERC estadio 4–5SeguridadLimita extrapolación a pacientes renales graves
InclusiónIAM en los últimos 3 mesesGarantizar homogeneidadMejora potencia estadística
ExclusiónEmbarazo o lactanciaÉtica y seguridadReduce aplicabilidad a mujeres jóvenes
InclusiónFEVI ≤40%, NYHA II–IVDefinir enfermedad dianaRepresenta práctica habitual


Descubre más desde Medicina Cardiometabólica

Suscríbete y recibe las últimas entradas en tu correo electrónico.

Deja un comentario