2.1. Randomización y ocultamiento de la asignación
2.2. Cegamiento (simple, doble, triple)
2.3. Grupo control: placebo, estándar de cuidado o comparador activo
2.4. Tamaño de muestra y poder estadístico
2.5. Criterios de inclusión y exclusión
2.1. RANDOMIZACIÓN Y OCULTAMIENTO DE LA ASIGNACIÓN
Introducción
La randomización y el ocultamiento de la asignación son dos de los componentes metodológicos más importantes en un ensayo clínico. Su correcta implementación determina en gran medida la validez interna del estudio y la credibilidad de sus resultados.
- La randomización busca que los grupos comparados sean equivalentes en todas las características pronósticas, tanto conocidas como desconocidas.
- El ocultamiento de la asignación protege el proceso de randomización, evitando que investigadores o pacientes influyan (consciente o inconscientemente) en la selección.
Ambos procesos, aunque diferentes, están íntimamente ligados: un ensayo puede ser correctamente randomizado pero estar mal ocultado, lo que introduce sesgo de selección y compromete sus conclusiones.
Fundamentos de la randomización
🔹 ¿Por qué randomizar?
- Distribuir factores de confusión: tanto conocidos (edad, sexo, comorbilidades) como desconocidos.
- Generar comparabilidad: asegura que las diferencias observadas en los desenlaces se atribuyan a la intervención.
- Facilitar el análisis estadístico: permite aplicar pruebas de hipótesis válidas bajo el supuesto de aleatoriedad.
- Incrementar credibilidad: la comunidad científica acepta más fácilmente los resultados de un ensayo aleatorizado.
👉 Sin randomización, un ensayo clínico se asemeja a un estudio cuasi-experimental, con riesgo de sesgo de selección.
🔹 Tipos de randomización
- Randomización simple
- Equivalente a lanzar una moneda para cada paciente.
- Ventaja: muy fácil de implementar.
- Limitación: puede generar desequilibrios si el tamaño muestral es pequeño.
- Ejemplo: un ensayo piloto en 40 pacientes con asma.
- Randomización por bloques
- Se forman bloques de tamaño fijo (ej. 4, 6, 8) en los que se asegura igual número de asignaciones a cada grupo.
- Evita desequilibrios en la secuencia de asignación.
- Útil en estudios multicéntricos.
- Limitación: si el bloque es pequeño y predecible, puede arriesgar ocultamiento.
- Randomización estratificada
- Se definen estratos según variables pronósticas (edad, sexo, severidad).
- Dentro de cada estrato se aplica randomización.
- Garantiza equilibrio en factores críticos.
- Ejemplo: ensayos de insuficiencia cardíaca estratificados por presencia/ausencia de diabetes.
- Randomización adaptativa
- Ajusta probabilidades de asignación a medida que avanza el ensayo.
- Ejemplo: se asigna más pacientes al tratamiento más prometedor tras resultados preliminares.
- Ventaja: ética y eficiente.
- Limitación: requiere análisis estadístico complejo.
- Minimización
- Método dinámico que asigna pacientes de manera que se minimicen los desequilibrios globales.
- Útil en estudios pequeños.
- Limitación: requiere software especializado y puede ser menos “aleatorio” en percepción.
🔹 Generación de la secuencia aleatoria
- Métodos válidos:
- Tablas de números aleatorios.
- Software estadístico (R, Stata, SAS, SPSS).
- Algoritmos computacionales validados.
- Métodos inválidos:
- Asignación alternante (paciente 1 al grupo A, paciente 2 al grupo B).
- Fechas de nacimiento o número de historia clínica.
- Orden de llegada.
👉 CONSORT exige que se reporte claramente cómo se generó la secuencia de randomización.
Ocultamiento de la asignación (allocation concealment)
🔹 Concepto
Es el proceso de impedir que los investigadores y participantes conozcan de antemano la asignación del próximo paciente antes de reclutarlo.
👉 Diferencia clave:
- Randomización = generación de la secuencia.
- Ocultamiento = protección de la secuencia antes de la asignación.
🔹 Importancia
- Evita el sesgo de selección, que ocurre si el investigador manipula la inclusión de pacientes en función de la asignación anticipada.
- Asegura que la comparación entre grupos sea justa y no manipulada.
🔹 Métodos adecuados
- Sobres opacos, sellados y numerados consecutivamente.
- Centros de randomización externos: se llama o accede a un sistema remoto para obtener la asignación.
- Sistemas electrónicos automatizados (IVRS/IWRS): Interactive Voice/Web Response Systems.
🔹 Métodos inadecuados
- Sobres transparentes o mal numerados.
- Listas accesibles en la sala de investigación.
- Alternancia fija de asignación.
Diferencias entre randomización y ocultamiento
| Aspecto | Randomización | Ocultamiento de la asignación |
|---|---|---|
| Definición | Proceso de asignar al azar a los grupos | Mantener secreta la secuencia hasta la inclusión |
| Objetivo | Balancear confusores | Evitar sesgo de selección |
| Momento | En el diseño del ensayo | Durante la inclusión de participantes |
| Ejemplo correcto | Secuencia con software estadístico | Sistema electrónico centralizado |
| Ejemplo erróneo | Asignar por fecha de nacimiento | Lista visible de asignación |
Consecuencias de fallar en estos procesos
- Sin randomización: grupos no comparables → resultados no válidos.
- Sin ocultamiento: sesgo de selección → los investigadores podrían manipular indirectamente quién entra en qué grupo.
- Ejemplo histórico:
- En varios ensayos tempranos de cirugía cardíaca (años 60–70), la falta de ocultamiento permitió que se asignaran pacientes más graves al grupo control → resultados artificialmente favorables a la cirugía.
Herramientas para evaluar en lectura crítica
Cuando revises un ensayo clínico, pregúntate:
- ¿Cómo se generó la secuencia de randomización?
- ¿Está descrito en el artículo?
- ¿Se usó un método válido (software, tablas aleatorias)?
- ¿Cómo se ocultó la asignación?
- ¿Usaron sobres opacos o sistemas electrónicos?
- ¿Reportan este proceso en el método?
- ¿Se reporta en CONSORT?
- Ítem 8: Generación de la secuencia.
- Ítem 9: Ocultamiento de la secuencia.
- ¿Hubo desequilibrios importantes en las características basales?
- Si sí, puede indicar falla en randomización o en el ocultamiento.
2.2. CEGAMIENTO (SIMPLE, DOBLE, TRIPLE)
Introducción
El cegamiento (también llamado blinding o masking) es una estrategia metodológica que busca ocultar la asignación de tratamiento en un ensayo clínico, tanto a pacientes como a quienes administran la intervención, evalúan los resultados o analizan los datos.
Su propósito central es reducir sesgos que pueden surgir cuando el conocimiento de la asignación influye en la conducta, la percepción o la interpretación de los resultados.
👉 Sin cegamiento, los ensayos clínicos están expuestos a dos sesgos muy importantes:
- Sesgo de desempeño (performance bias): diferencias en la atención, seguimiento o adherencia según el grupo.
- Sesgo de detección (detection bias): evaluación diferencial de desenlaces dependiendo de la expectativa del evaluador.
Breve historia del cegamiento en investigación clínica
- Siglo XVIII: James Lind (escorbuto) no usó cegamiento; los marineros sabían qué recibían.
- Siglo XIX: William Withering con la digitalis, también sin cegamiento.
- Siglo XX temprano: aparecen los primeros ensayos placebo en neurología y psiquiatría, al observar que la expectativa de los pacientes modificaba los síntomas.
- 1946: primer ensayo controlado con placebo (estreptomicina en tuberculosis).
- Años 70: CONSORT y metodólogos comienzan a estandarizar el reporte del cegamiento.
- Hoy: sigue siendo estándar, pero en muchas intervenciones (ej. cirugía, estilos de vida) es impracticable.
Tipos de cegamiento
🔹 Cegamiento simple
- Solo los pacientes desconocen el grupo de asignación.
- Útil cuando el objetivo es controlar el efecto placebo/nocebo.
- Ejemplo: estudios de analgésicos en que el médico conoce la asignación, pero el paciente no.
- Limitación: el investigador puede influir en el seguimiento o medición de desenlaces.
🔹 Cegamiento doble
- Ni pacientes ni investigadores clínicos conocen la asignación.
- Es el estándar de oro para la mayoría de los RCT farmacológicos.
- Evita tanto el sesgo de desempeño como el de detección.
- Ejemplo:
- EMPA-REG OUTCOME (2015): empagliflozina vs. placebo en DM2, comprimidos indistinguibles.
- Limitación: no siempre es posible cuando las intervenciones son muy diferentes (inyectable vs. comprimido).
🔹 Cegamiento triple
- Pacientes, investigadores y analistas de datos desconocen la asignación.
- Protege contra sesgos en el análisis estadístico, decisiones de detener precozmente el ensayo o interpretación selectiva.
- Ejemplo: algunos ensayos oncológicos, donde el comité de análisis trabaja con códigos y la clave se abre solo al final.
- Limitación: más costoso, logísticamente complejo.
🔹 Extensiones
- Cuádruple ciego: incluye al comité de monitoreo/adjudicación de eventos.
- Doble-dummy: cuando las intervenciones tienen vías distintas, se da a cada grupo un placebo adicional para mantener simetría.
- Ejemplo: clopidogrel (tableta) vs. enoxaparina (inyección): cada grupo recibe su tratamiento activo + placebo del otro.
Situaciones donde el cegamiento es difícil o imposible
- Cirugía: no se puede ocultar al cirujano ni al paciente que se realizó una operación.
- Solución: sham surgery (procedimiento simulado), aunque tiene dilemas éticos.
- Estilo de vida: dieta, ejercicio, psicoterapia.
- Solución: uso de evaluadores ciegos y desenlaces objetivos.
- Dispositivos médicos: diferentes apariencias, tamaños o efectos.
- Solución: placebo simulado (ej. dispositivos apagados o sin función).
👉 En estos casos, aunque no se pueda cegar completamente, se debe:
- Usar desenlaces objetivos (ej. mortalidad, biomarcadores).
- Implementar evaluadores ciegos o comités independientes de adjudicación.
Sesgos que previene el cegamiento
- Sesgo de desempeño:
- Ejemplo: si un médico sabe que su paciente recibe placebo, puede darle mayor atención, modificando indirectamente el desenlace.
- Sesgo de detección:
- Ejemplo: un evaluador puede interpretar una mejoría clínica subjetiva más favorablemente en pacientes que reciben la intervención.
- Sesgo de reporte subjetivo:
- Ejemplo: pacientes pueden reportar más efectos adversos si creen estar en el grupo activo.
Evidencia del impacto del cegamiento
- Revisiones Cochrane han mostrado que los ensayos sin cegamiento tienden a sobreestimar los beneficios en un 10–30%.
- El efecto es mayor cuando los desenlaces son subjetivos (dolor, calidad de vida) y menor cuando son objetivos (mortalidad, infarto, laboratorio automatizado).
- Ensayos pragmáticos (como RECOVERY en COVID-19) muestran que, con grandes muestras y desenlaces objetivos, se puede compensar parcialmente la falta de cegamiento.
Ejemplos emblemáticos
- ALLHAT (2002): ensayo abierto (hipertensión arterial). Aunque sin cegamiento, la robustez del diseño y el desenlace objetivo (eventos cardiovasculares) le dio alta validez.
- RECOVERY (COVID-19, 2020): ensayo abierto, pragmático y adaptativo. A pesar de no usar cegamiento, su tamaño enorme y desenlaces duros (mortalidad hospitalaria) respaldaron su solidez.
- PLATO (2010): ticagrelor vs. clopidogrel, usando diseño doble-dummy para mantener cegamiento pese a diferentes presentaciones farmacéuticas.
Evaluación crítica del cegamiento
Cuando leas un ensayo, revisa:
- ¿Quién estuvo cegado?
- Pacientes, médicos, evaluadores, analistas.
- ¿Cómo se implementó?
- Placebo idéntico, doble-dummy, comité de eventos independiente.
- ¿Hubo rompimiento del cegamiento?
- Algunos artículos reportan cuántos pacientes/adjudicadores adivinaron correctamente su grupo.
- ¿Qué desenlaces se midieron?
- Si son subjetivos, el cegamiento es crítico.
- Si son objetivos (mortalidad), la falta de cegamiento es menos grave.
- ¿Se reportó en CONSORT?
- Ítem 11a: quién estuvo cegado.
- Ítem 11b: cómo se mantuvo el cegamiento.
Tabla comparativa de niveles de cegamiento
| Tipo de cegamiento | ¿Quién está cegado? | Ventaja | Limitación | Ejemplo clínico |
|---|---|---|---|---|
| Simple | Paciente | Controla efecto placebo/nocebo | Investigador conoce la asignación | Ensayos de analgésicos |
| Doble | Paciente + investigador | Estándar de oro, evita sesgo de desempeño y detección | Puede ser costoso o difícil (ej. cirugía) | EMPA-REG OUTCOME (DM2) |
| Triple | Paciente + investigador + analista | Previene sesgo en análisis y decisiones | Logísticamente complejo | Ensayos oncológicos con análisis ciego |
| Doble-dummy | Todos (se simulan ambas vías) | Permite cegar cuando tratamientos difieren en forma de administración | Más complejo y costoso | PLATO (ticagrelor vs. clopidogrel) |
2.3. GRUPO CONTROL: PLACEBO, ESTÁNDAR DE CUIDADO O COMPARADOR ACTIVO
Introducción
En un ensayo clínico, el grupo control representa la referencia con la cual se contrasta la intervención en estudio. Su correcta selección es fundamental porque:
- Define la validez interna del estudio (qué tan confiables son sus resultados).
- Marca la validez externa y clínica (qué tan aplicables son sus hallazgos en la práctica).
- Responde a cuestiones éticas, ya que asignar pacientes a un control inadecuado puede ser dañino o inaceptable.
👉 En pocas palabras: sin un control adecuado, un ensayo pierde relevancia y credibilidad, por más sofisticado que sea su diseño.
Evolución histórica del concepto de grupo control
- Siglo XVIII: James Lind (escorbuto) comparó seis grupos de marineros, pero sin uso de placebo ni control formal.
- Siglo XIX: William Withering con la digitalis; ensayo observacional sin control comparador.
- 1940s: el Medical Research Council (MRC) introdujo el primer ensayo controlado con placebo en tuberculosis (estreptomicina, 1948).
- Décadas posteriores: el uso de placebo se expandió como estándar, pero surgieron debates éticos con la Declaración de Helsinki (1964 en adelante).
- Hoy: el control depende de la disponibilidad de tratamientos efectivos, la severidad de la enfermedad y la pregunta clínica.
Tipos de grupo control
🔹 1. Placebo
Definición: sustancia o intervención sin efecto terapéutico específico, diseñada para ser indistinguible de la intervención activa.
Objetivos:
- Controlar el efecto placebo/nocebo.
- Medir el efecto “puro” de la intervención.
Ventajas:
- Máxima claridad para demostrar eficacia.
- Permite diferenciar entre efecto farmacológico real y efecto psicológico/contextual.
Limitaciones:
- Problemas éticos cuando existe tratamiento eficaz.
- Difícil de justificar en enfermedades graves (ej. cáncer, infecciones letales).
Ejemplo:
- Ensayos iniciales de estatinas (1980s): demostraron clara reducción de eventos cardiovasculares frente a placebo.
🔹 2. Estándar de cuidado (standard of care)
Definición: intervención considerada la mejor práctica vigente en la comunidad médica en el momento del ensayo.
Objetivos:
- Evaluar si la nueva intervención es mejor que lo que ya se usa en la práctica clínica.
Ventajas:
- Éticamente sólido: no priva a los pacientes de un tratamiento eficaz.
- Resultados directamente aplicables a guías clínicas.
Limitaciones:
- Si el estándar ya es muy eficaz, puede ser difícil demostrar diferencias significativas.
- El estándar puede variar entre países o regiones → afecta la generalización.
Ejemplo:
- Ensayos de DOAC (apixabán, rivaroxabán, dabigatrán) comparados con warfarina en FA no valvular.
🔹 3. Comparador activo
Definición: se compara la nueva intervención con otro tratamiento eficaz (no necesariamente el estándar absoluto).
Objetivos:
- Evaluar no inferioridad (la nueva intervención no es peor que la existente).
- O equivalencia (ambas son clínicamente indistinguibles).
- A veces demostrar superioridad frente a un fármaco similar.
Ventajas:
- Permite introducir nuevas opciones terapéuticas con mejor perfil de seguridad, menor costo o mayor comodidad, aunque no sean superiores en eficacia.
Limitaciones:
- Requiere definir un margen clínico aceptable para no inferioridad/equivalencia, lo que puede ser subjetivo.
- Riesgo de falsos negativos si el comparador activo ya es muy eficaz.
Ejemplo:
- PLATO trial (2010): ticagrelor vs. clopidogrel en síndrome coronario agudo. → Ticagrelor fue superior, modificando guías internacionales.
Consideraciones éticas
Declaración de Helsinki (2013)
- El uso de placebo solo es ético si:
- No existe tratamiento eficaz probado, o
- No exponer a riesgos serios o irreversibles a los pacientes.
- Si existe un tratamiento establecido, el control debe ser el estándar de cuidado.
Principio de beneficencia
- No privar a pacientes de un tratamiento eficaz (ej. usar placebo en cáncer avanzado sería antiético).
Principio de justicia
- El estándar de cuidado debe ser el que realmente se usa en la práctica local, no solo en países de altos ingresos.
👉 Ejemplo controvertido: ensayos de prevención de transmisión materno-infantil de VIH en África en los 90, donde se usó placebo en lugar de zidovudina estándar disponible en países ricos.
Impacto en la interpretación de resultados
- Ensayo con placebo:
- Demuestra eficacia neta.
- Pero puede ser irrelevante clínicamente si ya existe un tratamiento eficaz.
- Ensayo con estándar de cuidado:
- Responde a la pregunta real del clínico: ¿vale la pena cambiar lo que hago hoy?
- Directamente aplicable a guías.
- Ensayo con comparador activo:
- Puede introducir alternativas equivalentes o no inferiores.
- Útil para ampliar opciones terapéuticas o reducir costos.
Ejemplos emblemáticos
- HOPE (2000): ramipril vs. placebo → mostró reducción de eventos CV, revolucionó prevención secundaria.
- ARISTOTLE (2011): apixabán vs. warfarina → superioridad en FA, con menor sangrado.
- RECOVERY (COVID-19, 2020): dexametasona vs. atención habitual → redujo mortalidad en pacientes con soporte respiratorio.
- PLATO (2010): ticagrelor vs. clopidogrel → demostró superioridad en síndrome coronario agudo.
Lectura crítica
Preguntas clave al evaluar un ensayo:
- ¿El comparador elegido fue ético?
- ¿Refleja la práctica clínica real de mi entorno?
- ¿Qué diseño se usó? (superioridad, no inferioridad, equivalencia).
- ¿La elección del control limita la aplicabilidad externa?
- Ejemplo: comparar contra placebo cuando ya existe estándar puede inflar resultados pero ser clínicamente irrelevante.
Tabla comparativa
| Tipo de control | Definición | Ventaja | Limitación | Ejemplo clínico | Aspecto ético |
|---|---|---|---|---|---|
| Placebo | Sustancia inerte, indistinguible de intervención | Claridad en eficacia | No ético si existe tratamiento probado | Ensayos iniciales de estatinas | Solo aceptable si no hay tratamiento eficaz |
| Estándar de cuidado | Tratamiento vigente en práctica clínica | Directamente aplicable a guías | Difícil demostrar diferencias si es muy eficaz | DOAC vs. warfarina | Obligatorio si existe tratamiento establecido |
| Comparador activo | Otro fármaco eficaz (no necesariamente estándar) | Permite demostrar no inferioridad o equivalencia | Riesgo de márgenes inadecuados | Ticagrelor vs. clopidogrel (PLATO) | Ético, siempre que ambos tratamientos sean eficaces |
2.4. TAMAÑO DE MUESTRA Y PODER ESTADÍSTICO
Introducción
El tamaño de muestra y el poder estadístico son elementos centrales en el diseño de un ensayo clínico. No son simples cálculos matemáticos, sino decisiones metodológicas y clínicas que determinan:
- La validez de los resultados: un estudio pequeño puede no detectar un efecto real.
- La relevancia clínica: un estudio demasiado grande puede detectar diferencias estadísticamente significativas pero sin importancia práctica.
- La eficiencia y ética: un tamaño muestral adecuado optimiza recursos y evita exponer a más pacientes de los necesarios.
👉 En síntesis: el tamaño muestral es el puente entre la estadística y la medicina basada en evidencia.
Breve historia del concepto
- Década de 1920: Ronald Fisher introduce el concepto de hipótesis nula y la idea de significancia estadística (p-valores).
- Años 40–50: Neyman y Pearson desarrollan formalmente los conceptos de error tipo I (α), error tipo II (β) y poder (1–β).
- 1960s en adelante: los ensayos clínicos aleatorizados adoptan el cálculo muestral como estándar de rigor.
- CONSORT (1996–actualidad): establece que todo ensayo debe reportar cómo se calculó su muestra, con parámetros de α, poder, δ y pérdidas esperadas.
Conceptos fundamentales
🔹 Error tipo I (α)
- Probabilidad de rechazar la hipótesis nula cuando en realidad es verdadera (falso positivo).
- Usualmente se fija en 5% (0.05).
- Ejemplo: concluir que un nuevo antihipertensivo es eficaz cuando en realidad no lo es.
🔹 Error tipo II (β)
- Probabilidad de aceptar la hipótesis nula cuando en realidad es falsa (falso negativo).
- Relacionado con estudios pequeños o de bajo poder.
- Ejemplo: no detectar que un fármaco reduce mortalidad porque la muestra fue insuficiente.
🔹 Poder estadístico (1–β)
- Probabilidad de detectar un efecto real cuando existe.
- Recomendado: ≥80%, preferiblemente 90% en grandes ensayos cardiovasculares u oncológicos.
🔹 Tamaño del efecto esperado (δ)
- Diferencia mínima considerada clínicamente relevante.
- No es lo mismo que la significancia estadística: es un juicio clínico.
- Ejemplo: reducción del 20% en eventos cardiovasculares mayores.
🔹 Variabilidad de la medida
- A mayor dispersión (desviación estándar), más pacientes se necesitan.
- Ejemplo: presión arterial (alta variabilidad) requiere más muestra que glucosa (menos variable).
🔹 Pérdidas de seguimiento
- Los cálculos deben anticipar pérdidas (drop-outs).
- Normalmente se añade un 10–20% a la muestra estimada.
Tipos de hipótesis y su impacto en el tamaño muestral
- Superioridad: demostrar que una intervención es mejor que placebo/estándar.
- Ejemplo: DAPA-HF → dapagliflozina superior al placebo en IC-FEr.
- No inferioridad: demostrar que una intervención no es peor que la estándar por un margen aceptable.
- Ejemplo: DOAC vs. warfarina.
- Equivalencia: demostrar que dos intervenciones son prácticamente iguales.
- Ejemplo: genéricos vs. fármaco original.
👉 Ensayos de no inferioridad y equivalencia requieren muestras mayores porque los márgenes son más estrictos.
Ejemplos clínicos
🔹 Ejemplo 1 – Superioridad (hipotético)
- Pregunta: ¿Un nuevo antihipertensivo reduce la presión sistólica al menos 5 mmHg más que placebo?
- Parámetros:
- α = 0.05
- Poder = 80%
- DE = 10 mmHg
- δ = 5 mmHg
- Tamaño estimado: ~64 pacientes por grupo.
🔹 Ejemplo 2 – Ensayo de eventos poco frecuentes
- Prevención primaria en cardiología: mortalidad esperada 5%, reducción esperada a 3%.
- Se necesitan decenas de miles de pacientes para tener poder suficiente.
- Ejemplo real: HOPE-3 trial (ramipril + rosuvastatina en prevención primaria) → 12,705 pacientes.
🔹 Ejemplo 3 – No inferioridad
- Nuevo anticoagulante vs. warfarina en FA.
- Incidencia esperada en control: 2% anual.
- Margen de no inferioridad: 0.5%.
- Poder: 90%.
- Resultado: tamaño de decenas de miles → por eso ensayos como ARISTOTLE o ROCKET-AF reclutaron >14,000 pacientes.
Consecuencias de un tamaño inadecuado
Subestimación (muestra pequeña)
- Alto riesgo de error tipo II.
- Terapias útiles descartadas injustamente.
- Conclusiones erróneas: “no hay diferencia” cuando en realidad el estudio no tenía poder.
- Ejemplo: pequeños estudios iniciales de vitamina D y cáncer, luego contradichos por ensayos grandes.
Sobreestimación (muestra excesiva)
- Costos elevados, tiempo innecesario, exposición innecesaria de pacientes.
- Diferencias estadísticamente significativas pero clínicamente irrelevantes.
- Ejemplo: reducción de 0.2 mmHg en PA con p<0.01 → irrelevante para el paciente.
Factores adicionales
- Tipo de desenlace:
- Continuo (ej. PA, colesterol) → requiere menor muestra.
- Binario (ej. muerte, IAM) → requiere mayor muestra.
- Tiempo a evento (ej. sobrevida) → requiere seguimiento prolongado.
- Diseño del ensayo:
- Crossover → menor muestra (cada paciente actúa como su propio control).
- Cluster-randomizado → mayor muestra (hay que ajustar por correlación intraclase).
- Análisis interinos:
- Comités de monitoreo pueden detener un ensayo por eficacia, futilidad o seguridad.
- Esto modifica el tamaño real alcanzado (ej. STOPDAPT-2).
Evaluación crítica al leer un ensayo
Preguntas clave:
- ¿Reportaron cómo calcularon la muestra?
- α, poder, δ, DE, tasa de pérdidas.
- ¿El desenlace principal era clínicamente relevante?
- ¿O fue un desenlace sustituto (ej. HbA1c en lugar de mortalidad)?
- ¿Alcanzaron el reclutamiento previsto?
- Ensayos detenidos precozmente por bajo reclutamiento tienen menor validez.
- ¿El tamaño muestral se ajustó por pérdidas?
- Ejemplo: 15% de drop-outs en estudios de estilo de vida.
- ¿El ensayo tenía suficiente poder?
- Un estudio con resultado “negativo” puede simplemente haber estado subpotenciado.
Tabla comparativa
| Parámetro | Definición | Impacto en el tamaño muestral | Ejemplo clínico |
|---|---|---|---|
| α (0.05) | Probabilidad de error tipo I | Fijo, determina umbral de significancia | HOPE trial |
| Poder (0.8–0.9) | Probabilidad de detectar efecto real | A mayor poder, mayor muestra | DAPA-HF (90%) |
| δ | Diferencia mínima clínicamente relevante | A menor δ, mayor muestra | ARISTOTLE |
| Variabilidad (DE) | Dispersión de la medida | Alta DE → más pacientes | Ensayos de PA |
| Pérdidas | Sujetos que abandonan | Se infla muestra inicial | Estudios de estilo de vida |
2.5. CRITERIOS DE INCLUSIÓN Y EXCLUSIÓN
Introducción
En todo ensayo clínico, los criterios de inclusión y exclusión determinan quién puede y quién no puede participar. Estos criterios son el filtro inicial del diseño metodológico: definen la población bajo estudio, aseguran la seguridad de los participantes y condicionan la validez de los resultados.
👉 La elección de estos criterios es un equilibrio delicado entre:
- Validez interna: garantizar que el efecto observado se deba a la intervención y no a factores de confusión.
- Validez externa: asegurar que los resultados puedan aplicarse al mayor número posible de pacientes en la práctica real.
Sin criterios claros y bien justificados, un ensayo puede ser irrelevante para la práctica clínica o, peor aún, poner en riesgo a los participantes.
Diferencia entre inclusión y exclusión
- Criterios de inclusión:
- Definen las características que los pacientes deben cumplir para ser elegibles.
- Aseguran que los sujetos representen la condición o población de interés.
- Criterios de exclusión:
- Señalan condiciones o características que hacen que un paciente, aunque cumpla inclusión, no pueda participar.
- Suelen basarse en seguridad, comorbilidades, factores de confusión o logística.
👉 Ejemplo práctico:
- Inclusión: adultos con diabetes tipo 2, HbA1c ≥7%, tratamiento estable.
- Exclusión: insuficiencia renal avanzada, embarazo, alergia a la intervención.
Objetivos de los criterios de inclusión
- Definir la población diana: representar a quienes se pretende beneficiar en la práctica clínica.
- Asegurar homogeneidad clínica: reducir la variabilidad y mejorar la precisión de los resultados.
- Garantizar validez interna: seleccionar pacientes en los que la intervención pueda mostrar el efecto con mayor claridad.
- Optimizar eficiencia estadística: concentrar la muestra en quienes tienen mayor probabilidad de experimentar el desenlace.
Objetivos de los criterios de exclusión
- Seguridad: proteger a pacientes con alto riesgo de efectos adversos.
- Ejemplo: excluir embarazadas de estudios con fármacos teratogénicos.
- Reducir confusión: evitar comorbilidades que interfieran en la interpretación del desenlace.
- Logística: excluir pacientes con baja probabilidad de adherencia o seguimiento.
- Ética: proteger a poblaciones vulnerables.
Impacto en la validez del ensayo
- Muchos criterios restrictivos:
- Alta validez interna.
- Población homogénea.
- Baja validez externa (resultados poco generalizables).
- Criterios más flexibles:
- Mayor validez externa y aplicabilidad.
- Más heterogeneidad, lo que puede diluir el efecto de la intervención.
👉 En la práctica, los ensayos explicativos tienden a ser restrictivos; los ensayos pragmáticos tienden a ser inclusivos.
Consideraciones éticas
Los criterios de inclusión y exclusión no son solo técnicos, también responden a principios éticos:
- Beneficencia y no maleficencia: proteger a quienes podrían verse más perjudicados que beneficiados.
- Justicia: evitar exclusiones innecesarias de grupos poblacionales (ej. mujeres, ancianos) que generan falta de representatividad.
- Autonomía: los criterios no deben usarse para limitar indebidamente la participación cuando los riesgos son aceptables.
👉 Ejemplo histórico de controversia:
- Ensayos de prevención de transmisión materno-infantil del VIH en África (1990s), que usaron placebo pese a existir zidovudina eficaz en países desarrollados. Críticas éticas se centraron en la exclusión implícita de un estándar de cuidado para mujeres africanas.
Ejemplos emblemáticos
- HOPE trial (2000):
- Inclusión: pacientes ≥55 años con riesgo CV elevado.
- Exclusión: IC con FEVI <40%, ERC avanzada.
- Impacto: resultados aplicables a prevención secundaria, pero menos a IC avanzada.
- DAPA-HF (2019):
- Inclusión: FEVI ≤40%, NYHA II–IV.
- Exclusión: eGFR <30 ml/min, hipotensión sintomática.
- Impacto: gran aplicabilidad a pacientes con IC, pero limitaciones en insuficiencia renal avanzada.
- RECOVERY (COVID-19, 2020):
- Inclusión: pacientes hospitalizados con COVID-19 confirmado.
- Exclusión: mínimos (solo contraindicaciones absolutas).
- Impacto: reclutamiento rápido de >40,000 pacientes → alta validez externa y resultados aplicables a nivel global.
Estrategias modernas para mejorar representatividad
- Ensayos pragmáticos: criterios amplios, mínima exclusión.
- Subgrupos preespecificados: permiten analizar pacientes que fueron excluidos de estudios anteriores (ej. ancianos, mujeres, multimórbidos).
- Registros y estudios del mundo real: complementan ensayos restrictivos con datos de práctica clínica.
- Inclusión equitativa: mayor presión regulatoria para incluir mujeres, minorías y adultos mayores.
Lectura crítica: preguntas clave
Cuando leas un ensayo clínico, pregúntate:
- ¿Los criterios son claros y reproducibles?
- Evitar términos vagos como “pacientes de alto riesgo” sin definición objetiva.
- ¿El desenlace principal se puede interpretar en esa población?
- Ejemplo: usar mortalidad en pacientes muy seleccionados puede no reflejar práctica real.
- ¿Se excluyen pacientes comunes en la práctica clínica?
- Si los ancianos o comórbidos están excluidos, cuidado al aplicar el resultado en tu hospital.
- ¿Se justifica éticamente la exclusión?
- Pregúntate si los criterios protegen al paciente o simplemente facilitan el análisis.
- ¿El balance entre validez interna y externa es razonable?
- Ejemplo: RECOVERY optó por aplicabilidad; HOPE por rigurosidad.
Representación esquemática del proceso
Población general con la enfermedad → elegibles (aplican inclusión) → excluidos (aplican exclusión) → pacientes reclutados → pacientes analizados (tras pérdidas).
Este “embudo” define cómo se va reduciendo el universo de pacientes hasta llegar a la muestra final.
Tabla resumen
| Tipo de criterio | Ejemplo | Objetivo | Impacto |
|---|---|---|---|
| Inclusión | Edad 40–75 años, DM2, HbA1c ≥7% | Definir población objetivo | Aumenta validez interna |
| Exclusión | ERC estadio 4–5 | Seguridad | Limita extrapolación a pacientes renales graves |
| Inclusión | IAM en los últimos 3 meses | Garantizar homogeneidad | Mejora potencia estadística |
| Exclusión | Embarazo o lactancia | Ética y seguridad | Reduce aplicabilidad a mujeres jóvenes |
| Inclusión | FEVI ≤40%, NYHA II–IV | Definir enfermedad diana | Representa práctica habitual |
Descubre más desde Medicina Cardiometabólica
Suscríbete y recibe las últimas entradas en tu correo electrónico.