4. SESGOS Y VALIDEZ

4.1. Sesgos comunes en ensayos clínicos
4.2. Pérdidas de seguimiento y su impacto
4.3. Confusión y ajuste multivariado
4.4. Validez interna vs. validez externa


4.1. SESGOS COMUNES EN ENSAYOS CLÍNICOS


Introducción

En investigación clínica, el sesgo es un error sistemático que distorsiona la estimación del efecto de una intervención.

  • A diferencia del error aleatorio, que se distribuye al azar y disminuye con muestras grandes, el sesgo se mantiene constante y puede falsear los resultados.
  • Un ensayo clínico puede reportar cifras estadísticamente significativas, pero si está sesgado, sus conclusiones no son confiables ni aplicables.

👉 Identificar, clasificar y comprender los sesgos es fundamental para valorar la validez interna de un ensayo.


Clasificación general de sesgos

Los sesgos en ensayos clínicos se pueden agrupar en tres grandes momentos:

  1. Previos o durante la asignación de pacientes (sesgo de selección).
  2. Durante la conducción del ensayo (sesgos de desempeño, detección, pérdidas).
  3. En la publicación y comunicación de resultados (sesgos de reporte y publicación).

1. Sesgo de selección

Definición

Ocurre cuando las características de los pacientes asignados a cada grupo no son equivalentes desde el inicio.

Ejemplos

  • Aleatorización inadecuada (ej. alternar pacientes en lugar de usar un sistema computarizado).
  • Falta de ocultamiento en la secuencia (ej. sobres transparentes que dejan ver la asignación).

Consecuencias

  • Grupos de comparación no balanceados.
  • Resultados falsamente atribuidos a la intervención cuando en realidad provienen de diferencias basales.

Prevención

  • Aleatorización rigurosa.
  • Ocultamiento estricto (centralizado, electrónico, sobres opacos sellados).

👉 Este es uno de los sesgos más graves, porque afecta el punto de partida del ensayo.


2. Sesgo de desempeño (performance bias)

Definición

Se produce cuando los grupos reciben cuidados diferentes más allá de la intervención en estudio.

Ejemplo

  • Grupo experimental recibe visitas médicas más frecuentes, apoyo psicológico o monitoreo intensivo.

Consecuencia

El efecto observado puede deberse al cuidado adicional y no al fármaco o intervención evaluada.

Prevención

  • Cegamiento de participantes e investigadores (doble ciego).
  • Protocolos de atención estandarizados para ambos grupos.

3. Sesgo de detección (detection bias)

Definición

Aparece cuando la evaluación del desenlace depende del conocimiento del grupo asignado.

Ejemplos

  • Evaluadores que saben que un paciente está con placebo y subestiman la mejoría.
  • Investigadores que sobrevaloran la respuesta clínica en el grupo experimental.

Prevención

  • Cegamiento de los evaluadores de desenlaces.
  • Uso de criterios diagnósticos objetivos y validados (ej. mortalidad, parámetros de laboratorio, biomarcadores).

4. Sesgo de desgaste o deserción (attrition bias)

Definición

Ocurre cuando las pérdidas de seguimiento no son iguales en todos los grupos.

Ejemplo

  • En un ensayo sobre efectos adversos, los pacientes que los sufren abandonan más en el grupo experimental, lo que hace parecer más seguro al tratamiento.

Prevención

  • Estrategias activas de seguimiento.
  • Análisis por intención de tratar (ITT) para incluir a todos los pacientes asignados.
  • Transparencia en los diagramas de flujo (CONSORT).

5. Sesgo de reporte (reporting bias)

Definición

Se presenta cuando no se informan todos los desenlaces medidos o se enfatizan solo aquellos que favorecen a la intervención.

Ejemplo

  • El protocolo define mortalidad como desenlace primario, pero el artículo resalta reducción de un biomarcador porque la mortalidad no mejoró.

Prevención

  • Registro prospectivo de protocolos en plataformas como ClinicalTrials.gov.
  • Comparación entre protocolo y publicación final.

6. Sesgo de publicación (publication bias)

Definición

Los estudios con resultados positivos tienen más probabilidad de publicarse, mientras que los negativos o neutros permanecen inéditos.

Consecuencia

  • Distorsión en la evidencia científica disponible.
  • En metaanálisis, este sesgo se detecta con la asimetría de los “funnel plots”.

Ejemplo

  • Estudios sobre oseltamivir (Tamiflu) con resultados neutros fueron ocultados durante años, inflando artificialmente su eficacia percibida.

Prevención

  • Políticas de publicación obligatoria de resultados (ICMJE, EMA, FDA).
  • Transparencia de datos crudos.

7. Otros sesgos importantes

  • Sesgo de adherencia: los resultados favorecen al grupo con mejor cumplimiento, independientemente del fármaco.
  • Sesgo de patrocinio (funding bias): estudios financiados por la industria reportan más a menudo resultados favorables.
  • Sesgo de memoria del investigador (observer bias): investigadores con experiencia desigual en la aplicación de intervenciones.
  • Sesgo de canalización (channeling bias): médicos asignan pacientes de mayor riesgo a una terapia “más potente”, incluso en estudios pragmáticos.

Herramientas para evaluar sesgos

  • CONSORT checklist: exige transparencia en aleatorización, cegamiento, pérdidas y desenlaces.
  • Cochrane Risk of Bias 2.0 (RoB 2): evalúa cinco dominios principales (aleatorización, desviaciones, datos faltantes, medición, reporte selectivo).
  • CASP (Critical Appraisal Skills Programme): lista de preguntas prácticas para lectura crítica.

Ejemplos emblemáticos

  1. CAST trial (1989): mostró que antiarrítmicos reducían arritmias pero aumentaban mortalidad. Ejemplo de sesgo por desenlace sustituto.
  2. VIGOR trial (2000, rofecoxib): ocultó eventos cardiovasculares, claro sesgo de reporte vinculado a patrocinio.
  3. Tamiflu: sobrerrepresentación de beneficios por ocultamiento de ensayos negativos.

4.2. PÉRDIDAS DE SEGUIMIENTO Y SU IMPACTO


Introducción

Las pérdidas de seguimiento (loss to follow-up) ocurren cuando participantes de un ensayo clínico no completan todas las evaluaciones previstas en el protocolo.

  • Constituyen una de las fuentes más importantes de sesgo, ya que generan incertidumbre respecto al verdadero desenlace de esos pacientes.
  • Un ensayo puede reclutar correctamente, aleatorizar de manera rigurosa y aplicar cegamiento, pero si pierde un número sustancial de participantes, sus conclusiones pueden volverse poco confiables.

👉 En medicina basada en evidencia, el manejo de pérdidas es tan importante como el análisis estadístico mismo.


Razones frecuentes de pérdidas

  • Muerte por causas no relacionadas al desenlace de interés (ej. accidente de tráfico en un ensayo oncológico).
  • Efectos adversos que llevan al retiro voluntario o al cambio de tratamiento.
  • Falta de adherencia por olvido, costo o dificultades logísticas.
  • Migración, mudanza o pérdida de contacto.
  • Retiro de consentimiento informado por decisión personal.
  • Protocolos largos o exigentes, que aumentan abandono.

Tipología de las pérdidas

  1. Aleatorias:
    • Distribuidas de forma similar entre grupos.
    • Afectan la precisión, pero no necesariamente generan sesgo.
  2. Diferenciales entre grupos:
    • Si un grupo pierde más pacientes que otro, se rompe la comparabilidad.
    • Ejemplo: mayor abandono en el grupo placebo por falta de eficacia → el fármaco parece mejor de lo que realmente es.
  3. Relacionadas con el desenlace:
    • Las más problemáticas.
    • Ejemplo: en un ensayo de toxicidad, los pacientes que sufren efectos adversos graves abandonan el grupo experimental → se oculta el riesgo real.

Impacto estadístico y clínico

  • Las pérdidas generan sesgo de desgaste (attrition bias), reduciendo la validez interna.
  • Afectan la potencia estadística al disminuir el tamaño de muestra efectivo.
  • Si superan cierto umbral, pueden hacer inútil el ensayo, aunque la diferencia sea “estadísticamente significativa”.

Regla práctica

  • <5%: poco impacto.
  • 5–20%: riesgo moderado, requiere análisis cuidadoso.
  • >20%: alto riesgo, amenaza seria a la validez.

Ejemplo numérico

Ensayo con 200 pacientes:

  • Grupo experimental: 100 → 10 mueren, 20 se pierden.
  • Grupo control: 100 → 15 mueren, 2 se pierden.

Interpretación: el grupo experimental aparenta menos mortalidad (10% vs. 15%), pero si parte de los 20 perdidos también fallecieron, el beneficio desaparece.


Estrategias para prevenir y manejar pérdidas

1. Prevención desde el diseño

  • Protocolos amigables y no excesivamente largos.
  • Seguimiento activo (teléfono, correo, visitas domiciliarias).
  • Incentivos éticos (transporte, compensación de tiempo).
  • Recordatorios y educación continua al paciente.

2. Reporte transparente

  • Diagrama de flujo CONSORT: muestra reclutamiento, asignación, seguimiento y análisis.
  • Desglose detallado de causas de abandono en cada grupo.

3. Manejo analítico

  • Análisis por intención de tratar (ITT): incluye a todos los pacientes en el grupo asignado.
  • Imputación de datos faltantes:
    • LOCF (Last Observation Carried Forward): conserva último dato disponible (puede sobrestimar estabilidad).
    • Imputación múltiple: usa algoritmos para predecir desenlaces faltantes.
    • Análisis de sensibilidad: escenarios “optimista” y “pesimista” para estimar el rango posible de resultados.

4. Complemento con análisis por protocolo (PP)

  • Si ITT y PP muestran resultados similares pese a las pérdidas, la conclusión es más robusta.

Ejemplos históricos y clínicos

  • SOLVD (1991, enalapril en IC): pérdidas <5%. Su bajo nivel de abandono reforzó credibilidad.
  • VIGOR (2000, rofecoxib): pacientes con eventos CV abandonaron más el grupo experimental, sesgando los resultados a favor de seguridad. Décadas después, el fármaco fue retirado del mercado.
  • Ensayos de VIH en África: pérdidas >20% por migración afectaron la confianza en la extrapolación de los hallazgos.
  • RECOVERY (2020, dexametasona en COVID-19): pérdidas mínimas (<5%) en un ensayo masivo, lo que consolidó la robustez de los resultados.

Herramientas para evaluación crítica

  1. CONSORT 2010 Statement: exige diagrama de flujo con pérdidas y exclusiones.
  2. Cochrane Risk of Bias 2.0: evalúa “missing outcome data” como un dominio clave.
  3. CASP Checklists: incluyen preguntas explícitas:
    • ¿El porcentaje de pérdidas es aceptable?
    • ¿Se reportaron causas y distribución por grupos?

Consecuencias éticas y prácticas

  • Ética: un ensayo con pérdidas masivas expone pacientes sin generar conocimiento válido.
  • Clínica: decisiones basadas en evidencia sesgada pueden llevar a recomendar terapias ineficaces o inseguras.
  • Investigación futura: ensayos con mala retención generan desconfianza, retrasan avances y desperdician recursos.

4.3. CONFUSIÓN Y AJUSTE MULTIVARIADO


Introducción

Uno de los mayores desafíos de la investigación clínica es asegurar que la diferencia observada en los resultados se deba a la intervención y no a otros factores externos.

  • En ensayos clínicos bien diseñados, la aleatorización minimiza el riesgo de desequilibrio entre grupos.
  • Pero incluso en estos estudios, la confusión residual puede distorsionar los resultados, especialmente en muestras pequeñas o en contextos pragmáticos.
  • Aquí entra en juego el ajuste multivariado, que utiliza técnicas estadísticas para corregir el efecto de variables adicionales.

👉 En otras palabras: la confusión es un “enemigo invisible” que puede simular efectos falsos o esconder efectos verdaderos.


1. ¿Qué es la confusión?

Definición

Se dice que existe confusión cuando una asociación aparente entre exposición (intervención) y desenlace está distorsionada por una tercera variable (confusor) que está relacionada con ambos, pero no forma parte de la relación causal directa.

Condiciones para que una variable sea confusora

  1. Debe estar asociada con la intervención/exposición.
  2. Debe estar asociada con el desenlace.
  3. No debe ser parte de la cadena causal.

Ejemplo clínico

  • Ensayo que evalúa el efecto de actividad física sobre mortalidad.
  • Confusor: tabaquismo.
    • Los no fumadores suelen ejercitarse más.
    • El tabaquismo aumenta el riesgo de mortalidad.
    • Si no se ajusta, el beneficio del ejercicio puede estar inflado por la menor prevalencia de fumadores.

2. Tipos de confusión en ensayos clínicos

  • Confusión clásica: variable externa distorsiona asociación (ej. edad en ensayos de hipertensión).
  • Confusión residual: ocurre incluso después de ajustar, porque la variable se midió de forma imperfecta (ej. nivel socioeconómico estimado solo por nivel educativo).
  • Confusión no medida: variables no registradas en el estudio (ej. dieta, genética).
  • Confusión por indicación: frecuente en estudios no aleatorizados; ocurre cuando la indicación de un tratamiento depende de la gravedad de la enfermedad.

3. Consecuencias de la confusión

  1. Sobreestimación del efecto → la intervención parece más eficaz de lo que realmente es.
  2. Subestimación del efecto → el beneficio verdadero se diluye.
  3. Cambio de dirección (confusión inversa): la intervención parece perjudicial cuando en realidad es beneficiosa (ejemplo clásico: terapia hormonal en menopausia antes de WHI).

4. Estrategias para controlar confusión

En la fase de diseño

  • Aleatorización: equilibra confusores conocidos y desconocidos.
  • Restricción: excluir pacientes con una característica que podría confundir (ej. excluir diabéticos de un ensayo de prediabetes).
  • Emparejamiento (matching): balancear participantes según edad, sexo u otra variable clave.

En la fase de análisis

  • Estratificación: dividir en capas según confusor (ej. análisis por edad <65 y ≥65).
  • Estandarización: comparar tasas ajustadas según una población estándar.
  • Modelos multivariados: regresión logística, regresión de Cox, ANCOVA, modelos mixtos.

5. Ajuste multivariado: técnicas estadísticas

a) Regresión logística

  • Para desenlaces dicotómicos (ej. mortalidad sí/no).
  • Permite calcular odds ratios ajustadas por múltiples covariables.

b) Modelos de riesgos proporcionales de Cox

  • Para desenlaces de supervivencia (tiempo hasta evento).
  • Permiten obtener hazard ratios ajustadas, considerando covariables como edad, sexo o comorbilidades.

c) ANCOVA (análisis de covarianza)

  • Para desenlaces continuos (ej. presión arterial, HbA1c).
  • Ajusta la media de cada grupo según covariables.

d) Modelos lineales y mixtos

  • Útiles en medidas repetidas (ej. evolución de presión arterial a lo largo del tiempo).
  • Incorporan tanto efectos fijos (intervención) como aleatorios (variabilidad interindividual).

6. Ejemplos clínicos

  • HOPE trial (ramipril): aunque la aleatorización equilibró bien las variables, se realizó ajuste multivariado confirmando la reducción de eventos CV tras controlar por edad, sexo, diabetes y presión arterial.
  • UKPDS (diabetes tipo 2): el beneficio del control glicémico en complicaciones microvasculares se mantuvo incluso tras ajuste multivariado por presión arterial, lípidos y tabaquismo.
  • WHI (Women’s Health Initiative, terapia hormonal): mostró que la aparente protección cardiovascular de la terapia hormonal en estudios observacionales se debía a confusión por nivel socioeconómico y estilo de vida; los ensayos clínicos ajustados demostraron lo contrario.

7. Lectura crítica

Preguntas que el lector debe plantearse:

  1. ¿Los grupos estaban realmente equilibrados al inicio?
  2. ¿Se reportaron características basales detalladas?
  3. ¿El análisis incluyó ajuste multivariado?
  4. ¿Qué variables se eligieron para el modelo, y fueron clínicamente relevantes?
  5. ¿El efecto ajustado cambió mucho respecto al crudo?
    • Si cambió poco → la confusión era mínima.
    • Si cambió mucho → había un confusor relevante.

8. Limitaciones del ajuste multivariado

  • Sobreajuste (overfitting): incluir demasiadas variables para un número limitado de eventos → modelo inestable.
  • Colinealidad: dos variables muy correlacionadas (ej. IMC y circunferencia abdominal) → distorsionan resultados.
  • Errores de medición: variables mal medidas generan confusión residual.
  • Confusores no medidos: ningún modelo puede corregir lo que no fue registrado.

9. Herramientas prácticas

  • CONSORT statement: exige reportar comparabilidad de grupos al inicio.
  • Cochrane Handbook: recomienda análisis ajustados solo como confirmación, no sustituto de la aleatorización.
  • Guías de lectura crítica (CASP, Users’ Guides to the Medical Literature): incluyen preguntas sobre control de confusión.

4.4. VALIDEZ INTERNA VS. VALIDEZ EXTERNA


Introducción

En investigación clínica, no basta con que un ensayo esté bien diseñado y alcance significancia estadística. La verdadera pregunta para el médico que lee un artículo es doble:

  1. ¿Puedo confiar en que los resultados son correctos en la muestra estudiada?Validez interna.
  2. ¿Puedo aplicar esos resultados a mis pacientes, en mi hospital, en mi contexto?Validez externa.

Ambos conceptos están interconectados, pero representan dimensiones distintas del rigor científico:

  • La validez interna garantiza la credibilidad.
  • La validez externa garantiza la utilidad clínica.

1. Validez interna

Definición

Es la medida en que los resultados de un estudio reflejan el efecto verdadero de la intervención en la población estudiada, sin estar distorsionados por sesgos, errores sistemáticos o confusión.

Elementos que la fortalecen

  • Aleatorización adecuada: garantiza comparabilidad de grupos.
  • Ocultamiento de la asignación: evita manipulación consciente o inconsciente.
  • Cegamiento (simple, doble, triple): previene sesgos de desempeño y detección.
  • Control de pérdidas de seguimiento: bajo porcentaje y análisis por intención de tratar.
  • Medición estandarizada de desenlaces: con criterios objetivos y reproducibles.
  • Análisis estadístico apropiado: acorde al diseño y sin manipulación selectiva de datos.

Amenazas principales

  • Sesgo de selección.
  • Pérdidas diferenciales de seguimiento.
  • Reporte selectivo de desenlaces.
  • Confusión no controlada.

👉 Un ensayo sin validez interna es inútil: no importa lo atractivo del hallazgo, si la metodología permite sesgos, los resultados no son confiables.


2. Validez externa

Definición

También llamada generalización (generalizability) o aplicabilidad, indica el grado en que los resultados de un estudio pueden extrapolarse a otras poblaciones, escenarios clínicos o sistemas de salud distintos a los estudiados.

Factores que la condicionan

  • Características de los participantes: edad, sexo, etnia, comorbilidades, severidad de enfermedad.
  • Ámbito de estudio: hospitales de alta especialización vs. hospitales comunitarios.
  • Tipo de intervención: accesibilidad, costo, logística, adherencia en la vida real.
  • Duración y seguimiento: un ensayo de corta duración puede no reflejar efectos a largo plazo.
  • Contexto cultural y socioeconómico: alimentación, estilo de vida, acceso a tecnología.

Ejemplo práctico

Un ensayo de estatinas realizado en varones europeos de 50 años con bajo nivel de comorbilidad puede tener alta validez interna, pero su validez externa es limitada para aplicarse a:

  • Mujeres.
  • Adultos mayores.
  • Poblaciones latinoamericanas con diferente dieta y acceso a medicamentos.

3. Relación entre validez interna y externa

Existe una tensión metodológica:

  • Ensayos explicativos (explanatory trials):
    • Muy controlados, con criterios de inclusión estrictos.
    • Alta validez interna.
    • Baja validez externa, porque los pacientes “reales” suelen ser más complejos.
  • Ensayos pragmáticos (pragmatic trials):
    • Población heterogénea, condiciones cercanas a la práctica clínica real.
    • Alta validez externa.
    • Riesgo de perder algo de validez interna por menor control de sesgos.

👉 La mejor evidencia clínica busca un equilibrio entre ambos tipos.


4. Evaluación práctica

Preguntas para juzgar validez interna

  1. ¿Hubo aleatorización y ocultamiento adecuados?
  2. ¿Se aplicó cegamiento para participantes y evaluadores?
  3. ¿Las pérdidas fueron mínimas y balanceadas?
  4. ¿Los desenlaces fueron objetivos y clínicamente relevantes?
  5. ¿Se siguió el protocolo preespecificado o hubo análisis “a posteriori”?

Preguntas para juzgar validez externa

  1. ¿Los pacientes incluidos se parecen a los míos en edad, sexo y comorbilidades?
  2. ¿El escenario clínico del ensayo es comparable al mío (hospital comunitario, sistema público)?
  3. ¿El seguimiento y adherencia logrados son factibles en mi contexto?
  4. ¿El fármaco o intervención está disponible y es accesible económicamente en mi país?
  5. ¿Los resultados son consistentes con otros estudios en diferentes poblaciones?

5. Ejemplos históricos

  • WHI (Women’s Health Initiative):
    • Validez interna muy alta (gran ensayo, aleatorizado, riguroso).
    • Validez externa cuestionable: mujeres postmenopáusicas de EE. UU., poco comparables a mujeres de otras regiones o grupos étnicos.
  • DAPA-HF (dapagliflozina en insuficiencia cardiaca):
    • Alta validez interna (doble ciego, multicéntrico, bajo abandono).
    • Alta validez externa: incluyó pacientes de 20 países, con y sin diabetes, reforzando su aplicabilidad global.
  • RECOVERY (COVID-19, dexametasona):
    • Validez interna alta (gran número de pacientes, aleatorización robusta).
    • Validez externa amplia: diseño pragmático en múltiples hospitales de Reino Unido, con criterios de inclusión poco restrictivos.

6. Consecuencias clínicas

  • Un ensayo con alta validez interna pero baja externa → puede cambiar guías académicas pero no la práctica clínica cotidiana.
  • Un ensayo con alta validez externa pero baja interna → puede ser atractivo, pero sus conclusiones no son confiables.
  • La decisión clínica debe basarse en un equilibrio: primero asegurar validez interna y luego juzgar validez externa.

👉 En medicina basada en evidencia, la pregunta final siempre es:
“¿Este ensayo no solo es correcto, sino también útil para mi paciente y mi realidad clínica?”



Descubre más desde Medicina Cardiometabólica

Suscríbete y recibe las últimas entradas en tu correo electrónico.

Deja un comentario