📊 Práctica en Stata: Análisis Multivariado y Validación de Modelos

📝 Título del trabajo de investigación

Factores asociados al riesgo de infarto en adultos: un análisis multivariado basado en una muestra simulada


🎯 Objetivos

✅ Objetivo general:

Identificar las variables clínicas, demográficas y conductuales que se asocian de forma significativa con el riesgo de infarto en una población adulta mediante un modelo de regresión logística.

✅ Objetivos específicos:

  1. Aplicar un modelo de regresión logística multivariada con selección automática (stepwise) para reducir variables irrelevantes.
  2. Estimar la capacidad predictiva del modelo ajustado usando el área bajo la curva ROC (AUC).
  3. Identificar variables potencialmente intervinientes o confusoras que puedan modificar la asociación entre factores de riesgo y el infarto.

Esta sección te guía en la aplicación de técnicas de selección de variables y validación de modelos en Stata, tanto para regresión logística como regresión lineal.

🎯 Variables del estudio

ClasificaciónVariableDescripción
VDinfartoVariable dependiente: 1 = tuvo infarto, 0 = no
VIedadEdad (años)
imcÍndice de masa corporal (kg/m²)
presionPresión arterial sistólica (mmHg)
colesterolColesterol total (mg/dL)
actividad_fisicaDías de actividad física por semana (0–5)
fumador1 = fumador actual, 0 = no
antecedentes_familiares1 = antecedentes familiares positivos, 0 = no
sexo_m1 = hombre, 0 = mujer

🔁 Variables intervinientes o confusoras (posibles)

  • sexo_m: el sexo biológico puede modificar o confundir la relación entre otros factores (como colesterol o actividad física) y el infarto.
  • antecedentes_familiares: podría actuar como modificador del efecto del IMC o de presión arterial.
  • fumador: podría confundir la asociación entre presión y riesgo cardiovascular.

Estas variables serán evaluadas en el modelo inicial, y su permanencia dependerá de su contribución estadística y clínica.

¿Qué variables se usarán y por qué?

Se usarán inicialmente todas las variables disponibles en la base porque representan factores de riesgo comunes en la práctica clínica y epidemiológica. Luego se aplicará el procedimiento stepwise para conservar solo aquellas con valor predictivo significativo (p < 0.05).

  • Razón práctica: este enfoque permite construir un modelo simple, eficiente y clínicamente interpretable, como se espera en estudios reales.
  • Además, se evaluará el rendimiento del modelo ajustado mediante el área bajo la curva ROC y la prueba de bondad de ajuste.

✅ 1. Análisis multivariado: Selección de variables

La selección de variables es importante para construir un modelo parsimonioso (más simple pero informativo), eliminando predictores irrelevantes o redundantes.

📌 A. Selección hacia adelante o hacia atrás (stepwise)

Ejemplo con regresión logística:

stepwise, pr(.05): logit infarto edad imc presion colesterol actividad_fisica fumador antecedentes_familiares sexo_m

Explicación:

  • stepwise: realiza selección automática de variables.
  • pr(.05): conserva solo aquellas con p < 0.05.
  • Puede usar forward (hacia adelante) o backward (hacia atrás).

🔁 Nota: útil cuando tienes muchas variables y quieres reducir el modelo de forma exploratoria.

📊 Modelo final

▶️ Información global:

MétricaValorInterpretación
LR chi2(4)54.58Modelo significativo (comparado con modelo nulo)
p > chi20.0000✅ El modelo como conjunto es altamente significativo
Pseudo R²0.2069Explica el 20.7% de la variabilidad (bueno para logística)

🧾 Interpretación variable por variable

VariableCoeficientep-valorInterpretación clínica
edad0.04260.001✅ Cada año adicional aumenta el riesgo de infarto.
imc0.19330.000✅ Cada punto de IMC aumenta el riesgo de infarto.
actividad_fisica-0.22950.037✅ Efecto protector: cada día adicional de ejercicio reduce el riesgo de infarto.
colesterol0.03960.000✅ Cada mg/dL adicional se asocia con mayor riesgo de infarto.

💬 Síntesis interpretativa

El modelo final ajustado mediante selección automática (stepwise) identificó 4 variables independientes significativamente asociadas al riesgo de infarto: edad, IMC, colesterol total (riesgo ↑) y actividad física (riesgo ↓).
Las variables fumador, antecedentes familiares, presión arterial y sexo masculino fueron descartadas por no mostrar significancia estadística en este modelo ajustado.