📝 Título del trabajo de investigación
Factores asociados al riesgo de infarto en adultos: un análisis multivariado basado en una muestra simulada
🎯 Objetivos
✅ Objetivo general:
Identificar las variables clínicas, demográficas y conductuales que se asocian de forma significativa con el riesgo de infarto en una población adulta mediante un modelo de regresión logística.
✅ Objetivos específicos:
- Aplicar un modelo de regresión logística multivariada con selección automática (
stepwise) para reducir variables irrelevantes. - Estimar la capacidad predictiva del modelo ajustado usando el área bajo la curva ROC (AUC).
- Identificar variables potencialmente intervinientes o confusoras que puedan modificar la asociación entre factores de riesgo y el infarto.
Esta sección te guía en la aplicación de técnicas de selección de variables y validación de modelos en Stata, tanto para regresión logística como regresión lineal.
🎯 Variables del estudio
| Clasificación | Variable | Descripción |
|---|---|---|
| VD | infarto | Variable dependiente: 1 = tuvo infarto, 0 = no |
| VI | edad | Edad (años) |
imc | Índice de masa corporal (kg/m²) | |
presion | Presión arterial sistólica (mmHg) | |
colesterol | Colesterol total (mg/dL) | |
actividad_fisica | Días de actividad física por semana (0–5) | |
fumador | 1 = fumador actual, 0 = no | |
antecedentes_familiares | 1 = antecedentes familiares positivos, 0 = no | |
sexo_m | 1 = hombre, 0 = mujer |
🔁 Variables intervinientes o confusoras (posibles)
sexo_m: el sexo biológico puede modificar o confundir la relación entre otros factores (como colesterol o actividad física) y el infarto.antecedentes_familiares: podría actuar como modificador del efecto del IMC o de presión arterial.fumador: podría confundir la asociación entre presión y riesgo cardiovascular.
Estas variables serán evaluadas en el modelo inicial, y su permanencia dependerá de su contribución estadística y clínica.
✅ ¿Qué variables se usarán y por qué?
Se usarán inicialmente todas las variables disponibles en la base porque representan factores de riesgo comunes en la práctica clínica y epidemiológica. Luego se aplicará el procedimiento stepwise para conservar solo aquellas con valor predictivo significativo (p < 0.05).
- Razón práctica: este enfoque permite construir un modelo simple, eficiente y clínicamente interpretable, como se espera en estudios reales.
- Además, se evaluará el rendimiento del modelo ajustado mediante el área bajo la curva ROC y la prueba de bondad de ajuste.
✅ 1. Análisis multivariado: Selección de variables
La selección de variables es importante para construir un modelo parsimonioso (más simple pero informativo), eliminando predictores irrelevantes o redundantes.
📌 A. Selección hacia adelante o hacia atrás (stepwise)
Ejemplo con regresión logística:
stepwise, pr(.05): logit infarto edad imc presion colesterol actividad_fisica fumador antecedentes_familiares sexo_m

Explicación:
stepwise: realiza selección automática de variables.pr(.05): conserva solo aquellas con p < 0.05.- Puede usar
forward(hacia adelante) obackward(hacia atrás).
🔁 Nota: útil cuando tienes muchas variables y quieres reducir el modelo de forma exploratoria.
📊 Modelo final
▶️ Información global:
| Métrica | Valor | Interpretación |
|---|---|---|
| LR chi2(4) | 54.58 | Modelo significativo (comparado con modelo nulo) |
| p > chi2 | 0.0000 | ✅ El modelo como conjunto es altamente significativo |
| Pseudo R² | 0.2069 | Explica el 20.7% de la variabilidad (bueno para logística) |
🧾 Interpretación variable por variable
| Variable | Coeficiente | p-valor | Interpretación clínica |
|---|---|---|---|
| edad | 0.0426 | 0.001 | ✅ Cada año adicional aumenta el riesgo de infarto. |
| imc | 0.1933 | 0.000 | ✅ Cada punto de IMC aumenta el riesgo de infarto. |
| actividad_fisica | -0.2295 | 0.037 | ✅ Efecto protector: cada día adicional de ejercicio reduce el riesgo de infarto. |
| colesterol | 0.0396 | 0.000 | ✅ Cada mg/dL adicional se asocia con mayor riesgo de infarto. |
💬 Síntesis interpretativa
El modelo final ajustado mediante selección automática (
stepwise) identificó 4 variables independientes significativamente asociadas al riesgo de infarto: edad, IMC, colesterol total (riesgo ↑) y actividad física (riesgo ↓).
Las variables fumador, antecedentes familiares, presión arterial y sexo masculino fueron descartadas por no mostrar significancia estadística en este modelo ajustado.