Regresión lineal: regress


📄 Título del Estudio:

Factores asociados al infarto y a los niveles de glucosa en pacientes adultos de una población urbana


🎯 Objetivo del Estudio:

Evaluar los factores clínicos, conductuales y familiares que se asocian con:

  1. El riesgo de infarto en adultos (modelo de regresión logística).
  2. Los niveles de glucosa en sangre (modelo de regresión lineal).

💡 Hipótesis:

  1. Para regresión logística:

Los adultos con mayor edad, presión arterial elevada, antecedentes familiares, tabaquismo y menor actividad física tienen un mayor riesgo de presentar un infarto.

  1. Para regresión lineal:

Los niveles de glucosa en sangre aumentan con la edad, el IMC, la presión arterial, el colesterol, el tabaquismo y los antecedentes familiares; y disminuyen con la actividad física.


🔎 Variables por tipo de análisis:

📌 Regresión Logística

  • Variable Dependiente (VD):
    infarto (0 = no, 1 = sí)
  • Variables Independientes (VI):
    edad, sexo, imc, presion, colesterol, actividad_fisica, fumador, antecedentes_familiares

📌 Regresión Lineal

  • Variable Dependiente (VD):
    glucosa (valor continuo en mg/dL)
  • Variables Independientes (VI):
    edad, sexo, imc, presion, colesterol, actividad_fisica, fumador, antecedentes_familiares

📋 Diccionario de Variables

VariableTipoDescripción
edadNuméricaEdad del paciente en años (30–80)
sexoCategóricaSexo biológico (M = masculino, F = femenino)
imcNuméricaÍndice de Masa Corporal (kg/m²)
presionNuméricaPresión arterial sistólica (mmHg)
colesterolNuméricaColesterol total (mg/dL)
actividad_fisicaNuméricaDías por semana con ≥30 min de actividad física (0–5)
fumadorBinaria1 = fumador actual, 0 = no fumador
antecedentes_familiaresBinaria1 = antecedentes familiares positivos, 0 = no
glucosaNuméricaNivel de glucosa en sangre (mg/dL)
infartoBinaria1 = paciente ha tenido un infarto, 0 = no ha tenido

📊 Objetivo

Evaluar qué factores clínicos, conductuales y demográficos se asocian con los niveles de glucosa en sangre en adultos.


🧭 Pasos en Stata

✅ 1. Correr el modelo de regresión lineal

regress glucosa edad imc presion colesterol actividad_fisica fumador antecedentes_familiares sexo_m

✅ 2. Interpretar la salida

📊 Resumen del modelo

IndicadorValorInterpretación
N. observaciones300Tamaño de muestra
F(8, 291)38.45El modelo es significativo
p > F0.0000✅ Modelo globalmente significativo
R-squared0.5138El modelo explica el 51.4% de la variabilidad en glucosa
Adj R-squared0.5005R² ajustado por el número de predictores
Root MSE15.037Promedio del error de predicción

🧾 Interpretación de variables

VariableCoeficientep-valor¿Significativo?Interpretación clínica
edad0.36670.000✅ SíPor cada año adicional de edad, la glucosa aumenta en 0.37 mg/dL (en promedio)
imc1.15720.000✅ SíCada punto extra de IMC aumenta la glucosa en 1.16 mg/dL
presion0.70350.000✅ SíCada mmHg más en presión sistólica se asocia a un aumento de 0.70 mg/dL de glucosa
colesterol0.27010.000✅ SíCada mg/dL más de colesterol aumenta la glucosa en 0.27 mg/dL
actividad_fisica-3.06580.000✅ SíCada día adicional de ejercicio semanal reduce la glucosa en 3.07 mg/dL
fumador12.20800.000✅ SíSer fumador se asocia con un aumento de 12.2 mg/dL de glucosa
antecedentes_familiares6.84800.000✅ SíTener antecedentes familiares aumenta la glucosa en 6.85 mg/dL
sexo_m (hombre)-0.79160.635❌ NoNo hay diferencia significativa entre hombres y mujeres

🧠 Conclusión clínica

El modelo de regresión lineal muestra que los niveles de glucosa en sangre se asocian significativamente con edad, IMC, presión arterial, colesterol, actividad física, tabaquismo y antecedentes familiares.
La actividad física ejerce un efecto protector, reduciendo los niveles de glucosa. El sexo masculino no se asoció de forma significativa en este modelo.


🔍 Evaluación de supuestos del modelo lineal

🎯 ¿Por qué se evalúan los supuestos?

La regresión lineal solo es válida si se cumplen ciertos supuestos sobre los errores (residuos). Verificarlos nos permite confiar en:

  • La estimación de los coeficientes.
  • La validez de los intervalos de confianza y p-valores.
  • La utilidad predictiva del modelo.

🧪 Supuestos a verificar y comandos en Stata

Supuesto¿Qué indica?Comando en Stata
LinealidadRelación lineal entre variables independientes y la glucosarvfplot
Normalidad de residuosLos errores deben seguir una distribución normalqnorm resid y hist resid, normal
HomoscedasticidadVarianza constante de errores en todos los niveles de Xrvfplot (ver dispersión de residuos)
IndependenciaLas observaciones deben ser independientesAsumido por diseño muestral
Colinealidad bajaLas variables explicativas no deben estar fuertemente correlacionadas entre síestat vif

📈 Diagnóstico del modelo

1. Guardar residuos y valores predichos

predict resid, residuals
predict yhat, xb

2. Evaluar linealidad y homoscedasticidad

rvfplot

✅ Deseas ver una nube de puntos dispersa sin patrón.
⚠️ Si ves forma de «embudo», podría haber heteroscedasticidad.


3. Evaluar normalidad de residuos

qnorm resid
hist resid, normal

✅ Si los puntos siguen la línea del Q-Q plot → residuos normales.
⚠️ Si se desvían mucho → considerar transformación o modelos robustos.


4. Evaluar colinealidad

estat vif

No se identificó evidencia de colinealidad entre las variables independientes del modelo.
Todos los VIF están entre 1.01 y 1.03, lo cual es ideal. Esto significa que:

  • Los coeficientes estimados son estables.
  • La precisión de los intervalos de confianza es adecuada.
  • No se requiere eliminar, combinar ni transformar predictores por redundancia.
✅ VIF < 5 → sin preocupación.
⚠️ VIF > 10 → colinealidad alta, considerar eliminar o combinar variables.

El modelo de regresión lineal multivariado para predecir niveles de glucosa no presenta colinealidad significativa entre sus predictores clínicos y conductuales, lo que permite una interpretación independiente y confiable de cada uno de los factores.

🔁 ¿Qué hacer cuando todo parece fallar?

1. Revisar los datos

  • ¿Hay errores de digitación?
  • ¿Outliers extremos? ¿Casos duplicados?

2. Transformar variables

3. Cambiar de modelo

Si los supuestos son demasiado violados, puedes considerar:

Modelo alternativoCuándo usarlo
glm (modelo lineal generalizado)Cuando hay distribución no normal
quantreg (regresión cuantílica)Cuando hay heteroscedasticidad grave
robust regressionCuando hay outliers
non-parametric regressionSi la relación no es lineal y no se puede modelar fácilmente

🧠 En resumen:

❌ Si las pruebas salen mal, no significa que el estudio esté perdido,
✅ Significa que el modelo lineal no es adecuado en su forma actual, y debes hacer ajustes:

🔧 Revisar → Transformar → Sustituir → Validar