Regresión logistica STATA

📄 Título del Estudio:

Factores asociados al infarto y a los niveles de glucosa en pacientes adultos de una población urbana


🎯 Objetivo del Estudio:

Evaluar los factores clínicos, conductuales y familiares que se asocian con:

  1. El riesgo de infarto en adultos (modelo de regresión logística).
  2. Los niveles de glucosa en sangre (modelo de regresión lineal).

💡 Hipótesis:

  1. Para regresión logística:

Los adultos con mayor edad, presión arterial elevada, antecedentes familiares, tabaquismo y menor actividad física tienen un mayor riesgo de presentar un infarto.

  1. Para regresión lineal:

Los niveles de glucosa en sangre aumentan con la edad, el IMC, la presión arterial, el colesterol, el tabaquismo y los antecedentes familiares; y disminuyen con la actividad física.


🔎 Variables por tipo de análisis:

📌 Regresión Logística

  • Variable Dependiente (VD):
    infarto (0 = no, 1 = sí)
  • Variables Independientes (VI):
    edad, sexo, imc, presion, colesterol, actividad_fisica, fumador, antecedentes_familiares

📌 Regresión Lineal

  • Variable Dependiente (VD):
    glucosa (valor continuo en mg/dL)
  • Variables Independientes (VI):
    edad, sexo, imc, presion, colesterol, actividad_fisica, fumador, antecedentes_familiares

📋 Diccionario de Variables

VariableTipoDescripción
edadNuméricaEdad del paciente en años (30–80)
sexoCategóricaSexo biológico (M = masculino, F = femenino)
imcNuméricaÍndice de Masa Corporal (kg/m²)
presionNuméricaPresión arterial sistólica (mmHg)
colesterolNuméricaColesterol total (mg/dL)
actividad_fisicaNuméricaDías por semana con ≥30 min de actividad física (0–5)
fumadorBinaria1 = fumador actual, 0 = no fumador
antecedentes_familiaresBinaria1 = antecedentes familiares positivos, 0 = no
glucosaNuméricaNivel de glucosa en sangre (mg/dL)
infartoBinaria1 = paciente ha tenido un infarto, 0 = no ha tenido

🔍 ¿Qué es la Regresión Lineal y la Regresión Logística?

📈 Regresión Lineal

  • Definición:
    Es un modelo estadístico que busca predecir el valor de una variable continua (por ejemplo, glucosa, presión arterial, peso) a partir de una o más variables independientes.
  • Ejemplo:
    ¿Cómo cambian los niveles de glucosa según la edad, el IMC y el colesterol?
  • Modelo matemático: Y=β0+β1X1+β2X2+⋯+εY = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \varepsilonY=β0​+β1​X1​+β2​X2​+⋯+ε Donde:
    • YYY: variable dependiente continua
    • β\betaβ: coeficientes estimados
    • ε\varepsilonε: error aleatorio
  • Salida:
    Coeficientes que indican cuánto se espera que cambie la variable resultado por cada unidad de cambio en los predictores.

📊 Regresión Logística

  • Definición:
    Es un modelo estadístico que se utiliza cuando la variable dependiente es dicotómica (por ejemplo, tiene/no tiene enfermedad, vive/muere, sí/no).
  • Ejemplo:
    ¿Qué factores aumentan la probabilidad de tener un infarto?
  • Modelo matemático (forma logit): log⁡(p1−p)=β0+β1X1+β2X2+…\log\left(\frac{p}{1 – p}\right) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dotslog(1−pp​)=β0​+β1​X1​+β2​X2​+… Donde:
    • ppp: probabilidad de que ocurra el evento
    • Se utiliza la función logística para restringir el resultado entre 0 y 1.
  • Salida:
    Odds Ratios (OR), que representan cuánto se incrementan o disminuyen las probabilidades del evento por cada unidad de cambio en la variable explicativa.

⚖️ Comparación entre Regresión Lineal y Logística

CaracterísticaRegresión LinealRegresión Logística
Tipo de variable dependienteContinua (números reales)Dicotómica (0/1)
Ejemplo de variable dependienteGlucosa, colesterol, presiónInfarto (sí/no), diabetes (sí/no), muerte
Modelo matemáticoRelación directa Y=βXY = \beta XY=βXLog-odds de una probabilidad
Función de enlaceIdentidadLogit (logaritmo de odds)
Método de estimaciónMínimos cuadradosMáxima verosimilitud
Interpretación de coeficientesCambio esperado en YCambio en la razón de odds (OR)
Supuestos principalesNormalidad, homocedasticidad, linealidadLinealidad en el logit, independencia
Tipo de análisisPredicción cuantitativaClasificación y estimación de probabilidades
Evaluación del modeloR², errores estándar, F-testHosmer-Lemeshow, pseudo-R², curva ROC

🏥 Aplicaciones en Salud Pública y Medicina

Escenario clínicoTipo de regresión recomendada
Predecir el nivel de glucosa en diabéticosLineal
Evaluar si fumar aumenta el riesgo de infartoLogística
Estimar cuánto sube el colesterol por edadLineal
Saber si el IMC predice la presencia de HTALogística

🧠 Conclusión:

  • Usa regresión lineal cuando tu resultado es numérico continuo.
  • Usa regresión logística cuando tu resultado es un evento binario.

Ambas técnicas permiten controlar múltiples variables a la vez, evaluar asociaciones ajustadas y generar evidencia clínica o poblacional robusta.


🧭 PASO A PASO EN STATA: Regresión Logística

✅ 1. Importar la base de datos

stataCopiarEditarimport excel "C:\ruta\al\archivo\practica_modelos_regresion_completa.xlsx", firstrow clear

Reemplaza "C:\ruta\al\archivo\" por la ubicación real del archivo.


✅ 2. Explorar la variable dependiente

tab infarto

Verifica cuántos pacientes con y sin infarto tienes.


✅ 3. Describir las variables explicativas

summarize edad imc presion colesterol actividad_fisica
tab fumador
tab antecedentes_familiares
tab sexo

✅ 4. Crear variables dummy si lo deseas (opcional para sexo)

gen sexo_m = (sexo == "M")

✅ 5. Modelo de regresión logística

logit infarto edad imc presion colesterol actividad_fisica fumador antecedentes_familiares sexo_m

📊 Resumen del modelo

  • Número de observaciones: 300
  • Valor de chi-cuadrado (LR chi2(8)): 61.97 → indica que el modelo es significativamente mejor que uno sin predictores.
  • p-valor global: 0.000 → el modelo en su conjunto es estadísticamente significativo.
  • Pseudo R² = 0.2349 → el modelo explica el 23.5% de la variabilidad en la ocurrencia de infarto (aceptable para modelos clínicos).

🧾 Interpretación variable por variable

VariableCoeficientep-valor¿Significativo?Interpretación clínica
edad0.04550.000✅ SíA mayor edad, aumenta el riesgo de infarto. Por cada año, los log-odds del infarto aumentan.
imc0.19930.000✅ SíUn mayor IMC se asocia significativamente con mayor riesgo de infarto.
presion0.02520.000✅ SíCada mmHg adicional de presión sistólica aumenta el riesgo de infarto.
colesterol0.04140.000✅ SíEl colesterol elevado también se asocia significativamente con mayor riesgo.
actividad_fisica-0.21120.061❌ No (marginal)Mayor actividad física tiende a proteger contra el infarto, aunque no es estadísticamente significativa (p=0.061).
fumador0.57260.141❌ NoSer fumador parece aumentar el riesgo, pero no es estadísticamente significativo.
antecedentes_familiares1.18530.000✅ SíTener antecedentes familiares incrementa fuertemente el riesgo de infarto.
sexo_m (hombre)0.50650.165❌ NoSer hombre podría aumentar el riesgo, pero el efecto no es significativo.
_cons (constante)-17.330.000Valor base del modelo cuando todas las variables son cero (no se interpreta clínicamente).

Conclusiones clínicas

  • Factores de riesgo independientes significativos:
    • Edad, IMC, presión arterial, colesterol y antecedentes familiares.
  • Actividad física muestra un efecto protector, aunque está en el límite de significancia (p=0.061).
  • Fumar y ser hombre no fueron estadísticamente significativos en este modelo multivariado (posible confusión con otras variables).

✅ 6. Interpretar los coeficientes

  • Cada coeficiente indica el efecto log-odds de la variable sobre la probabilidad de infarto.
  • Usa logistic si prefieres ver odds ratios directamente:
logistic infarto edad imc presion colesterol actividad_fisica fumador antecedentes_familiares sexo_m

🔍 Interpretación de los Odds Ratios (OR)

VariableORp-valor¿Significativo?Interpretación clínica
edad1.04660.000✅ SíPor cada año adicional de edad, el riesgo de infarto aumenta un 4.7%.
imc1.22050.000✅ SíCada unidad más de IMC se asocia con un 22% más de riesgo de infarto.
presion1.02550.000✅ SíCada mmHg adicional de presión arterial sistólica aumenta el riesgo en 2.6%.
colesterol1.04220.000✅ SíCada mg/dL adicional de colesterol aumenta el riesgo en 4.2%.
actividad_fisica0.80910.061❌ No (marginal)Cada día adicional de ejercicio reduce el riesgo de infarto en un 19% aprox., aunque no es estadísticamente significativo (p ≈ 0.06).
fumador1.77290.141❌ NoLos fumadores tienen 1.77 veces más riesgo, pero no es significativo (IC muy amplio).
antecedentes_familiares3.23620.000✅ SíTener antecedentes familiares triplica el riesgo de infarto (OR ≈ 3.2).
sexo_m (hombre)1.65950.165❌ NoSer hombre se asocia con mayor riesgo, pero no es estadísticamente significativo.

✅ Conclusiones clínicas clave:

  1. Variables con impacto fuerte y significativo:
    • Edad, IMC, presión arterial, colesterol y antecedentes familiares están sólidamente asociadas al riesgo de infarto.
    • Son factores modificables (IMC, presión, colesterol) o estratificadores de riesgo (edad, antecedentes).
  2. Actividad física parece protectora (OR < 1), pero no alcanza significancia estadística (p = 0.061). Aun así, es clínicamente relevante.
  3. Fumar y ser hombre no fueron significativos en este modelo multivariable, posiblemente por interacción o confusión con otros factores.

🧪 Nota técnica:

  • El OR de la constante (_cons = 0.0298) representa la probabilidad base de infarto cuando todas las variables son cero (no se interpreta clínicamente).
  • El pseudo R² indica que el modelo explica ~23.5% del riesgo de infarto, adecuado en estudios clínicos poblacionales.

✅ 7. Evaluar bondad de ajuste (Hosmer-Lemeshow)

Realiza la prueba de Hosmer-Lemeshow dividiendo los datos en 10 grupos de acuerdo con las probabilidades predichas del modelo (por eso group(10)), y compara:

  • Cuántos casos esperados de infarto hay en cada grupo, según el modelo,
  • Contra cuántos observados realmente ocurrieron.
estat gof, group(10) table

Un p-valor > 0.05 indica buen ajuste del modelo.

🧪 Resultado estadístico de la prueba

  • Hosmer-Lemeshow chi2(8) = 5.80
  • p = 0.6701

🧠 ¿Cómo se interpreta?

ResultadoInterpretación
p > 0.05✅ No hay evidencia de mal ajuste → el modelo ajusta bien.
p < 0.05❌ El modelo no predice adecuadamente los datos (mal ajuste).

➡ En este caso, p = 0.6701 significa que:

El modelo logístico ajusta correctamente a los datos.
No hay diferencia significativa entre los casos observados y esperados en los grupos de riesgo.


✅ 8. Predicción y curva ROC (opcional)

predict phat, pr
roctab infarto phat

lroc

🧠 ¿Qué significa la AUC?

La AUC (Area Under the Curve) mide la capacidad del modelo para distinguir correctamente entre quienes tienen el evento (infarto = 1) y quienes no (infarto = 0).

AUCInterpretación
0.5Sin capacidad predictiva (igual a tirar una moneda)
0.6 – 0.7Pobre
0.7 – 0.8Aceptable
0.8 – 0.9Buena
0.9 – 1.0Excelente

🔍 En tu modelo:

  • AUC = 0.8374 → lo que indica que el modelo tiene una buena capacidad discriminativa.
  • El intervalo de confianza [0.775 – 0.899] sigue estando dentro del rango bueno, lo que indica estabilidad del modelo.

🩺 Conclusión clínica:

El modelo de regresión logística presenta una buena capacidad para discriminar entre pacientes con y sin infarto, con un AUC de 0.8374 (IC 95%: 0.775 – 0.899).
Esto respalda la utilidad clínica del modelo para clasificar correctamente a los pacientes según su riesgo.