🧩 1. PLANTEAMIENTO DEL PROBLEMA
La infección por VIH continúa siendo un importante problema de salud pública a nivel mundial. Diversos factores conductuales, biológicos y sociales influyen en el riesgo de infección y en la progresión de la enfermedad.
En poblaciones urbanas, variables como el número de parejas sexuales, el uso de preservativo, los antecedentes de infecciones de transmisión sexual (ITS), el consumo de drogas y la exposición a contactos con alta carga viral pueden modificar significativamente la probabilidad de infección.
Desde el punto de vista epidemiológico y clínico, resulta relevante identificar los factores asociados a la infección por VIH y evaluar la capacidad predictiva de modelos estadísticos que permitan discriminar pacientes con mayor riesgo.
🎯 2. OBJETIVOS
🔹 Objetivo general
Evaluar los factores asociados a la infección por VIH y determinar la capacidad predictiva de un modelo clínico en adultos de una población urbana.
🔹 Objetivos específicos
- Analizar la asociación entre variables clínicas y conductuales y la carga viral del paciente mediante regresión lineal.
- Identificar factores asociados a infección por VIH mediante regresión logística.
- Evaluar la capacidad discriminativa del modelo mediante curva ROC.
- Verificar los supuestos estadísticos necesarios para regresión lineal y logística.
💡 3. HIPÓTESIS
🔹 Hipótesis principal (modelo lineal)
La carga viral del paciente se asocia positivamente con:
- Edad
- Número de parejas sexuales
- ITS previas
- Consumo de drogas
- Carga viral del contacto
y negativamente con:
- Uso regular de preservativo.
🔹 Hipótesis secundaria (modelo logístico)
El mayor número de parejas sexuales, antecedentes de ITS, consumo de drogas y exposición a contactos con alta carga viral incrementan la probabilidad de infección por VIH.
El uso regular de preservativo actúa como factor protector.
🔹 Hipótesis de desempeño diagnóstico
El modelo clínico presenta adecuada capacidad discriminativa para identificar pacientes con infección por VIH.
📋 4. CUADRO DE VARIABLES
| Variable | Tipo | Rol | Codificación |
|---|---|---|---|
| carga_viral_paciente | Continua | Dependiente (lineal) | Copias/mL |
| vih | Dicotómica | Dependiente (logística) | 1=VIH+, 0=VIH− |
| edad | Continua | Independiente | Años |
| sexo_m | Dicotómica | Independiente | 1=Masculino |
| imc | Continua | Independiente | kg/m² |
| numero_parejas | Continua discreta | Independiente | Número |
| uso_condon | Dicotómica | Independiente | 1=Sí |
| its_previas | Dicotómica | Independiente | 1=Sí |
| consumo_drogas | Dicotómica | Independiente | 1=Sí |
| carga_viral_contacto | Continua | Independiente | log10 copias/mL |
| cd4 | Continua | Covariable clínica | células/mm³ |
📊 5. IMPORTAR BASE DE DATOS EN STATA
import excel "C:\ruta\dataset_vih_regresion_stata.xlsx", firstrow clear
Verificar variables:
describe
📈 6. ANÁLISIS DESCRIPTIVO
🔹 Variables continuas
summarize edad imc numero_parejas carga_viral_contacto cd4 carga_viral_paciente
Interpretar:
- Media
- Desviación estándar
- Mínimo y máximo
🔹 Variables categóricas
tab vihtab sexo_mtab uso_condontab its_previastab consumo_drogas
Interpretar:
- Frecuencias absolutas
- Porcentajes
🔬 7. REGRESIÓN LINEAL
🎯 Outcome
carga_viral_paciente
🔹 Modelo
reg carga_viral_paciente edad imc numero_parejas uso_condon its_previas consumo_drogas carga_viral_contacto sexo_m, robust
reg carga_viral_paciente edad imc numero_parejas uso_condon its_previas consumo_drogas carga_viral_contacto sexo_m
🧠 INTERPRETACIÓN
| Indicador | Resultado | Interpretación |
|---|---|---|
| N | 400 | Tamaño muestral |
| F | 129.87 | Modelo significativo |
| p | <0.001 | Asociación global significativa |
| R² | 0.7298 | Explica 72.98% de la variabilidad |
| Root MSE | 483.32 | Error promedio del modelo |
📌 INTERPRETACIÓN DE β
| Variable | β | p | Interpretación |
|---|---|---|---|
| Edad | 11.59 | <0.001 | Cada año aumenta 11.6 unidades la carga viral |
| IMC | -3.62 | 0.571 | No significativo |
| Número parejas | 225.65 | <0.001 | Cada pareja adicional aumenta 225.7 unidades |
| Uso condón | -475.87 | <0.001 | Disminuye 475.9 unidades |
| ITS previas | 838.57 | <0.001 | Aumenta 838.6 unidades |
| Consumo drogas | 921.26 | <0.001 | Aumenta 921.3 unidades |
| Carga viral contacto | 571.07 | <0.001 | Cada unidad log10 aumenta 571.1 unidades |
| Sexo masculino | 72.19 | 0.147 | No significativo |
✅ SUPUESTOS DE REGRESIÓN LINEAL
1️⃣ Normalidad de residuos
predict resid, resid
Histograma
histogram resid, normal
Q-Q plot
qnorm resid
Prueba estadística
swilk resid
Interpretación:
- p > 0.05 → compatible con normalidad.
Los residuos siguen una distribución compatible con normalidad.
2️⃣ Homocedasticidad
rvfplot
o
hettest
Interpretación:
- p > 0.05 → varianza constante.
Los residuos se distribuyen de forma aleatoria alrededor de cero, sin patrón en abanico evidente.
3️⃣ Multicolinealidad
vif
Interpretación:
| VIF | Interpretación |
|---|---|
| <5 | aceptable |
| >10 | colinealidad importante |
4️⃣ Linealidad
avplots
Evaluar relación lineal entre predictores y outcome.
🔬 8. REGRESIÓN LOGÍSTICA
🎯 Outcome
vih
🔹 Modelo
logistic vih edad imc numero_parejas uso_condon its_previas consumo_drogas carga_viral_contacto sexo_m
📌 INTERPRETACIÓN
| Indicador | Resultado |
|---|---|
| N | 400 |
| LR chi² | 41.89 |
| p | <0.001 |
| Pseudo R² | 0.1169 |
| Variable | OR | p | Interpretación |
|---|---|---|---|
| Edad | 1.04 | 0.011 | Cada año aumenta 4% los odds de VIH |
| IMC | 1.01 | 0.874 | No significativo |
| Número parejas | 1.02 | 0.786 | No significativo |
| Uso condón | 0.37 | 0.001 | Reduce 63% los odds de VIH |
| ITS previas | 2.70 | 0.001 | Aumenta 2.7 veces los odds |
| Consumo drogas | 1.89 | 0.077 | Tendencia, no significativo |
| Carga viral contacto | 1.88 | 0.001 | Aumenta 88% los odds |
| Sexo masculino | 1.22 | 0.500 | No significativo |
✅ SUPUESTOS DE REGRESIÓN LOGÍSTICA
1️⃣ Outcome dicotómico
✔ VIH: 1/0
2️⃣ Independencia de observaciones
✔ Cada individuo independiente.
3️⃣ Ausencia de multicolinealidad (reg lineal)
vif
4️⃣ Linealidad del logit
linktest
Interpretación:
_hatsqno significativo indica que no hay evidencia de mala especificación.
5️⃣ Bondad de ajuste
estat gof
Interpretación:
- p > 0.05 → buen ajuste.
📊 9. CURVA ROC
🔹 Comando
lroc
🧠 INTERPRETACIÓN DEL AUC
| AUC | Interpretación |
|---|---|
| 0.5 | no discriminación |
| 0.6–0.7 | pobre |
| 0.7–0.8 | aceptable |
| 0.8–0.9 | buena |
| >0.9 | excelente |
📌 INTERPRETACIÓN CLÍNICA
Ejemplo:
AUC = 0.87
➡ El modelo tiene buena capacidad para diferenciar pacientes con y sin VIH.
📈 10. MATRIZ DE CLASIFICACIÓN
estat classification
| Símbolo | Significado |
|---|---|
| D | Disease → paciente CON VIH |
| ~D | No Disease → paciente SIN VIH |

Permite obtener:
- Sensibilidad
- Especificidad
- Correctamente clasificados