Archivo de Proyectos

Un análisis en profundidad de casos de estudio que demuestran la fusión de la ciencia de datos, la psicología y la estrategia de negocio para crear soluciones tecno-humanas.

Modelo Predictivo para el Cribado del Trastorno del Espectro Autista (TEA) en Adultos

Pipeline de Machine Learning de extremo a extremo fusionando psicopatología con ciencia de datos para crear herramientas de cribado accesibles.

🎯 Contexto y Problema

El diagnóstico del Trastorno del Espectro Autista en adultos puede ser un proceso largo y costoso. Este proyecto buscaba responder: ¿Podemos utilizar los datos de un cuestionario de cribado psicométrico estándar (el AQ-10) para construir un modelo de Machine Learning que identifique patrones sutiles y ofrezca una primera evaluación de riesgo automatizada, rápida y escalable?

⚙️ Metodología Técnica

El proyecto se estructuró comenzando con clustering no supervisado (K-Means, DBSCAN) para entender la estructura natural de los datos. El EDA reveló un significativo desequilibrio de clases, abordado con técnicas como SMOTE. Se realizó un "bake-off" de múltiples modelos optimizando hiperparámetros, logrando una puntuación F1 promedio de 0.87.

🛠️ Stack Tecnológico

Python Pandas Scikit-learn Keras/TensorFlow XGBoost LightGBM Imbalanced-learn

📊 Impacto y Resultados

Modelo validado que sirve como herramienta de apoyo no invasiva para profesionales de la salud, ayudando a priorizar casos y dirigir recursos más eficientemente. Demuestra el potencial de la IA para crear soluciones de salud mental más accesibles y basadas en datos.

🔗 Ver código en GitHub

Blueprint Estratégico: Predicción de Comorbilidad Hipertensión-Psicopatología

Diseño completo de solución de ciencia de datos usando CRISP-DM, demostrando capacidad de arquitectura de soluciones.

🎯 Contexto y Problema

Una empresa de atención geriátrica necesitaba validar una hipótesis clínica: ¿existe una relación predecible entre los picos de hipertensión y la aparición de crisis psicopatológicas? El desafío era estructurar un proyecto de datos complejo y sensible de forma rigurosa, ética y que generara valor de negocio preventivo.

⚙️ Metodología CRISP-DM

Plan detallado incluyendo estrategia sofisticada de preparación de datos con variables innovadoras como índice de 'Hidratación'. Propuesta de modelos interpretables (Árboles de Decisión, Regresión Logística) para facilitar validación clínica. Fase dedicada a identificación proactiva de sesgos en datos históricos.

🛠️ Stack Tecnológico

CRISP-DM R Regresión Logística Árboles de Decisión

📊 Impacto y Resultados

Plan estratégico que asegura construcción sobre base sólida, minimizando riesgos y maximizando impacto. Demuestra capacidad de liderazgo técnico y visión de negocio de alto nivel. Blueprint listo para ejecución por equipo de desarrollo.

🔗 Ver Blueprint en GitHub

Identificación de Perfiles de Riesgo de Diabetes mediante Clustering

Transformación de dataset en bruto en segmentos de pacientes accionables usando clustering no supervisado y feature engineering avanzado.

🎯 Contexto y Problema

Más allá de predecir diabetes individual, era crucial entender si existían grupos naturales de individuos con perfiles de riesgo combinados. Objetivo: pasar de análisis individual a segmentación poblacional que informara campañas de prevención personalizadas.

⚙️ Metodología Técnica

Flujo EDA → Feature Engineering → Clustering. Hallazgo clave: "outliers" en variables de salud eran señal de grupos de mayor riesgo, llevando a usar RobustScaler. Creación de variables compuestas: score_habitos_saludables e indice_riesgo_cardio. Método del Codo justificó 3 clústeres como segmentación óptima.

🛠️ Stack Tecnológico

Python Pandas Scikit-learn Matplotlib Seaborn Tableau

📊 Impacto y Resultados

Activo de datos estratégico: dataset segmentado que permite a analistas de negocio explorar perfiles de riesgo sin conocimientos de ML. Democratización del insight para equipos multidisciplinarios.

🔗 Ver código en GitHub

Estrategia Basada en Datos para Expansión de Mercados Internacionales

Aplicación de Machine Learning a problema de negocio estratégico, transformando datos macroeconómicos en recomendaciones defendibles.

🎯 Contexto y Problema

Decisión de expansión internacional representa apuesta de alto riesgo financiero. Proyecto buscaba reemplazar intuición con enfoque de ciencia de datos riguroso para responder: "¿Qué países ofrecen el mejor equilibrio de oportunidad económica y estabilidad para expansión?"

⚙️ Metodología Técnica

Proyecto en dos fases: I) ETL y Preparación; II) Modelado y Segmentación. PCA para visualizar relaciones entre países. K-Means y DBSCAN para agrupar países con perfiles similares. Comparación de métodos proporcionó comprensión robusta de estructura de datos, resultando en segmentación lógica de naciones.

🛠️ Stack Tecnológico

R Tidyverse ggplot2 cluster fpc dbscan

📊 Impacto y Resultados

Lista clasificada y segmentada de países candidatos, proporcionando herramienta para toma de decisiones estratégicas basada en evidencia. Reducción de riesgo y optimización de inversión en estrategia de expansión global.

Creación de un Dataset para el Análisis Económico de Videojuegos mediante Web Scraping Ético

Pipeline de web scraping para extraer datos de una web con "lazy loading", gestionando peticiones XHR. El resultado es un dataset limpio y publicado en Zenodo (con DOI), demostrando un ciclo de vida del dato completo.

🎯 Contexto y Problema

El mercado de videojuegos retro tiene un comportamiento económico fascinante, pero los datos de precios están dispersos. El problema era: ¿cómo crear sistemáticamente un dataset estructurado desde una fuente web que carga su contenido dinámicamente, de una manera eficiente y respetuosa?

👤 Mi Rol y Responsabilidades

Actué como el único Data Engineer, responsable de todo el proceso: investigación y viabilidad (analizando `robots.txt`), desarrollo del scraper en Python para manejar contenido dinámico, implementación de prácticas éticas (rate limiting), limpieza y estructuración de los datos, y la publicación final del dataset.

⚙️ Metodología Técnica

El reto principal era el "infinite scroll". En lugar de usar Selenium, analicé el tráfico de red, identifiqué las peticiones XHR que cargaban los datos en JSON y simulé esas peticiones directamente con `requests-html`, un enfoque mucho más rápido. Una vez obtenidos los datos, utilicé Pandas para aplanar, limpiar y estructurar el resultado en un CSV.

🛠️ Stack Tecnológico

Python requests-html BeautifulSoup4 Pandas

📊 Impacto y Resultados

El principal resultado es un dataset de alta calidad y citable (DOI: 10.5281/zenodo.14043146) con 2.369 registros, que ahora puede ser utilizado por la comunidad para realizar análisis económicos o modelos de predicción de precios. El impacto es la creación de un nuevo activo de datos público.

Preparación y Análisis de Datos de Siniestralidad Vial en EE. UU. (CRISP-DM)

Aplicación del framework CRISP-DM para transformar datos de accidentes en crudo (dataset FARS) en un activo analítico robusto, incluyendo ingeniería de características avanzada y culminando con un Análisis de Componentes Principales (PCA).

🎯 Contexto y Problema

Los datos brutos sobre accidentes de tráfico mortales (FARS) son ricos pero están fragmentados y llenos de inconsistencias. El problema era: ¿cómo unificar, limpiar y enriquecer estos datos para crear una única "fuente de la verdad" que permita a los científicos de datos construir modelos predictivos fiables?

👤 Mi Rol y Responsabilidades

Asumí el rol de Data Scientist enfocado en las fases de Comprensión y Preparación de Datos de CRISP-DM. Fui responsable de todo el pipeline de ETL: unión de tablas, decodificación de variables, imputación lógica de valores faltantes y creación de nuevas características.

⚙️ Metodología Técnica

Transformé variables categóricas complejas en flags binarios interpretables (`DRINKING`, `NIGHT_HOUR`) y creé variables derivadas como la antigüedad del vehículo. Implementé una limpieza metódica de miles de valores nulos y códigos especiales. Finalmente, apliqué PCA para confirmar la relevancia de las nuevas características.

🛠️ Stack Tecnológico

R Tidyverse (dplyr, readr) stats (prcomp) RStudio

📊 Impacto y Resultados

El proyecto entregó tres datasets limpios y listos para el modelado. El impacto es que este costoso trabajo de preparación ya está hecho, permitiendo que los esfuerzos futuros se centren directamente en la predicción y la prevención para mejorar la seguridad vial.

🔗 Enlaces Relevantes

🔗 Ver el código en GitHub

Análisis de Usuarios de Fitbit (Google Capstone)

Caso de estudio de negocio de principio a fin del Certificado de Analista de Datos de Google. Analicé datos de Fitbit para extraer insights sobre el comportamiento del consumidor, utilizando un pipeline híbrido con R y SQL (BigQuery) para derivar recomendaciones de negocio accionables.

🎯 Contexto y Problema

La empresa de health-tech Bellabeat necesitaba entender cómo los consumidores usan sus dispositivos de seguimiento para identificar oportunidades de mercado. El problema de negocio era: ¿Qué tendencias en los datos de Fitbit pueden inspirar nuevas características de producto o campañas de marketing?

⚙️ Metodología Técnica

El punto técnico destacable fue el uso de un pipeline híbrido: procesé la mayoría de los archivos en R con Tidyverse. Sin embargo, para el dataset de frecuencia cardíaca (demasiado grande), lo subí a Google BigQuery y usé SQL para limpiarlo y agregarlo antes de reimportarlo a R. Utilicé ggplot2 para las visualizaciones.

🛠️ Stack Tecnológico

R (Tidyverse, ggplot2) SQL Google BigQuery RStudio

📊 Impacto y Resultados

El impacto se mide en sus recomendaciones de negocio finales. Propuse acciones concretas como la creación de una "alerta de sedentarismo" en la app o el diseño de campañas enfocadas en convertir la actividad ligera en moderada, creando un puente claro entre el análisis de datos y la estrategia empresarial.

🔗 Enlaces Relevantes

🔗 Ver el código en GitHub

Análisis Comparativo de Algoritmos de Clustering: K-Means vs. DBSCAN

Estudio comparativo riguroso que demuestra por qué DBSCAN (basado en densidad) supera a K-Means (basado en centroides) en escenarios con ruido y grupos de formas no esféricas, validando los resultados visualmente (PCA) y cuantitativamente (Índice de Dunn, Silueta).

🎯 Contexto y Problema

En el ML no supervisado, elegir el algoritmo correcto es crucial. El problema a investigar era: ¿Podemos demostrar y cuantificar la superioridad de un algoritmo basado en densidad como DBSCAN frente a K-Means en un dataset del mundo real que presenta ruido y clusters de formas irregulares?

⚙️ Metodología Técnica

La imputación de nulos se hizo con media condicional, una técnica robusta. Se usó OPTICS para guiar la elección de parámetros de DBSCAN. La validación cuantitativa fue el núcleo del proyecto, utilizando la librería `fpc` para calcular métricas como el Índice de Dunn y el Ancho de Silueta. Los resultados mostraron una mejora drástica en el Índice de Dunn (de 0.004 a 0.24), probando la superioridad de DBSCAN.

🛠️ Stack Tecnológico

R Tidyverse dbscan fpc ggbiplot

📊 Impacto y Resultados

El impacto es una demostración clara y basada en evidencia de cómo seleccionar el modelo de clustering adecuado. El resultado no es solo un conjunto de clusters, sino un entendimiento más profundo de cómo y por qué funcionan estos algoritmos, sirviendo como guía para otros analistas.

🔗 Enlaces Relevantes

🔗 Ver el código en GitHub

Diseño de Data Warehouse y Cubo OLAP para Análisis Multidimensional de Ventas

Diseño de una solución de Data Warehouse en Microsoft SQL Server y construcción de un Cubo OLAP para permitir un análisis de ventas multidimensional (por producto, cliente, tiempo y ubicación), transformando la exploración de datos para la toma de decisiones.

🎯 Contexto y Problema

Una empresa ficticia se basaba en informes estáticos de su base de datos transaccional, lo que hacía imposible responder a preguntas de negocio complejas. El objetivo era crear una estructura de datos analítica que permitiera consultas tipo "slicing and dicing" de forma rápida e intuitiva.

👤 Mi Rol y Responsabilidades

Asumí el rol de Analista de Business Intelligence / Arquitecto de Datos, responsable de diseñar el esquema del Data Warehouse (modelo en estrella), crear los scripts SQL para el ETL, y finalmente, diseñar y configurar el Cubo de Datos para el análisis.

⚙️ Metodología Técnica

La solución se basó en un Data Warehouse con una tabla de hechos (`FactSales`) y varias tablas de dimensiones (`DimProduct`, `DimCustomer`, `DimDate`, `DimLocation`), estructura fundamental para el rendimiento del Cubo OLAP, que permite a un usuario de negocio explorar los datos desde cualquier perspectiva sin conocimientos técnicos.

🛠️ Stack Tecnológico

Microsoft SQL Server Data Warehousing OLAP Cube R R Markdown

📊 Impacto y Resultados

El proyecto dota a la empresa de una potente herramienta de Business Intelligence, democratizando el acceso a los datos y capacitando a los managers para realizar sus propios análisis, llevando a una toma de decisiones más rápida y basada en datos.

🔗 Enlaces Relevantes

🔗 Ver el código en GitHub

Modelo de Clasificación para la Predicción de Niveles de Obesidad

Desarrollo de un modelo de clasificación de extremo a extremo para predecir el nivel de obesidad a partir de hábitos y estilo de vida. Se realizó un análisis comparativo ("bake-off") de múltiples algoritmos para encontrar el de mejor rendimiento.

🎯 Contexto y Problema

La obesidad es un problema multifactorial. Este proyecto buscaba responder: ¿Podemos, utilizando únicamente datos sobre los hábitos de una persona, predecir su categoría de peso con un grado de precisión útil e identificar los factores de estilo de vida más influyentes?

⚙️ Metodología Técnica

Tras un profundo Análisis Exploratorio de Datos (EDA), se prepararon los datos y se entrenó un abanico de modelos de clasificación, incluyendo Regresión Logística, K-Nearest Neighbors (KNN), SVM y Random Forest, para determinar el de mejor rendimiento para este problema de salud pública.

🛠️ Stack Tecnológico

Python Pandas Scikit-learn Matplotlib Seaborn

📊 Impacto y Resultados

El proyecto resultó en un modelo funcional que puede servir como herramienta educativa o de cribado preliminar, identificando los predictores de estilo de vida más potentes para ayudar a diseñar campañas de prevención más efectivas.

🔗 Enlaces Relevantes

🔗 Ver el código en GitHub

Predicción de Quiebra Empresarial usando Árboles de Decisión

Construcción de un modelo de clasificación interpretable (Árbol de Decisión) para predecir la probabilidad de quiebra de una empresa a partir de sus datos financieros, subrayando la importancia de la transparencia en aplicaciones de alto riesgo.

🎯 Contexto y Problema

Para inversores y reguladores, la detección temprana del riesgo de quiebra es fundamental. El problema era: ¿Podemos construir un modelo que sirva como sistema de alerta temprana y que además ofrezca reglas claras e interpretables para justificar sus predicciones?

⚙️ Metodología Técnica

La elección de un Árbol de Decisión fue deliberada para garantizar la interpretabilidad. Este modelo permite visualizar las reglas de decisión que utiliza (ej: "si ratio de deuda > X y ROC < Y, entonces riesgo alto"), lo cual es crucial para la confianza en un entorno financiero. El rendimiento se evaluó prestando especial atención al Recall de la clase minoritaria (empresas en riesgo).

🛠️ Stack Tecnológico

Python Pandas Scikit-learn Interpretable AI

📊 Impacto y Resultados

El proyecto proporciona una herramienta de apoyo a la decisión para la gestión de riesgos financieros, permitiendo pasar de un análisis reactivo a una identificación proactiva del riesgo y la toma de medidas correctivas a tiempo.

🔗 Enlaces Relevantes

🔗 Ver el código en GitHub

Análisis Exploratorio de Datos (EDA) sobre Tendencias en Series de Televisión

Un ejercicio puro de Análisis Exploratorio de Datos y storytelling que transforma un dataset en bruto sobre series de TV en una narrativa visual coherente para responder a preguntas de negocio sobre plataformas y géneros dominantes.

⚙️ Metodología Técnica

Todo el análisis se estructuró en torno a una serie de preguntas clave, utilizando Pandas para la manipulación de datos y Matplotlib/Seaborn para crear las visualizaciones que las respondían. Una parte importante del trabajo fue el preprocesamiento de datos de texto para analizar los géneros de forma fiable.

🛠️ Stack Tecnológico

Python Pandas Matplotlib Seaborn Data Storytelling

📊 Impacto y Resultados

El resultado es un informe analítico que ofrece una instantánea basada en datos del mundo de la televisión. El impacto es la demostración de cómo el EDA puede, por sí solo, generar valor al convertir datos en conocimiento y al comunicar insights complejos de una manera sencilla y visual.

🔗 Enlaces Relevantes

🔗 Ver el código en GitHub

Predicción de Supervivencia en el Titanic: Un Clásico de Clasificación

Ejecución del "rito de pasaje" de la ciencia de datos, enfocado en la excelencia de los fundamentos. Destaca por su meticulosa ingeniería de características (extracción de títulos, variables de familia) y un riguroso "bake-off" de cinco modelos de clasificación.

⚙️ Metodología Técnica

El punto fuerte del proyecto fue la ingeniería de características creativa: transformé `Cabin` en un flag binario `InCabin`, combiné `SibSp` y `Parch` para crear `FamilySize`, y, lo más importante, extraje los títulos (`Mr`, `Mrs`, `Master`) de la columna `Name`, revelando una señal predictiva muy potente. Se compararon cinco modelos (Regresión Logística, Árboles de Decisión, Random Forest, k-NN y SVM) usando el área bajo la curva ROC (AUC) como métrica principal.

🛠️ Stack Tecnológico

Python Pandas Scikit-learn Feature Engineering Classification

📊 Impacto y Resultados

El modelo SVM final alcanzó una puntuación AUC de 0.82, demostrando buen poder predictivo. El impacto real del proyecto es la demostración de un workflow de clasificación robusto y replicable que puedo aplicar a cualquier otro problema de negocio, destacando que una buena ingeniería de características a menudo supera al algoritmo más complejo.

🔗 Enlaces Relevantes

🔗 Ver el código en GitHub