Libro Vivo de Ciencia de Datos, 2da ed. Python

Autor/a

Pablo Casas

Fecha de publicación

21 de abril de 2026

Prefacio

Hola! acá los saluda Pablo Casas y les doy la bienvenida a el Libro Vivo de Ciencia de Datos en Python!

Pasaron casi 7 años desde la pulbicación original, y no puedo creer la llegada que ha tenido.

Más de 500.000 mil visitas a los sitios en español e inglés, porque el libro esta en ambos idiomas. En mas de 100 países.
Cientos de ventas en digital y también en papel!

Gran logro considerando que es un libro autopublicado, gratuito y disponible en internet.

Además este libro fue premiado por RStudio (ahora Posix), empresa pionera en Machine Learning e IA.

Con llegada a países como China Japón, Canada, Italia… realemente increíble para un libro autopublicado, sin productor, marketing, editoriales, nada. Solo el empuje por querer compartir el conocimiento.

Tuve el agrado de que ademas de profesionales, profesores me contactaran contandome que lo usan para enseñar.

Gracias a ustedes que decidieron tomar este recurso como parte de su camino en el mundo de la inteligencia artificial.

¿Por que lo escribí? y ¿Por qué lo actualizo en 2026?

Porque quiero compartir con otros lo que aprendí. Este mundo de patrones y análisis me parece increíble, y pienso que cualquiera debería tener una mirada analítica ya que su uso, trasciende las profesiones.

Cuando aprendemos algo útil, cercano, nuestra forma de ver el mundo cambia.

Nos llevamos ese conocimiento útil, para usar en otras áreas de la vida. Y en esta era de IA, aprender esta temática es una skill que todos necesitamos aún más.

Hoy día, año 2026, se ve como la IA esta cambiando la forma en la que interactuamos con el conocimiento. Están cambiando los trabajos y sin duda, tal como lo decía hace unos años, es muy importante incorporar conocimiento útil.

Hoy resuena un miedo generalizado sobre la IA, su impacto e implicancias. Cuando escribí este libro lo hice para que trascienda lo más posible el paso del tiempo. Verán en la sección “¿Las máquinas y la inteligencia artificial dominarán el mundo?”, escrito en ~2018, lo mismo que pienso hoy día.

En este año especial para mí, porque se cumplen 20 años desde que comencé en IA. Cuando esta tecnología era una linda promesa para que las aspiradoras robot no pasen 2 veces por el mismo lugar.

Pero vaya que ha cambiado, ¿no?

Edición Python!

Esta version actualizada y en Python te permitara comenzar a desarrollarte con skills en programación orientada al mudno de la Ciencia de Datos e IA. Podés leerlo en un café ya que todo el codigo esta alli, disponible para acompañarte en cada lectura sin necesidad de que lo pra

Tenía una deuda pendiente conmigo de que saliera en este lenguaje increíble de Python, el lenguaje más usado por lejos en IA. Así que acá está!

Pero no solo eso, sino que tambien he actualizado la librería semilla del libro, originalmente en R llamada funModeling, hoy la pueden encontrar en funpymodeling.

Acerca de mí

Año 2006, comencé mi carrera como Ingeniero en Sistemas de Información en la Universidad Tecnologíca Nacional de Buenos Aires, dónde me recibí unos años despues, pero lo mejor fue que ese primer año de facultad asistí a un “seminario de IA y robótica” y allí ocurrió el evento que cambiaría mi vida, y cuyo resultado es que vos estés leyendo estas líneas:

¿Podía aprender una máquina?

Si, y la respuesta fue: Redes Neuronales Artificiales. Boom! me explotó la cabeza al ver como un algoritmo matemático podía hacer que “algo” aprendiece.

Encontre un propósito y no paré de aprender.

Luego trabajé como Data Scientist en distintas empresas e industrias. Incluso llegando a ser el 1er Data Scientist del unicornio Auth0 (tiempo para el cual publiqué la 1er version de este libro).

Año 2020 comencé a emprender con Escuela de Datos Vivos, junto a la cofundadora Debora G. Cuniglio donde ya nuestra tésis de grado fue de un sistema para universidades. La educación siempre me interpelo.

Logo de Escuela de Datos Vivos

Escuela de Datos Vivos es nuestra vertical de negocio de cursos y bootcamps en Data e IA para profesionales. Hemos entrenado a mas de 10.000 personas.

Era el año 2022, lanzamos luego de una investigación exaustiva nuestro primer tutor de IA que guiaba a los alumnos, estamos hablando de el año bisagra de la IA, por el lanzamiento de ChatGPT. Nuestro lanzamiento se adelanto 2 meses a este hito.

Al ver que la educación de nuestros alumnos mejoraba, decidimos exportar la tecnología y solucionar los problemas que tenian las empresas en gestión del conocimiento y aprendizaje.

Hicimos un spin-off de la empresa bajo el nombre de Edvai, y comenzamos junto a Débora a trabajar en la vertical encargada de cambiar la forma en la que las empresas interactuan con su conocimiento. Ambicioso.

Logo de Edvai

Nuestro agente de IA mejora los tiempos de acceso al conocimiento, y de aprendizaje para los los colaboradores. Pudiendose adaptar para asistir a equipos de soporte, experiencia al cliente, aprendizaje (entre otros), con solo conectarse al conocimiento de la organización.

Aprender a usar una aplicación es complejo, por eso diseñamos lo que para nosotros será el futuro de la asistencia por IA: un tutor IA que es capas de, por ejemplo, ver un webinar/tutorial sobre como usar un producto, y generar un plan de aprendizaje, y asistir pro-activamente a cada usuario, y resolver tareas en una fracción del tiempo.

Nuestro agente hiper-personaliza la experiencia, y aprende de la misma.

Este desarrollo utilizado por equipos banca/fintech, ERPs, desarrollo de software, y bajo el nombre de Atenea, nos permitió estár en el Top 6 de las mejores startup del 2025, en los Premios Sadosky 2025 de la Cámara de Software de Argentina (CESSI).

Podemos tener la mejor IA del mundo y tener respuestas al instante, pero para el aprendizaje, seguimos teniendo una “interfáz humana”.

Al menos por el momento, la adquisición de conocimientos no puede ser remplazada.

Desde Edvai soñamos con hacer posible una nueva forma de interactuar con el conocimiento a traves de la Inteligencia Artificial.

¿Por qué leer este libro?

Este libro facilitará el entendimiento de problemas comunes en el análisis de datos y machine learning.

Construir un modelo predictivo es tan complejo como 2 líneas de Python:

from sklearn.ensemble import RandomForestClassifier
mi_super_modelo = RandomForestClassifier()
mi_super_modelo.fit(mis_datos_complicados[['edad', 'compras']], target)

Eso es todo.

Pero, en la práctica los datos tienen su suciedad. Debemos esculpirlos, como hace un artista, para exponer su información y encontrar respuestas (y nuevas preguntas).

Hay muchos desafíos para resolver, algunos conjuntos de datos requieren más esculpido que otros. Para dar un ejemplo, random forest no acepta valores vacíos, ¿qué hacemos entonces? ¿Quitamos las filas que tienen conflictos? ¿O transformamos los valores vacíos en otros valores? ¿Cuál es la implicancia, en cualquier caso, para mis datos?

Además del problema de los valores vacíos, debemos enfrentar otras situaciones, como los valores extremos (outliers) que suelen sesgar no solamente el modelo en sí mismo, sino también la interpretación de los resultados finales. Es común “intentar adivinar” cómo interpreta el modelo predictivo cada variable (ordenando las mejores variables), y cuáles son los valores que aumentan (o disminuyen) la probabilidad de que ocurra algún evento (análisis numérico de variables).

Decidir el tipo de datos de las variables puede no ser algo menor. Una variable categórica podría ser numérica y viceversa, dependiendo del contexto, los datos, y el algoritmo mismo (algunos sólo pueden manejar un tipo de datos). Esta conversión también tiene sus propias implicancias en cómo el modelo ve las variables.

Este es un libro sobre la preparación de los datos, el análisis de los datos y machine learning. Generalmente, en la literatura, la preparación de los datos no es un tema tan popular como la creación de modelos de machine learning.

¿Qué roles leen este libro?

Data Scientist
Data Analyst
AI Engineer
Programadores
Profesores / Estudiantes

El camino del aprendizaje

El libro tiene un enfoque altamente práctico, e intenta demostrar lo que dice. Por ejemplo, dice: “Las variables trabajan en grupos.”, y luego encontrarán el código que apoya esa idea.

Prácticamente todos los capítulos pueden ser copiados y pegados y replicados por el lector para que extraiga sus propias conclusiones. Incluso, en las ocasiones que lo permitieron, el código o script propuesto (en lenguaje Python) fue pensado genéricamente, para que pueda ser utilizado en escenarios reales, ya sea con fines de investigación o laborales.

La semilla de este libro fue la biblioteca de R funModeling que comenzó a tener una documentación didáctica que rápidamente se convirtió en este libro. Esta edición en Python utiliza funpymodeling, la versión Python de la biblioteca original. Es didáctica porque hay una diferencia entre usar una simple función que grafica histogramas para analizar numéricamente la variable objetivo (ej: cross_plot), y la explicación sobre cómo llegar a las conclusiones semánticas. La intención es aprender el concepto interno.

Este libro, al igual que el desarrollo de un proyecto de datos, no es lineal. Los capítulos están relacionados entre sí. Por ejemplo, el capítulo sobre valores faltantes puede llevar al de reducción de la cardinalidad en variables categóricas. O pueden leer el capítuo sobre tipos de datos y luego cambiar la forma en la que lidian con valores faltantes.

Encontrarán referencias a otros sitios web para que puedan expandir su estudio, este libro es sólo otro paso en el camino del aprendizaje.

Leer este libro te hará ganar una intuición lógica. Te lo llevas para otras áreas de la vida.

¿Este libro es para mí? ¿Podré entenderlo?

Si te interesa el mudno de la inteligencia artificial, el análisis de datos, y querés ganar intuición en este mudno de patrones, sin duda. El libro va paso a paso por distintos lugares del mundo de Ciencia de Datos, con explicaciones detalladas.

Eso si, si están empezando una carrera en la ciencia de datos, enfrentarán un problema común de la educación: Tener respuestas a preguntas que aún no han sido formuladas.

Definitivamente se acercarán al mundo de la ciencia de datos. Todo el código está bien comentado, por lo que no es necesario que sean programadores para entenderlo. Ese es el desafío de este libro, tratar de que su lectura resulte amistosa, usando la lógica, el sentido común y la intuición.

Curso gratuito e introductorio de Python

Si no sabes nada de Python, te invito a realizar este curso gratuito de 2 horas, asincrónico, en Escuela de Datos Vivos para que aprendas todo lo necesario.

El objetivo es que aprendas Python orientado al mundo de datos.

Podés inscribirte aquí.

¿Las máquinas y la inteligencia artificial dominarán el mundo?

Aunque es cierto que el poder de la computación está aumentando exponencialmente, la rebelión de las máquinas está lejos de ocurrir hoy en día.

Este libro trata de exponer problemas comunes al crear y manejar modelos predictivos, mostrando que cada decisión tiene su implicancia. También hay una relación con soluciones de 1 solo click y ¡voilà! El sistema de predicción está instalado y ejecutándose. Toda la preparación de datos, transformaciones, uniones de tablas, consideraciones de tiempo, ajustes finos, etc se resuelve en un solo paso.

Tal vez lo sea. De hecho, a medida que pasa el tiempo, existen técnicas más robustas que nos ayudan a automatizar tareas en el modelado predictivo. Pero, por si acaso, sería una buena práctica no confiar ciegamente en las soluciones de caja negra sin saber, por ejemplo, cómo el sistema elige las mejores variables, cuál es el procedimiento interno para validar el modelo, cómo trata los valores extremos o raros, entre otros temas tratados en este libro.

Si están evaluando alguna plataforma de machine learning, algunos de los temas que se mencionan en este libro pueden ayudarlos a decidir cuál es la mejor opción. Intentando abrir la caja negra.

Es difícil tener una solución que se adapte a todos los casos. La intervención humana es crucial para tener un proyecto exitoso. En lugar de preocuparse por las máquinas, el punto es cuál será el uso de esta tecnología. La tecnología es inocente. Es el científico de datos quien establece los datos de entrada y da al modelo el objetivo necesario para aprender. Surgirán patrones, y algunos de ellos podrían ser perjudiciales para muchas personas. Tenemos que ser conscientes del objetivo final, como con cualquier otra tecnología.

La máquina la hace el hombre, y es lo que el hombre hace con ella.

Por Jorge Drexler (músico, actor y doctor). Citada de la canción “Guitarra y vos”.

Quizás, ¿podría esta ser la diferencia entre machine learning y ciencia de datos? ¿Una máquina que aprende vs. un ser humano haciendo ciencia con los datos?

Una pregunta abierta.

¿Qué necesito para empezar?

En términos generales, tiempo y paciencia. La mayoría de los conceptos son independientes del lenguaje, pero cuando vemos un ejemplo técnico lo probamos en Python (versión 3.8 o superior).

El libro utiliza las siguientes bibliotecas principales:

funpymodeling (0.2.0+): Biblioteca Python equivalente a funModeling de R, con funciones para análisis exploratorio y preparación de datos
pandas (1.5+): Manipulación y análisis de datos
numpy (1.23+): Computación numérica
matplotlib (3.6+): Visualización de datos
seaborn (0.12+): Visualización estadística
scikit-learn (1.2+): Machine learning
scipy (1.10+): Computación científica
minepy (1.2+): Análisis de información mutua (equivalente a minerva en R)

Instalen las dependencias usando: pip install -r requirements.txt.

El entorno de desarrollo recomendado es Google Colab y/o Visual Studio Code.

Este libro fue creado usando Quarto, el sistema de publicación científica y técnica de código abierto.

¡Ojalá lo disfruten!

¿Cómo puedo contactarme? Mis redes

Si quieren decir hola, contribuir comentando que alguna sección no está bien explicada, sugerir un nuevo tema o compartir una buena experiencia que tuvieron al aplicar algún concepto explicado aquí, pueden enviarme un e-mail a:

pcasas.biz (arroba) gmail.com. Estoy aprendiendo constantemente, así que es lindo intercambiar conocimiento y estar en contacto con colegas.

Seguime para estar actualizado en IA:

Otros links:

Redes oficiales de Edvai:

Redes oficiales de Escuela de Datos Vivos

Agradecimientos

En primer lugar a mis padres, por su constante apoyo y confianza en el camino del aprendizaje.

A Débora G. Cuniglio, por la revisión del libro y el apoyo para seguir construyendo el futuro de la educación con IA.

Agradecimientos especiales a dos mentores que me han acompañado en este mundo de los datos, Miguel Spindiak y Marcelo Ferreyra.

Gracias a mi amigo y colega, Pablo Seibelt, que ademas hizo la revisión técnica del libro en R: Pablo Seibelt (Sicarul).

Y a los protagonistas silenciosos de Los nadies, un cuento corto escrito por Eduardo Galeano.

Información del libro

Publicado original en inglés (versión en R): [Data Science Live Book] (https://livebook.datascienceheroes.com/)

Con licencia Attribution-NonCommercial-ShareAlike 4.0 International.

ISBN: 978-631-01-4252-4 (versión papel original).