Prefacio

Acerca de esta edición

Finalmente disponible la versión en español del Data Science Live Book! El libro se abre sin barreras idiomáticas ante las personas de habla-hispana con ganas de aprender.

Esta publicación es una edición revisada tanto en gramática como en aspectos técnicos de la versión en inglés.

El Data Science Live Book, junto con dos artículos de como auto-publicar un libro usando bookdown, fueron premiados por RStudio en el 1st Bookdown Contest.

El objetivo es que puedan acercarse con un enfoque intutitivo y práctico al mundo de la ciencia con datos, el arte del descubrimiento.

Acerca de mí

Año 2006, comencé mi carrera como Ingeniero en Sistemas de Información en la Universidad Tecnologíca Nacional de Buenos Aires, dónde me recibí unos años despues, pero lo mejor fue que ese primer año de facultad asistí a un “seminario de IA y robótica” y allí ocurrió el evento que cambiaría mi vida, y cuyo resultado es que vos estés leyendo estas líneas:

¿Podía aprender una máquina?

Si, y la respuesta fue: Redes Neuronales Artificiales. Boom! me explotó la cabeza al ver como un algoritmo matemático podía hacer que “algo” aprendiece.

Encontre un propósito y no paré de aprender.

Luego trabajé como Data Scientist en distintas empresas e industrias. Incluso llegando a ser el 1er Data Scientist del unicornio Auth0 (tiempo para el cual publiqué la 1er version de este libro).

Año 2020 comencé a emprender con Escuela de Datos Vivos, junto a la cofundadora Debora G. Cuniglio donde ya nuestra tésis de grado fue de un sistema para universidades. La educación siempre me interpelo.

Escuela de Datos Vivos es nuestra vertical de negocio de cursos y bootcamps en Data e IA para profesionales. Hemos entrenado a mas de 10.000 personas.

Era el año 2022, lanzamos luego de una investigación exaustiva nuestro primer tutor de IA que guiaba a los alumnos, estamos hablando de el año bisagra de la IA, por el lanzamiento de ChatGPT. Nuestro lanzamiento se adelanto 2 meses a este hito.

Al ver que la educación de nuestros alumnos mejoraba, decidimos exportar la tecnología y solucionar los problemas que tenian las empresas en gestión del conocimiento y aprendizaje.

Hicimos un spin-off de la empresa bajo el nombre de Edvai, y comenzamos junto a Débora a trabajar en la vertical encargada de cambiar la forma en la que las empresas interactuan con su conocimiento. Ambicioso.

Nuestro agente de IA mejora los tiempos de acceso al conocimiento, y de aprendizaje para los los colaboradores. Pudiendose adaptar para asistir a equipos de soporte, experiencia al cliente, aprendizaje (entre otros), con solo conectarse al conocimiento de la organización.

Aprender a usar una aplicación es complejo, por eso diseñamos lo que para nosotros será el futuro de la asistencia por IA: un tutor IA que es capas de, por ejemplo, ver un webinar/tutorial sobre como usar un producto, y generar un plan de aprendizaje, y asistir pro-activamente a cada usuario, y resolver tareas en una fracción del tiempo.

Nuestro agente hiper-personaliza la experiencia, y aprende de la misma.

Este desarrollo utilizado por equipos banca/fintech, ERPs, desarrollo de software, y bajo el nombre de Atenea, nos permitió estár en el Top 6 de las mejores startup del 2025, en los Premios Sadosky 2025 de la Cámara de Software de Argentina (CESSI).

Podemos tener la mejor IA del mundo y tener respuestas al instante, pero para el aprendizaje, seguimos teniendo una “interfáz humana”.

Al menos por el momento, la adquisición de conocimientos no puede ser remplazada.

Desde Edvai soñamos con hacer posible una nueva forma de interactuar con el conocimiento a traves de la Inteligencia Artificial.

¿Por qué leer este libro?

Este libro facilitará el entendimiento de problemas comunes en el análisis de datos y machine learning.

Construir un modelo predictivo es tan complejo como una línea de código en R:

mi_super_modelo=randomForest(target ~ var_1 + var_2, mis_datos_complicados)

Eso es todo.

Pero, en la práctica los datos tienen su suciedad. Debemos esculpirlos, como hace un artista, para exponer su información y encontrar respuestas (y nuevas preguntas).

Hay muchos desafíos para resolver, algunos conjuntos de datos requieren más esculpido que otros. Para dar un ejemplo, random forest no acepta valores vacíos, ¿qué hacemos entonces? ¿Quitamos las filas que tienen conflictos? ¿O transformamos los valores vacíos en otros valores? ¿Cuál es la implicancia, en cualquier caso, para mis datos?

Además del problema de los valores vacíos, debemos enfrentar otras situaciones, como los valores extremos (outliers) que suelen sesgar no solamente el modelo en sí mismo, sino también la interpretación de los resultados finales. Es común “intentar adivinar” cómo interpreta el modelo predictivo cada variable (ordenando las mejores variables), y cuáles son los valores que aumentan (o disminuyen) la probabilidad de que ocurra algún evento (análisis numérico de variables).

Decidir el tipo de datos de las variables puede no ser algo menor. Una variable categórica podría ser numérica y viceversa, dependiendo del contexto, los datos, y el algoritmo mismo (algunos sólo pueden manejar un tipo de datos). Esta conversión también tiene sus propias implicancias en cómo el modelo ve las variables.

Este es un libro sobre la preparación de los datos, el análisis de los datos y machine learning. Generalmente, en la literatura, la preparación de los datos no es un tema tan popular como la creación de modelos de machine learning.

El camino del aprendizaje

El libro tiene un enfoque altamente práctico, e intenta demostrar lo que dice. Por ejemplo, dice: “Las variables trabajan en grupos.”, y luego encontrarán el código que apoya esa idea.

Prácticamente todos los capítulos pueden ser copiados y pegados y replicados por el lector para que extraiga sus propias conclusiones. Incluso, en las ocasiones que lo permitieron, el código o script propuesto (en lenguaje R) fue pensado genéricamente, para que pueda ser utilizado en escenarios reales, ya sea con fines de investigación o laborales.

La semilla de este libro fue la biblioteca de R funModeling que comenzó a tener una documentación didáctica que rápidamente se convirtió en este libro. Es didáctica porque hay una diferencia entre usar una simple función que grafica histogramas para analizar numéricamente la variable objetivo (cross_plot), y la explicación sobre cómo llegar a las conclusiones semánticas. La intención es aprender el concepto interno, para que puedan exportar ese conocimiento a otros lenguajes, como Python, Julia, etc.

Este libro, al igual que el desarrollo de un proyecto de datos, no es lineal. Los capítulos están relacionados entre sí. Por ejemplo, el capítulo sobre valores faltantes puede llevar al de reducción de la cardinalidad en variables categóricas. O pueden leer el capítuo sobre tipos de datos y luego cambiar la forma en la que lidian con valores faltantes.

Encontrarán referencias a otros sitios web para que puedan expandir su estudio, este libro es sólo otro paso en el camino del aprendizaje.

¿Este libro es para mí? ¿Podré entenderlo?

Si ya están en el campo de la ciencia de datos, probablemente no crean que es para ustedes. Tomarán el código que necesiten, lo copiarán y pegarán si así lo desean, y listo.

Pero, si están empezando una carrera en la ciencia de datos, enfrentarán un problema común de la educación: Tener respuestas a preguntas que aún no han sido formuladas.

Definitivamente se acercarán al mundo de la ciencia de datos. Todo el código está bien comentado, por lo que no es necesario que sean programadores para entenderlo. Ese es el desafío de este libro, tratar de que su lectura resulte amistosa, usando la lógica, el sentido común y la intuición.

Lenguaje de programación

Podrían aprender un poco de R, pero puede resultar difícil aprenderlo directamente de este libro. Si quieren aprender programación en R, hay otros libros o cursos especializados en programación.

Es hora de la siguiente sección.

¿Las máquinas y la inteligencia artificial dominarán el mundo? 😱

Aunque es cierto que el poder de la computación está aumentando exponencialmente, la rebelión de las máquinas está lejos de ocurrir hoy en día.

Este libro trata de exponer problemas comunes al crear y manejar modelos predictivos, mostrando que cada decisión tiene su implicancia. También hay una relación con soluciones de 1 solo click y ¡voilà! El sistema de predicción está instalado y ejecutándose. Toda la preparación de datos, transformaciones, uniones de tablas, consideraciones de tiempo, ajustes finos, etc se resuelve en un solo paso.

Tal vez lo sea. De hecho, a medida que pasa el tiempo, existen técnicas más robustas que nos ayudan a automatizar tareas en el modelado predictivo. Pero, por si acaso, sería una buena práctica no confiar ciegamente en las soluciones de caja negra sin saber, por ejemplo, cómo el sistema elige las mejores variables, cuál es el procedimiento interno para validar el modelo, cómo trata los valores extremos o raros, entre otros temas tratados en este libro.

Si están evaluando alguna plataforma de machine learning, algunos de los temas que se mencionan en este libro pueden ayudarlos a decidir cuál es la mejor opción. Intentando abrir la caja negra.

Es difícil tener una solución que se adapte a todos los casos. La intervención humana es crucial para tener un proyecto exitoso. En lugar de preocuparse por las máquinas, el punto es cuál será el uso de esta tecnología. La tecnología es inocente. Es el científico de datos quien establece los datos de entrada y da al modelo el objetivo necesario para aprender. Surgirán patrones, y algunos de ellos podrían ser perjudiciales para muchas personas. Tenemos que ser conscientes del objetivo final, como con cualquier otra tecnología.

La máquina la hace el hombre, y es lo que el hombre hace con ella.

Por Jorge Drexler (músico, actor y doctor). Citada de la canción “Guitarra y vos”.

Quizás, ¿podría esta ser la diferencia entre machine learning y ciencia de datos? ¿Una máquina que aprende vs. un ser humano haciendo ciencia con los datos? 🤔

Una pregunta abierta.

¿Qué necesito para empezar?

En términos generales, tiempo y paciencia. La mayoría de los conceptos son independientes del lenguaje, pero cuando vemos un ejemplo técnico lo probamos en lenguaje R, (R version 4.3.1 (2023-06-16)).

El libro utiliza las siguientes bibliotecas, (entre paréntesis se encuentra la versión del paquete):

## funModeling (1.9.5), dplyr (1.1.2), Hmisc (5.1.0)
## reshape2 (1.4.4), ggplot2 (3.4.2), caret (7.0.1)
## minerva (1.5.10), missForest (1.5), gridExtra (2.3)
## mice (3.16.0), Lock5Data (3.0.0), corrplot (0.95)
## RColorBrewer (1.1.3), infotheo (1.2.0.1)

El paquete funModeling fue el origen de este libro: comenzó como un conjunto de funciones para ayudar al científico de datos en sus tareas diarias. Ahora su documentación evolucionó y se convirtió en este libro ❤️!

Instalen cualquiera de estas utilizando: install.packages("PACKAGE_NAME").

El Entorno de Desarrollo Integrado (IDE por Integrated Development Environment en inglés) recomendado es Rstudio.

Este libro, tanto en PDF como formato web, fue creado en Rstudio, usando el increíble Bookdown.

Todo es gratis y de código abierto, Bookdown, R, Rstudio y este libro 🙂

Pueden revisar el detrás de escena de como fue generado el libro en bookdown, y como publicarlo en Amazon en: How to self-publish a book: A handy list of resources y How to self publish a book: customizing Bookdown.

¡Ojalá lo disfruten!

¿Cómo puedo contactar al autor? 📩

Si quieren decir hola, contribuir comentando que alguna sección no está bien explicada, sugerir un nuevo tema o compartir una buena experiencia que tuvieron al aplicar algún concepto explicado aquí, pueden enviarme un e-mail a:

pcasas.biz (arroba) gmail.com. Estoy aprendiendo constantemente, así que es lindo intercambiar conocimiento y estar en contacto con colegas.

Además, pueden referirse a los repositorios de Github para ambos, el libro y funModeling, para reportar bugs, enviar sugerencias, nuevas ideas, etc:

Agradecimientos

Agradecimientos especiales a mis mentores en este mundo de los datos, Miguel Spindiak y Marcelo Ferreyra.

Revisión técnica del libro: Pablo Seibelt (aka The Sicarul) 🛠. Gracias por tu ayuda sincera y desinteresada.

El arte de la tapa fue hecho por: Bárbara Muñoz🎨.

Este libro está dedicado a Los nadies, un cuento corto escrito por Eduardo Galeano, y a mis padres.

Información del libro

Traducción del inglés al español por: Valentina Varas. Revisión por Pablo Casas.

Publicado original en inglés: Data Science Live Book

Publicación en español: LibroVivoDeCienciaDeDatos.ai.

Con licencia Attribution-NonCommercial-ShareAlike 4.0 International.

ISBN: 978-987-783-715-5 (versión eBook).

Libro Vivo de Ciencia de Datos en R