• Alejandro Ramírez

¿Podemos aplicar Machine Learning sin saber programar?

Las opiniones que surgieron luego del estreno de The Social Dilemma fueron variadas (y algunas muy erróneas). A los que saben de tecnología, el documental les brindó perspectiva, a los que no saben, les causó temor el estar controlados por el malvado Dr. Algoritmo. A los que somos curiosos, el documental nos dejó más preguntas que respuestas ¿se necesitan muchos años de experiencia y ser un genio de la programación para lograr replicar al malvado Dr. Algoritmo? ¿podríamos aplicar tecnología basada en datos y comportamientos a otras esferas de la vida? ¿por donde puedo empezar?.


No se llama Dr. Algoritmo, tampoco es malvado. Su nombre es Machine Learning, según IBM: “Machine Learning es una forma de la Inteligencia Artificial que permite a un sistema aprender de los datos en lugar de aprender mediante la programación explícita”, básicamente es una combinación de modelos estadísticos alimentados por grandes bases de datos que se conectan con lenguaje de programación, y que identifica patrones o asociaciones que han sido obviadas por los humanos, en un proceso que se conoce como el aprendizaje iterativo.


Es complejo de lograr, requiere conocimiento en estadística, grandes bases de datos y habilidades en lenguajes de programación como Python. Sin embargo, a través de una herramienta llamada Big Machine Learning (bigml.com) podemos aplicar muchas de las ventajas del machine learning sin la necesidad de tener robustos conocimientos en programación (en estadística, sí recomiendo tenerlos).


BigML es una plataforma de machine learning que permite hacer análisis predictivo de una manera sencilla. Todo lo que necesitamos es un conjunto de datos propio, de la universidad o empresa donde estemos, y si no contamos con uno, BigML cuenta con una biblioteca de datos con la que podemos practicar.


Una vez tenemos cargado nuestro conjunto de datos, BigML nos visualiza una muestra del total de los datos que estamos usando y nos clasifica las variables según el tipo de dato (numérico, texto, fecha, binario, etc.). En mi caso, estaré usando un conjunto de datos relacionado con personas con diabetes, como se ve en la figura 1

  • Figura 1:

Para empezar el análisis, se pueden graficar todas las variables del conjunto de datos y así tener una mirada completa de cada una de las variables, BigML nos agrega una útil pestaña de análisis estadístico que nos incluye varias métricas por variable tales como el promedio, la desviación estándar, la mediana, entre otras, como está en la figura 2.

  • Figura 2: 

Ahora sí viene la promesa, usar análisis predictivo con machine learning a través de un modelo de análisis supervisado. Según IBM: “El aprendizaje supervisado comienza típicamente con un conjunto establecido de datos y una cierta comprensión de cómo se clasifican estos datos. El aprendizaje supervisado tiene la intención de encontrar patrones en datos que se pueden aplicar a un proceso de analítica”. Aplicando este modelo, se obtiene un árbol de decisión como el de la figura 3. De este árbol se pueden extraer diferentes reglas de predicción que aplican para momentos específico del caso a analizar.

  •  Figura 3:

El árbol de decisión de la figura 3 se ve complejo de entender, pero BigML nos permite extraer cualquier regla de predicción que queremos analizar. Para la figura 4, se extrae una regla de un caso de un grupo de mujeres de 28 años o menos, que hayan tenido máximo dos embarazos, con un nivel de glucosa en la sangre menor a 129 y un índice de masa corporal de 30,16 o menos. Para este caso, la conclusión es que el grupo descrito en la regla tiene una alta probabilidad de no tener diabetes, con un nivel de confianza de 96 % en esta regla.

  • Figura 4:

Pero ¿ese ejemplo de modelo predictivo en qué variables está basado? Pues bien, a través de una funcionalidad denominada Supervisión del modelo, podemos extraer qué variables del conjunto de datos pesan más dentro del modelo. En el caso de personas con diabetes, evidentemente el nivel de glucosa en la sangre es la variable más relevante dentro del mismo, seguido del índice de masa corporal y de la edad (figura 5). 

  •  Figura 5:

Sin duda, el mayor provecho que se le puede sacar a este modelo y otros disponibles dentro de BigML son las predicciones manuales que se pueden hacer. Por medio de un tablero de control, como el que se tiene en la figura 6, se puede modificar las variables al antojo del usuario y obtener predicciones con distintos niveles de confianza, las cuáles son útiles para tomar decisiones basadas en datos.

  • Figura 6:

Es increíble el alcance que se puede lograr en machine learning y la inteligencia artificial, la cuál puede ser aplicable a cualquier situación en la que se necesite tomar constantemente decisiones en muchos campos (publicidad, servicio al cliente, salud, educación, etc.), contar con herramientas que nos acerquen fácilmente a este propósito, simplificará la vida de todas las personas y empresas.


Por último, The Social Dilemma y los efectos de los algoritmos de las redes sociales preocupan, pero esas preocupaciones se curan es leyendo, siendo críticos y fortaleciendo el criterio personal, no yendo en contra de la tecnología. 

Entradas Recientes

Ver todo

¡Bienvenido a ElRami.com!