Innova Skynet: Innovación Tecnológica: aprendizaje automático

Mostrando entradas con la etiqueta aprendizaje automático. Mostrar todas las entradas

lunes, 29 de septiembre de 2014

Usando Ensembles para mejorar las predicciones

Si te has iniciado con BigML, ya conoces que trabaja con modelos basados en árboles de decisiones.

Estos árboles son usados para encontrar patrones en los datos con los que realizar las predicciones. A grandes rasgos, un proceso de predicción parte de una serie de datos históricos que sirven para entrenar un modelo (o árbol) en el que se visualizan los patrones y las relaciones entre los datos. Para hacer una predicción, los nuevos datos entran en la caja negra (el árbol) y el sistema predice el resultado en función de a qué rama del árbol pertenecen.

Los "ensembles" son también llamados Bosques de Decisión ( Decision Forests en ingles). Estos usan varios árboles para hacer una predicción, y son una herramienta muy potente que sirve para mejorarla.

El concepto que se esconde detrás de los ensembles es sencillo: En vez de entrenar con un único árbol de decisiones, se utilizan varios, cada uno de ellos con un subconjunto aleatorio de datos. Cada árbol hace su predicción, y gana la predicción en la que coinciden la mayoría de los árboles. Por ejemplo, en un ensemble de 10 árboles, si la predicción de 8 de ellos es que un cliente "sí se dará de baja" de un servicio (y los otros 2 predicen que no), la predicción final será que "sí se dará de baja".

Nos preguntamos: ¿por qué todo este lío?¿Por qué no entrenar un único árbol y punto?

Existen diversos estudios que responden a estas preguntas desde un punto de vista académico, pero para poder entenderlo hacemos referencia a Charles Parker en un artículo del blog de BigML. Si quieres profundizar más en este concepto, visita el artículo original y sus enlaces.

Pensemos en predecir qué restaurantes son los que mejor calidad y servicio ofrecen. Una posibilidad es ir a todos los restaurantes, probarlos y darles una nota a cada uno. Pero no parece algo razonable. Lo que se suele hacer es preguntar a los amigos, revisar los menús, eliminar los que de forma evidente los que no nos gustan y comer en aquellos que pensamos que tienen bastante probabilidad de ser buenos.

Si llevamos esta analogía al campo del Machine Learning, un ensemble es como si un grupo de personas buscasen un buen restaurante en una misma zona y entre todos votasen cuál es el mejor.

Paso 1: Cómo usar ensembles con BigML

Pasemos a la parte práctica y veamos qué efecto tiene sobre la confianza de las predicciones. Usaremos el dataset que ya hemos trabajado en un artículo anterior.

Tras abrir el dataset, la forma más sencilla de crear un ensemble es hacer clic en 1-CLICK ENSEMBLE, situado en el menú desplegable de la nube con un rayo:

Esta operación tarda unos segundos, luego aparecerán los 10 modelos (en dos páginas de 5 cada una) con algunas pinceladas sobre la distribución de datos y la distribución que se predice. Si haces clic en un modelo, podrás ver su árbol de decisiones y trabajar sobre él.

Paso 2: Predicciones con ensembles

Cuando hagamos una predicción, la instancia o instancias pasarán por los 10 modelos y se tomará como correcta aquella predicción que democráticamente digan los 10 modelos. Si queremos evitar resultados ambiguos cuando 5 modelos predicen TRUE y los otros 5 predicen FALSE, tendremos que usar un número impar de modelos. En nuestro caso hemos hecho una predicción individual en la que 8 modelos han predicho TRUE y 2 FALSE . Por tanto la predicción final es TRUE.

Ahora toca analizar y ver en qué medida mejora este ensemble los resultados del modelo individual del artículo anterior. Una forma de hacerlo es pasar el dataset del 20% por una Batch Prediction, exportar el resultado a Excel y ver en qué medida ha acertado las predicciones (predicciones correctas/total predicciones).

Si queremos ahorrarnos ese trabajo, podemos usar las propias herramienta que proporciona BigML: evaluaciones y comparación de evaluaciones. Según nuestros cálculos, la precisión del modelo individual es del 92,90%, mientras que el ensemble de 10 modelos aumenta al 95,50%, o sea un 3,6% más.

Conclusión

El uso avanzado de los ensembles puede aumentar considerablemente esta cifra. Mira en CONFIGURE ENSEMBLE al visualizar un dataset y verás ver las posibilidades que nos ofrecen.

Fuente: clevertask

Tutorial de BigML, un ejemplo práctico para conocer Machine Learning

Para trabajar con Machine Learning en BigML, solo tienes que aplicar 3 pasos:

Crear un dataset (Recopilación de un conjunto de datos históricos de valor).
Crear un modelo con los datos (Entrenar un algoritmo).
Realizar las predicciones (Ejecutar el algoritmo).

Suena complicado, pues verás que fácil es.

Ejemplo práctico

Vamos a ver un ejemplo práctico de cómo explotar los datos que tenemos en la empresa para tomar decisiones, en este caso evitar que un cliente se dé de baja de nuestros servicios.

Imaginemos una empresa ficticia que ofrece servicios de telefonía. El objetivo que pretende nuestra empresa es mantener los clientes, por lo tanto, la pregunta es: ¿un cliente seleccionado se va a dar de baja en los siguientes X meses?. Las posibles respuestas son dos: sí o no. (será nuestra predicción).

Paso 1: Crear un dataset

Una de las tareas más importantes en el proceso de predicción es la selección y preparación de los datos para entrenar al sistema. Muchas veces pensamos que teniendo más datos, mejores serán las predicciones. Pero en la realidad no funciona así, se necesitan datos de calidad y bien estructurados. Si los datos que hemos seleccionados no son de calidad lo que estamos haciendo es introducir ruido en el sistema produciendo predicciones de poco valor o nulas. Aunque durante el proceso de entrenamiento del algoritmo el propio sistema puede detectar y descartar datos que considera superfluos, es importante hacer una labor de selección de datos que tengan sentido para responder la pregunta que nos estamos haciendo.

En nuestra empresa ficticia, vamos a representar cada cliente con algunos datos clave de su cuenta, por ejemplo, su antigüedad y el número de llamadas que ha realizado. La pieza mínima de información que usamos para definir el perfil de los clientes se llama característica (feature en inglés). El conjunto de clientes, junto con sus características, forman una dataset (un fichero CSV) que es el que utilizaremos para realizar las predicciones.

Características del dataset

Para predecir las bajas de un servicio de telefonía podríamos dividir las características en 4 grupos:

Características del cliente: datos básicos del usuario (por ejemplo edad, sexo, ciudad de residencia).
Características de soporte: son datos sobre la interacción del usuario con el servicio de atención al usuario (número de llamadas, cuestiones planteadas, valoración de su satisfacción).
Características de uso: uso que hace el cliente del sistema (número de interacciones con el servicio, planes contratados, gasto mensual).
Características adicionales o de contexto: otro tipo de información útil para la predicción (por ejemplo, antigüedad del cliente).

Usaremos un fichero que se encuentra a nuestra disposición en BigML para predecir las bajas de clientes en una empresa ficticia de telefonía. Al ser un ejemplo, las características no se ajustan exactamente a las que desearíamos, pero nos sirve para ilustrar el proceso de predicción.

El fichero que usaremos es un CSV tiene información de 3.333 abonados y tiene este aspecto:

Cada fila corresponde a un cliente, con sus características y en la última columna se indica si ese cliente se dio de baja o no (columna "churn"). El fichero original lo hemos dividido en dos.Una parte con el 80% de los datos para crear un modelo (entrenar el sistema). El otro 20% restante para verificar si el modelo hace buenas predicciones.

Si no tienes cuenta en BigML , create una (es gratis). En el panel de control (Dashboard), pulsa en el icono de la carpeta y selecciona el fichero con el 80% de los datos en tu ordenador o simplemente arrástralo desde el escritorio al espacio de trabajo (drag&drop).

Una vez subido, el fichero aparecerá en la lista de Sources:

Pulsando en el nombre del fichero que has subido, podrás ver una muestra de los datos (hasta 25 instancias). Observa que las filas se han convertido en columnas y las columnas en filas:

Como puedes observar, BigML ha detectado el tipo de dato de cada característica. En este caso sólo tenemos datos de texto y datos numéricos, representados por ABC y 123 respectivamente.

Una vez subidos los datos, procedemos a crear un Dataset, es decir, transformar el CSV en un formato que BigML puede entender y tratar. De esta forma podremos realizar un análisis previo de los datos.

Con un clic en el icono de la nube representado con un rayo creamos el Dataset en "1-CLICK DATASET":

Aparecerá la siguiente ventana:

Una vez que tenemos el dataset podemos hacer un pre-análisis de los datos. En la parte derecha, podemos visualizar los histogramas, que sirven para analizar la variación y distribución de cada característica. (Pasa el ratón por delante de las figuras para ver sus propiedades). Es interesante fijarnos en la última fila, que BigML ha marcado con una diana para indicar que es el campo objetivo, es decir, el campo que utilizaremos para predecir (automáticamente se asigna como objetivo la última columna del fichero, pero se puede cambiar):

También hay que destacar que la primera fila State, que tiene una admiración con la leyenda This field is not preferred. El sistema ha detectado que este campo no es significativo para hacer predicciones de bajas, ya que tal y como se ve en el histograma, es un dato que se puede considerar aleatorio. Es un dato que pensábamos que podría ser interesante para hacer la predicción, pero BigML lo descarta por no aportar valor y porque puede introducir ruido en las predicciones (aunque podríamos usarlo si consideramos que BigML se ha equivocado en su valoración).

¿Interesante hasta ahora no? pues espera a ver lo que viene.

Paso 2: Crear un modelo de datos

Tras crear el Dataset, procedemos a crear y entrenar el modelo. En este paso BigML va a detectar los patrones de comportamiento que llevan a los clientes a darse de baja. En la vista de Dataset hacemos clic de nuevo en el icono de la nube representado con el rayo y pulsamos esta vez en "1-CLICK MODEL":

Aparecerá una ventana con el árbol de patrones:

¿Qué es un árbol de patrones? pues este representa un modelo en el que cada nodo está asociado con una pregunta a un valor de una característica, con un número de posibles respuestas representadas por las ramas, en el que las hojas se asocian a los valores de salida. La respuesta a la primera pregunta está en el nodo superior. Según se baja por los nodos del árbol se van respondiendo a más preguntas. El valor del último nodo nos da la predicción del modelo. Cada nodo lleva asociada una confianza en porcentaje.

Hasta este punto tenemos el modelo entrenado con datos históricos. El sistema ha detectado los patrones junto con la confianza de cada uno. Llego el momento de realizar las predicciones.

Paso 3: Realizar predicciones

Existen varias formas de realizar las predicciones. En este ejemplo usaremos una de las más sencillas. Se trata de una predicción individual, de un único cliente, con las características que nosotros definamos.

Para empezar, en la vista del modelo pulsa en el icono de la nube representado con el rayo y después en "PREDICT":

Automáticamente aparece una pantalla para poner un valor a cada una de las características:

Selecciona los valores que desees y pulsa en el botón verde inferior "Predict".

¿Qué valores has puesto?¿Qué predice el modelo para este abonado?

Una predicción "uno a uno" no es práctica para muchos escenarios y ejemplos. Para predicciones "masivas" podemos usar un fichero de entrada con los datos de todos los usuarios de los que queremos hacer predicciones. Esta se realiza desde la opción "BATCH PREDICTION" que habrás visto al pulsar la última vez en el icono de la nube representado con el rayo.

Esta opción, además de servir para hacer predicciones masivas, sirve para verificar si el modelo está funcionando correctamente.

¿Te acuerdas del fichero con el 20% de los datos?

Es hora de usarlo. Hay que subirlo, crear un Dataset y hacer predicciones "Batch Prediction".

¿Ya lo has hecho?

El modelo que hemos creado, ¿está haciendo predicciones fiables?¿Qué porcentaje de las predicciones ha acertado? Te adelantamos que este modelo se puede mejorar, pero eso lo explicaremos en el artículo "Ensembles".

Conclusiones

Una herramienta como BigML puede facilitarnos el trabajo de realizar predicciones. Si queremos integrar una aplicación para darle un valor agregado sin programar nada, podriamos entrar en unos de sus planes de pago y utilizarla con un costo razonable.

Solamente te digo que de la misma manera que este ejemplo facilita la información de cómo predecir las bajas, ¿por qué no predecir cuál es el plan más adecuado para cada cliente? Los datos están ahí. Es hora de empezar a explotarlos para ayudar a la evolución de tu empresa. Ya no es necesario instalar infraestructuras dedicadas con grandes costes de implementación y gestión. ¿Te animas?

Fuente: clevertask

Ficheros Disponibles:

Artículo de interés: Usando Ensembles para mejorar las predicciones

domingo, 28 de septiembre de 2014

Machine Learning fácil con Java

Hay una serie de librerías disponibles en Java para el Aprendizaje Automático (Machine Learning) que facilitan la construcción de aplicaciones inteligentes. Una de las opciones más conocidas y populares es Weka. Si requieres un tratamiento con grandes cantidades de datos (Big Data), la librería Java de Apache Mahout nos facilita el trabajo. Sin embargo, en ambos casos no puedes evitar "la diversión de crear lineas de código complejas, ejecutar servidores, instalación de múltiples paquetes, escribir Jobs de tipo MapReduce, etc." Además, necesitas preocuparte de seleccionar y parametrizar el mejor algoritmo de aprendizaje para los datos, así como encontrar una manera de activar e integrar el modelo generado dentro de tu aplicación.

Para aquellas personas que han trabajado poco con Machine Learning, o aquellos que no desean programar horas y horas de código, existe una solución. BigML nos ofrece una nueva alternativa que conecta cualquier aplicación java con la API REST de BigML. Con esta librería, y tan sólo unas pocas lineas de código, puedes crear un modelo predictivo y generar pronósticos para cualquier dominio de negocios en la que se encuentra tu aplicación. Es aplicable a muchos ejemplos: desde encontrar el mejor precio para los nuevos productos, pasando por el pronóstico de ventas, la creación de recomendaciones, para el diagnóstico o detección de anomalías, entre muchas más.

Si quieres aprender Machine Learning con un ejemplo práctico, te recomiendo que sigas el siguiente artículo: Tutorial de BigML con un ejemplo práctico para conocer Machine Learning