[MÚSICA] [MÚSICA] [MÚSICA] Una vez que ya tenemos claro el problema de negocio y su objetivo la siguiente fase es la comprensión de datos. En esta fase vamos a identificar las fuentes de información y analizar su conveniencia para su posterior captura y almacenamiento. Las etapas de esta fase son: el inventario de información, la identificación de fuentes, la disponibilidad de las fuentes, la relación de la información y por último la representación funcional de los datos. En esta fase todavía no tenemos datos, todavía estamos analizando los datos desde un punto de vista conceptual y el primer paso es hacer inventario de información. Cogemos el folio en blanco, ¿cuál sería o cuál es la información que nos gustaría tener? ¿Cuál sería la información adecuada para el problema de negocio? Entonces lo que tenemos que hacer es hacer un listado de la información que sería necesaria tener, para esto lo mejor es considerar con conocimientos expertos del problema de negocio, gente de negocio que nos puedan ayudar. Un vez que tenemos esa lista de la información que nos gustaría tener lo siguiente es identificar las fuentes de información asociadas. ¿Dónde se encuentra esa información? ¿O dónde podría estar esa información? ¿Se trata de fuentes internas? ¿Se trata de fuentes externas? Por ejemplo, ¿también podrían ser redes sociales? ¿Podría ser open data? Lo importante es identificar dónde se encuentran esos conceptos de información para poder analizar la dificultad de capturar y almacenar esa información. Una vez que tengamos identificada la información lo que nos queda es plantearnos un doble check, ¿esa información que queremos identificada la fuente podemos capturarla y almacenarla? ¿O no? Si podemos capturarla y almacenarla o si ya la tenemos capturada y almacenada perfecto, si no podemos actualmente por problemas técnicos, tecnológicos o por algún otra causa lo que tendremos que hacer es un plan de adquisición de fuentes para que a futuro tengamos disponible toda esa información para enriquecer nuestros análisis. Por lo tanto lo importante es tener claro en este punto si es o no es accesible la información antes de empezar a trabajar con ella. Una vez que tengamos la información entonces ya bajamos al dato, ya bajamos a la información que tenemos capturada y almacenada y los que nos planteamos es, ¿estos datos cómo se generan? Inicialmente los datos son puntos en el espacio, son datos independientes y lo que tenemos que plantearnos es, ¿cómo podemos relacionar todos estos conceptos? Claro si yo piensos en los datos que ya tengo en la red puedo tener redes sociales, puedo hacer transacciones con tarjeta de crédito, puedo enviar un Whatsapp a un amigo, toda esa información que es mía no está tan claro que sea mía porque no hay un identificador único común que me permita integrarlo todo. Entonces es muy importante comenzar a encontrar esos identificadores que nos van a permitir agrupar esa información y ver si somos capaces de tener un identificador único. Entonces nos podemos encontrar que vamos dejando información por nuestro correo electrónico, vamos dejando información de pagos que pagamos en efectivo que pagamos con tarjeta, los mensajes que hacemos con el móvil. El problema fundamental siempre de la relación de información es cómo puedo yo relacionarla y esto es crítico porque sino tendríamos mucha información inconexa, independiente y no tendríamos la visión global. Así que es muy importante hacer un esfuerzo de entender cómo se relacionan los datos o sino crear una regla que nos permita relacionar los datos. Por último todos esos datos una vez que los tengamos relacionados tenemos que hacer un relación funcional desde los datos en donde veamos a nivel conceptual esos conceptos cómo se relacionan. Como por ejemplo en los datos que vemos en pantalla podemos ver que hay personas, donde tenemos datos de redes sociales de esas personas, después hay productos y la relación entre las personas y los productos pueden ser a través de contratos, a través de transacciones, etcétera. Después nos podemos encontrar conceptos de información como los conceptos macroeconómicos que a lo mejor no somos capaces de almacenarlos pero es importante tener claro y conceptualmente cuál es la información de la que dispongo, cuáles son las fuentes de información y cómo se relacionan. En esta fase los retos que nos encontramos son los siguientes. Primero, tener claro la identificación de las fuentes de información asociadas al problema de negocio, puede ser que no identifiquemos alguna fuente de información o porque no sepamos que existen o porque no tengamos claro que esa información nos puede aportar valor. Segundo, comprender la información contenida en los datos, una vez que tengamos la información que queremos y la fuente y ahondemos en el dato a lo mejor el nombre del campo no me ayuda necesito comprender realmente que es esa información y de dónde ha surgido. Después relacionar los conceptos es crítico, si no somos capaz de relacionar los conceptos, si no soy capaz de relacionar quién hace que, dónde y de qué forma, no voy a ser capaz de extraer el conocimiento que hay dentro de esos datos. Y por último muy importante no focalizarse en los datos disponibles, uno de los mayores errores de esta fase es centrarse en qué datos tengo voy a trabajar con los datos que tengo, es importante hacer ese ejercicio previo de analizar qué información me gustaría tener y dónde puedo encontrarla. Por lo tanto antes de ponerse a trabajar con datos y algoritmos lo importante es pensar desde un punto de vista de negocio cuál es la información que realmente me gustaría tener, si está accesible y disponible y cómo puedo trabajar con ella. [MÚSICA] [AUDIO_EN_BLANCO]