5 Errores de granularidad de datos Que Pueden Costarle

En la era del big data, el desafío ya no es acceder a suficientes datos; el desafío es descubrir los datos correctos para usar. En un artículo anterior, me centré en el valor de los datos alternativos, que son un activo vital para el negocio. Sin embargo, incluso con los beneficios de los datos alternativos, la granularidad de los datos incorrecta puede socavar el retorno de la inversión de la gestión basada en datos.

«Estamos tan obsesionados con los datos que olvidamos cómo interpretarlos». – Danah Boyd, Investigadora principal de Microsoft Research

Entonces, ¿qué tan de cerca debe mirar sus datos? Porque la granularidad de datos incorrecta podría costarle más de lo que cree.

En pocas palabras, la granularidad de los datos se refiere al nivel de detalle de nuestros datos. Cuanto más granulares sean sus datos, mayor será la información contenida en un punto de datos en particular. Medir las transacciones anuales en todas las tiendas de un país tendría una granularidad baja, ya que sabría muy poco sobre cuándo y dónde los clientes realizan esas compras. Por otro lado, medir las transacciones de tiendas individuales por segundo tendría una granularidad increíblemente alta.

La granularidad ideal de los datos depende del tipo de análisis que esté realizando. Si está buscando patrones en el comportamiento del consumidor a lo largo de décadas, una granularidad baja probablemente esté bien. Sin embargo, para automatizar el reabastecimiento de la tienda, necesitaría datos mucho más detallados.

Cuando elige la granularidad incorrecta para su análisis, termina con una inteligencia menos precisa y útil. ¡Piense en lo desordenado que sería el reabastecimiento semanal de la tienda basado solo en datos anuales de todo el sistema! Experimentaría continuamente tanto el exceso de existencias como los desabastecimientos, acumulando enormes costos y altos niveles de desperdicio en el proceso. En cualquier análisis, la granularidad incorrecta de los datos puede tener consecuencias igualmente graves para su eficiencia y sus resultados.

¿Está utilizando la granularidad de datos correcta para su inteligencia de negocios? Aquí hay cinco errores de granularidad de datos comunes y costosos.

Agrupar varias tendencias de negocio en un único patrón (cuando los datos no son lo suficientemente granulares).

La inteligencia de negocios debe ser clara y directa para ser procesable, pero a veces, en un intento de lograr la simplicidad, las personas no profundizan lo suficiente en los datos. Es una pena porque te perderás información valiosa. Cuando la granularidad de los datos es demasiado baja, solo se ven patrones grandes que surgen a la superficie. Puede perder datos críticos.

En demasiados casos, no observar de cerca los datos conduce a comprimir tendencias dispares en un solo resultado. Las empresas que cometen este error terminan con resultados desiguales. Es más probable que tengan valores atípicos impredecibles y extremos que no se ajusten al patrón general, porque ese patrón no refleja la realidad.

Este es un problema común en muchos sistemas tradicionales de pronóstico de la cadena de suministro. No pueden manejar el nivel de granularidad necesario para predecir la demanda a nivel de SKU en tiendas individuales, lo que significa que una sola tienda puede estar lidiando con exceso de existencias y agotamiento de existencias al mismo tiempo. Los sistemas automatizados con tecnología de IA pueden manejar la complejidad necesaria para segmentar adecuadamente los datos, que es una de las razones por las que mejoran la eficiencia de la cadena de suministro. Una granularidad de datos suficiente es fundamental para una inteligencia empresarial más precisa.

Perderse en los datos sin un punto de enfoque (cuando los datos son demasiado granulares).

¿Alguna vez se ha acercado demasiado accidentalmente a un mapa en línea? Es tan frustrante! No puedes distinguir ninguna información útil porque no hay contexto. Eso también sucede en los datos.

Si sus datos son demasiado granulares, se pierde; no puede concentrarse lo suficiente para encontrar un patrón útil dentro de todos los datos extraños. Es tentador sentir que más detalles siempre es mejor cuando se trata de datos, pero demasiados detalles pueden hacer que sus datos sean prácticamente inútiles. Muchos ejecutivos que se enfrentan a tantos datos se encuentran paralizados por la parálisis del análisis. Terminas con recomendaciones poco fiables, falta de contexto comercial y confusión innecesaria.

Los datos demasiado granulares son un error particularmente costoso cuando se trata de pronósticos de IA. Los datos pueden engañar al algoritmo para que indique que tiene suficientes datos para hacer suposiciones sobre el futuro que no es posible con la tecnología actual. En mi trabajo de cadena de suministro en Evo, por ejemplo, todavía es imposible pronosticar las ventas diarias por SKU. Su margen de error será demasiado grande para ser útil. Este nivel de granularidad socava los objetivos y disminuye el ROI.

No elegir la granularidad de las variables de tiempo a propósito.

Los errores de granularidad de los datos más comunes están relacionados con intervalos de tiempo, es decir, mediciones de variables por hora, día, semana, año, etc. base. Los errores de granularidad temporal a menudo ocurren por conveniencia. La mayoría de las empresas tienen formas estándar de informar variables cronometradas. Se siente que requeriría demasiado esfuerzo para cambiarlos, por lo que no lo hacen, pero rara vez es la granularidad ideal para abordar el problema analizado.

Cuando sopesa el costo de cambiar la forma en que su sistema informa los KPI frente al costo de obtener constantemente una inteligencia de negocios inadecuada, los beneficios de elegir a propósito el registro de granularidad correcto. Dependiendo de la granularidad del tiempo, reconocerá percepciones muy diferentes de los mismos datos. Tomemos, por ejemplo, las tendencias de estacionalidad en el comercio minorista. Observar las transacciones en un solo día podría hacer que las tendencias estacionales sean invisibles o, al menos, contener tantos datos que los patrones sean solo ruido blanco, mientras que los datos mensuales comparten una secuencia distinta que realmente puede usar. Si los KPI estándar omiten los informes mensuales para ir directamente a patrones trimestrales, perderá información valiosa que haría que los pronósticos sean más precisos. No puede tomar tiempo de granularidad a su valor nominal si desea obtener la mejor inteligencia.

Diario de estacionalidad (Fuente: http://r-tutorials.com/r-exercises-41-50-working-time-series-data/)

Anual estacionalidad (Fuente: https://commons.wikimedia.org/)

el Sobreajuste o underfitting su modelo hasta el punto de que los patrones que se ven son de sentido.

Los modelos de IA deben generalizarse bien a partir de datos existentes y futuros para ofrecer recomendaciones útiles. Esencialmente, un buen modelo podría analizar estos datos:

Y asumir esto como un modelo de trabajo basado en la información:

El patrón puede no representar perfectamente los datos, pero hace un buen trabajo prediciendo el comportamiento típico sin sacrificar demasiada inteligencia.

Sin embargo, si no tiene la granularidad de datos correcta, puede terminar con el modelo incorrecto. Como hemos hablado antes, los datos excesivamente granulares pueden causar ruido que dificulta la búsqueda de un patrón. Si su algoritmo entrena constantemente con este nivel de detalle ruidoso, a su vez generará ruido. Puedes terminar con un modelo que se parece a este:

llamamos a esto el sobreajuste del modelo. Cada punto de datos tiene un impacto enorme, en la medida en que el modelo ya no puede generalizarse de manera útil. Los problemas causados inicialmente por la granularidad alta se magnifican y se convierten en un problema permanente en el modelo.

Una granularidad de datos demasiado baja también puede dañar a largo plazo su modelo. Un algoritmo debe tener datos suficientes para encontrar patrones. Los algoritmos entrenados con datos sin suficiente granularidad perderán patrones críticos. Una vez que el algoritmo haya superado la fase de entrenamiento, seguirá sin identificar patrones similares. Terminas con un modelo que se parece a esto:

Esto no es adecuado para el modelo. El algoritmo se acerca a hacer las predicciones correctas, sin embargo, nunca serán tan precisas como podrían haber sido. Al igual que el sobreajuste, es una ampliación del problema de granularidad inicial.

Cuando está creando un modelo para su análisis, la granularidad adecuada se vuelve exponencialmente más importante que una vez que tiene un algoritmo estable. Por esta razón, muchas empresas optan por externalizar esta parte del proceso a expertos. Es una etapa demasiado delicada y costosa para cometer errores.

Ajuste completo de la granularidad de los datos incorrectos.

Quizás el error de granularidad de datos más costoso es centrarse tanto en optimizar la granularidad de los KPI que mide actualmente que no se da cuenta de que son los KPI incorrectos por completo. Nuestro objetivo es lograr la granularidad de los datos correcta, no para optimizar ningún rendimiento de KPI específico, sino para reconocer patrones en los datos que ofrecen información útil y valiosa. Si desea mejorar los ingresos, por ejemplo, puede estar socavando su éxito al observar solo los patrones de precios. Otros factores están involucrados.

Tome un ejemplo de mi colega. Un nuevo cliente de Evo quería aumentar las ventas, y una prueba inicial de aplicación de nuestras herramientas de cadena de suministro mostró una mejora del 10% en menos de dos semanas. Nuestro CEO estaba más que emocionado por estos resultados sin precedentes, pero para su sorpresa, el gerente de la cadena de suministro no quedó impresionado. Su principal KPI era la disponibilidad del producto, y de acuerdo con los números internos, que nunca había cambiado. Su enfoque en mejorar un KPI en particular tuvo el costo de reconocer información valiosa de otros datos.

Probando un nuevo sistema de cadena de suministro (imagen de Fabrizio Fantini)

Disponibilidad del producto después de la prueba (imagen de Fabrizio Fantini, CC con atribución)

Si ese KPI se midió con precisión o no, centrarse completamente en cambiar su rendimiento impidió que este gerente viera el valor de un nuevo enfoque. Era un hombre inteligente que actuaba de buena fe, pero los datos lo engañaron, un error increíblemente común pero costoso. La granularidad correcta de los datos es vital, pero no puede ser un objetivo en sí mismo. Tienes que mirar el panorama general para maximizar los rendimientos de la IA. Qué tan de cerca mire sus datos no importará si no tiene los datos correctos en primer lugar.

«Una falacia común de la gestión basada en datos es utilizar los datos incorrectos para responder a la pregunta correcta». – Fabrizio Fantini, Fundador y CEO de Evo

Los beneficios de la granularidad de datos correcta

No hay solución mágica cuando se trata de granularidad de datos. Debe elegirlo cuidadosa e intencionalmente para evitar estos y otros errores menos comunes. La única manera de maximizar los rendimientos de sus datos es analizarlos de manera crítica, por lo general con la ayuda de un científico de datos experto. Es probable que no obtenga la granularidad correcta en su primer intento, por lo que debe probar y ajustar hasta que sea perfecto.

Sin embargo, vale la pena el esfuerzo. Mirando de cerca, pero no demasiado de cerca, sus datos garantizan una inteligencia de negocios óptima. Segmentados y analizados correctamente, los datos se transforman en una ventaja competitiva con la que puede contar.