5 błędy w szczegółowości danych, które mogą Cię kosztować

w dobie dużych zbiorów danych wyzwaniem jest brak dostępu do wystarczającej ilości danych; wyzwaniem jest znalezienie odpowiednich danych do wykorzystania. W poprzednim artykule skupiłem się na wartości alternatywnych danych, które są istotnym aktywem biznesowym. Jednak nawet przy zaletach alternatywnych danych Niewłaściwa ziarnistość danych może osłabić zwrot z inwestycji w zarządzanie danymi.

„mamy taką obsesję na punkcie danych, że zapominamy, jak je interpretować”. – Danah Boyd, główny badacz w Microsoft Research

więc jak dokładnie powinieneś patrzeć na swoje dane? Ponieważ niewłaściwa ziarnistość danych może kosztować cię więcej, niż myślisz.

Mówiąc najprościej, ziarnistość danych odnosi się do poziomu szczegółowości naszych danych. Im bardziej szczegółowe dane, tym więcej informacji zawartych w danym punkcie danych. Mierzenie rocznych transakcji we wszystkich sklepach w danym kraju miałoby niską szczegółowość, ponieważ niewiele wiadomo o tym, kiedy i gdzie klienci dokonują tych zakupów. Z drugiej strony pomiar transakcji poszczególnych sklepów miałby niezwykle dużą szczegółowość.

idealna ziarnistość danych zależy od rodzaju analizy, którą wykonujesz. Jeśli szukasz wzorców zachowań konsumentów na przestrzeni dziesięcioleci, niska ziarnistość jest prawdopodobnie w porządku. Aby zautomatyzować uzupełnianie zapasów, potrzebujesz jednak znacznie bardziej szczegółowych danych.

kiedy wybierzesz niewłaściwą ziarnistość do analizy, otrzymasz mniej dokładną i mniej użyteczną inteligencję. Pomyśl o tym, jak niechlujne byłoby cotygodniowe uzupełnianie sklepu w oparciu tylko o roczne dane systemowe! Będziesz stale doświadczać zarówno nadmiaru zapasów, jak i zapasów, gromadząc ogromne koszty i wysoki poziom odpadów w tym procesie. W każdej analizie Niewłaściwa ziarnistość danych może mieć podobnie poważne konsekwencje dla wydajności i wyników finansowych.

czy korzystasz z odpowiedniej szczegółowości danych do analizy biznesowej? Oto pięć typowych i kosztownych błędów w ziarnistości danych.

grupowanie wielu trendów biznesowych w jeden wzorzec (gdy dane nie są wystarczająco szczegółowe).

Business intelligence musi być jasne i proste, aby można było działać, ale czasami, próbując osiągnąć prostotę, ludzie nie zanurzają się wystarczająco głęboko w danych. Szkoda, bo przegapisz cenne spostrzeżenia. Gdy ziarnistość danych jest zbyt niska, na powierzchni widoczne są tylko duże wzory. Możesz przegapić krytyczne dane.

w zbyt wielu przypadkach niedostateczna obserwacja danych prowadzi do kompresji różnych trendów w jeden wynik. Firmy popełniające ten błąd kończą z nierównymi wynikami. Są bardziej narażone na nieprzewidywalne i ekstremalne wartości odstające, które nie pasują do ogólnego wzorca – ponieważ ten wzór nie odzwierciedla rzeczywistości.

jest to powszechny problem w wielu tradycyjnych systemach prognozowania łańcucha dostaw. Nie są w stanie poradzić sobie z poziomem szczegółowości niezbędnym do przewidywania popytu na poziomie SKU w poszczególnych sklepach, co oznacza, że jeden sklep może mieć do czynienia zarówno z nadwyżkami, jak i zapasami w tym samym czasie. Zautomatyzowane systemy oparte na sztucznej inteligencji mogą obsłużyć złożoność wymaganą do prawidłowego segmentowania danych, co jest jednym z powodów, dla których poprawiają wydajność łańcucha dostaw. Wystarczająca ziarnistość danych ma kluczowe znaczenie dla dokładniejszej analizy biznesowej.

zagubienie się w danych bez punktu skupienia (gdy dane są zbyt ziarniste).

czy zdarzyło ci się przypadkiem za bardzo powiększyć mapę w sieci? To takie frustrujące! Nie można znaleźć żadnych przydatnych informacji, ponieważ nie ma kontekstu. To samo dzieje się w danych.

jeśli Twoje dane są zbyt szczegółowe, gubisz się; nie możesz skupić się na tyle, aby znaleźć użyteczny wzór we wszystkich obcych danych. Kuszące jest poczucie, że więcej szczegółów jest zawsze lepsze, jeśli chodzi o dane, ale zbyt wiele szczegółów może sprawić, że Twoje dane będą praktycznie bezużyteczne. Wielu menedżerów w obliczu tak wielu danych zastają zamrożone analizy paraliż. Kończy się to zawodnymi rekomendacjami, brakiem kontekstu biznesowego i niepotrzebnym zamieszaniem.

zbyt szczegółowe dane są szczególnie kosztownym błędem, jeśli chodzi o prognozowanie sztucznej inteligencji. Dane mogą skłonić algorytm do wskazania, że ma wystarczająco dużo danych, aby przyjąć założenia dotyczące przyszłości, które nie są możliwe przy dzisiejszej technologii. Na przykład w pracy nad łańcuchem dostaw W Evo nadal nie można przewidzieć dziennej sprzedaży na jednostkę SKU. Twój margines błędu będzie zbyt duży, aby był użyteczny. Ten poziom szczegółowości podważa cele i zmniejsza zwrot z inwestycji.

nie wybiera celowo ziarnistości zmiennych czasu.

najczęstsze błędy w ziarnistości danych dotyczą przedziałów czasowych, tj. mierzenia zmiennych godzinowych, dziennych, tygodniowych, rocznych itp. podstawa. Błędy w ziarnistości czasowej często występują dla wygody. Większość firm ma standardowe sposoby raportowania zmiennych czasowych. Wydaje się, że ich zmiana wymagałaby zbyt dużego wysiłku, więc tego nie robią. ale rzadko jest to idealna ziarnistość, aby rozwiązać analizowany problem.

gdy rozważysz koszt zmiany sposobu, w jaki System raportuje KPI, a koszt konsekwentnego uzyskiwania niewystarczającej analizy biznesowej, korzyści płynące z celowego wyboru odpowiedniego rejestru szczegółowości. W zależności od ziarnistości czasu rozpoznasz bardzo różne spostrzeżenia z tych samych danych. Weźmy na przykład trendy sezonowości w handlu detalicznym. Przeglądanie transakcji w ciągu jednego dnia może sprawić, że sezonowe trendy staną się niewidoczne lub przynajmniej zawierać tak wiele danych, że wzorce są tylko białym szumem, podczas gdy dane Miesięczne mają odrębną sekwencję, której możesz użyć. Jeśli standardowe wskaźniki KPI pominą raportowanie Miesięczne, aby przejść bezpośrednio do wzorców kwartalnych, stracisz cenne informacje, które sprawią, że prognozy będą bardziej dokładne. Jeśli chcesz uzyskać najlepszą inteligencję, nie możesz mieć czasu na dokładność w wartości nominalnej.

sezonowość dnia (źródło: http://r-tutorials.com/r-exercises-41-50-working-time-series-data/)

sezonowość roczna (źródło: https://commons.wikimedia.org/)

przecenianie lub niedocenianie modelu do tego stopnia, że wzory, które widzisz, są bez znaczenia.

modele sztucznej inteligencji muszą dobrze uogólniać na podstawie istniejących i przyszłych danych, aby dostarczyć wszelkie przydatne zalecenia. Zasadniczo dobry model mógłby spojrzeć na te dane:

i załóżmy, że jest to działający model oparty na informacjach:

wzór może nie doskonale reprezentować dane, ale robi dobrą robotę przewidując typowe zachowanie bez poświęcania zbyt wiele inteligencji.

jeśli jednak nie masz odpowiedniej ziarnistości danych, możesz skończyć z niewłaściwym modelem. Jak mówiliśmy wcześniej, zbyt szczegółowe dane mogą powodować zakłócenia, które utrudniają znalezienie wzorca. Jeśli twój algorytm konsekwentnie trenuje ten głośny poziom szczegółowości, z kolei generuje hałas. Kończysz z Modelem, który wygląda tak:

nazywamy to przecenianiem Twojego modelu. Każdy punkt danych ma ogromny wpływ, do tego stopnia, że model nie może już generalizować użytecznie. Problemy początkowo spowodowane wysoką ziarnistością są powiększone i stały problem w modelu.

zbyt niska ziarnistość danych może również spowodować długotrwałe uszkodzenie modelu. Algorytm musi mieć wystarczającą ilość danych, aby znaleźć wzorce. Algorytmy wytrenowane przy użyciu danych bez wystarczającej ziarnistości ominą krytyczne wzorce. Gdy algorytm przejdzie poza fazę szkolenia, nadal nie będzie w stanie zidentyfikować podobnych wzorców. Kończysz z Modelem, który wygląda tak:

to nie pasuje do modelu. Algorytm zbliża się do właściwego przewidywania, ale nigdy nie będą one tak dokładne, jak mogłyby być. Podobnie jak overfitting, jest to powiększenie początkowego problemu ziarnistości.

kiedy tworzysz model do analizy, właściwa ziarnistość staje się wykładniczo ważniejsza niż gdy masz stabilny algorytm. Z tego powodu wiele firm decyduje się na outsourcing tej części procesu do ekspertów. To zbyt delikatny i kosztowny etap dla błędów.

całkowite dostosowanie ziarnistości nieprawidłowych danych.

być może najbardziej kosztownym błędem granularności danych jest skupienie się tak bardzo na optymalizacji granularności KPI, które obecnie mierzysz, że nie zdajesz sobie sprawy, że są to całkowicie błędne KPI. Naszym celem jest osiągnięcie właściwej szczegółowości danych nie po to, aby zoptymalizować konkretną wydajność KPI, ale raczej rozpoznawać wzorce w danych, które dostarczają użytecznych i cennych informacji. Jeśli na przykład chcesz zwiększyć przychody, możesz podważać swój sukces, patrząc tylko na wzorce cen. Inne czynniki są zaangażowane.

weź przykład z mojego kolegi. Nowy Klient Evo chciał zwiększyć sprzedaż, a wstępne testy z wykorzystaniem naszych narzędzi do łańcucha dostaw wykazały 10% poprawę w mniej niż dwa tygodnie. Nasz dyrektor generalny był podekscytowany tymi bezprecedensowymi wynikami, ale ku jego zaskoczeniu kierownik łańcucha dostaw nie był pod wrażeniem. Jego głównym KPI była dostępność produktów, a według wewnętrznych numerów, które nigdy się nie zmieniły. Jego skupienie się na poprawie konkretnego wskaźnika KPI wiązało się z kosztem rozpoznawania cennych spostrzeżeń z innych danych.

testowanie nowego systemu łańcucha dostaw (zdjęcie Fabrizio Fantini)

dostępność produktu po teście (zdjęcie Fabrizio Fantini, CC z przypisem)

niezależnie od tego, czy KPI został dokładnie zmierzony, skupiając się całkowicie NA zmianie jego wydajności, powstrzymał tego menedżera od postrzegania wartości w nowym podejściu. Był mądrym człowiekiem działającym w dobrej wierze, ale DANE go wprowadziły w błąd-niewiarygodnie powszechny, ale kosztowny błąd. Poprawna ziarnistość danych jest niezbędna, ale nie może być celem samym w sobie. Musisz spojrzeć na szerszy obraz, aby zmaksymalizować zyski z AI. To, jak dokładnie przyjrzysz się swoim danym, nie ma znaczenia, jeśli nie masz odpowiednich danych.

„powszechnym błędem zarządzania opartego na danych jest używanie niewłaściwych danych, aby odpowiedzieć na właściwe pytanie”. – Fabrizio Fantini, założyciel i dyrektor generalny Evo

korzyści płynące z odpowiedniej ziarnistości danych

ziarnistość danych nie ma magicznej kuli. Musisz wybrać go ostrożnie i celowo, aby uniknąć tych i innych mniej typowych błędów. Jedynym sposobem, aby zmaksymalizować zyski z danych, jest krytyczne spojrzenie na nie — zwykle z pomocą eksperta ds. danych. Prawdopodobnie nie uzyskasz ziarnistości przy pierwszej próbie, więc musisz przetestować i dostosować, dopóki nie będzie idealny.

warto się jednak postarać. Przyglądając się dokładnie, ale nie zbyt dokładnie, dane zapewniają optymalną analizę biznesową. Odpowiednio posegmentowane i analizowane dane przekształcają się w przewagę konkurencyjną, na którą możesz liczyć.