이 인공 지능 예측에 올 때 너무 세분화 된 데이터는 특히 비용이 많이 드는 실수입니다. 이 데이터는 알고리즘을 속여 오늘날의 기술로는 불가능한 미래에 대한 가정을 할 수있는 충분한 데이터가 있음을 나타낼 수 있습니다. 예를 들어,에보에서의 공급망 작업에서는 일일 판매량을 예측하는 것이 여전히 불가능합니다. 오류의 마진이 유용 할 너무 큰 것입니다. 이 수준의 세분성은 목표를 약화시키고 투자 수익을 감소시킵니다.
시간 변수의 세분성을 의도적으로 선택하지 않습니다.
가장 일반적인 데이터 세분성 실수는 시간 간격,즉 시간별,일별,주별,연간 등의 측정 변수와 관련이 있습니다. 기초. 시간적 세분성 실수는 편의를 위해 종종 발생합니다. 대부분의 회사는 시간 제한 변수를보고하는 표준 방법이 있습니다. 이를 변경하는 데 너무 많은 노력이 필요한 것처럼 느껴지므로 그렇지 않습니다.그러나 분석 된 문제를 해결하기위한 이상적인 세분성은 거의 없습니다.
시스템이 보고하는 방식을 변경하는 비용과 지속적으로 부적절한 비즈니스 인텔리전스를 얻는 비용을 계량하면 의도적으로 올바른 세분성 레지스터를 선택하는 이점이 있습니다. 시간의 세분성에 따라 동일한 데이터에서 매우 다른 통찰력을 인식할 수 있습니다. 소매에 있는 계절성 동향을,예를 들면 가지고 가십시오. 하루 동안의 거래를 보면 계절적 추세가 보이지 않게하거나 적어도 패턴이 백색 잡음이 될 정도로 많은 데이터를 포함 할 수 있으며 월별 데이터는 실제로 사용할 수있는 고유 한 시퀀스를 공유합니다. 월별 보고를 생략하여 분기별 패턴으로 바로 이동하는 경우 예측을 보다 정확하게 만들 수 있는 귀중한 인사이트를 잃게 됩니다. 당신은 당신이 제일 정보를 얻고 싶은 경우에 액면가에 시간 입도를 가지고 갈 수 없다.
일일 계절성(출처: http://r-tutorials.com/r-exercises-41-50-working-time-series-data/)
연간 계절성(출처: https://commons.wikimedia.org/)
당신이 보는 패턴이 의미가 없다는 점에 모델을 과도하게 맞추거나 과소 맞추십시오.
인공 지능 모델은 유용한 권장 사항을 제공하기 위해 기존 및 향후 데이터에서 잘 일반화해야합니다. 본질적으로 좋은 모델은이 데이터를 볼 수 있습니다:
저자 별 이미지(저작자 표시가있는 참조)
그리고 이것을 정보에 기반한 작업 모델로 가정하십시오:
저자 별 이미지(저작자 표시가있는 참조)
이 패턴은 데이터를 완벽하게 나타내지 않을 수도 있지만 너무 많은 지능을 희생하지 않고 일반적인 동작을 예측하는 데 도움이됩니다.
그러나 올바른 데이터 세분성이 없으면 잘못된 모델로 끝날 수 있습니다. 우리가 전에 이야기 한 바와 같이,지나치게 세분화 된 데이터는 어려운 패턴을 찾는 만드는 노이즈를 일으킬 수 있습니다. 알고리즘이 이 시끄러운 세부 수준으로 일관되게 훈련되면 차례로 노이즈를 전달합니다. 결국 이렇게 생긴 모델을 갖게 됩니다:
저자 별 이미지(저작자 표시가있는 참조)
우리는 이것을 당신의 모델에 적합하다고 부릅니다. 모든 데이터 요소는 모델이 더 이상 유용하게 일반화 할 수없는 정도로 큰 영향을 미칩니다. 초기에 높은 세분성으로 인해 발생한 문제는 확대되어 모델에서 영구적인 문제가 되었습니다.
데이터 세분성이 너무 낮으면 모델에 장기적인 손상이 발생할 수도 있습니다. 알고리즘은 패턴을 찾을 수 있는 충분한 데이터가 있어야 합니다. 충분한 세분성없이 데이터를 사용하여 훈련 된 알고리즘은 중요한 패턴을 놓치게됩니다. 알고리즘이 교육 단계를 넘어서면 유사한 패턴을 식별하지 못할 것입니다. 결국 이렇게 생긴 모델을 갖게 됩니다:
저자 별 이미지(저작자 표시가있는 참조)
이 모델에 적합하지 않습니다. 이 알고리즘은 올바른 예측을 만드는 가까운 온다,그러나 그들은 그들이 수 있었다만큼 정확하지 않을 것입니다. 과적합과 마찬가지로 초기 세분성 문제의 확대입니다.
분석을 위한 모델을 만들 때는 안정적인 알고리즘이 있을 때보다 적절한 세분성이 기하급수적으로 더 중요합니다. 이러한 이유로 많은 회사 전문가 게 프로세스의이 부분을 아웃소싱 하기로. 그것은 실수에 대한 너무 섬세하고 비용이 많이 드는 무대입니다.
잘못된 데이터의 세분성을 완전히 조정합니다.
아마도 가장 비용이 많이 드는 데이터 세분성 실수는 단순히 현재 측정하고있는 케이피스의 세분성을 최적화하는 데 너무 많은 초점을 맞추고 있기 때문에 그것이 완전히 잘못된 케이피스라는 것을 깨닫지 못할 것입니다. 우리는 정확한 데이터 세분성을 달성하여 특정 성능 최적화가 아니라 실행 가능하고 가치있는 통찰력을 제공하는 데이터 패턴을 인식하는 것을 목표로합니다. 너가 수익을,예를 들면 개량하고 싶으면,너는 단 값을 매기기안에 본을 봐서 너의 성공을 훼손할지도 모른다. 다른 요인이 관련되어 있습니다.
내 동료의 예를 들어보십시오. 새로운 에보 클라이언트는 판매를 증가하고 싶어,우리의 공급망 도구를 적용하는 초기 테스트는 2 주 이내에 10%개선을 보여 주었다. 우리의 최고 경영자는 이러한 전례없는 결과에 의해 흥분 넘어했지만,그의 놀랍게도,공급망 관리자는 감동하지 않았다. 그의 주요 경영진은 제품 가용성이었고 내부 번호에 따르면 결코 바뀌지 않았습니다. 그는 다른 데이터에서 얻은 귀중한 통찰력을 인식하는 데 어려움을 겪어 특정 한국인 기준의 개선에 중점을 두었습니다.
새로운 공급망 시스템 테스트(이미지:파브리지오 판티니)
테스트 후 제품 가용성(이미지:파브리지오 판티니,저작자 표시)
경영진의 성과변화에 전적으로 초점을 맞추면 경영진이 새로운 접근방식으로 그 가치를 보지 못하게 되었습니다. 그는 선의로 행동하는 똑똑한 사람 이었지만 데이터가 그를 잘못 인도했습니다. 올바른 데이터 세분성은 중요하지만 그 자체로 목표가 될 수는 없습니다. 당신은 인공 지능에서 수익을 극대화하기 위해 더 큰 그림을보고해야합니다. 애초에 올바른 데이터가 없다면 데이터를 얼마나 가깝게 보느냐는 중요하지 않습니다.
“데이터 기반 관리의 일반적인 오류는 잘못된 데이터를 사용하여 올바른 질문에 답하는 것입니다.” -에보
올바른 데이터 세분성의 이점
데이터 세분성에 대한 마법의 탄환은 없습니다. 이러한 실수 및 기타 덜 일반적인 실수를 피하기 위해 신중하고 의도적으로 선택해야합니다. 데이터 수익을 극대화할 수 있는 유일한 방법은 전문가 데이터 과학자의 도움을 받아 비판적으로 보는 것입니다. 당신은 가능성이 바로 첫 번째 시도에서 세분성을 얻을 수 없습니다,그래서 당신은 테스트하고 완벽 할 때까지 조정해야합니다.
그래도 그만한 가치가 있습니다. 자세히 보면,하지만 너무 밀접하게,데이터는 최적의 비즈니스 인텔리전스를 보장합니다. 세분화하고 올바르게 분석,데이터는 당신이 믿을 수있는 경쟁 우위로 변환합니다.