Jakiś czas temu pisałem o wykorzystaniu alertów w Google Analytics. Wspomniałem wówczas jak one funkcjonują, ale do końca nie wiedziałem o jaką metodą statystyczną są oparte – teraz już wiem, o czym śpieszę Wam napisać!
Tym bardziej miło jest mi o tym pisać, że skończyłem studia ukierunkowane bardzo mocno na statystykę, więc teoria, o której będzie poniżej jest mi dobrze znana. Dla mniej zainteresowanych stroną techniczną funkcjonowania Google Analytics wpis będzie stanowił na pewno swoistą ciekawostkę:)
Co znajdziesz w tym artykule?
Rozkład normalny, wartość oczekiwana i odchylenie standardowe?
Krzywa Gaussa?
Reguła 3 sigm?
Wykorzystanie adaptacyjnych progów – kiedy reguła 3 sigm przestaje wystarczać
Jakie to ma odniesienie do alertów w Google Analytics??
Rozkład ten jest najczęściej spotykanym w przyrodzie rozkładem empirycznym różnych zjawisk np. wzrostu ludzi w danej populacji. Należy od niego wyjść chcąc omówić regułę 3 sigm, na której bazują alerty w Google Analytics.
Rozkład normalny charakteryzują dwie wartości:
Pierwsza z nich jest powszechnie znaną i rozumianą średnią tj. przeciętną wartością dla danej populacji. Natomiast odchylenie standardowe mówi nam, jak średnio różnią się wszystkie elementy danej populacji od wartości średniej dla całej populacji. Dla przykładu weźmy wzrost mężczyzn w Polsce.
Załóżmy, że przeciętny Polak ma 180 cm wzrostu. Jest to wartość średnia obliczona jako suma wzrostu wszystkich mężczyzn i podzielona przez ich liczbę – jedni mają więcej, inni mniej, ale przeciętnie wychodzi 180 cm. Stąd myśląc o wzroście przeciętnego Polaka będziemy wyobrażali go sobie jako 180 cm mężczyznę. W przypadku rozkładu normalnego średnia w populacji jest jednoznaczna wartości oczekiwanej tego rozkładu.
Załóżmy dalej, że odchylenie standardowe wzrostu wśród mężczyzn w Polsce wynosi 9 cm. Oznacza to, że wszyscy Polacy różnią się przeciętnie od „standardowej” osoby o daną wartość, czyli o +/- 9 cm. W związku z tym, nie trudno się domyśleć, że najwięcej mężczyzn w Polsce ma wzrost w przedziale 171 cm – 189 cm. W rzeczywistości jest to 68,2% wszystkich Polaków, ale o tym za chwilę…
Rozkład normalny można przedstawić za pomocą krzywej Gaussa, która nazywana jest również krzywą dzwonową (w j. angielskim krzywa Gaussa określana jest jako bell-shape curve ze względu na swój kształt przypominający dzwon). Wartość średnia (oczekiwana) charakteryzuje położenie wartości najbardziej charakterystycznej (prawdopodobnej) dla danej populacji.
Odwołując się do poniższego obrazu – na osi pionowej odłożone jest prawdopodobieństwo spotkania Polaka o danym wzroście (który to znajduje się na osi poziomej). W związku z tym najbardziej prawdopodobne w Polsce jest spotkanie mężczyzny, który mierzy 180 cm – przeciętnego Polaka:)
W zależności od wartości odchylenia standardowego krzywa Gaussa jest wysmukła (dla małego odchylenia standardowego) lub szeroka (dla dużych wartości odchylenia standardowego. (Na rysunku poniżej sigma do kwadratu oznacza wariancję, która jest de facto odchyleniem standardowym podniesionym do kwadratu).
Źródło: http://pl.wikipedia.org/wiki/Rozk%C5%82ad_normalny
Jak widzimy, rozkład normalny jest rozkładem symetrycznym. Oznacza to, że dokładnie tyle samo jednostek ma wartość mniejszą oraz większą od wartości przeciętnej dla danej populacji.
Statystycy udowodnili (korzystając z rachunku prawdopodobieństwa dowód ten nie jest aż taki trudny), że w odległości jednego odchylenia standardowego od wartości średniej w rozkładzie normalnym znajduje się lekko ponad 68% całej populacji – stąd w Polsce 68% mężczyzn ma wzrost w przedziale 171 cm – 189 cm:)
Co więcej, okazuje się, że jeżeli weźmiemy obserwacje, które znajdują się w odległości 2 sigm (nie są mniejsze ani większe o więcej niż 2 sigmy) od wartości przeciętnej dla populacji, to takie jednostki stanowią ok. 95% całej populacji.
Reguła 3 sigm mówi o tym, że 99,7% populacji znajduje się, w odległości nie dalszej niż 3 odchylenia standardowe od średniej dla całej populacji.
Dlatego na mocy omawianej teorii i przyjmując za prawdziwe wcześniejsze założenia możemy twierdzić, że w Polsce (przy założeniu 38 mln mieszkańców, w tym 19 mln płci męskiej) jest ok. 28.500 mężczyzn, którzy mierzą więcej niż 207 cm wzrostu. Raczej nieprawdopodobne, ale to jest kwestia założeń:)
Źródło: http://www.3sigma.com/whats-so-special-about-3-sigma
W praktyce analitycznej okazuje się, że prosta reguła 3 sigm (±3σ od średniej) może być niewystarczająca – zwłaszcza gdy mamy do czynienia z sezonowością, trendem lub skokami w danych. Nowsze badania pokazują, że warto rozważyć adaptacyjne progi – np. uwzględniające zmienność danych w czasie oraz ich auto-korelację, co pozwala ograniczyć fałszywe alarmy i lepiej wykrywać rzeczywiste anomalie.
W artykule o wykorzystaniu alertów w Google Analytics pisałem, że narzędzie to na podstawie danych historycznych estymuje wartość danej metryki na przyszłość. Dokładniej mówiąc, na podstawie danych historycznych obliczana jest wartość średnia oraz odchylenie standardowe.
Na podstawie tak obliczonych parametrów Google Analytics przyjmuje przedział wartości metryki, poza którym będzie wyzwolony alert. Czułość alertu określa szerokość tego przedziału. Jest ona oparta o liczbę odchyleń standardowych, o które krańce przedziału mogą różnic się od wartości środkowej (średniej).
Im czułość większa, tym przedział dopuszczalnych wahań węższy, a liczba sigm mniejsza, a więc łatwiej żeby wartość rzeczywista zaobserwowanej w danym czasie metryki w wyniku wahań wyszła poza przyjęty przedział.
Z drugiej strony, zmniejszając czułość alertu, zwiększamy przedział wartości metryki w ramach którego realizacja jej rzeczywistych wartości będzie uznawana przez narzędzie za normalne. Dlatego też dopiero bardzo duże zaburzenie ruchu spowoduje wyzwolenie alertu.
Mam nadzieję, że w przystępny sposób udało mi się przedstawić tą teorię. Jeżeli macie pytania, to zostawcie je proszę w komentarzach.
Jeśli potrzebujesz audytu konfiguracji narzędzi analitycznych (Google Analytics, AT Internet, Adobe Analytics czy Webtrends) lub chcesz rozwijać analitykę internetową wewnątrz organizacji skontaktuj się z Conversion by poznać nasze podejście. Więcej o analityce internetowej dowiesz się pobierając przygotowane przez nas bezpłatne poradniki, raporty oraz case studies.
Historie sukcesów
Ostatnie wpisy na blogu