Czym jest planowany eksperyment i czy można dzięki niemu poprawić prawie wszystko? (DOE Facebook Ads case study)

Design of Experiment

Poprawa jakości polega na zdobywaniu wiedzy o naszych procesach szybko, efektywnie i systematycznie. Dzięki tej wiedzy możemy przewidzieć, co się stanie, kiedy warunki się zmienią. Co ważniejsze, dzięki tej wiedzy możemy zrozumieć, jak zmieniać systemy, aby lepiej służyły klientom i generowały korzyści dla organizacji.

Żeby zdobywać wiedzę, musimy eksperymentować.

Rodzi się zatem pytanie, jak eksperymentować i czy każdy rodzaj eksperymentu jest tak samo efektywny?

W tym artykule przedstawię Ci najbardziej efektywną z metod eksperymentowania, którą każdy inżynier, menedżer i naukowiec, znać powinien.

Tą metodą jest planowany eksperyment (Design of Experiments, DOE).

Niestety mimo wynalezienia DOE na początku XX wieku i udokumentowanej skuteczności, ten rodzaj eksperymentowania jest mało znany i rzadko używany w organizacjach. 

Piszę to jako praktyk, który w swojej karierze przeprowadził i asystował w ponad 100 planowanych eksperymentach w różnych obszarach.

Jeśli zatem nie wiesz, czym jest planowany eksperyment, to zapraszam do lektury.

"Jedynym sposobem, aby dowiedzieć się, co się stanie, gdy złożony system zostanie zaburzony, jest zaburzenie systemu, a nie tylko jego bierna obserwacja."

Zawartość artykułu

Newsletter
Odbierz darmowy przewodnik "Jak tworzyć efektywne wykresy"
ebook

Czym jest eksperyment?

Rolą statystyki jest pomoc w dostarczaniu informacji poprzez obserwacje, badania i eksperymenty w celu podejmowania akcji.

Dane są coraz bardziej dostępne. Zautomatyzowane rejestrowanie danych jest teraz możliwe na wielką skalę. Można przechowywać coraz większe zbiory danych, a coraz szybsze komputery pozwalają nam je badać.

Można pasywnie zbierać dane i próbować znaleźć wzorce możliwych do przypisania przyczyn i zidentyfikować zależności (Big data).

Oczywiście moglibyśmy też wyprowadzić uniwersalny model fizykochemiczny procesu, ale jest to zazwyczaj kosztowne i najlepiej pozostawić to laureatom nagrody Nobla. Niemniej jednak musimy zrozumieć nasze procesy przynajmniej w lokalnym obszarze działania, więc wykonujemy eksperymenty empiryczne.

Czy jest zatem eksperymentowanie?

Eksperyment to procedura przeprowadzana w celu testowania pewnej hipotezy.

Eksperymenty zapewniają wgląd w relację przyczynowo-skutkową.

Eksperymenty różnią się znacznie pod względem celu i skali, ale zawsze opierają się na powtarzalnej procedurze i logicznej analizie wyników.

Koncept procesu

Podstawowe definicje

Odpowiedź

Metryka charakteryzująca zjawisko, nad którym nie masz całkowitej kontroli, ale które chciałbyś poprawić.

PRZYKŁAD: zużycie paliwa, liczba błędów, lead time, wymiar krytyczny części, jakość odbitek fotograficznych, wytrzymałość komponentu, etc.

Czynnik

Parametr, potencjalnie wpływający na „odpowiedź”, który chciałbyś przetestować.

PRZYKŁAD: rodzaj zastosowanego paliwa, parametry wtrysku, rodzaj użytego oleju, temperatura lutowania, warunki atmosferyczne, rodzaj katalizatora, etc.

Poziom czynnika

Wartość ustawionego poziomu czynnika.

PRZYKŁAD: dostawca A i B, prędkość 250RPM i 500RPM, temperatura 1200°C i 1800°C, metoda A i B, etc. 

Efekt czynnika

Średnia zmiana w „odpowiedzi”, przy zmianie poziomu czynnika z jednej do drugiej wartości.

Interakcja​

Sytuacja, kiedy efekt danego czynnika zależy od poziomu innego czynnika.
Klasycznym przykładem jest pieczenie ciasta — wpływ temperatury zależy od czasu pieczenia.

Interakcja

Przykład 1:
Kiedy pieczemy ciasto w temperaturze 180°C, to zwiększając czas pieczenia z 50min do 60min, zwiększamy stopień wypieczenia.

Jeśli jednak zwiększymy temperaturę do 220°C, to zmiana czasu pieczenia z 50min do 60min, w większym stopniu spowoduje wzrost wypieczenia niż dla temperatury 180°C.

Oznacza to, że efekt czasu pieczenia jest zależny od ustawionej temperatury.

Interakcja

Przykład 2:
Posiadanie Six Sigma Black Belta w organizacji, który nie dostaje odpowiedniego wsparcia od zarządu, na pewno przyniesie jakąś korzyść.

Jeśli jednak będzie wsparcie kadry zarządzającej, to efekt działań Balck Belta będzie nieporównywalnie większy.

Oznacza to, że wartość, jaką dostarcza Balck Belt (efekt), jest różna w zależności od wsparcia, jakie dostarcza organizacja.

Metody eksperymentowania

Istnieje kilka podstawowych metod eksperymentowania, które chciałbym Ci przedstawić.

Do tego posłużę się przykładem reklamowania na Facebooku (Facebook Ads).

Facebook umożliwia reklamodawcom przeprowadzanie eksperymentów w celu mierzenia skuteczności kampanii marketingowych, testowania różnych taktyk marketingowych i podejmowania bardziej przemyślanych decyzji budżetowych.

Załóżmy, że chcę wypromować mój blog, tak aby dotarł do największej ilości osób, które mogą zobaczyć w nim wartość.

Codziennie przeznaczymy stały budżet, który Facebook będzie wydawał na stworzoną przeze mnie reklamę.

Im więcej osób kliknie, tym większa skuteczność reklamy. Ilość kliknięć na wydaną kwotę będzie zatem naszą Odpowiedzią, czyli główną metryką, którą nazwiemy „Y”.

Facebook daje użytkownikowi ogromne możliwości konfiguracyjne w celu stworzenia reklamy, takie jak:

  • Budżet i harmonogram
  • Odbiorcy (lokalizacja, wiek, płeć, demografia, zainteresowania, zachowania)
  • Umiejscowienie reklamy (Desktop, Desktop Right Side, Mobile, Instagram, Audience Network, etc.)
Umieszczenie reklamy Facebook
  • Wygląd reklamy
Reklama Facebook
  1. Tekst reklamy
  2. Zdjęcie
  3. Nazwa domeny
  4. Tytuł

 

Przyjrzyjmy się zatem podstawowym metodom eksperymentowania.

Metoda prób i błędów

Pierwszą z metod eksperymentowania, niestety bardzo często stosowaną jest metoda prób i błędów.

Działa bardzo prosto — tworzymy np. dwie reklamy z różnymi ustawieniami i sprawdzamy, która z nich lepiej sobie radzi.

Jeśli lepiej radzi sobie jedna z reklam, to jakie wyciągniesz wnioski?

    • Jaki czynnik spośród wszystkich wpłynął na skuteczność?
    • Czy wzrost skuteczności spowodowały badane czynniki, czy coś innego, co zmieniło się w tym samym czasie?
    • Czy musimy płacić za coś, co nie miało żadnego znaczenia?

A co jeśli obie reklamy będą miały podobną efektywność?

    • Czy żaden z czynników nie ma wpływu?
    • Czy mamy szukać innych?
    • A co jeśli jeden z czynników zwiększa efektywność reklamy, a drugi w tym samym czasie ją zmniejsza?

Niestety to podejście nie daje nam żadnych informacji o relacji przyczyna-skutek.
Nie wiemy, który z czynników jest istotny i nie wiemy jaki poziom daje lepsze wyniki.

Przyjrzyjmy się zatem drugiej z metod eksperymentowania.

Jeden czynnik w czasie (OFAT, One Factor At A Time)

Najczęściej stosowaną metodą eksperymentowania, której uczyłeś się w szkole, jest metoda „jeden czynnik w czasie” (OFAT, One Factor At A Time).

W metodzie tej zmieniamy tylko jeden czynnik, a resztę utrzymujemy na niezmiennych poziomach. Kiedyś uważano, że jest to jedyne podejście „naukowe”.

W przypadku reklam na Facebooku zmieniamy np. tylko tytuł reklamy, resztę utrzymując bez zmian (przykład poniżej).

One factor at a time (OFAT)

Dzięki tej metodzie teoretycznie można mieć pewność, że zmiany w odpowiedzi wynikają z manipulowanego czynnika, ale czy na pewno?

Czy rozsądne jest założenie, że manipulując tylko jednym z czynników, można utrzymywać wszystkie inne na stałym poziomie?
Doświadczenie mówi nam, że jest to praktycznie niemożliwe (OFAT jest niepraktyczny).

Wyobraź sobie, że istnieje wiele możliwych czynników wpływających na odpowiedź procesu.

Jak długo potrwa OFAT, aby zidentyfikować krytyczne czynniki? (OFAT jest nieekonomiczny).

OFAT ma też jedną ogromną wadę, która powoduje, że usprawnianie procesów tą metodą jest ekstremalnie trudne.

Dzieje się tak dlatego, że w tym rodzaju eksperymentowania nie jesteś w stanie zidentyfikować interakcji.

Wyjaśnię to na przykładzie naszych reklam na Facebooku.

Czy jest możliwe, że efekt zmiany tytułu reklamy będzie zależał od innego czynnika? Np. od użytego zdjęcia albo wieku grupy docelowej lub zainteresowań?

Oczywiście, że tak! I ta sama sytuacja występuje we wszystkich procesach.

Gdyby dominowały tylko główne czynniki bez interakcji, życie byłoby znacznie łatwiejsze, a OFAT pozwalałby na szybką poprawę naszych procesów.

Poza wspomnianymi problemami OFAT ma ich o wiele więcej: małe pokrycie przestrzeni eksperymentalnej, brak informacji o kierunku pracy, suboptymalizacja, słaba precyzja w estymacji efektów, „słaby” model matematyczny, etc.

Czy możemy zatem zrobić coś lepszego?

Planowany eskperyment (DOE, Design of Experiment)

Alternatywą do tradycyjnego podejścia (OFAT) są planowane eksperymenty (Design of Experiments), które w sposób systematyczny i strukturalny pozwalają na zrozumienie relacji przyczynowo-skutkowej w procesach, dzięki czemu stają się najefektywniejszą metodą rozwiązywania problemów. 

Do przeprowadzenia planowanego eksperymentu używamy oprogramowania, które tworzy nam odpowiednie kombinacje testowe. Dzięki temu możemy stworzyć model matematyczny naszego procesu lub produktu.

Odpowiednie wykresy pokażą nam, który z czynników (lub interakcji) jest istotny i jakie są optymalne ustawienia poziomów tych czynników.

Będziesz w stanie także przewidzieć wyniki prób eksperymentalnych, których w rzeczywistości nie musisz przeprowadzać!

Aby zobrazować jak działa DOE, wracamy do naszych reklam na Facebooku.

Załóżmy, że będziemy testować cztery czynniki, każdy na dwóch poziomach. Poniżej możesz zobaczyć wybrane przeze mnie czynniki i poziomy, które zamierzam testować.
Reszta czynników utrzymywana jest na stałych poziomach.

1. Wiek odbiorców (AGE)

Poziom 1
Poziom 2

2. Tekst reklamy (TITLE)

Poziom 1 (BLOG)
Poziom 2 (LEAD MAGNET)

3. Zdjęcie (PICTURE)

Poziom 1 (moje zdjęcie)
Poziom 2 (zdjęcie stockowe)

4. Zainteresowania (TARGET)

Poziom 1 (do wszystkich)
Poziom 2 (konkretne zainteresowania)

Kombinacje testowe możesz zobaczyć w tabeli poniżej. Zauważ, że gdybym chciał przetestować wszystkie możliwe kombinacje czterech czynników na dwóch poziomach, to wymagałoby to 2ˆ4=16 testów.

Dzięki DOE jestem w stanie zredukować ilość testów np. o połowę, ciągle otrzymując wartościowe informacje.

Moja główna metryka (odpowiedź) to cena za kliknięcie.

DOE 2^(4-1)

Dzięki takiemu ustawieniu jestem w stanie określić efekty każdego z czynników i ich interakcji niezależnie od reszty, korzystając z tzw. ortogonalności.

Jak widzisz w tabeli, stworzyłem 8 różnych reklam i monitorowałem koszt/kliknięcie przez 7 kolejnych dni, aby określić kiedy „system Facebookowy” się stabilizuje.

Wyniki możesz zobaczyć poniżej:

Wykres czasowy DOE

Jak widzisz dla reklam, które miały najwięcej kliknięć procesy są stabilne z małą zmiennością dzień do dnia.

Dla reklam, które słabiej sobie radziły, obserwujemy dużo większą zmienność — być może algorytm Facebooka próbował „optymalizować” konkretne reklamy.

Na tym wykresie możesz też zobaczyć różnicę w cenie za kliknięcie pomiędzy poszczególnymi zestawami reklam.

Te różnice są lepiej widoczne na wykresie poniżej:

Analiza DOE

Jak widzisz mamy 6-krotny stosunek w cenie za kliknięcie pomiędzy reklamą „najlepszą” a „najgorszą”.

I tutaj teoretycznie moglibyśmy skończyć, wybierając reklamę, która daje najlepsze wyniki, czyli konfigurację nr 2.

Przy takim jednak podejściu nie uczymy się niczego o naszym procesie. Pójdźmy jednak o krok dalej i przeanalizujmy nasz eksperyment.

Dzięki prostej analizie statystycznej otrzymujemy wykresy efektów głównych i interakcji, które są statystycznie i praktycznie istotne:

DOE wykres efektów głównych
DOE wykres interakcji

Oglądając oba wykresy, wiemy które czynniki są istotne i jak mamy je ustawić, aby mieć najbardziej skuteczne reklamy.

Wynika z nich, że aby mieć maksymalną liczbę kliknięć, należy po prostu ustawić szeroką grupę odbiorców.

Jeśli popatrzysz na wykres interakcji, to okaże się, że jeśli mamy grupę wiekową od 18 do 70 lat (niebieska linia, na prawej górnej części wykresu), to praktycznie nie występuję efekt zainteresowań i tytułu reklamy.

I tu musimy sobie zadać najważniejsze pytanie po każdej analizie danych:

Jakie są ograniczenia mojego wnioskowania?

Początkowo nie potrafiłem wytłumaczyć tajemniczej interakcji, ale wszystko okazało się jasne po przeanalizowaniu danych z Facebooka:

Facebook wyniki eksperymentu

Jak widzisz osoby, które najczęściej klikały, na pewno nie są moją grupą docelową 🙂

Co możemy zrobić w takiej sytuacji?

Dzięki DOE mamy model matematyczny, który posłuży nam do znalezienia optymalnego ustawienia, w sytuacji, kiedy zawęzimy grupę odbiorców.

Optimization Plot

Na powyższym grafie widzisz optymalne ustawienia reklamy po zawężeniu grupy wiekowej do 25-55 lat.

Optymalne ustawienia to: targetowanie po zainteresowaniach i tekst reklamy zachęcający do pobrania darmowego przewodnika.

Mimo że rodzaj zdjęcia na reklamie okazał się nieistotny statystycznie, to efekt rodzaju zdjęcia wskazywał na lepsze wyniki, kiedy użyte było moje zdjęcie.

Tak stworzona reklama powinna dać wynik na poziomie 0,88zł/kliknięcie.

W następnym kroku stworzyłem optymalną reklamę, której wynik po kilkunastu dniach możesz zobaczyć poniżej:,

Najlepsza konfiguracja DOE

Jak widzisz, różnica między wartością z modelu a rzeczywistym wynikiem wynosi 1gr.

Całkiem nieźle, prawda? Wygląda na to, że algorytmy Facebooka są deterministyczne (przynajmniej w zakresie warunków, w których eksperyment był przeprowadzany).

Korzyści z planowanych eksperymentów:

  • Zdobycie bardzo dużo informacji używając przy tym minimum zasobów
  • Określenie wpływu czynników na odpowiedź procesu
  • Zrozumienie interakcji między czynnikami
  • Ustalenie, która kombinacja czynników i na jakich poziomach da w efekcie optymalną odpowiedź procesu
  • Zbudowanie doświadczalnego modelu produktu lub usługi w celu przewidywania odpowiedzi procesu, gdy czynniki wejściowe i ich poziomy się zmienią
  • Minimalizacja błędu eksperymentalnego (zakłóceń)
  • Poprawa odporności  procesu na zakłócenia (robust design)

Podsumowanie

Rozejrzyj się proszę dookoła, zatrzymaj na chwilę wzrok na przedmiotach, które Cię otaczają i zadaj sobie pytanie: „Co mógłbym tu poprawić i jaki eksperyment mógłbym przeprowadzić?”

Smutne jest to, że 86 lat po tym, jak Fisher wynalazł planowany eksperyment (ang. Design of Experiment), wciąż nie jest on powszechnie nauczany w szkołach i na uczelniach, nie wspominając o przemyśle.

Dlaczego więc nie korzysta się z planowanych eksperymentów?

W większości przypadków to ignorancja, ale nawet jeśli firmy zapewniają odpowiednie szkolenie, ludzie korzystają z innych, mniej efektywnych metod, ponieważ DOE wymaga planowania, dyscypliny oraz minimalnego wykorzystania statystyki i metod graficznych analizy danych.

"Zapomnij o statystyce, jakiej uczyłeś się w szkole. Prawdziwy świat jest kompletnie inny niż ten przedstawiany w podręcznikach. Dobra wiadomość jest taka, że metody statystyczne potrzebne w codziennej pracy są prostsze niż sobie wyobrażasz.”

D. Balestracci - „Data Sanity: statistical thinking applied to everyday data” Tweet

Jeśli chcemy rozwiązywać problemy, które przetrwały próbę czasu, problemy, które przez „specjalistów” uważane są za nierozwiązywalne, to musimy nauczyć się efektywnie eksperymentować.

Ta sama sytuacja dotyczy rozwoju każdego produktu, czy usługi. Jeśli chcemy mieć świetną jakość, to musimy testować zakłócenia.

DOE zapewnia, że wszystkie czynniki i ich interakcje są systematycznie badane; w związku z tym informacje uzyskane z analizy DOE są znacznie bardziej wiarygodne i kompletne niż wyniki eksperymentów z jednym czynnikiem na raz, które ignorują interakcje i mogą prowadzić do błędnych wniosków.

Dodatkowo stusujemy proste narzędzia statystyczne, które zwiększają nasze zaufanie odnośnie uzyskanych wyników.

Przedstawiony przeze mnie przykład eksperymentu jest jednym z podstawowych rodzajów określanych mianem „fractional factorial” (link dla zainteresowanych zrozumieniem mechaniki DOE — mocno technicznie).
Obecnie jednak możemy korzystać z jeszcze bardziej efektywnych metod eksperymentowania.

Poniżej możesz zobaczyć zastosowanie DOE, gdzie testowaliśmy 10 czynników na dwóch poziomach, ale zamiast 2ˆ10 = 1024 prototypów i testów, byliśmy w stanie wykonać 16 prototypów i 32 testów łącznie.

Dzięki takim metodom jak np. Defnitive Screening Design możemy dowiedzieć się, używając małej ilości zasobów, które czynniki są najważniejsze, jakie są ich efekty, czy występują interakcje i w którym z czynników odpowiedź jest nieliniowa.

Stawiam śmiałą tezę, że gdyby każdy inżynier i naukowiec używał efektywnych metod eksperymentowania, ludzkość byłaby na innym etapie rozwoju technologicznego.

Zostaw proszę komentarz, jakie jest Twoje podejście do eksperymentowania.

Podobał Ci się wpis? Nie przegap następnego!
Tomasz Lesniewicz 3 resized crop 300×400
Tomasz Leśniewicz LSS MBB

Nazywam się Tomasz Leśniewicz i prowadzę SIGMA Value Consulting — butikową praktykę szkoleniowo-doradczą, której misją jest przekazywanie wiedzy na temat efektywnego rozwiązywania problemów i poprawy jakości przy użyciu danych, narzędzi Six Sigma i krytycznego myślenia.