artykuly

Porównanie skuteczności 4 zaimplementowanych w XLStat metod uzupełniania danych brakujących

Zagadnieniem możliwości wykorzystania w analizie danych niekompletnych zajmowaliśmy sięjuż dość dawno temu w artykule Dane niekompletne w analizie rynku i szacowaniu (cz. I.). Artykuł ten omawiał zagadnienie raczej hipotetycznie i od strony teoretycznej. Na realizację zapowiedzi "W drugiej części artykułu zostaną przedstawione i porównane wyniki zastosowania wyżej przedstawionych procedur walidacji danych na konkretnym przykładzie zbioru danych szacowania" przyszło czekać dość długo.

Ale dzięki nowym, wprowadzonym w XLStat 2014 funkcjonalnościom możliwe jest przejście od rozważan teoretycznych do praktycznego zastosowania zaimplementowanych właśnie narzędzi uzupełniania danych brakujących, w tym tych najbardziej zaawansowanych. W efekcie, niniejszy artykuł stanowi zapowiadaną część II.

W związku z tym w Dziale Analiz RealExperts.pl, wykonano krótką analizę porównawczą skuteczności 5 dostępnych metod:

  • usunięcia danych brakujących,
  • prostego uzupełniania średnią,
  • NIPALS (non-linear iterative partial least squares),
  • Multiple Imputation MCMC (Markov chain Monte Carlo),
  • Nearest Neighbour (NNBH) (metoda "najbardziej podobnych").

Metody te dostępne są w menu Preparing data -> Missing data:

Aby przetestować skuteczność oferowanych w XLStat metod wygenerowano 50-elementowy zbiór danych w modelu liniowym addytywnym ze stałą i 10 zmiennymi, zgodnie z formułą: 

 
Y(zł/m2) = 2533,21 + 247,24*Cecha X1 - 5,10*Cecha X2 + 94,87*Cecha X3 + 159,92*Cecha X4 + 222,72*Cecha X5 + 317,74*Cecha X6 + 70,70*Cecha X7 - 102,09*Cecha X8 + 71,66*Cecha X9 + 64,72*Cecha X10
 
Następnie losowo dla każdej zmiennej usunięto po 8 lub 9 danych w taki sposób, że w efekcie: tylko 8 przypadków miało pełną informację, w 16 brakowało 1, w 15 brakowało 2, w 8 brakowało 3, w 2 brakowało 4 a w 1 brakowało 5 danych o cechach.
 
Oczywiście pierwsza z proponowanych "metod" - odrzucenie danych niepełnych i pozostawienie tylko 8 pełnych danych spowodowałoby, że w ogóle nie można by przeprowadzić analizy kształtowania się wpływu cech. Czyli pierwsza "metoda" analizy - "odrzuć brakujące" odpadła już w przedbiegach. Należy zauważyć, że z powodu braku ok. 17% informacji wyrzuca ona poza analizę aż 84% danych (!). Jest więc postępowaniem nieefektywnym, przeciwskutecznym i zdecydowanie nie zalecanym w badaniach ekonometrycznych. Nie będziemy się więc nią dalej zajmować.
 
Uwzględniając powyższe zastosowano więc analizę danych z zastosowaniem metod uzupełniania danych brakujących. 
Zagadnieniem, oczywiście, nie była kwestia czy da się to zrobić, bo oczywiście da, ale czy metody bardziej zaawansowane niż metoda podstawowa, tj. uzupełnianie średnią okażą się lepsze, i która z nich będzie najlepsza.
 
Po zastosowaniu wszystkich 4 metod uzupełniania danych brakujących (średnia, NIPALS, MCMC i NNBR) dokonano zestawienia wyników oszacowania parametrów równania regresji dokonanych na podstawie danych uzupełnionych każdą z zastosowanych metod. Wyniki zestawione zostały w pierwszej tabeli.
 
 
Następnie dokonano porównania błędów %-owych dla poszczególnych współczynników równania uzyskane w wyniku zastosowania każdej z metod. Pogrubiono te współczynniki, które cechują się najniższym błędem. Najczęściej "wygrywająca", czyli cechująca się najniższym błędem dla największej liczby zmiennych okazała się metoda NIPALS - aż w 8 z 11 parametrów dawała ona najmniejszy błąd, następnie metoda NNBH - 3 z 11. Metody MCMC oraz zastępowanie średnią nie wygrały ani razu , co obrazuje tabela 2.
 
 
Jednakże porównanie tylko liczby "wygranych" nie jest do końca miarodajne. Można mieć często rację w sprawach drobnych i mylić się w grubych. Z dyscyplin takich jak skoki narciarskie pamiętamy, że można wygrać Turniej Czterech Skoczni nie odnosząc żadnego zwycięstwa w poszczególnych turniejach. "Wiecznie drugi" może być lepszy niż zwycięzca 3 turniejów, który odpadł w czwartym. 
 
Dlatego istotne jest określenie błędów ważone wagą zmiennych, których dotyczą. Duży błąd w zmiennej mało istotnej może mieć wpływ mniejszy niż mały w cesze istotnej. 
Po uwzględnieniu wag cech (wpływ w postaci standaryzowanej) uzyskano błędy ważone. Dodatkowo przedstawiono też R2 i RMSE dla poszczególnych modeli uzyskanych na zestawach danych uzyskanych poszczególnymi metodami. wynik okazał się trochę różny niż dla prostej liczby wygrywających cech. Nadal zdecydowanym zwycięzcą jest metoda NIPALS ale metoda NNBH nie potwierdziła swojej skuteczności. Wskazania ważonego błędu R2 i RMS okazały się tożsame ze wskazaniami błędów ważonych - na bazie zestawów danych z najmniejszym błędem uzyskiwano też modele o najwyższym współczynniku determinacji (R2) i najmniejszym błędzie średniokwadratowym (RMSE).
 
 
Ostatecznie ranking skuteczności różnych oferowanych przez XLStat metod uzupełniania danych brakujących wygląda następująco: miejsce 1: NIPALS, miejsce 2: MCMC, miejsce trzecie: zastępowanie średnią i miejsce 4: NNBH. 
 
Czy oznacza to, że metoda NIPALS jest po prosu najlepsza? Myślę, że to wniosek przedwczesny. Aby można było wypowiedzieć się autorytatywnie należy porównać te metody dla różnej liczby danych, różnego udziału danych brakujących a przede wszystkim dla różnych rozkładów zmiennej objaśnianej i zmiennych objaśniających. 
Wygenerowany do analizy przykład danych jest dość prosty - zmienne objaśniające mają rozkład jednostajny a zmienna objaśniana rozkład normalny. W efekcie średnie stany cech jako "zastępnik" spisują się całkiem dobrze. Prawdopodobnie przy bardziej "skomplikowanych" rozkładach, zwłaszcza przy silnie niesymetrycznych wyniki analizy mogą być inne, zwłaszcza gorsze dla metody prostego zastępowania średnią.
 
Na razie wstępnie można jednak stwierdzić, że metody NIPALS i MCMC dają wyraźną poprawę względem metody prostego zastępowania średnią. Można też się spodziewać, że przy bardziej skomplikowanych rozkładach ich skuteczność okaże się jeszcze lepsza.
 
Tomasz Kotrasiński

źródło: Realexperts Sp. z o.o.

Kalendarium

Wydarzenia RealExperts


TAGI