Forum Studentów Socjologii UWr Strona Główna
Home - FAQ - Szukaj - Użytkownicy - Grupy - Galerie - Rejestracja - Profil - Zaloguj się, by sprawdzić wiadomości - Zaloguj
techniki przetwarzania i analizy danych socj.

 
Napisz nowy temat   Odpowiedz do tematu    Forum Studentów Socjologii UWr Strona Główna -> Wykłady
Zobacz poprzedni temat :: Zobacz następny temat  
Autor Wiadomość
gosia413



Dołączył: 18 Paź 2006
Posty: 23
Przeczytał: 0 tematów

Pomógł: 4 razy
Ostrzeżeń: 0/3
Skąd: Ostrzeszów

PostWysłany: Sob 21:22, 28 Lut 2009    Temat postu: techniki przetwarzania i analizy danych socj.

Materiał od dr Pluty



Zasady analizy danych, tworzenia raportów i opracowań badawczych




1. Analiza danych

Cel
Analiza danych ma na celu praktyczne „skonsumowanie” informacji, zebranych za pomocą standaryzowanych narzędzi pomiaru. Owo „skonsumowanie” polega najczęściej na wyszukaniu prawidłowości, bądź też na wskazaniu szczególnej postaci zjawisk wyrażanych za pomocą zmiennych o charakterze ilościowym i (lub) jakościowym. W każdym przypadku wiąże się z ustaloną na początku problematyką badawczą.
Statystyczna analiza danych jest w istocie narzędziem wypracowania decyzji badawczych odnośnie natury problemu badawczego. Jeśli ma być skutecznym narzędziem weryfikacji to badacz analizując dane za każdym razem odpowiada na trzy pytania o:
1. Trafność
Czy brane pod uwagę zmienne wchodzą w merytoryczny zakres problemu? Co właściwie wyrażają interesujące mnie zmienne?
2. Rzetelność
Z jakim błędem zmienne (wartości zmiennych) mierzą mój problem. W jaki sposób transformacja zmiennych w analizie wpłynie na błąd pomiaru? Jaki błąd pomiaru jestem w stanie zaakceptować?
3. Zmienność
Co oznacza uzyskany wynik statystyczny? Jak go zinterpretować? Do czego odnieść?

Kierunki analizy
Odpowiadają najczęściej postawionemu celowi badań i mogą zmierzać do:
− Opisu (diagnozy) zjawisk.
− Szukania zależności miedzy zjawiskami (poprzez korelacje lub model przyczynowo – skutkowy).
− Prognozowania zjawisk.
W zależności od tego czy badaczowi uda się w pełni zrealizować pierwotne zamierzenia (problemy mogą wystąpić choćby z reprezentatywnością próby, czasem i kosztami realizacji badań), kierunki analizy mogą ulec weryfikacji ex post. W szczególności badania mogą ulec istotnemu osłabieniu (np. poprzez duży odsetek braków danych). W tego rodzaju sytuacjach badacz bywa zmuszony do rezygnacji z badania zależności i poprzestać na prostym opisie interesujących go zjawisk.

Logika analizy
Każda analiza zebranych informacji określonego rodzaju odbywa się w kilku powtarzalnych etapach. W szczególności zatem, rozpatrzenie jakiegoś problemu badawczego na poziomie empirycznym jest rezultatem wykonania, w ustalonej kolejności, szeregu procedur związanych z przetwarzaniem danych i zastosowaniem procedur statystycznych.
W zależności od tego, jaka jest natura problemu i jak głęboko chcemy z odpowiedzią sięgnąć, nasze postępowanie może obejmować w powtarzalnych sekwencjach prawie wszystkie poznane etapy analizy, lub też poprzestać na fazie wstępnych obliczeń. Ogólna, można powiedzieć, prawidłowość jest tu taka, iż badacz po wykonaniu jakiejś porcji analiz ocenia, czy uzyskane wyniki są na tyle interesujące, że pozwalają mu wyjaśnić dany problem, czy też nie - wówczas nie ma większego sensu jakiekolwiek pogłębianie analiz. Poniżej podaję krótką charakterystykę tylko tych etapów postępowania, które były przedmiotem naszego zainteresowania w bieżącym semestrze.

A. Przygotowanie danych
Nie jest tak (jak myślą niektórzy studenci), że dane występują w postaci „gotowej” do przeprowadzenia jakiegoś zabiegu statystycznego. Najczęściej bowiem potrzeby badacza na poziomie narzędzia (kwestionariusza wywiadu - ankiety) w odniesieniu do zbierania informacji (pomiaru) są inne, aniżeli wymogi stawiane zmiennym w samej analizie. W zależności od konkretnych potrzeb przygotowanie danych (ze zmiennych) może dotyczyć:
− Przeliczenia wartości zmiennej, jeśli np. chcemy z danych: „rok urodzenia” uzyskać informację o „wieku” ankietowanych, albo jeśli naszym celem jest zlogarytmowanie dochodów itp. Przeliczenia takie polegają zatem najczęściej na wykonywaniu na wartościach zmiennej operacji arytmetycznych.
− Przekodowania wartości zmiennej. Najczęściej stosowane w celu przekształcenia zmiennej o charakterze ilościowym (dochód, wiek) w zmienną o charakterze porządkowym (przedziały wiekowe, przedziały dochodów).
− Zakładanie filtrów na zbiorze obserwacji. Zabieg stosowany najczęściej w celu uszczegółowienia prowadzonych analiz, gdy chcemy zobaczyć jak zachowuje się wybrana przez nas część zbiorowości. Np. w badaniu dochodów mieszkańców Wrocławia metodą reprezentacyjną może interesować nas bardziej szczegółowy problem poziomu dochodu w kategorii kobiet w wieku powyżej 29 lat.

B. Opis statystyczny
Dostarcza podstawowych informacji o naturze zmiennej. Istnieje cały szereg statystyk opisowych, które z grubsza podzielić można następująco:
− Miary tendencji centralnej (skupienia), takie jak: średnia arytmetyczna, mediana.
− Miary rozproszenia, takie jak: odchylenie standardowe, rozstęp.
Statystyki opisowe obliczane są oddzielnie dla każdej zmiennej (jest to analiza jednej zmiennej) i dostarczają one takich informacji o nich jak średnia, mediana, moda, minimum, maksimum, różne miary zmienności oraz parametry kształtu rozkładu zmiennej. Przy ich wykorzystaniu należy stale pamiętać o rodzaju skali pomiarowej, na której wyrażona jest badana zmienna. Studenci często zapominają, że np. z danych o charakterze nominalnym nie sposób jest wyliczyć wartość przeciętnej.
Miary opisowe, w szczególności zaś wartości kwartylowe (mediana), znajdują częstokroć zastosowanie jako kryteria służące przekodowywaniu wartości zmiennych o charakterze ilościowym na zmienne porządkowe czy nominalne.
Najczęściej, we wstępnej analizie danych, wykorzystuje się informacje o: wartości przeciętnej, medianie, modzie, minimum, maksimum, odchyleniu standardowym i o wartościach skrajnych. Ponadto wielkim udogodnieniem mogą być tu analizy graficzne histogramów i wykresów słupkowych (patrz wykresy).

C. Rozkłady odpowiedzi
Analiza rozkładów odpowiedzi odbywa się w zestawieniu tabelarycznym (tzn. za pomocą tabeli) jej idea jest zbieżna z opisem statystycznym (w gruncie rzeczy chodzi o to samo), lecz dotyczy zmiennych o charakterze nominalnym bądź porządkowym - czyli takich, które nie mają bardzo wielu różnych wartości, lecz kilka - kilkanaście, które można umieścić w tabeli. Częstym błędem studentów jest wykonywanie analizy tabelarycznej dla zmiennych o charakterze ilościowym, czego efektem są bardzo obszerne i zupełnie nieczytelne zestawienia.
W zestawieniu tabelarycznym dla jednej zmiennej najczęściej umieszcza się: liczebności obserwowane, procenty z liczebności obserwowanych, skumulowane liczebności obserwowane oraz skumulowane procenty z liczebności obserwowanych.
Kilka uwag praktycznych:
− Tabele zawsze wykonujemy dla ważnych obserwacji, chyba że z uzasadnionych teoretycznie względów chcemy uwzględnić wszystkie obserwacje łącznie z brakiem danych. Wówczas jednak lepiej jest podać ile było odsetek braku danych dla całej próby a następnie osobno pokazać tabelę już tylko dla ważnych odpowiedzi. Jaką proporcja braku danych jest interesująca? Nie ma na to jednoznacznej odpowiedzi, jakkolwiek badacze wspominają o brakach powyżej 5% lub w przypadku badań reprezentatywnych, przekraczających wartość poziomu istotności próby.
− Można w zestawieniach tabelarycznych umieszczać zestawienia procentowe, o ile podało się liczbę obserwacji od której się te procenty zliczało.
− Nie należy przeprowadzać zestawień procentowych w sytuacji, gdy ogólna liczba obserwacji jest niewielka. Umowną granicą jest tu liczba 50 dla zmiennej (wartości zmiennej niezależnej), dla której takie zestawienie tworzymy.

D. Tabele krzyżowe
Pozwalają na łączną analizę dwóch zmiennych o charakterze nominalnym bądź porządkowym (zob. też analiza zależności). Ogólna idea jest taka, że badamy w ten sposób rozkład liczebności jakiejś zmiennej ze względu na interesujące nas wartości innej zmiennej. Stąd też pojawia się problem zmiennej zależnej i niezależnej.
Analiza danych w tabelach krzyżowych (jak się wydaje w socjologii - podstawowa metoda pracy badaczy) jest przykładem pogłębiania badanego problemu, tzw. dzielenia włosa na czworo, albo wyprowadzania tez z małymi kwantyfikatorami. Tak np. o ile za pomocą statystyk opisowych bądź zestawienia tabelarycznego wiemy, ile papierosów dziennie wypalają nasi milusińscy, o tyle wprowadzając do badanego problemu zmienną płeć i „kontrolując” (czytaj: umieszczając w tabeli) jej wartości, jesteśmy w stanie w dalszym ciągu poprzez analizę porównawczą stwierdzić kto pali relatywnie więcej: kobiety czy mężczyźni, jaka płeć przeważa wśród nałogowych palaczy itp. Ponadto w oparciu o takie zestawienie jesteśmy w stanie przeprowadzić analizę zależności za pomocą mierników siły związku (patrz dalej).
Kilka uwag praktycznych:
− W tabeli krzyżowej istotne jest rozróżnienie zmiennych na zależne i niezależne. Wartości zmiennej niezależnej wyróżniają nam tzw. grupy porównawcze, w których rozkładają się interesujące nas obserwacje i od których potem zliczane są procenty.
− W naukach społecznych (analizach socjologicznych) grupy porównawcze najczęściej nie mają takich samych liczebności stąd konieczność posługiwania się zestawieniami procentowymi.
− W tabeli można wyróżnić procenty zliczane od wartości wierszowych, kolumnowych i od wartości ogólnej.
− Zmienne niezależne umieszczajmy w kolumnach i stosujmy zestawienia procentowe kolumnowe.
− Jeśli w celu skonstruowania tabeli krzyżowych przekształciliśmy zmienną ilościową na porządkową (np. wiek) to dbajmy o to, by ustalone przedziały nie powodowały, że w komórkach tabeli znajdą się liczebności mniejsze niż 5 (wówczas niemożliwa staje się analiza zależności).
− Nawet względnie duża ogólna liczba obserwacji może nie uchronić nas od takiej sytuacji, że liczebności w obrębie jednej grupy porównawczej znacząco przekroczą np. 100, a w innej nie dojdą do 30. Pamiętajmy, że wówczas niemożliwe jest posługiwanie się procentami a jedynie częstościami jako stosunku liczbowego między liczebnością komórki a sumą kolumny. Być może jedynym rozwiązaniem takiej sytuacji będzie ponowne przekodowanie zmiennej niezależnej i redukcja grup porównawczych. Ewentualnie posłużeniem się procentami z ogółu.
− Analiza tabel krzyżowych powinna zmierzać do wyodrębnienia grupy porównawczej, w których wartości zmiennej zależnej są procentowo rzecz ujmując (w całej tabeli) po pierwsze największe i po drugie najmniejsze, oraz wyciągnięcie z tego faktu wniosków.
− Dalsza analiza danych w tabeli krzyżowej może koncentrować się na badaniu zależności za pomocą jednego z właściwych mierników siły związku (patrz analiza zależności).

E. Wykresy
Pełnią rolę pomocniczą w kolejnych rodzajach analiz statystycznych. Są nie tylko dodatkiem, lecz przede wszystkim pozwalają na szybką ocenę zagregowanych informacji, stąd ich spore znaczenie w opisie statystycznym, analizach rozkładu jednej i dwóch zmiennych.
Histogramy
Wykorzystywane do graficznej oceny rozkładu zmiennych o charakterze ilościowym. Na diagramie umieszczane są dodatkowe informacje jak wartość przeciętnej i odchylenie standardowe. W celach analitycznych można również uzupełnić histogram o krzywą rozkładu normalnego. Komputer sam dobiera algorytm przedziałów klasowych badanej zmiennej w ten sposób, aby słupki zbliżały się do postaci rozkładu normalnego. W histogramach oceniamy przede wszystkim wszelkie anomalie. Tzn. odchylenie od osi symetrii, spłaszczenie, wydłużenie, ponadto ekstremalne, bądź minimalne liczebności w słupkach. W tym celu pomocne jest odnoszenie wykresu do postaci rozkładu normalnego.
Wykresy słupkowe
Idea analizy podobna jak w histogramach z tą różnicą, że stosujemy go dla danych porządkowych i nominalnych, gdzie wartości zmiennej są podstawą wyróżnienia kolejnych słupków. Należy pamiętać, że tylko dla danych o charakterze porządkowym kolejność słupków pełni podobną rolę jak w histogramach, natomiast dla danych nominalnych układ słupków (kolejność) jest nieistotny. Częstym błędem jest analiza postaci rozkładu (kształtu wykresu) dla danych nominalnych. Wartości słupków mogą przedstawiać liczebności obserwowane lub ich procenty.
Wykresy kołowe
Alternatywa wykresu słupkowego. Dobry do analizy rozkładu (zwłaszcza o charakterze nominalnym), w którym nie ma więcej niż 6 - 7 różnych wartości (plasterków). Należy uważać by dany plasterek nie był zbyt mało liczny (chudy), bo wówczas wykres traci swą czytelność. Wartości plastrów mogą przedstawiać liczebności obserwowane lub ich procenty.
Wykresy rozrzutu
Mają zastosowanie przede wszystkim do wstępnej oceny związku między dwoma zmiennymi (zob. analiza zależności).
Wykresy prawdopodobieństwa
Mają zastosowanie do oceny czy dany rozkład zmiennej jest normalny.

F. Analiza zależności
Często problemem analitycznym, który występuje po stwierdzeniu, że dana zmienna niezależna różnicuje wartości zmiennej zależnej (co możemy stwierdzić badając wartości przeciętne w grupach porównawczych oraz rozkład zmiennych w tabeli krzyżowej) jest stwierdzenie na ile i w jaki sposób wartości dwóch zmiennych są ze sobą powiązane czyli skorelowane.
Patrząc z jeszcze innej strony na problem analizy zależności miedzy 2 i więcej zmiennymi możemy mówić szerzej o współwystępowaniu zjawisk jako o współzmieności wartości mierzonych cech. Analitycznie do tego problemu możemy podejść od strony:
• Graficznej (za pomocą analizy wykresu rozrzutu)
• Statystycznej (za pomocą analizy tabel krzyżowych, kiedy mówimy o zróżnicowaniu)
• Korelacyjnej – kiedy współzmienność cech wyrażamy za pomocą specjalnej statystyki i miary metrycznej
• Eksperymentalnej (coś co studenci tylko czują) kiedy za pomocą testowania hipotez statystycznych o związku między zmiennymi wypowiadamy się w kategoriach przyczyny i skutku. Prawomocność owego orzeczenia następuje w oparciu o metodę probabilistycznego doboru próby i metodę indukcji statystycznej (testowania hipotez statystycznych). Zobacz też idea badań korelacyjnych a eksperymentalnych w dalszej części opracowania.

Co to jest korelacja?
Korelacja jest miarą relacji pomiędzy dwiema lub większą liczbą zmiennych. Skale pomiarowe jakich używa się w takiej analizie powinny być co najmniej skalami przedziałowymi, lecz zdefiniowano także takie współczynniki korelacji, które umożliwiają analizę danych innych typów. Współczynniki korelacji (dla zmiennych ilościowych i porządkowych) zmieniają się w przedziale od -1.00 do +1.00. Wartość -1.00 reprezentuje doskonałą korelację ujemną a wartość +1.00 doskonałą korelację dodatnią. Wartość 0.00 wyraża brak korelacji.
Analizy zależności dokonuje się ściśle ze względu na rodzaj skali pomiarowej, na której wyrażone są zmienne. Ma to konsekwencje nie tylko dla rodzaju zastosowanego miernika, ale i dla układu analizowanych danych. Dla zmiennych ilościowych analiza korelacyjna wykonywana jest „bezpośrednio na zmiennych” (także dla niektórych danych porządkowych). Natomiast dla danych porządkowych, zwłaszcza zaś w układzie dane porządkowe - nominalne i nominalne - nominalne analiza odbywa się w układzie tabelarycznym.
W analizie zależności między zmiennymi wykorzystuje się współczynniki, których przeznaczenie zależne jest ściśle od rodzaju skali pomiarowej, na której wyrażona jest zmienna i pewnych warunków dodatkowych. Algorytm wyboru współczynnika został dostarczony Państwu wcześniej w postaci drzewka. Poniżej przypominam niektóre z podstawowych współczynników.
Prosta korelacja liniowa (r Pearsona) (skala ilościowa)
Najczęściej używanym typem współczynnika korelacji jest tzw. współczynnik korelacji r Pearsona, nazywany również współczynnikiem korelacji liniowej.
Współczynnik korelacji Pearsona (dalej nazywany po prostu współczynnikiem korelacji), wymaga aby zmienne były mierzalne co najmniej w sensie skali przedziałowej. Określa on stopień wzajemnej proporcjonalności wartości dwóch zmiennych. Wartość korelacji (współczynnik korelacji) nie zależy od jednostek miary w jakich wyrażamy badane zmienne, np. korelacja pomiędzy wzrostem i ciężarem będzie taka sama bez względu na to w jakich jednostkach (cale i funty czy centymetry i kilogramy) wyrazimy badane wielkości. Proporcjonalne znaczy zależne liniowo, to znaczy że korelacja jest silna jeśli może być wyrażona przy pomocy linii prostej (nachylonej dodatnio lub ujemnie).
Linia, o której mowa nazywa się linią regresji albo linią szacowaną metodą najmniejszych kwadratów, ponieważ jej parametry określane są w ten sposób by suma kwadratów odchyleń punktów pomiarowych od tej linii była minimalna.
Potencjalnym źródłem problemów z używaniem współczynnika korelacji (r Pearsona) jest kształt zależności. Jak wspomnieliśmy o tym poprzednio, współczynnik r Pearsona mierzy liniową zależność między zmiennymi. Odstępstwa od liniowości spowodują wzrost sumy kwadratów odchyleń od linii regresji nawet jeśli reprezentują one prawdziwy i ścisły związek dwóch zmiennych. Okoliczność ta powoduje, że analizowanie wykresów rozrzutu jest niezbędnym elementem analizy przy obliczaniu korelacji.
R Spearmana (skala porządkowa)
Nieparametryczny odpowiednik współczynnika r Pearsona, różnice omówiliśmy szczegółowo na zajęciach. Przy obliczaniu tego współczynnika zakłada się, że rozważane zmienne zostały zmierzone co najmniej na skali porządkowej (rangowej), tzn., że indywidualne obserwacje mogą być zestawione w dwóch uporządkowanych szeregach.
Tau Kendalla (skala porządkowa)
Współczynnik ten jest odpowiednikiem współczynnika R Spearmana w odniesieniu do podstawowych założeń. Dotyczy to również ich statystycznej mocy. Jednakże wielkości obu współczynników zwykle nie pokrywają się, gdyż ich podstawy logiczne oraz formuły obliczeniowe bardzo się różnią. Zależność pomiędzy tymi dwoma miarami wyrażają się w postaci nierówności:

-1 <= 3 * Tau Kendalla - 2 * R Spearmana <= 1


Post został pochwalony 0 razy
Powrót do góry
Zobacz profil autora
gosia413



Dołączył: 18 Paź 2006
Posty: 23
Przeczytał: 0 tematów

Pomógł: 4 razy
Ostrzeżeń: 0/3
Skąd: Ostrzeszów

PostWysłany: Sob 21:24, 28 Lut 2009    Temat postu:

Co ważniejsze, współczynniki te posiadają różną interpretację: współczynnik R Spearmana można traktować podobnie jak współczynnik korelacji momentu iloczynowego Pearsona, tj. w kategoriach procentu wyjaśnianej zmienności. Różnica polega na tym, że R Spearmana jest wyliczany w oparciu o rangi. Z kolei współczynnik Tau Kendalla opiera się na prawdopodobieństwie; tzn. różnicy między prawdopodobieństwem tego, że dwie zmienne układają się w tym samym porządku w obrębie obserwowanych danych a prawdopodobieństwem, że ich uporządkowanie się różni.
Gamma (skala porządkowa)
Statystyka Gamma jest bardziej zalecana w przypadkach, gdy dane zawierają wiele obserwacji powiązanych. W kategoriach podstawowych założeń jest ona odpowiednikiem R Spearmana lub Tau Kendalla, natomiast w sensie interpretacji i obliczania jest bardziej podobna do współczynnika Tau Kendalla. Krótko mówiąc, współczynnik gamma opiera się również na prawdopodobieństwie; liczy się go jako różnicę między prawdopodobieństwem, że uporządkowanie dwóch zmiennych jest zgodne a prawdopodobieństwem, że jest niezgodne, podzieloną przez 1 minus prawdopodobieństwo występowania obserwacji powiązanych. W tym sensie jest bardziej odpowiednikiem Tau Kendalla, prócz tego, że jednakowe obserwacje są wprost uwzględniane w obliczeniach.
Statystyka Chi-kwadrat Pearsona (skala nominalna)
Jest podstawą najbardziej rozpowszechnionego testu istotności dla zmiennych jakościowych (kategoryzowalnych). Miara ta oparta jest na fakcie, że istnieje możliwość obliczenia liczebności oczekiwanych w tabeli dwudzielczej (to znaczy liczebności jakich oczekiwalibyśmy gdyby nie istniała żadna zależność między zmiennymi. Przypuśćmy, że zamierzamy zapytać 20 mężczyzn i 20 kobiet o upodobanie do jednej z dwóch gatunków wody sodowej (gatunki A i B). Gdyby nie było żadnej zależności między upodobaniem odnośnie wody sodowej a płcią wówczas należałoby oczekiwać mniej więcej jednakowych liczebności w preferencjach gatunku A i B dla obu płci. Test Chi-kwadrat staje się rosnąco istotny w miarę wzrostu odstępstwa od tego oczekiwanego schematu (to znaczy w miarę jak liczebności odpowiedzi dla mężczyzn i kobiet zaczynają się różnić).
Wartość chi-kwadrat i jej istotność zależy od liczby obserwacji i liczby komórek w tabeli. Zgodnie z zasadami stosunkowo małe odchylenia od oczekiwań okażą się istotne jeśli liczność próbki jest duża.
Jedynym założeniem leżącym u podstaw stosowania testu chi-kwadrat (poza losowością próbki) jest aby liczebności oczekiwane nie były bardzo małe. Powodem jest tu fakt, że chi-kwadrat testuje prawdopodobieństwa w poszczególnych komórkach i jeśli jakieś liczebności będą np. poniżej 5 to oceny tych prawdopodobieństw okażą się wysoce nieprecyzyjne.
Dokładny test Fishera (skala nominalna)
Test ten jest dostępny jedynie w tabelach 2 x 2 i opiera się na następującym rozumowaniu: Przypuśćmy, że mamy dane Liczebności brzegowe w tabeli i zakładając, że w populacji nie istnieje zależność między zmiennymi analizowanymi w tabeli postawmy pytanie: jakie jest prawdopodobieństwo, że liczebności w poszczególnych komórkach ułożą się tak nierównomiernie (lub gorzej) jak to obserwujemy w tabeli? Dla małych n prawdopodobieństwo to można policzyć dokładnie przez zliczenie wszystkich możliwych tabel, które można skonstruować na podstawie liczebności brzegowych. W ten sposób dokładny test Fishera oblicza dokładne prawdopodobieństwo przy hipotezie zerowej polegającej na uzyskaniu bieżącego rozkładu liczebności w komórkach tak samo lub bardziej nierównomiernej. Podawane są zarówno prawdopodobieństwa jedno jak i dwustronne.
Współczynnik Fi (skala nominalna)
Fi-kwadrat jest miarą korelacji między dwiema zmiennymi skategoryzowanymi w tabeli 2 x 2. Jego wartość może się zmieniać od 0 (brak relacji między zmiennymi; chi-kwadrat=0.0) do 1 (całkowita zależność między zmiennymi w tabeli).
Współczynnik Kontyngencji (skala nominalna)
Współczynnik kontyngencji jest, opartą na wartościach chi-kwadrat, miarą zależności między zmiennymi skategoryzowanymi zaproponowaną przez Pearsona, twórcę testu chi-kwadrat). Jej zaletą w porównaniu ze zwykłą wartością chi-kwadrat jest to, że jest łatwiej interpretowalna ponieważ zawsze zawarta jest pomiędzy 0 i 1 (0 oznacza niezależność zmiennych). Podstawową wadą tej statystyki jest natomiast to, że jej maksymalna wartość górna zależy od rozmiaru tabeli. C może osiągnąć wartość 1 jedynie dla nieskończonej liczby kategorii (zob. Siegel, 1956, str. 201).
Interpretacja miar kontyngencji(skala nominalna)
Poważną wadą miar kontyngencji (opisanych wyżej) jest to, że nie są one łatwo interpretowalne w terminach prawdopodobieństwa lub proporcji zmienności jak to ma miejsce np. dla współczynnika korelacji Pearsona (zob. Korelacje). W ogóle należy dodać, że nie istnieją żadne miary relacji pomiędzy zmiennymi skategoryzowanymi, które by umożliwiały taką jasną interpretację.
Jak interpretować wartości korelacji
Aby ocenić korelację pomiędzy zmiennymi należy znać zarówno tę siłę, wielkość jak też istotność współczynnika korelacji. Często decyzje co do tego czy korelacja jest silna, czy słaba są rezultatem przyjęcia pewnej umowności. W naukach społecznych, gdzie zjawiska występują pod postacią prawidłowości (a więc z dużą liczbą wartości odstających) zadowalamy się najczęściej mniejszymi poziomami. Wartości w przedziale 0,2 - 0,4 są słabymi korelacjami, 0,5 - 0,6 silnymi, a od 0,7 można mówić już o bardzo silnych korelacjach.
Istotność korelacji
Poziom istotności obliczany dla każdego współczynnika korelacji jest pierwotnym źródłem informacji o wiarygodności korelacji. Aby ułatwić identyfikację tych współczynników, które są istotne na zadanym poziomie istotności wystarczy w pakiecie statystycznym zaznaczyć odpowiednią opcję przy wyliczeniu danego współczynnika. Istotność współczynnika korelacji o zadanej wartości będzie się zmieniać w zależności od liczności próbki, z której został on obliczony. Test istotności współczynników korelacji jest oparty na założeniu o normalności rozkładu wartości resztowych (odchyleń od linii regresji) zmiennej y, oraz o równości wariancji wartości resztowych dla wszystkich wartości zmiennej niezależnej x. Wielu badaczy przestrzega reguły, że jeśli wielkość próbki wynosi 50 lub więcej wówczas wystąpienie silnych nieprawidłowości jest mało prawdopodobne jeśli zaś próbka liczy 100 lub więcej wówczas założeniem o normalności nie należy się praktycznie przejmować. Istnieją jednak inne zagrożenia co do wiarygodności wyciąganych wniosków z wielkości współczynnika korelacji; są one opisane w następnych częściach.

G. Testy statystyczne
Są rozbudowanym narzędziem statystycznym, które ma zastosowanie w metodzie reprezentacyjnej i w badaniach eksperymentalnych. W badaniach społecznych (analizach socjologicznych) najczęściej stosuje się je w celu wykrycia związków między zmiennymi przy założeniu (nie zawsze słusznym), że przeprowadzane badania są swoistym eksperymentem ex post.
Idea czyli badania korelacyjne a badania eksperymentalne
Większość badań doświadczalnych można klarownie zaliczyć do jednej z dwóch kategorii: W badaniu korelacyjnym badacz nie wpływa (albo przynajmniej stara się nie wpływać) na żadną ze zmiennych rejestrując je jedynie i obserwując relacje (korelacje) między pewnymi podzbiorami zmiennych, na przykład między ciśnieniem krwi i poziomem cholesterolu. W badaniach eksperymentalnych badacz manipuluje niektórymi zmiennymi a następnie mierzy wpływ tych manipulacji na inne zmienne; badacz może na przykład sztucznie zwiększyć ciśnienie krwi i następnie rejestrować poziom cholesterolu. W trakcie analizy danych będących wynikiem badania eksperymentalnego zdarza się również obliczać korelacje między zmiennymi, w szczególności pomiędzy tymi, którymi manipulujemy a tymi, na które ta manipulacja wpłynęła. Dane pochodzące z badania eksperymentalnego dostarczają jednak najczęściej informacji lepszej jakościowo niż dane z badań korelacyjnych. W szczególności pamiętać należy, że jedynie badania typu eksperymentalnego mogą efektywnie dowieść relacji przyczynowej między zmiennymi. Jeśli na przykład stwierdzimy, że ilekroć zmieniamy wartość zmiennej A to zmienia się wartość zmiennej B wówczas możemy wysnuć wniosek, że zmienna A wpływa na zmienną B. Dane z badań korelacyjnych mogą być jedynie interpretowane w sposób przyczynowy w świetle pewnych teorii lecz nigdy nie pozwalają na ostateczne udowodnienie istnienia związku przyczynowego.
Istnieje cała klasa rozmaitych testów, z których jedne służą do oceny postaci rozkładu zmiennej inne do oceny losowości próby. Na zajęciach poznaliśmy testy istotności różnic między wartościami średnimi w grupach porównawczych w odmianie parametrycznej i nieparametrycznej. Testy istotności różnic mają wspólną ideę, a ich rozmaitość (podobnie jak współczynników korelacji) jest rezultatem warunków stosowalności, z których najważniejsze to postać zmiennej zależnej, normalność rozkładu, liczebność próby etc.
Poniżej zaprezentowano krótkie omówienie podstawowych testów.
Test-t dla prób niezależnych (parametryczny zmienna zależna ilościowa)
Test-t jest najbardziej powszechnie stosowaną metodą oceny różnic między średnimi w dwóch grupach. Można go na przykład użyć do sprawdzenia różnicy w teście przeprowadzanym na grupie pacjentów poddanych działaniu jakiegoś leku w stosunku do grupy otrzymujących placebo. Teoretycznie test-t może być stosowany także w małych próbkach (np. próbkach o liczności 10, zaś niektórzy badacze twierdzą, że nawet w mniej licznych); jedynym warunkiem jest normalność rozkładu zmiennych oraz brak istotnych różnic między wariancjami. Jak zostało to wspomniane wcześniej założenie o normalności można sprawdzić przez analizę rozkładu danych (przy pomocy histogramów) lub przy pomocy testu normalności (opcja Statystyki opisowe). Założenie o równości wariancji sprawdzamy przy pomocy testu-F lub też przy pomocy mocniejszej opcji określonej jako test Levenea (jak również modyfikacji Browna-Forsythe tego testu). Jeżeli warunki, o których mowa nie są spełnione, wówczas alternatywą pozostaje użycie jednego z testów występujących w module Testy nieparametryczne i rozkłady.
Podawany w wynikach testu-t poziom-p reprezentuje prawdopodobieństwo błędu związanego z przyjęciem hipotezy o istnieniu różnic między średnimi. Mówiąc technicznie jest to prawdopodobieństwo popełnienia błędu polegającego na odrzuceniu hipotezy o braku różnicy między średnimi w dwóch badanych kategoriach populacji generalnej (reprezentowanych przez badane grupy) w sytuacji gdy stan faktyczny w populacji jest taki, iż hipoteza ta jest prawdziwa. Niektórzy badacze uważają, że jeśli znak różnicy średnich jest zgodny z przewidywaniami to można do testowania używać jedynie połowy (jednego ogona) rozkładu prawdopodobieństwa i dzielić podawany poziom-p (prawdopodobieństwo z dwoma ogonami) przez dwa. Niektórzy uważają to za błędne i polecają używać dwustronnego zbioru krytycznego. Dalsze szczegóły znaleźć można w piśmiennictwie cytowanym w tym podręczniku.
Test serii Walda-Wolfowitza (nieparametryczny zmienna zależna porządkowa)
Test ten jest nieparametryczną alternatywą testu t dla prób niezależnych. Dane powinny zostać przygotowane w taki sam sposób, jak w teście t. W szczególności zbiór danych powinien zawierać zmienną kodową (zmienną niezależną) z przynajmniej dwoma wyróżnionymi kodami, jednoznacznie określającymi przynależność do grupy każdego z przypadków w zbiorze danych. Wybranie tej opcji spowoduje przywołanie okna dialogu służącego do wybrania zmiennej kodowej i listy zmiennych zależnych (zawierającej zmienne ze względu na które mają być porównywane grupy) oraz kodów stosowanych w obrębie zmiennej kodowej do identyfikacji dwóch grup.
Konstrukcja tego testu jest następująca: wyobraźmy sobie, że chcemy porównać osobników płci męskiej i żeńskiej pod względem pewnej zmiennej. Należy uporządkować dane według tej zmiennej i znaleźć przypadki, gdy w uporządkowanych danych obok siebie występują osobnicy tej samej płci. Jeżeli nie ma różnic pomiędzy osobnikami obu płci wówczas liczba i długość takich sąsiadujących ze sobą serii osobników tej samej płci będzie w mniejszym lub większym stopniu układać się w sposób losowy. W przeciwnym przypadku dwie grupy (w naszym przykładzie o różnej płci) różnią się między sobą. Test ten zakłada, że rozważana zmienna jest zmienną ciągłą, mierzoną przynajmniej na skali porządkowej (tzn. istnieje możliwość rangowania). Test służy do oceny hipotezy, że dwie niezależne próby zostały pobrane z dwu populacji różniących się pod pewnym względem, tj. nie tylko w odniesieniu do średniej, ale również pod względem ogólnego kształtu rozkładu. Hipoteza zerowa zakłada, że dwie próby pochodzą z tej samej populacji. Z tego względu test ten różni się od parametrycznego testu t, który służy ściśle do oceny różnic położenia (średnich) dwóch prób.
Test U Manna-Whitneya (nieparametryczny zmienna zależna porządkowa)
Test ten jest nieparametryczną alternatywą testu t dla prób niezależnych. Dane powinny zostać przygotowane w taki sam sposób jak w teście t. W szczególności zbiór danych powinien zawierać zmienną kodową (zmienną niezależną) z przynajmniej dwoma wyróżnionymi kodami, jednoznacznie określającymi przynależność do grupy każdego z przypadków w zbiorze danych. Wybranie tej opcji spowoduje przywołanie okna dialogu służącego do wybrania zmiennej kodowej i listy zmiennych zależnych (zawierającej zmienne ze względu na które mają być porównywane grupy) oraz kodów stosowanych w obrębie zmiennej kodowej do identyfikacji dwóch grup.
W teście tym zakłada się, że rozważana zmienna została zmierzona przynajmniej na skali porządkowej (rangowej). Interpretacja wyników tego testu jest zasadniczo taka sama jak w przypadku testu t dla prób niezależnych. Różnica polega na tym, że obliczenia w teście U są wykonywane w oparciu o sumę rang a nie o średnie. Test U jest najmocniejszą nieparametryczną alternatywą dla testu t dla prób niezależnych. Rzeczywiście w niektórych przypadkach może nawet wykazywać większą moc przy odrzucaniu hipotezy zerowej niż test t. W przypadku prób, których liczebność przekracza 20 rozkład z próby statystyki U szybko zmierza do rozkładu normalnego (patrz Siegel, 1956). Stąd też obok wartości statystyki U (skorygowanej ze względu na rangi wiązane) podawana jest wartość z (wartość zmiennej o rozkładzie normalnym) oraz odpowiadająca jej wartość p. Dla prób o małej lub średniej liczebności program statystyczny oblicza dokładne prawdopodobieństwo związane z rozkładem statystyki U. Opiera się ono na wyliczeniu wszystkich możliwych wartości U (skorygowanych ze względu na rangi wiązane) przy danej liczbie obserwacji w dwóch próbach.
Test Kołmogorowa-Smirnowa (nieparametryczny zmienna zależna porządkowa)
Test ten jest nieparametryczną alternatywą testu t dla prób niezależnych. Dane powinny zostać przygotowane w taki sam sposób jak w teście t. W szczególności zbiór danych powinien zawierać zmienną kodową (zmienną niezależną) z przynajmniej dwoma wyróżnionymi kodami, jednoznacznie określającymi przynależność do grupy każdego z przypadków w zbiorze danych. Wybranie tej opcji spowoduje przywołanie okna dialogu służącego do wybrania zmiennej kodowej i listy zmiennych zależnych (zawierającej zmienne, ze względu na które mają być porównywane grupy) oraz kodów stosowanych w obrębie zmiennej kodowej do identyfikacji dwóch grup. Test ten służy do weryfikacji hipotezy o tym, że dwie próby zostały pobrane z różnych populacji. W odróżnieniu od parametrycznego testu t dla prób niezależnych lub testu U Manna-Whitneya (patrz wyżej), które dotyczą różnic w położeniu dwóch prób (odpowiednio różnice średnich i różnice rang) test ten jest również wrażliwy na różnice ogólnych kształtów rozkładów w dwóch próbach (tj. różnice dyspersji, skośności itd.). Tak więc jego interpretacja jest zbliżona do interpretacji w teście Walda-Wolfowitza.



2. Tworzenie opracowania - raportu badawczego

Zawsze najważniejszy i końcowy efekt prac, za który Was oceną albo zapłacą. Przed przystąpieniem do pisania trzeba sobie przyjąć określona ogólna logikę analizy (choćby zgodną z charakterem badań, który wynika z procesu badawczego: badań eksperymentalnych, ex post, korelacyjnych czy opisowych). Pomyślcie nad konstrukcją raportu na wyróżnieniu tez problemowych (pytań szczegółowych) i umieszczeniu ich w postaci tytułów poszczególnych podrozdziałów. Sztuką jest odpowiednie „poćwiartowanie danych” by nie musieć zajmować się nimi wszystkimi stale. Każdy raport jest w istocie redukcją danych.

Ogólna konstrukcja raportu (opracowania)
Jakkolwiek istnieją różnice między opracowaniami naukowymi [n] a komercyjnymi [k], to w przedstawionych uwagach będę uwzględniał potrzeby obydwu typów opracowań.
− Informacje wstępne
Mogą tak być w raporcie nazwane. Obejmują informacje o tym dla kogo [k] i przez kogo badania były zrobione, o celu badań [k i n], o członkach zespołu badawczego. Istotną częścią informacji jest podanie parametrów populacji generalnej i próby, sposobu dochodzenia do respondentów (jednostek obserwacji), współczynniku realizacji badań oraz to czy, i w jakim zakresie badania można uogólniać. We wstępnych informacjach podaje się również wszelkie istotne ustalenia metodologiczne oraz czas realizacji badań.
− Informacje tematyczne
Zgrupowane są w podrozdziałach, które wynikają z postawionych pytań badawczych [n] lub celów strategii marketingowej [k]. Mówiąc inaczej podrozdziały stanowią pewne całostki, w których porcje zanalizowanych zmiennych odnoszących się do danego problemu, stąd też ich budowa winna być podobna (patrz zasady analizy wyników i prezentacja). Informacje tematyczne mogą być poprzedzone krótkim wstępem, mającym na celu szersze zarysowanie problemu. Zasadniczą część stanowią jednak ustalenia faktograficzne zaprezentowane w postaci danych, tabel i wykresów. W zależności od potrzeb można poprzestać na suchej prezentacji i opisie danych (na zasadzie: czego jest dużo, a czego mało), albo też na pogłębionej analizie empirycznej, której podstawą jest interpretacja wyników poparta wiedzą badacza i informacjami dodatkowymi (źródła porównawcze). Dbajmy o to, by w raporcie te dwie rzeczy były wyraźnie stylistycznie oddzielone.
− Wnioski końcowe
Jeśli jest taka potrzeba to niezależnie od ustaleń cząstkowych można pokusić się o krótkie ogólne podsumowanie. Niekiedy dobrze jest też wypunktować najważniejsze ustalenia faktograficzne (dane).

Zasady analizy wyników i prezentacja danych
Nie jest tak, iż wszystkie rodzaje informacji, jakie jesteśmy w stanie wycisnąć z bazy danych, stosując przedstawioną wcześniej logikę analizy, umieszczamy w informacjach tematycznych. Podstawowym kryterium jest tu merytoryczna waga informacji. W opracowaniu musimy zdecydować, które z informacji pominąć, o których wspomnieć tylko ogólnie w tekście, które przedstawić i omówić bardziej szczegółowo w zestawieniu tabelarycznym, bądź graficznym. Pomocne jest tu przyjęcie z góry pewnego planu, dzięki któremu ustalamy jakiego rodzaju predyktory (zmienne niezależne) interesują nas w ocenie problemu (wartości zmiennej zależnej). W analizie dbajmy o to, by postępować od ogółu (prezentacja i ocena zmiennej zależnej) do szczegółu (zmienna zależna w powiązaniu z kolejnymi zmiennymi niezależnymi). Często też logika analizy jest warunkowana przyjętym modelem teoretycznym, który testujemy. Starajmy się by informacje były przejrzyste i czytelne nie umieszczajmy w raporcie każdej tabeli i każdego wykresu, którym dysponujemy, albo który możemy wygenerować.
Poza tymi uwagami, mogę podać jeszcze kilka intuicji (może cennych), które wynikają z pewnych doświadczeń. Otóż istnieje różnica między pisaniem raportu z badań, który najczęściej jest po prostu prezentacją wyników badań (nieco wulgarnie: omówieniem słownym tego, co widnieje w statystykach), a ekspertyzą, która ma znacznie większy walor heurystyczny (nie tylko analizuje dane, ale wyciąga z nich wnioski, w większym stopniu odnosi się do problemów, zagadnień teoretycznych, tworzy implikacje). Zatem ekspertyza dodatkowo poparta jest wiedzą o problemie a jej treść jest szczególnym rodzajem związku między wiedzą (badacza i z różnych źródeł) a danymi. W sensie technicznym ekspertyzę nie piszę się z danych, lecz a propos danych, nawet bardziej je selekcjonujac, bazując raczej na pewnych wątkach i co najważniejsze krytycznej dyskusji zawartej w treści ekspertyzy, w której uwzględniane są również inne dane (wtórne).
Ciekawostką jest też i to, ze w którymś momencie analizy dane pokazują swą prawdziwą naturę wynikającą z wielu ustaleń cząstkowych. Jeśli się tylko to „zobaczy” można wyciągnąć ekstra sensowe wnioski.

3. Praca z pakietem SPSS przy analizie danych i tworzeniu raportu badawczego

W celu uzyskania zaliczenia musicie Państwo wykonać analizę statystyczną, a jej wyniki i wnioski zaprezentować w postaci opracowania. Aby czynność tę maksymalnie ułatwić przedstawiam kilka rad.
− Zobaczcie jak funkcjonuje pracowania w czasie sesji i ustalcie dogodne dla siebie godziny pracy.
− Po zlokalizowaniu folderu z plikiem bazy danych skopiujcie go ze zmienioną nazwą do własnego folderu na dysku twardym (C:, P na Spectrum) w folderze My Docs.
− Noście ze sobą zawsze dyskietkę, na której po skończonej pracy kopiujcie zarówno bazę danych jak i plik raportu z którym pracujecie. W ten sposób następnym razem jesteście w stanie rozpocząć pracę na dowolnym komputerze w pracowni.
− SPSS jest programem, który pracuje w 2 trybach. A. jako edytor danych (plik danych z przedłużeniem .sav), w którym możecie dokonywać zmian w samej bazie danych i wykonywać obliczenia oraz B. W trybie edytora raportu (plik raportu z przedłużeniem .spo). W nim to umieszczane są automatycznie wszelkie rezultaty naszej pracy w postaci tabel i wykresów.
− Przed kolejnym rozpoczęciem (kontynuacją pracy) należy otworzyć od razu swoją bazę danych i swój plik raportu. Nowe analizy są wówczas automatycznie dopisywane do tego co mamy.
− W edytorze raportów możecie kasować zbędne tabele i wykresy. Przesuwać ich kolejność, poddawać edycji (modyfikacji przez dwukrotne kliknięcie na obszar tabeli bądź wykresu). Dopisywać tytuły bądź tekst (polecenie wstaw).
− W szybkim poruszaniu się po częściach raportu korzystajcie z okienka, które pokazuje jego strukturę (to mniejsze po lewej stronie ekranu).
− Bardzo ważną rzeczą jest zdolność eksportu części raportu do edytora Word (i arkusza Excel), gdyż to w nim będziecie tworzyli ostateczne opracowanie. Polecam oddzielne metody dla tabel i wykresów.
− Eksport wykresów: po doprowadzeniu wykresów do pożądanego stanu można je podświetlić i przenieść do Worda za pomocą schowka (ctrl+c - kopiuj, ctrl+v - wklej lub polecenie: wklej specjalne).
− Eksport tabel. Można przez schowek, ale wtedy tracą ładny wygląd i trzeba na nowo definiować krawędzie. Istnieje też specjalna procedura eksportu do postaci pliku HTML, który Word (lub Excel) czyta, i który następnie można zapisać jako standardowy dokument Worda (w najnowszym SPSS macie od razu mozliwość eksportu do formatu rtf i z niego korzystajcie a te uwagi staną się zbędne). W tym celu należy skorzystać z polecenia w edytorze raportów: Plik → Eksportuj. W okienku dialogowym Eksportuj mamy i ustawiamy następujące opcje: Dokument wynikowy (bez wykresów). Eksport do pliku: przez polecenie Przeglądaj, a następnie ustalamy miejsce, do którego wyeksportujemy raport i nazwę eksportowanego pliku (może być dyskietka lub własny folder na dysku C: w My Docs.) Format eksportu: Plik HTML. Można eksportować wszystkie widoczne w edytorze obiekty lub pojedyncze wcześniej podświetlone. Po eksporcie otwieramy plik W Wordzie i zapisujemy go jako doc.

Wykorzystano:
StatSoft, Inc. (1997). STATISTICA for Windows [Computer program manual]. Tulsa, OK.
A także dobre pomysły i własny bagaż doświadczeń w nieumiejętnym przekazywaniu wiedzy.


Opracowanie:
Jacek Pluta


Post został pochwalony 0 razy
Powrót do góry
Zobacz profil autora
Wyświetl posty z ostatnich:   
Napisz nowy temat   Odpowiedz do tematu    Forum Studentów Socjologii UWr Strona Główna -> Wykłady Wszystkie czasy w strefie CET (Europa)
Strona 1 z 1

 
Skocz do:  
Nie możesz pisać nowych tematów
Nie możesz odpowiadać w tematach
Nie możesz zmieniać swoich postów
Nie możesz usuwać swoich postów
Nie możesz głosować w ankietach


fora.pl - załóż własne forum dyskusyjne za darmo
Powered by phpBB
Appalachia Theme © 2002 Droshi's Island