Representativt urval. Provtagning, dess typer och egenskaper

Ett urval är en uppsättning data som tagits med hjälp av vissa procedurer från en population för explorativ analys. Representativitet är egenskapen att reproducera idén om helheten genom sin del. Med andra ord är detta möjligheten att utvidga idén om en del till helheten, vilket inkluderar denna del.

Ett urvals representativitet är en indikator på att urvalet fullt ut och tillförlitligt måste återspegla egenskaperna hos den population som det är en del av. Det kan också definieras som egenskapen hos ett urval att till fullo representera de egenskaper hos populationen som är signifikanta med tanke på syftet med studien.

Låt oss anta att den allmänna befolkningen är alla skolelever (900 personer från 30 klasser, 30 personer i varje klass). Syftet med studien är skolbarnens inställning till rökning. En urvalspopulation bestående av 90 elever kommer bara att representera hela populationen mycket sämre än ett urval av samma 90 elever, vilket skulle omfatta 3 elever från varje klass. Den främsta orsaken är den ojämna åldersfördelningen. I det första fallet kommer alltså urvalets representativitet att vara låg. I det andra fallet - hög.

Inom sociologi säger man att det finns representativitet för ett urval och dess icke-representativitet.

Ett exempel på ett icke-representativt urval är ett klassiskt fall som inträffade 1936 i USA under presidentvalet.

Literary Digest, som hade varit mycket framgångsrik i att förutsäga resultatet av tidigare val, hade fel i sina prognoser den här gången, även om det skickade flera miljoner skriftliga frågor till prenumeranter och till respondenter som de valt från telefonböcker och bilregistreringslistor. Av 1/4 av röstsedlarna som returnerades färdiga fördelade sig rösterna enligt följande: 57 % gav företräde till den republikanska kandidaten vid namn Alf Landon, och 41 % föredrog den sittande presidenten, demokraten Franklin Roosevelt.

Faktum är att F. Roosevelt vann valet och fick nästan 60 % av rösterna. The Literary Digests misstag var följande. De ville öka urvalets representativitet . Och eftersom de visste att de flesta av deras prenumeranter identifierades som republikaner, bestämde de sig för att utöka urvalet till att inkludera respondenter som de valt från telefonböcker och bilregistreringslistor. Men de tog inte hänsyn till de existerande verkligheterna och valde faktiskt ut ännu fler republikanska anhängare, för på den tiden hade medel- och överklassen råd att ha bilar och telefoner. Och dessa var mestadels republikaner, inte demokrater.

Det finns olika typer av provtagning: enkel slumpmässig, seriell, typisk, mekanisk och kombinerad.

Enkelt slumpmässigt urval består av att välja från hela populationen av enheter som studeras slumpmässigt utan något system.

Mekanisk provtagning används när det råder ordning i den allmänna befolkningen, till exempel finns det en viss sekvens av enheter av arbetare, vallistor, telefonnummer till respondenter, antal lägenheter och hus, etc.).

Typiskt urval används när hela populationen kan delas in i grupper efter typ. När man arbetar med befolkningen kan dessa till exempel vara utbildning, ålder, sociala grupper, när man studerar företag - en industri eller en separat organisation, etc.

Serieval är praktiskt när enheter kombineras i små serier eller grupper. En sådan serie kan vara partier av färdiga produkter, skolklasser och andra grupper.

Kombinerad provtagning innebär användning av alla tidigare typer av provtagning i en eller annan kombination.

Begreppet "representativitet" i relation till sociologiska undersökningar - opinionsundersökningar - har en nästan magisk effekt på människor. Själva begreppet ”representation” har, förutom sin vetenskapliga innebörd, också en tydlig politisk innebörd.

Vad är anledningen? Hela poängen är att man antar att ett urval (en grupp personer som valts ut för en undersökning) kan representera (representera) hela populationen. Den allmänna befolkningen i fallet med allryska undersökningar är hela befolkningen i landet. Låt oss nu föreställa oss att vi talar om ett politiskt beslut – att stödja ett lagförslag eller rösta i ett val. Med hjälp av en urvalsundersökning får vi en utmärkt mekanism för politisk representation – en mekanism där en liten grupp människor kan representera åsikten eller ståndpunkten för hela landets befolkning. Det är därför studiens representativitet ges en så viktig plats.

Begreppet representativitet används naturligtvis inte bara inom politisk forskning. Termen används nästan alltid när man talar om storskalig forskning, oavsett om det är inom marknadsföring, ekonomiskt beteende eller utbildning.

Representativ undersökningsmetodik

Hur kan man, efter att ha intervjuat 1 500 personer, dra slutsatser om alla ryssar, av vilka det finns mer än 140 miljoner (och till och med mer än 110 miljoner väljare)? Tekniken bakom representativa undersökningar bygger på statistiska lagar. Den närmaste grunden är lagen om stora tal, eller Bernoullis sats.

På ett förenklat sätt kan dess innebörd förmedlas på följande sätt. Anta att vi har något attribut, till exempel mängden nederbörd per dag i Jekaterinburg under nittonhundratalet. Om vi skriver ner alla dess värden tillsammans med deras frekvens (detta kallas en fördelning) och sedan slumpmässigt tar ett tillräckligt stort antal fall (det vill säga inte alla dagar på 1900-talet, men ganska många), då kommer vi att se att fördelningen i vårt urval kommer att vara väldigt lik fördelningen för hela nittonhundratalet. Om vi väljer några enheter från en population kan de alltså representera hela populationen, och det finns faktiskt inget behov av att samla in data om alla fall.

Det finns dock ett nyckelvillkor: detta är bara sant om urvalet är strikt slumpmässigt. Det enda problemet här kan vara avvikelse från slumpmässighet. Så om vi bara tar nederbördsdata för de senaste åren (till exempel för att dessa data är lättare att hitta) eller intervjuar 1 500 personer vi känner (eftersom det är lättare att kontakta dem) snarare än slumpmässiga personer, så är urvalet, naturligtvis, kommer inte att vara representativt.

Föreställ dig att du av 143,5 miljoner ryssar slumpmässigt väljer de 1 500 personer du behöver. Då blir till exempel andelen mellanchefer bland dem ungefär lika med andelen mellanchefer i befolkningen, vilket visar att ditt urval kan representera hela populationen. Kan det vara så att dessa två indikatorer kommer att vara väldigt olika? Till exempel, bland ryssarna är det 14%, men i urvalet blir det bara 1%? Teoretiskt är detta möjligt, men sannolikheten för detta är så liten att det kan försummas (ungefär som att möta en drake på gatan).

Dessutom är det bästa med denna sannolikhet inte ens att den är liten, utan att denna sannolikhet kan beräknas för slumpmässiga processer. Vi kan berätta hur sannolikt vårt urvalsvärde är att avvika från populationsvärdet med 13 % (som i exemplet ovan), och hur troligt det är att avvika, säg, från populationen med 2,5 %. Vanligtvis gör de dock tvärtom: först bestämmer de sannolikheten med vilken vi vill att vårt värde inte ska avvika från värdet i den allmänna befolkningen (oftast är det fastställt på nivån 95%), och sedan tittar de på vad storleken på avvikelsen är för en viss storleksprov. Denna avvikelse kallas ett konfidensintervall, ibland kallat samplingsfel eller statistiskt fel, och listas ofta bredvid undersökningsresultat.

Så sannolikheten för avvikelse, storleken på avvikelsen (konfidensintervall) och urvalsstorlek är relaterade. Baserat på detta är formeln för att beräkna provstorleken följande:

där n är urvalsstorleken, Δ är konfidensintervallet, z är värdet på normalfördelningsfunktionen för en given sannolikhet för avvikelse (för en 5 % sannolikhet är detta värde 1,96).

Detta är en förenklad formel; riktiga undersökningar använder lite mer komplexa formler. Denna formel kan också misslyckas om indikatorns värde skiljer sig mycket från 50 % (så att den här formeln till exempel inte är lämplig för att uppskatta andelen patienter med en sällsynt sjukdom i ett land).

Detta är vad som händer om du ersätter några värden i den här formeln:

Med andra ord, om vi tog ett slumpmässigt urval av ryssar på 1 600 personer och bedömde någon indikator, till exempel viljan att rösta på en viss politiker, så kommer vår bedömning med en sannolikhet på 95 % inte att skilja sig från viljan att rösta på honom bland alla ryssar med mer än 2. 45%.

Provstorlek

Så ju större urvalsstorleken är, desto mer sannolikt är det att vi kommer närmare populationsandelen. Det verkar som att detta innebär att vi måste försöka föra urvalet närmare 143,5 miljoner. I själva verket, som framgår av tabellen, är slumpmässiga processers natur sådan att sannolikheten för att falla in i intervallet från ett visst ögonblick börjar öka mycket långsamt (och detta ögonblick kommer ganska snabbt). Efter att vi provat 1 500 enheter, oavsett hur mycket vi ökar urvalsstorleken, kommer sannolikheten att vårt urvalsvärde kommer att falla in i populationsvärdet att öka mycket, väldigt långsamt.

Det är faktiskt nästan ingen skillnad mellan 1 500 och 10 000 svarande. Omkring år 1500 kan vi redan säga att våra uppskattningar kommer att skilja sig från andelen i allmänheten med 2–3 %. Om vi ökar urvalet ytterligare kommer detta eventuella fel att minska, men väldigt lite. Ett urval på 100 000 är med andra ord bättre än ett urval på 2 500, men skillnaden är så liten att den är meningslös och, när det gäller sociala undersökningar, inte ekonomiskt försvarbar. Det är vanligtvis dyrt att förstora ett urval, så det är inte meningsfullt att blåsa upp det för att få en procentenhet i storleken på konfidensintervallet.

Det är viktigt att populationens storlek inte alls framgår av formeln. Poängen är att när populationen är stor (mer än 20 000) har det praktiskt taget ingen effekt på urvalsstorleken. Vi behöver alltså inte veta hur många som bor i Ryssland för att bygga ett representativt urval. Det är tydligt att det med största sannolikhet inte är meningsfullt att välja 1500 av 2000 - det är lättare att undersöka 2000 och få en korrekt uppskattning. Men genom att göra ett urval, vid behov, får vi möjlighet att generalisera dess resultat till den allmänna befolkningen. Och av samma anledning kommer urvalsstorleken inte att vara olika för stora och små länder.

Representativitet och noggrannhet

För att förstå innebörden av begreppet "representativitet", låt oss överväga ett urval av 15 personer. Konstigt nog, om du gjorde det av misstag, är det också representativt. Dessutom kan du göra ett prov av en enhet. Föreställ dig en låda med bollar som du slumpmässigt drar en boll från. Om detta är en slumpmässigt vald boll, kommer den också att representera alla bollar som finns i denna ruta. Han kommer helt enkelt att representera dem inte exakt. Varför? För det är mycket stor sannolikhet att göra fel. Nästa gång kan vi dra ut en annan boll och få en annan uppfattning om bollarna i lådan. Att representera felaktigt innebär att ha ett brett utbud av uppskattningar.

På samma sätt representerar 15 personer någon allmän befolkning, men de representerar den inte korrekt, eftersom fel- och konfidensintervallet är mycket stort. Vi kommer att behöva lägga till +/- 33% för att få 95% chans att vi hamnar i intervallet. Om vi är redo att tillåta detta, så tar vi 15 personer, får reda på att 7 av dem är mellanchefer, och sedan får vi en uppskattning att 7/15 av totalen, det vill säga 47% +/- 33%, är uppskatta andelen chefer i den allmänna befolkningen, och detta är en helt korrekt slutsats. Det har bara inget värde. Vi skulle kunna säga detta utan en undersökning. När man planerar ett urval är det därför meningsfullt att uppnå en urvalsstorlek som är vettig ur ett kostnadseffektivitetsperspektiv.

Allt som har sagts är avsett att förmedla en enkel idé, som ofta inte förverkligas: urvalsstorleken är inte relaterad till dess representativitet.

Ett litet urval är oprecist, men det kan ändå vara representativt. De urvalsstorlekar som idag används i massundersökningar i Ryssland har nästan alltid ganska hög noggrannhet.

Det som hotar urvalets representativitet är inte dess storlek, utan bias, det vill säga avvikelse från slumpmässighetsprincipen.

Brott mot slumpmässighetsprincipen

Om vi börjar välja enheter på ett icke-slumpmässigt sätt blir urvalet icke-representativt. Till exempel om något hindrar oss från att välja dem slumpmässigt. Låt oss föreställa oss att vi vill välja ut bollar från vår låda på måfå, men det visar sig att några av bollarna biter. En mekanism där vi bara kommer att ta de bollar som ges till oss är en mekanism som bryter mot slumpmässigheten och därför bryter mot representativiteten. I det här fallet, oavsett hur många kulor vi tar från lådan (även om vi tar alla kulor som inte biter), kommer vi att ha ett icke-representativt prov, eftersom vi inte tar hänsyn till någon av de som biter - de kommer helt enkelt att kringgå vårt prov.

Det största problemet med att bita bollar är att de kan skilja sig från de som kommer i våra händer, och skiljer sig just på det sätt som intresserar oss. Denna situation kallas provtagningsbias.

Det är nödvändigt att skilja situationen med felaktig representation, som vi beskrev ovan, från situationen med icke-representation. Det är olika problem och de har olika lösningar. Du kan inte lösa en av dem genom att lösa den andra. Om urvalet saknar representativitet är det ingen idé att öka den. Dessutom tenderar stora urval i sociala undersökningar att ackumulera fel, så stora urvalsstorlekar kan bara göra representationsproblemet värre.

Varför representativitet är omöjligt

I anteckningarna till tabellerna med undersökningsresultat kan du ofta se att "urvalet är 1 600 personer, urvalet är representativt för kön och ålder." Av ovanstående är det uppenbart att det är två olika parametrar: indikationen på representativitet är inte relaterad till urvalsstorleken. Vad detta egentligen betyder är att vissa procedurer följdes för att säkerställa en matchning mellan urvalet och populationen. Till exempel, för att säkerställa representativitet efter kön, rekryteras män och kvinnor till urvalet i samma proportioner som finns bland ryssar enligt folkräkningsdata. Men representativitet efter kön betyder inte representativitet, till exempel genom politiska åsikter.

Varför måste vi utjämna urvalet efter kön och andra sociodemografiska kategorier? För sann representativitet kan endast säkerställas genom ett slumpmässigt urval, och det är omöjligt att implementera det i praktiken av en mängd olika skäl. När du väl försöker göra detta kommer du att stöta på många problem – oavsett vilken metod du väljer att använda. Vissa respondenter kommer att vara helt otillgängliga för din metod (till exempel för personliga intervjuer är hus med porttelefoner och säkerhet ett stort problem), en annan del kommer att vara frånvarande, inte svara, eller kommer att föredra att sköta sitt eget. Det finns människor som har språkproblem och inte kan prata med oss. Det finns människor som inte förstår varför detta behövs, och de vill inte prata med oss. Allt detta är allvarliga kränkningar av slumpmässighet som omöjliggör genomförandet.

De som reducerar problemet med representation i massundersökningar till statistik glömmer att människor är väldigt specifika blobbar. Det finns bollar som springer och gömmer sig. Det finns bollar som biter. De är inga passiva objekt, de slår tillbaka. De säger: "Jag vill inte delta i din undersökning", och bryter därmed mot slumpmässigheten. Därför, i ordets strikta bemärkelse, är representativitet i massundersökningar naturligtvis omöjlig i någon form.

En mekanism har utvecklats genom vilken utseendet av representativitet vanligtvis säkerställs: vi anpassar urvalet i vissa kategorier och låtsas att det också är anpassat i alla andra möjliga kategorier. Vi har faktiskt ingen anledning att säga detta. Men problemet är att det inte finns något sätt att kontrollera detta - igen på grund av att vissa bollar biter. För att kontrollera för partiskhet måste granskaren gå till dem vi inte intervjuade och intervjua dem. Men de vill, som vi minns, inte alls bli ifrågasatta. Det är omöjligt att intervjua dem som kategoriskt inte svarar. Därför arbetar alla utifrån antagandet att om vi har balanserat urvalet längs två eller tre parametrar så är det representativt för hela populationen, även om det inte finns någon bra grund för detta antagande.

Representativt urval är en teknik som lånats av sociologer från statistik. Därför innehåller den oundvikligen delar av en matematisk och statistisk bild av världen. Det kanske starkaste antagandet är att urvalsundersökningen i sig är politiskt och sociologiskt neutral: deltagande och icke-deltagande i undersökningen har ingen politisk innebörd och är inte relaterad till andra sociologiskt viktiga parametrar. Men idag har undersökningar blivit en av de viktigaste politiska institutionerna och har blivit en viktig mellanhand mellan stora företag och konsumenter. Under dessa förhållanden är det inte längre möjligt att tro på deras politiska sterilitet. Men vi vet fortfarande lite om hur undersökningar förstås i moderna samhällen och vad de faktiskt representerar.

Det totala antalet observationsobjekt (människor, hushåll, företag, bosättningar, etc.) med en viss uppsättning egenskaper (kön, ålder, inkomst, antal, omsättning, etc.), begränsade i rum och tid. Exempel på populationer

Alla invånare i Moskva (10,6 miljoner människor enligt 2002 års folkräkning)
Manliga muskoviter (4,9 miljoner människor enligt 2002 års folkräkning)
Juridiska personer i Ryssland (2,2 miljoner i början av 2005)
Återförsäljare som säljer livsmedel (20 tusen i början av 2008) etc.

Urval (provpopulation)

En del av en population som väljs ut för studier för att dra slutsatser om hela populationen. För att slutsatsen som erhålls genom att studera urvalet ska utsträckas till hela populationen måste urvalet ha egenskapen representativitet.

Provets representativitet

Egenskapen hos ett urval att korrekt återspegla populationen. Samma urval kan vara representativt och icke-representativt för olika populationer.
Exempel:

Ett urval som helt består av muskoviter som äger en bil representerar inte hela Moskvas befolkning.
Ett urval av ryska företag med upp till 100 anställda representerar inte alla företag i Ryssland.
Ett urval av muskoviter som handlar på marknaden representerar inte alla muskoviters köpbeteende.

Samtidigt kan dessa prover (med förbehåll för andra villkor) perfekt representera muskoviter som äger bilar, små och medelstora ryska företag respektive köpare som gör inköp på marknader.
Det är viktigt att förstå att urvalsrepresentativitet och urvalsfel är olika fenomen. Representativitet, till skillnad från fel, beror inte på något sätt på urvalets storlek.
Exempel:
Oavsett hur mycket vi ökar antalet undersökta moskoviter som är bilägare kommer vi inte att kunna representera alla moskoviter med detta urval.

Samplingsfel (konfidensintervall)

Avvikelsen för resultaten som erhållits med hjälp av provobservation från verkliga data för den allmänna befolkningen.
Det finns två typer av urvalsfel - statistiska och systematiska. Statistiska fel beror på urvalets storlek. Ju större urvalsstorlek, desto lägre är den.
Exempel:
För ett enkelt slumpmässigt urval på 400 enheter är det maximala statistiska felet (med 95% konfidensnivå) 5%, för ett urval på 600 enheter - 4%, för ett urval på 1100 enheter - 3% Vanligtvis när de pratar om urval fel, de betyder statistiskt fel.
Systematiska fel beror på olika faktorer som ständigt påverkar studien och snedvrider studiens resultat i en viss riktning.
Exempel:

Att använda några sannolikhetsprov kommer att underskatta andelen personer med höga inkomster som leder en aktiv livsstil. Detta beror på att det är mycket svårare att hitta sådana människor på någon specifik plats (till exempel hemma).
Problemet med att respondenterna vägrar svara på frågor (andelen "refuseniks" i Moskva, för olika undersökningar, varierar från 50 % till 80 %)

I vissa fall, när de sanna fördelningarna är kända, kan det systematiska felet utjämnas genom att införa kvoter eller vikta om data, men i de flesta verkliga studier kan det vara ganska problematiskt att ens uppskatta det.

Provtyper

Proverna är indelade i två typer:

probabilistisk
icke-sannolikt

1. Sannolikhetsprover
1.1 Slumpmässigt urval (enkelt slumpmässigt urval)
Ett sådant urval antar populationens homogenitet, samma sannolikhet för tillgänglighet för alla element och tillgången på en komplett lista över alla element. Vid val av element används som regel en tabell med slumptal.
1.2 Mekanisk (systematisk) provtagning
En typ av slumpmässigt urval, sorterat efter någon egenskap (alfabetisk ordning, telefonnummer, födelsedatum, etc.). Det första elementet väljs slumpmässigt, sedan, med steg 'n', väljs varje 'k':te element. Befolkningens storlek, i detta fall – N=n*k
1.3 Stratifierad (zonad)
Det används vid heterogenitet i befolkningen. Den allmänna befolkningen är indelad i grupper (strata). I varje stratum sker urvalet slumpmässigt eller mekaniskt.
1.4 Seriell (kluster eller kluster) provtagning
Vid seriell sampling är urvalsenheterna inte själva objekten, utan grupper (kluster eller bon). Grupper väljs ut slumpmässigt. Objekt inom grupper undersöks i bulk.

2. Icke-sannolikhetsprover
Urval i ett sådant urval utförs inte enligt principerna om slumpmässighet, utan enligt subjektiva kriterier - tillgänglighet, typiskhet, lika representation, etc.
2.1. Kvotprov
Inledningsvis identifieras ett antal grupper av föremål (till exempel män i åldern 20-30 år, 31-45 år och 46-60 år gamla; personer med inkomster upp till 30 tusen rubel, med inkomster från 30 till 60 tusen rubel och med inkomst över 60 tusen rubel ) För varje grupp anges antalet föremål som måste undersökas. Antalet objekt som bör ingå i var och en av grupperna sätts oftast antingen i proportion till den tidigare kända andelen av gruppen i den allmänna befolkningen, eller lika för varje grupp. Inom grupper väljs objekt slumpmässigt. Kvotprov används ganska ofta.
2.2. Snöbollsmetod
Provet är konstruerat enligt följande. Varje respondent, som börjar med den första, ombeds att lämna kontaktuppgifter till sina vänner, kollegor, bekanta som skulle passa urvalsvillkoren och som skulle kunna delta i studien. Med undantag för det första steget bildas alltså urvalet med deltagande av själva forskningsobjekten. Metoden används ofta när det är nödvändigt att hitta och intervjua svåråtkomliga grupper av respondenter (till exempel respondenter med hög inkomst, respondenter som tillhör samma yrkesgrupp, respondenter med liknande hobbyer/intressen etc.)
2.3 Spontan provtagning
De mest tillgängliga respondenterna undersöks. Typiska exempel på spontana prover finns i tidningar/tidskrifter, som ges till respondenter för självkomplettering, och de flesta online-undersökningar. Storleken och sammansättningen av spontana prover är inte känd i förväg och bestäms endast av en parameter - respondenternas aktivitet.
2.4 Exempel på typfall
Enheter av den allmänna befolkningen som har ett genomsnittligt (typiskt) värde av egenskapen väljs. Detta väcker problemet med att välja en funktion och bestämma dess typiska värde.

Kurs med föreläsningar om statistikteori

Mer detaljerad information om provobservationer kan erhållas genom visning.

Element som omfattas av experimentet (observation, undersökning).

Exempelegenskaper:

Kvalitativa egenskaper hos provet - vad exakt vi väljer och vilka provtagningsmetoder vi använder för detta.
Kvantitativa egenskaper hos urvalet - hur många fall vi väljer ut, med andra ord, urvalsstorlek.

Provtagningsbehov:

Studieobjektet är mycket omfattande. Till exempel är konsumenter av ett globalt företags produkter ett stort antal geografiskt spridda marknader.
Det finns ett behov av att samla in primär information.

Encyklopedisk YouTube

1 / 5

✪ Sampling: volymberäkning. Studiens tillförlitlighet och kraft. Biostatistik.

✪ 02 - Mat. statistik. Provtagning Provutrymme. Exempel

✪ Grunderna i SQL för nybörjare | Hämtar värden från databasen

✪ SQL för nybörjare (DML): Välj från en tabell (MySql), Lektion 4!

✪ Tillverkning av SIP-paneler. Del 2. Kapning och formskärning. Urval av spår. Allt finns i ditt sinne

undertexter

Provstorlek

Provstorlek - Antalet fall som ingår i urvalspopulationen.

Urval kan delas in i stora och små, eftersom olika tillvägagångssätt används i matematisk statistik beroende på urvalets storlek. Man tror att prover större än 30 kan klassificeras som stora.

Beroende och oberoende urval

När man jämför två (eller flera) prov är en viktig parameter deras beroende. Om ett homomorft par kan fastställas (det vill säga när ett fall från prov X motsvarar ett och endast ett fall från prov Y och vice versa) för varje fall i två prov (och denna relationsgrund är viktig för den egenskap som mäts i proverna), kallas sådana prover beroende. Exempel på beroende prover:

tvillingpar,
två mätningar av någon egenskap före och efter experimentell exponering,
män och hustrur
och så vidare.

Om det inte finns något sådant samband mellan prover, kommer dessa prover att beaktas oberoende, Till exempel:

män och kvinnor ,
psykologer och matematiker.

Följaktligen har beroende urval alltid samma storlek, medan storleken på oberoende urval kan skilja sig åt.

Jämförelse av prover görs med hjälp av olika statistiska kriterier:

Pearson kriterium (χ 2 )
Elevens t-test ( t )
Wilcoxon test ( T )
Mann-Whitney kriterium ( U )
Teckenkriterium ( G )
och så vidare.

Representativitet

Urvalet kan anses representativt eller icke-representativt. Urvalet kommer att vara representativt när man undersöker en stor grupp människor, om det inom denna grupp finns representanter för olika undergrupper är det enda sättet att dra korrekta slutsatser.

Exempel på ett icke-representativt urval

En studie med experiment- och kontrollgrupper, som placeras i olika förhållanden.
- Studera med experiment- och kontrollgrupper med hjälp av en parvis urvalsstrategi
En studie som endast använder en grupp - en experimentell.
En studie med en blandad (faktoriell) design - alla grupper placeras i olika förhållanden.

Provtyper

Proverna är indelade i två typer:

probabilistisk
icke-sannolikt

Sannolikhetsprover

Enkelt sannolikhetsurval:
- Enkel omsampling. Användningen av ett sådant urval bygger på antagandet att varje respondent är lika sannolikt att ingå i urvalet. Baserat på listan över den allmänna befolkningen sammanställs kort med respondentnummer. De placeras i en kortlek, blandas och ett kort tas ut slumpmässigt, numret skrivs ner och returneras sedan. Därefter upprepas proceduren så många gånger som provstorleken vi behöver. Nackdel: upprepning av urvalsenheter.

Proceduren för att konstruera ett enkelt slumpmässigt urval inkluderar följande steg:

1) det är nödvändigt att skaffa en fullständig lista över medlemmar av den allmänna befolkningen och numrera denna lista. En sådan lista, återkallande, kallas en samplingsram;

2) bestämma den förväntade urvalsstorleken, det vill säga det förväntade antalet svarande;

3) extrahera så många tal från tabellen med slumptal som vi behöver provenheter. Om det skulle vara 100 personer i urvalet tas 100 slumptal från tabellen. Dessa slumptal kan genereras av ett datorprogram.

4) välj från baslistan de observationer vars nummer motsvarar de skrivna slumptalen

Enkel stickprovstagning har uppenbara fördelar. Denna metod är extremt lätt att förstå. Resultaten av studien kan generaliseras till den population som studeras. De flesta tillvägagångssätt för statistisk slutledning involverar insamling av information med hjälp av ett enkelt slumpmässigt urval. Den enkla slumpmässiga urvalsmetoden har dock minst fyra signifikanta begränsningar:

1) Det är ofta svårt att skapa en urvalsram som tillåter ett enkelt slumpmässigt urval.

2) resultatet av att använda ett enkelt slumpmässigt urval kan vara en stor population, eller en population fördelad över ett stort geografiskt område, vilket avsevärt ökar tiden och kostnaderna för datainsamling.

3) resultaten av att använda ett enkelt slumpmässigt urval kännetecknas ofta av låg noggrannhet och ett större standardfel än resultaten av att använda andra probabilistiska metoder.

4) som ett resultat av att använda SRS kan ett icke-representativt urval bildas. Även om stickprov som erhållits genom ett enkelt slumpmässigt urval i genomsnitt representerar populationen adekvat, är vissa av dem extremt felaktiga för den studerade populationen. Sannolikheten för detta är särskilt stor med ett litet urval.

Enkel icke-repetitiv provtagning. Provtagningsproceduren är densamma, endast korten med svarsnummer returneras inte till leken.

Systematisk sannolikhetsurval. Det är en förenklad version av enkel sannolikhetsurval. Baserat på listan över den allmänna befolkningen väljs respondenter ut med ett visst intervall (K). Värdet på K bestäms slumpmässigt. Det mest tillförlitliga resultatet uppnås med en homogen population, annars kan stegstorleken och vissa interna cykliska mönster i provet sammanfalla (provtagningsblandning). Nackdelar: samma som i ett enkelt sannolikhetsurval.
Seriell (kluster) provtagning. Urvalsenheter är statistiska serier (familj, skola, lag etc.). De valda delarna är föremål för en fullständig granskning. Urvalet av statistiska enheter kan organiseras som slumpmässigt eller systematiskt urval. Nackdel: Möjlighet till större homogenitet än i den allmänna befolkningen.
Regional provtagning. När det gäller en heterogen population, innan man använder sannolikhetsurval med någon urvalsteknik, rekommenderas att dela upp populationen i homogena delar, ett sådant urval kallas distriktsurval. Områdesgrupper kan omfatta både naturformationer (till exempel stadsdelar) och alla egenskaper som ligger till grund för studien. Den egenskap på grundval av vilken uppdelningen utförs kallas egenskapen för stratifiering och zonindelning.
"Bekvämlighetsprov. Provtagningsförfarandet för "bekvämlighet" består av att etablera kontakter med "bekväma" provtagningsenheter - en grupp studenter, ett idrottslag, vänner och grannar. Vill man få information om folks reaktioner på ett nytt koncept är den här typen av provtagning ganska rimlig. Bekvämlighetsprovtagning används ofta för att förtesta frågeformulär.

Icke-sannolikhetsprover

Urval i ett sådant urval utförs inte enligt principerna om slumpmässighet, utan enligt subjektiva kriterier - tillgänglighet, typiskhet, lika representation, etc.

Kvoturval - urvalet är uppbyggt som en modell som återger den allmänna befolkningens struktur i form av kvoter (proportioner) av de egenskaper som studeras. Antalet urvalselement med olika kombinationer av studerade egenskaper bestäms så att det motsvarar deras andel (andel) i den allmänna populationen. Så, till exempel, om vår allmänna befolkning består av 5 000 personer, varav 2 000 kvinnor och 3 000 män, så kommer vi i kvoturvalet att ha 20 kvinnor och 30 män, eller 200 kvinnor och 300 män. Kvoturval baseras oftast på demografiska kriterier: kön, ålder, region, inkomst, utbildning och annat. Nackdelar: vanligtvis är sådana prov inte representativa, eftersom det är omöjligt att ta hänsyn till flera sociala parametrar samtidigt. Fördelar: lättillgängligt material.
Snöbollsmetod. Provet är konstruerat enligt följande. Varje respondent, som börjar med den första, ombeds att lämna kontaktuppgifter till sina vänner, kollegor, bekanta som skulle passa urvalsvillkoren och som skulle kunna delta i studien. Med undantag för det första steget bildas alltså urvalet med deltagande av själva forskningsobjekten. Metoden används ofta när det är nödvändigt att hitta och intervjua svåråtkomliga grupper av respondenter (till exempel respondenter med hög inkomst, respondenter som tillhör samma yrkesgrupp, respondenter med liknande hobbyer/intressen etc.)
Spontan provtagning - provtagning av den så kallade "första personen du möter". Används ofta i tv- och radioundersökningar. Storleken och sammansättningen av spontana prover är inte känd i förväg och bestäms endast av en parameter - respondenternas aktivitet. Nackdelar: det är omöjligt att fastställa vilken befolkning de svarande representerar, och som ett resultat är det omöjligt att fastställa representativitet.
Ruttundersökning - används ofta om studieenheten är familjen. På kartan över orten där undersökningen kommer att genomföras är alla gator numrerade. Med hjälp av en tabell (generator) av slumptal väljs stora tal. Varje stort nummer anses bestå av 3 komponenter: gatunummer (2-3 första siffror), husnummer, lägenhetsnummer. Till exempel, numret 14832: 14 är gatunummer på kartan, 8 är husnummer, 32 är lägenhetsnummer.
Regional provtagning med urval av typiska objekt. Om man efter zonindelning väljer ett typiskt objekt från varje grupp, det vill säga ett objekt som ligger nära genomsnittet vad gäller de flesta av de egenskaper som studerats i studien, kallas ett sådant urval för zonering med urval av typiska objekt.
Modal provtagning.
Expertprovtagning.
Heterogent prov.

Gruppbyggnadsstrategier

Urvalet av grupper för deltagande i ett psykologiskt experiment genomförs med hjälp av olika strategier för att säkerställa att intern och extern validitet upprätthålls i största möjliga utsträckning.

Randomisering

Randomisering, eller slumpmässigt urval, används för att skapa enkla slumpmässiga urval. Användningen av ett sådant urval bygger på antagandet att varje medlem av befolkningen är lika sannolikt att ingå i urvalet. Till exempel, för att göra ett slumpmässigt urval av 100 universitetsstudenter, kan du sätta papperslappar med namnen på alla universitetsstudenter i en hatt och sedan ta 100 stycken papper ur det - detta kommer att vara ett slumpmässigt urval (Goodwin J ., s. 147)....

Parvis val

Parvis val- en strategi för att konstruera provtagningsgrupper, där grupper av försökspersoner är uppbyggda av försökspersoner som är likvärdiga vad gäller sekundära parametrar som är signifikanta för experimentet. Denna strategi är effektiv för experiment med experimentella grupper och kontrollgrupper, med det bästa alternativet att använda tvillingpar (mono- och tvåäggstuga).

Stratometrisk provtagning

Stratometrisk provtagning- randomisering med allokering av strata (eller kluster). Med denna provtagningsmetod delas den allmänna befolkningen in i grupper (strata) med vissa egenskaper (kön, ålder, politiska preferenser, utbildning, inkomstnivå etc.), och ämnen med motsvarande egenskaper väljs ut.

Ungefärlig modellering

Ungefärlig modellering- dra begränsade urval och generalisera slutsatser om detta urval till den bredare populationen. Till exempel, med deltagande av 2:a års universitetsstudenter i studien, gäller uppgifterna i denna studie för "personer i åldern 17 till 21 år". Tillåtligheten av sådana generaliseringar är ytterst begränsad.

Approximativ modellering är bildandet av en modell som, för en tydligt definierad klass av system (processer), beskriver dess beteende (eller önskade fenomen) med acceptabel noggrannhet.

Prov - Detta:

1) helheten av de delar av forskningsobjektet som kommer att studeras direkt;

2) metoder och procedurer för att välja element i forskningsobjektet.

Befolkning – en komplett uppsättning objekt relaterade till problemet som studeras. I sociologisk forskning som G.S. oftast är de aggregat av individer - befolkningen (stad, land, etc.), en social grupp (ungdomar, arbetslösa, affärsmän, etc.), publiken av massmedia (MSC), etc. Men i många fall G.S. . kan bestå av större element (objekt) - familjer (hushåll), akademiska grupper, företag, religiösa samfund, enskilda orter eller stater, etc.

Provpopulation - en del av objekt från en population som valts ut för studier för att dra slutsatser om hela populationen.

För att slutsatsen som erhålls genom att studera urvalet ska utsträckas till hela populationen måste urvalet ha egenskapen representativitet.

Representativitet är förmågan hos ett urval att representera populationen som studeras. Ju mer exakt sammansättningen av urvalet representerar befolkningen i de frågor som studeras, desto högre representativitet.

EXEMPEL: Representativitet kan illustreras med följande exempel. Låt oss anta att befolkningen är alla skolans elever (600 personer från 20 klasser, 30 personer i varje klass). Studieämnet är attityder till rökning. Ett urval bestående av 60 gymnasieelever representerar befolkningen mycket sämre än ett urval av samma 60 personer, som kommer att omfatta 3 elever från varje klass. Den främsta orsaken till detta är den ojämna åldersfördelningen i klasserna. Följaktligen är representativiteten för urvalet låg i det första fallet, och i det andra fallet är representativiteten hög (allt annat lika).

Provtyper

1.Slumpmässig provtagning.

1.1.Enkelt slumpmässigt urval.

1.2 Systematisk (eller mekanisk) provtagningsmetod.

1.3 Seriell (kluster eller kluster) provtagning.

1.4 Stratifierad provtagning.

2. Icke-slumpmässigt urval (icke-sannolikhet).

2.2. Spontan provtagning.

2.3. Flerstegs- och enstegsprovtagning.

1.Slumpmässig provtagning.

Det speciella med ett slumpmässigt urval är att alla enheter i populationen har lika stor sannolikhet att ingå i urvalspopulationen. Vid stickprov utförs det slumpmässighetsprincipen. Urvalsunderlaget kan vara listor över företagsanställda, telefonförteckningar, registreringslistor över bilägare, listor över väljare vid vallokaler, husregister samt olika listor som sociologen själv sammanställt beroende på syftet med studien (en lista). av gator där respondenterna sedan väljs ut).

Slumpmässigt urval används vanligtvis i opinionsundersökningar inför val, folkomröstningar och andra offentliga evenemang.

Plus Denna metod är att helt följa principen om slumpmässighet och, som ett resultat, för att undvika systematiska fel.

Nackdelar med denna metod:

– Behovet av att ha en lista över befolkningselement.

– Svårigheter att genomföra en undersökning.

– Relativt stor urvalsstorlek.