Parret mod uparret t-test
On januar 31, 2021 by adminAntag at jeg har 20 mus. Jeg parrer musene på en eller anden måde, så jeg får 10 par. Med henblik på dette spørgsmål kan det være en tilfældig parring, ELLER det kunne være en fornuftig parring, som at prøve at parre mus fra samme kuld, af samme køn, med samme vægt, ELLER det kunne være en bevidst dum parring som forsøger at parre mus med vægte så ulige som de muligvis kunne være. Jeg bruger derefter tilfældige tal til at tildele en mus i hvert par til kontrolgruppen og den anden mus til den gruppe, der skal behandles. Jeg laver nu eksperimentet, hvor jeg kun behandler de mus, der skal behandles, men ellers overhovedet ikke lægger mærke til de ordninger, der er truffet.
Når man kommer til at analysere resultaterne, kan man enten bruge uparret t- test eller parret t-test. På hvilken måde, hvis nogen, vil svarene være forskellige? (Jeg er dybest set interesseret i systematiske forskelle i enhver statistisk parameter, der skal estimeres.)
Årsagen til, at jeg spørger dette, er, at et papir, jeg for nylig var involveret i, blev kritiseret af en biolog for at bruge et parret t-test snarere end en uparret t-test. Selvfølgelig var situationen i selve eksperimentet ikke så ekstrem som den situation, jeg har tegnet, og der var efter min mening gode grunde til parring. Men biologen var ikke enig.
Det forekommer mig, at det ikke er muligt at forbedre den statistiske signifikans forkert (mindske p-værdien) under de omstændigheder, jeg skitserede, ved hjælp af en parret t-test , snarere end en uparret test, selvom det er upassende at parre. Det kunne dog forværre den statistiske betydning, hvis mus var dårligt parret. Er dette rigtigt?
Svar
Jeg er enig med de punkter, som både Frank og Peter kommer med, men jeg synes, der er en simpel formel der kommer til kernen i problemet og kan være værd for OP at overveje.
Lad $ X $ og $ Y $ være to tilfældige variabler, hvis sammenhæng er ukendt.
Lad $ Z = XY $
Hvad er variansen af $ Z $?
Her er den enkle formel: $$ \ text {Var} (Z) = \ text {Var} (X) + \ text {Var} (Y) – 2 \ text {Cov } (X, Y). $$ Hvad hvis $ \ text {Cov} (X, Y) > 0 $ (dvs. $ X $ og $ Y $ er positivt korreleret)?
Derefter $ \ text {Var} (Z) \ lt \ text {Var} (X) + \ text {Var } (Y) $. I dette tilfælde, hvis parringen er lavet på grund af positiv sammenhæng, som når du har at gøre med det samme emne før og efter intervention, hjælper parring med, fordi den uafhængige parrede forskel har lavere varians end den varians, du får for den ikke-parrede sag. Metoden reducerede varians. Testen er mere kraftfuld. Dette kan vises dramatisk med cykliske data. Jeg så et eksempel i en bog, hvor de ønskede at se, om temperaturen i Washington DC er højere end i New York City. Så de tog den gennemsnitlige månedlige temperatur i begge byer i f.eks. 2 år. Selvfølgelig er der en enorm forskel i løbet af året på grund af de fire sæsoner. Denne variation er for stor til, at en uparret t-test kan registrere en forskel. Parring baseret på den samme måned samme år eliminerer imidlertid denne sæsonbetonede effekt, og det parrede $ t $ -test viste tydeligt, at den gennemsnitlige temperatur i DC havde tendens til at være højere end i New York. $ X_i $ (temperatur ved NY i måned $ A $) og $ Y_i $ (temperatur i DC i måned $ A $) er positivt korreleret, fordi årstiderne er de samme i NY og DC, og byerne er tæt nok på, at de ofte opleve de samme vejrsystemer, der påvirker temperaturen. DC kan være lidt varmere, fordi det er længere sydpå.
Bemærk, at jo større kovariansen eller korrelationen er, desto større er variansreduktionen.
Antag nu, at $ \ text {Cov} (X, Y) $ er negativ.
Så $ \ text {Var} (Z) \ gt \ text {Var} (X) + \ text {Var} (Y) $. Nu vil parring være værre end ikke parring, fordi variansen faktisk øges!
Når $ X $ og $ Y $ ikke er korreleret, betyder det sandsynligvis ikke noget, hvilken metode du bruger . Peters tilfældige parringssag er som denne situation.
Kommentarer
- Michael, fordi ” < ” og ” > ” har specielle betydninger på websider, for at undgå at store dele af din tekst simpelthen forsvinder fra at se dig er det vigtigt at du brug $ \ TeX $ markup for dem i ligninger (koderne er ” \ lt ” og ” \ gt henholdsvis “). Jeg markerede de to ligninger, der forårsagede dette problem for dig.I fremtiden skal du læse, hvad du sender, umiddelbart efter at du har sendt det for at sikre, at folk ser, hvad du troede, de ville se, og så er du velkommen til at markere dit indlæg for moderatoropmærksomhed, hvis der er noget problem med markeringen.
- @whuber Tak. Jeg tjekker generelt under og efter udstationering, fordi jeg finder ud af, at jeg ødelægger ligninger meget, især når jeg abonnerer. At savne denne er usædvanlig og sandsynligvis sket, fordi det var et langt indlæg, og jeg skød bare skødesløst videre til noget andet, som jeg ville eller havde brug for. Nogle gange distraherer et telefonopkald mig, og jeg glemmer at tjekke. Med hensyn til specielle symboler, der får tekst til at forsvinde i et indlæg, har jeg observeret det. Jeg tror, at en simpel løsning er at sikre, at du efterlader et mellemrum efter symbolet. Jeg tror, det har fungeret for mig tidligere.
- +1, virkelig på stedet. Bemærk, at hvis $ X $ & $ Y $ er perfekt ukorreleret i din prøve , $ \ text {Var} (Z) = \ text {Var} (X) + \ text {Var} (Y) $.
- @MichaelChernick For sagen når Cov (X, Y) < 0, har jeg en spørgsmål: Hvis mit mål er at udlede E [X] -E [Y] fra mit eksperiment, så selvom jeg gennemførte en parret undersøgelse, når jeg analyserer mine data, kan jeg stadig PRÆNDERE, at mit eksperimentresultat er en realisering af UNPAIRED randomiseret eksperiment. Kan jeg gøre dette? For hvis du virkelig gjorde et uparret tilfældigt eksperiment, kan du bogstaveligt få det samme resultat. Så kan jeg bare tage gennemsnittet for hver gruppe (ignorere parrings ting) og tage forskellen på de to gruppers gennemsnit. Dette er en upartisk estimator af E [Z]. For varians af min estimator bruger jeg bare …
- @MichaelChernick prøvevariansen for gruppe X og gruppe Y og opsummer dem
Svar
I stedet for parring er det sandsynligvis bedre at forstå den underliggende datamodel. Hvis parring sker for at håndtere ukontrolleret heterogenitet, er det normalt tilfældet (undtagen i to studier), at parringen kun delvist styrer denne kilde til variation og multipel regression ville gøre det bedre. Dette skyldes, at matching på kontinuerlige variabler ofte resulterer i restvariabilitet på grund af ikke at kunne foretage nøjagtig matchning af sådanne variabler.
Kommentarer
- Hvis vi burde alle gøre regression, hvorfor understreger bøger om eksperimentelt design, som David Cox ‘ s bog, vigtigheden af parring eller gruppering i biologiske eksperimenter? Parring undgår den skjulte antagelse om lineær afhængighed forbundet med regression. Men måske er der andre grunde: nogen ??
Svar
De to tests (parret og uparret) spørger forskellige spørgsmål, så de kan få forskellige svar. Korrekt parring er næsten altid mere kraftfuld end uparret – det er virkelig pointen med parring. Da du siger, at parringen er korrekt, er det sandsynligt, at p-værdien for din parrede test er lavere end for de samme data, der ikke er parret. Du kunne selvfølgelig gøre begge dele og se for dig selv.
Derfor er svaret på dit dilemma indholdsmæssigt, ikke statistisk. Er din parring rigtig?
Kunne du få en mere signifikant resultat fra tilfældig parring end fra en uparret test? Lad os se:
set.seed(2910110192) x <- rnorm(100, 10, 2) y <- rnorm(100, 10, 2) t.test(x, y) t.test(x, y, paired = T)
Ja det kan du, selvom her er forskellen meget lille, den parrede havde en lavere s. Jeg kørte den kode flere gange. Ikke overraskende er undertiden den ene p lavere, nogle gange den anden, men forskellen var i alle tilfælde lille. Jeg er dog sikker på, at forskellen i p-værdier i nogle situationer kan være stor.
Kommentarer
- Tak for svaret, men mit spørgsmål blev stillet for systematiske forskelle. Det er klart, i et langt løb af x ‘ s og y ‘ s, ser x og y lejlighedsvis ud som om de er meget godt parret , og lejlighedsvis som om de er bevidst dårligt parret. Det er helt sikkert ‘ et statistisk spørgsmål, om fordelingen af p-værdier ved den tilfældige valg af x og y er den samme på de to tests. Jeg formoder, at det ikke ‘ ikke skal være for svært for nogen, der kender mere teoretisk statistik end jeg, til faktisk at beregne de to teoretiske fordelinger af p-værdier. Mit gæt er, at de er de samme.
- I det faktiske tilfælde, hvor jeg var involveret, var p-værdien for ikke-parret omkring 0,04 og for parret .001. Ifølge den kritiske biolog skal vi citere .04. Ifølge mig indikerer forbedringen af p-værdi stærkt, at vores parring var gyldig. Jeg hævder, at der er et objektivt spørgsmål i statistikkerne her med et objektivt svar, og at det ‘ ikke kun er et spørgsmål om god biologisk vurdering af gyldigheden af den bestemte parring – – sidstnævnte ser ud til at være Peter Floms og den kritiske biologs mening.
- Jeg tror, statistikken fortæller historien.Begge resultater skal offentliggøres, men så længe dataene er korrekte, og korrelationen kan forklares, er den parrede test mere præcis, fordi den tager hensyn til korrelationen.
Svar
Jeg forstår nu meget bedre, hvad der bekymrede mig om parret versus uparret t-test og tilhørende p-værdier. At finde ud af har været en interessant rejse, og der har været mange overraskelser undervejs. En overraskelse er resultatet af en undersøgelse af Michaels bidrag. Dette er uigenkaldeligt med hensyn til praktisk rådgivning. Desuden siger han, hvad jeg tror, stort set alle statistikere mener, og han har flere opstemninger til at bakke op om dette. Dog som et stykke teori, det er ikke bogstaveligt korrekt. Jeg opdagede dette ved at udarbejde formlerne for p-værdierne og derefter tænke grundigt over, hvordan man bruger formlerne til at føre til modeksempler. Jeg er matematiker ved uddannelse og modeksemplet er et “matematikers modeksempel”. Det er ikke noget, du vil støde på i praktisk statistik, men det var den slags ting, jeg prøvede at finde ud af, da jeg spurgte min originale spørgsmål.
Her er R-koden, der giver modeksemplet:
vLength <- 10; meanDiff <-10^9; numSamples <- 3; pv <- function(vLength,meanDiff) { X <- rnorm(vLength) Y <- X - meanDiff + rnorm(vLength,sd=0.0001) Paired <- t.test(X,Y,var.equal=T,paired=T) NotPaired <- t.test(X,Y,var.equal=T,paired=F) c(Paired$p.value,NotPaired$p.value,cov(X,Y)) } ans <- replicate(numSamples,pv(vLength,meanDiff))
Bemærk følgende funktioner: X og Y er to 10-tupler, hvis forskel er enorm og næsten konstant. For mange signifikante tal er korrelationen 1.000 …. p-værdien for den ikke-parrede test er omkring 10 ^ 40 gange mindre end p-værdien for den parrede test. Så dette modsiger Michaels konto, forudsat at man læser hans konto bogstaveligt, matematisk. Her slutter den del af mit svar, der er relateret til Michaels svar.
Her er de tanker, som Peters svar. Under diskussionen af mit oprindelige spørgsmål formodede jeg i en kommentar, at to bestemte fordelinger af p-værdier, der lyder forskellige, faktisk er de samme. Det kan jeg nu bevise. Hvad der er vigtigere er, at beviset afslører den grundlæggende karakter af en p-værdi, så grundlæggende at ingen tekst (som jeg er stødt på) gider at forklare. Måske kender alle professionelle statistikere hemmeligheden, men for mig syntes definitionen af p-værdi altid mærkelig og kunstig. Inden jeg giver statistikens hemmelighed væk, lad mig angive spørgsmålet.
Lad $ n > 1 $ og vælg tilfældigt og uafhængigt to tilfældige $ n $ – fordobler fra en eller anden normalfordeling. Der er to måder at få en p-værdi fra dette valg. Den ene er at bruge en uparret t-test, og den anden er at bruge en parret t-test. Min formodning var, at fordelingen af p -værdier, som man får, er de samme i de to tilfælde. Da jeg først begyndte at tænke over det, besluttede jeg, at denne formodning havde været dumdristig og var falsk: den uparrede test er knyttet til en t-statistik på $ 2 (n-1 ) $ frihedsgrader, og den parrede test til en t-statistik på $ n-1 $ frihedsgrader. Disse to fordelinger er forskellige, så hvordan i alverden kunne de tilknyttede fordelinger af p-værdier være de samme? Først efter meget yderligere tanke, indså jeg, at denne åbenlyse afvisning af min formodning var for let.
Svaret kommer fra følgende overvejelser. Antag $ f: (0, \ infty) \ til (0, \ infty) $ er en kontinuerlig pdf (det vil sige, dens integral har værdi en). En ændring af koordinaterne konverterer den tilknyttede fordeling til den ensartede fordeling på $ [0,1] $. Formlen er $$ p = \ int_t ^ \ infty f (s) \, ds $$ og så meget forklares i mange tekster. Hvad teksterne ikke påpeger i sammenhæng med p-værdier er, at dette er nøjagtigt den formel, der giver p-værdien fra t-statistikken, når $ f $ er pdf for t -fordeling. (Jeg prøver at holde diskussionen så enkel som jeg kan, fordi den virkelig er enkel. En fyldigere diskussion vil behandle ensidige og tosidede t-tests lidt forskelligt, faktorer 2 kan opstå, og t-statistikken kan ligge i $ (- \ infty, \ infty) $ i stedet for i $ [0, \ infty) $. Jeg udelader alt det rod.)
Præcis den samme diskussion gælder, når man finder p-værdien forbundet med nogen af de andre standardfordelinger i statistikker. Hvis dataene igen er tilfældigt fordelt (denne gang i henhold til en anden forskellig fordeling), fordeles de resulterende p-værdier ensartet i $ [0,1] $.
Hvordan gælder dette for vores parrede og uparede t-tests? Pointen er i den parrede t-test, med prøver valgt uafhængigt og tilfældigt, som i min kode ovenfor følger værdien af t faktisk en t-distribution (med $ n-1 $ frihedsgrader). Så de p-værdier, der er resultatet af replikering af valget af X og Y mange gange, følger den ensartede fordeling på $ [0,1] $. Det samme er tr ue til den uparrede t-test, selvom t-fordelingen denne gang har $ 2 (n-1) $ frihedsgrader. Ikke desto mindre har de p-værdier, der resulterer, også en ensartet fordeling på $ [0,1] $ ved det generelle argument, jeg gav ovenfor.Hvis Peters kode ovenfor anvendes til at bestemme p-værdier, får vi to forskellige metoder til at tegne en tilfældig prøve fra den ensartede fordeling på $ [0,1] $. De to svar er imidlertid ikke uafhængige.
Kommentarer
- Jeg tror ikke ‘ Jeg tror ikke, at p-værdien har nogen mystiske seketer. Nogle mennesker har en vanskelig tid med det. Det er sandsynligheden for at observere en værdi som ekstern eller mere ekstrem end hvad der faktisk blev observeret, når nulhypotesen er SAND. Jeg tror, du havde den ret i en af dine formler. Jeg tror, du sagde, at p- værdier er jævnt fordelt. Ja, jeg er enig i det, når nulhypotesen er sand. Husk, at nulhypotesen muligvis ikke er sand med din t-test. Derefter er p-værdien ikke ensartet. Den skal koncentreres tættere på 0.
- For det andet taler vi om to forskellige teststatistikker. Den ene er baseret på parring og den ene ikke i dit eksempel. Uanset om jeg nævnte det i mit svar eller ej den uparrede t-test har en central t-fordeling med 2n-2 frihedsgrader, mens den tilsvarende t-fordeling for den parrede t-test har n-1 frihedsgrader. Så den med det større antal frihedsgrader er tættere på den normale normalfordeling end den anden. Betyder det noget, når du anvender disse tests på ægte data? Ingen! Ikke når n er rimelig stor.
- Som en sidebemærkning kræver en begrænsning af den parrede test lige stikprøvestørrelse, som du skal have, hvis alle data kan parres. Men den uparrede test er gyldig med ulige stikprøvestørrelser. Generelt har den uparrede test n + m-2 frihedsgrader.
- Dit svar er langt og abstrakt, og jeg forsøgte at vade igennem det, men det gjorde jeg ikke ‘ t forstå modeksemplet. Jeg kan bare ikke se ‘ hvor du tager nulhypotesen og de reelle data i betragtning. Den observerede p-værdi er integralen af den passende t-fordeling til teststatistikken givet dataene. Du sammenligner disse tal for de to t-distributioner og det samme fælles datasæt. Hvis du forudsætter de observerede data, spiller disse ensartede distributioner ingen rolle. Jeg er ked af det, men jeg kan ikke ‘ ikke se, at dit svar virkelig svarer på dit spørgsmål.
- Michael: Bare koncentrer dig om den R-kode, jeg gav. Det tager kun et sekund at køre. Nulhypotesen er, at X og Y kommer fra den samme normalfordeling, hvilket naturligvis er vildt falsk i mit tilfælde. I mit eksempel Cov (X, Y) > 0 og alligevel giver den uparrede test mere betydning end den parrede test.
Svar
Jeg vil tilbyde et andet perspektiv. Ofte er parring færdig med at reducere bias. Antag at du er interesseret i, om eksponering E er en risikofaktor for et kontinuerligt resultat Y. For hvert E + -emne får du et emne, der matcher alder og køn, der er E-. Nu kunne vi enten lave en parret t-test eller en uparret t-test. Jeg synes, vi skal redegøre for eksplicit match og udføre en parret t-test. Det er mere principielt, at det tager designet i betragtning. Hvorvidt der skal tages hensyn til matchning i analysen er et spørgsmål om bias-varians kompromis. Regnskab for matchning i analysen giver mere beskyttelse mod bias, men kan øge variansen. At udføre en uparret t-test kan være mere effektiv, men det giver ikke nogen beskyttelse mod bias.
Skriv et svar