WWC | Tidlig børnehaveundervisning for børn med handicap Evidensgennemgangsprotokol
II. Specifikke emneparametre
- Karakteristika for støtteberettigede interventioner inden for førskoleundervisning for børn med handicap
- Elementer af interventionens replikerbarhed
- Resultater for børn med handicap
- Reliabilitet og validitet af resultatmålinger
- Tidsinterval, inden for hvilket undersøgelserne skal være gennemført for at være passende for interventionsrapporten
- Definerende karakteristika for undersøgelsespopulationen
- Effektivitet af interventionen på tværs af undergrupper af børn
- Effektivitet af interventionen på tværs af miljøer
- Attrition
- Gruppeækvivalens
- Statistiske og analytiske spørgsmål
De følgende parametre angiver, hvilke undersøgelser der tages i betragtning til analyser, og hvilke aspekter af disse undersøgelser der kodes til gennemgang.
1. Karakteristika for støtteberettigede interventioner inden for førskoleundervisning for børn med handicap
De støtteberettigede interventioner har som deres primære mål at forbedre resultater, der er forbundet med førskolebørns skoleparathed. Støtteberettigede interventioner
- Inkluderer omfattende og supplerende læseplaner, såsom Creative Curriculum, Incredible Years og Big Math for Little Kids; praksis, såsom Dialogic Reading og tidsforsinkelse; og terapier, der er designet til at fremme funktion og forebygge sekundære handicaps, såsom sensorisk integrationsterapi.
- Må foregå i en skole eller et centerbaseret førskolemiljø, eller hvis det foregår andre steder (f.eks. kliniske miljøer eller familiehjem), skal det gennemføres under ledelse af eller i samarbejde med en skole, en førskole eller et program, der finansieres gennem IDEA.
- Må være blevet gennemført i 1986 (det år, hvor PL 99-457, som autoriserede del C og førskoleydelser for børn med handicap under del B, blev vedtaget) eller senere.
- Må kunne gentages og udbredes.
2. Elementer af interventionens replikerbarhed
De vigtige karakteristika ved en intervention, der skal dokumenteres i en undersøgelse, så den kan replikeres pålideligt med forskellige deltagere, i andre omgivelser og på andre tidspunkter, omfatter følgende:
- Hvorvidt interventionen er mærkevarer eller ikke mærkevarer.
- Hvis den er mærkevarer, skal der være oplysninger om, hvordan man kan få fat i interventionen. Brandede interventioner har typisk en ekstern udvikler, som yder teknisk bistand eller sælger/distribuerer interventionen. Brandede interventioner kan enten være pakket eller er på anden måde tilgængelige til distribution og brug uden for et enkelt sted med tilstrækkelig dokumentation til, at læreplanen eller praksis kan implementeres af andre personer end udviklerne (f.eks. har en manual, læreplansguide eller andre tilstrækkeligt detaljerede instruktioner for implementering). Desuden kan brandede interventioner være varemærkede eller ophavsretligt beskyttede.
- Studier af interventioner, der ikke er brandede, skal beskrive interventionen, herunder de(n) færdighed(er), der er målrettet, fremgangsmåden til forbedring af færdigheden(erne), målpopulationen, komponenter eller funktioner i interventionen, der blev gennemført, karakteristika ved de omgivelser, hvor den blev gennemført, interventionens varighed og intensitet samt karakteristika og uddannelse af de personer, der administrerede interventionen.
3. Resultater for børn med handicap
For at blive inkluderet i gennemgangen skal en undersøgelse omfatte mindst ét relevant resultat for børn, som interventionen bevidst er rettet mod, og som måles direkte ved at foretage en vurdering af barnet eller en observation af barnet.
Relevante resultater er dem, der falder inden for følgende områder:
- Kognition
- Kommunikation/sproglige kompetencer
- Læse- og skrivefærdigheder
- Matematiske præstationer
- Social-emotionel udvikling og adfærd
- Funktionelle evner
- Fysisk velvære
At der er overensstemmelse mellem resultatet og interventionen, er en anden faktor, der tages i betragtning i vurderingen. Resultatmålinger, der er nøje tilpasset eller skræddersyet til interventionen, vil sandsynligvis vise større effektstørrelser end dem, der er mindre nøje tilpasset til interventionen. Når resultatmålet omfatter nogle af de samme materialer (f.eks. bøger eller tekster), som anvendes i interventionen, eller når det administreres til interventionsgruppen som en del af interventionen, anses det for at være overtilpasset til interventionen. I disse situationer kan interventionsgruppen have en uretfærdig fordel i forhold til sammenligningsgruppen, og effektstørrelsen er ikke et retvisende udtryk for interventionens virkninger. Resultatmålinger, der er overtilpasset til interventionen, vil ikke blive medtaget ved fastlæggelsen af en interventions vurderinger i forbindelse med denne gennemgang.
Det er hensigten, at fordelene ved interventioner inden for småbørnsundervisning for børn med handicap skal bevares langt efter interventionens afslutning. Derfor er målinger ved afslutningen af en intervention såvel som på ethvert tidspunkt derefter tilladt. Målinger, der foretages flere måneder eller år efter interventionen, kan give stærke beviser for en interventions effektivitet. I denne gennemgang prioriteres imidlertid resultater af umiddelbare posttestresultater med henblik på udvikling af interventionsvurderinger og forbedringsindeks, fordi disse resultater er mest udbredte. Gennemgangen omfatter yderligere opfølgningsresultater, når de er tilgængelige og hensigtsmæssige, i bilagene til rapporten.
4. Resultattavlernes pålidelighed og validitet
Undersøgelsen skal omfatte mindst ét resultatmål for børn med bevis for face validity og for resultater, der er test eller skalaer, tilstrækkelig score reliabilitet vurderet ved hjælp af de standarder, der er anført her, som fastsat af WWC. Hvis scorepålideligheden for hvert resultatmål ikke er specificeret i forskningsartiklen, kan data fra testens eller skalaens udgiver eller andre kilder anvendes til at fastslå scorepålideligheden for et resultatmål for undersøgelsespopulationen. Hvis undersøgelser ikke har analyseret resultatmålenes scoringssikkerhed ved hjælp af undersøgelsesdata, og analyser foretaget af testudgivere eller andre forskere ikke omfattede børn med handicap, vil enhver anden tilgængelig dokumentation for scoringssikkerhed og validitet af målet for undersøgelsespopulationen blive taget i betragtning, og der vil blive truffet en beslutning om resultatmålets egnethed fra sag til sag i samråd med eksperter. Standarderne er
- Intern konsistens score reliabilitet: minimum 0,60
- Temporal stabilitet/test-retest score reliabilitet: minimum 0,40
- Inter-rater score reliabilitet: minimum 0,40
- Inter-rater score reliabilitet: minimum 0.50 (procentvis overensstemmelse, korrelation, Kappa)
Hvis et resultatmål er sammensat af forskellige test for forskellige børn i stikprøven, vil det blive betragtet som et gyldigt resultat, hvis følgende kriterier er opfyldt:
- Testene foregiver at måle et lignende konstrukt og blev standardiseret på en lignende population, som det fremgår af testmanualen eller empiriske undersøgelser med fokus på testen.
- Testene skal opfylde de tærskler for pålidelighed, der er beskrevet ovenfor.
- Der skal være klare regler for, hvilken test der administreres til hvilket barn, og reglerne skal anvendes på samme måde på behandlings- og kontrolgruppen.
- Fordelingen af test, der administreres ved baseline og opfølgning til behandlings- og kontrolgruppen, skal være ens.
Hvis de oplysninger, der er nødvendige for at anvende disse kriterier, ikke er tilgængelige i artiklen, vil der blive iværksat en forespørgsel fra forfatteren for at indhente disse oplysninger.
5. Tidsinterval, hvori undersøgelserne skal være gennemført for at være relevante for interventionsrapporten
Studier skal være offentliggjort i 1986 eller senere.
6. Definition af undersøgelsespopulationens karakteristika
For at kunne indgå i gennemgangen skal en undersøgelses population omfatte
- Børn i alderen 3-5 år, som endnu ikke er indskrevet i børnehave eller ældre børn, der deltager i et førskoleprogram. Når forfatterne leverer aggregerede data for både førskole- og børnehavebørn, og der ikke er adgang til opdelte data, vil undersøgelsen indgå i gennemgangen, hvis mindst 50 % af børnene er i førskolealderen.
- Børn med handicap, som defineret tidligere. I undersøgelser af børn med og uden handicap vil der blive givet prioritet til resultaterne for undergruppen af børn med handicap. Hvis mindst 50 % af undersøgelsens stikprøve imidlertid består af børn med handicap, kan de samlede resultater indgå i gennemgangen.
- Børn, der taler engelsk eller er børn, der ikke har engelsk som modersmål, og som har engelsk som modersmål, og som lærer engelsk.
- Børn, der er bosiddende i USA (herunder amerikanske territorier og stammeenheder).
7. Interventionens effektivitet på tværs af undergrupper af børn
En interventions effektivitet varierer sandsynligvis blandt børn med forskellige karakteristika, og en undersøgelse, der tester en interventions effektivitet, kan undersøge interventionens virkninger for vigtige undergrupper af børn. For undersøgelser af interventioner inden for førskoleundervisning for børn med handicap, vigtige undergruppekarakteristika omfatter
- Alder (3 til 4 år og 4 til 5 år)
- Køn
- Socioøkonomisk status
- Race/etnicitet
- Status for engelsksprogede elever
- Type af handicap
- Sværhedsgrad af handicap
Når en undersøgelse, der opfylder WWC’s evidensstandarder, rapporterer interventionseffekter for disse undergruppetyper, og undergruppeanalyserne opfylder alle de WWC-standarder, der kræves for resultaterne for den fulde stikprøve, vil disse virkninger og analyser blive medtaget i et bilag til interventionsrapporten.
8. Interventionens effektivitet på tværs af indstillinger
En undersøgelse, der søger at teste effektiviteten af en intervention, kan undersøge effekter på tværs af forskellige indstillinger. For undersøgelser af interventioner inden for førskoleundervisning for førskolebørn med handicap kan disse indstillinger defineres ved
- Lokalitet (by, forstadsområde eller landdistrikt)
- Indstilling (børnepasningscenter, skolebaseret børnehave, Head Start, andet)
- Instillingstype (segregeret, inkluderende)
- Personales uddannelse, kvalifikationer eller træning (f.eks, certificering, års erfaring)
Når en undersøgelse, der opfylder WWC’s evidensstandarder, rapporterer interventionseffekter separat for disse indstillinger, og analyserne af resultaterne efter indstilling opfylder alle de WWC-standarder, der kræves for resultaterne for hele stikprøven, vil disse effekter og analyser blive medtaget i et bilag til interventionsrapporten.
9. Udfald
Som beskrevet i WWC’s Procedures and Standards Handbook (version 2.0) er WWC bekymret over samlet og differentieret udfald fra interventions- og sammenligningsgrupperne for RCT’er, da begge bidrager til den potentielle skævhed i den estimerede effekt af en intervention. Den model for skævhed ved frafald, som WWC har udviklet, vil blive anvendt til at afgøre, om en undersøgelse opfylder WWC’s evidensstandarder (se bilag A i håndbogen).
Når kombinationen af de samlede og differentielle frafaldsrater medfører, at en RCT-undersøgelse falder i det grønne område på nedenstående diagram, vil frafaldet blive betragtet som “lavt”, og biasniveauet vil være acceptabelt. Dette afspejler antagelsen om, at det meste frafald i undersøgelser af tidlige børnepasningsinterventioner for børn med handicap skyldes eksogene faktorer, såsom forældrenes mobilitet og fravær på de dage, hvor vurderingerne gennemføres. For RCT’er med kombinationer af samlede og differentielle frafaldsrater i det røde område vil frafaldet imidlertid blive betragtet som “højt” og potentielt have et højt niveau af bias, og derfor skal der påvises ækvivalens.
Mange undersøgelser, der er gennemgået af WWC, er baseret på design med flere niveauer. Der kan opstå bias ikke kun som følge af tab af klynger (f.eks. skoler), men også fra stikprøvemedlemmer inden for klyngerne (f.eks. elever), hvis disse stikprøvemedlemmer falder fra som følge af deres behandlingsstatus. Udfaldsstandarden gælder for begge niveauer. For at opfylde standarden skal en undersøgelse først bestå på klyngeniveau ved hjælp af den ovenfor fastsatte grænse for bortfald. For det andet skal undersøgelsen bestå på subclusterniveau, igen ved hjælp af den ovenfor angivne frafaldsgrænse, idet frafaldet kun er baseret på de klynger, der stadig er i stikprøven. Det vil sige, at nævneren for beregningen af frafaldet i undergrupperne kun omfatter stikprøvens medlemmer på de skoler eller klasseværelser, der fortsat er med i undersøgelsen efter frafaldet i grupperne.
10. Gruppens ækvivalens
Hvis undersøgelsesdesignet er et RCT med et højt frafaldsniveau eller en QED, skal undersøgelsen påvise, at interventions- og sammenligningsgrupperne er ækvivalente ved baseline for den analytiske stikprøve. Det er forfatteren, der har ansvaret for at påvise ækvivalens i disse undersøgelser. Der bør indgå tilstrækkelig rapportering af data før interventionen i undersøgelsesrapporten (eller indhentes fra undersøgelsesforfatteren) til, at evalueringsgruppen kan drage konklusioner om interventions- og sammenligningsgruppernes ækvivalens. Karakteristika før interventionen kan omfatte de(n) resultatmåling(er), der blev administreret før interventionen, eller andre målinger, der ikke er de samme som, men som i høj grad er relateret til resultatmåling(erne).
For dette emneområde er det muligt, at en undersøgelse opfylder evidensstandarderne inden for et eller flere områder og ikke inden for andre områder. Der bør derfor anvendes regler for fastlæggelse af ækvivalens af baseline inden for hvert domæne.
Grupper anses for at være ækvivalente, hvis de rapporterede forskelle i gruppernes karakteristika før interventionen er mindre end eller lig med en fjerdedel af den samlede standardafvigelse i stikprøven, uanset statistisk signifikans. Hvis forskellene imidlertid er større end 0,05 standardafvigelser og mindre end eller lig med en fjerdedel af den samlede standardafvigelse i stikprøven, skal analysen analytisk kontrollere for den eller de karakteristika på individniveau før interventionen, som grupperne adskiller sig fra hinanden på. Hvis forskellene før interventionen er større end 0,25 for nogen af de anførte karakteristika, opfylder undersøgelsen ikke standarderne.
I betragtning af potentialet for selektionsbias i QED’er er muligheden for, at interventions- og sammenligningsgrupperne blev udtrukket fra forskellige populationer, også et problem. Grundlæggende forskelle i de miljøer, hvorfra interventions- og sammenligningsgrupperne i en QED-undersøgelse blev udtaget, og grundlæggende forskelle i interventions- og sammenligningsgruppernes karakteristika kan tyde på, at børnene i de to grupper blev udtaget fra forskellige populationer, selv om de var ens på præ-testmålinger. Statistisk signifikante eller store (en halv standardafvigelse eller mere) forskelle i karakteristika og indstillinger for børn i interventions- og sammenligningsgrupperne er tegn på, at grupperne er udtrukket fra forskellige populationer, og undersøgelsen opfylder ikke WWC’s evidensstandarder. Vigtige karakteristika og indstillinger, der skal tages i betragtning, når de rapporteres, omfatter
- Procentdel af børn med et handicap eller en forsinkelse
- Procentdel af børn med en specifik type eller sværhedsgrad af handicap
- Procentdel af børn med en IEP
- Procentdel af børn fra specifikke programindstillinger, såsom Head Start og skolebaserede førskoleprogrammer
- Procentdel af børn fra familier med lav socioøkonomisk status (SES)
11. Statistiske og analytiske spørgsmål
RCT-undersøgelser med lavt frafald behøver ikke at anvende statistiske kontroller i analysen, selv om statistisk justering for velgennemførte RCT’er er tilladt og kan bidrage til at generere mere præcise estimater af effektstørrelsen. For RCT’er vil estimaterne af effektstørrelsen blive justeret for forskelle i karakteristika før interventionen ved baseline (hvis de er tilgængelige) ved hjælp af en difference-in-differences-metode, hvis forfatterne ikke justerede for præ-test (se bilag B i håndbogen). Ud over de karakteristika før interventionen, som kræves af ækvivalensstandarden, kan der også foretages statistisk justering for andre foranstaltninger i analysen, selv om de ikke er påkrævet.
For WWC-undersøgelsen er det at foretrække at rapportere om og beregne effektstørrelser for middelværdier efter interventionen justeret for præ-interventionsmålet. Hvis en undersøgelse rapporterer både ujusterede og justerede middelværdier efter interventionen, vil WWC-undersøgelsen rapportere de justerede middelværdier og ujusterede standardafvigelser. Hvis justerede gennemsnit efter interventionen ikke er rapporteret, vil de blive anmodet om fra forfatterne.
Den statistiske signifikans af gruppeforskelle vil blive genberegnet, hvis (1) undersøgelsesforfatterne ikke har beregnet statistisk signifikans, (2) undersøgelsesforfatterne ikke har taget højde for klyngedannelse, når der var et mismatch mellem tildelingsenheden og analyseenheden, eller (3) undersøgelsesforfatterne ikke har taget højde for multiple sammenligninger, når det er relevant. I modsat fald accepterer bedømmelsesgruppen de beregninger, der er angivet i undersøgelsen.
Når der rapporteres en fejljusteret analyse (dvs. at analyseenheden ikke er den samme som tildelingsenheden), og forfatterne ikke er i stand til at fremlægge en korrigeret analyse, vil de effektstørrelser, der er beregnet af WWC, indarbejde en statistisk justering for klyngedannelse. Standardkorrelationerne inden for klassen, der er anvendt i forbindelse med denne gennemgang, er 0,20 for kognitive, sproglige, læse- og skrivefærdigheder og matematiske resultater og 0,10 for social-emotionel udvikling og adfærd, funktionelle evner og motoriske udviklingsresultater. For en forklaring om klyngekorrektion, se bilag C i WWC Procedures and Standards Handbook.
Når der foretages flere sammenligninger (dvs. flere resultatmålinger vurderes inden for et resultatområde i en undersøgelse), og der ikke er taget højde for det af forfatterne, tager WWC højde for denne mangfoldighed ved at justere den rapporterede statistiske signifikans af effekten ved hjælp af Benjamini-Hochberg-korrektionen. Se bilag D i håndbogen for de formler, som WWC bruger til at justere for multiple sammenligninger.
Alle standarder gælder for samlede resultater såvel som for analyser af delprøver.