Sunday 26 November 2017

Sas Liikkuva Keskiarvo Regressio


Täyskoodi-välilehden näytekoodi kuvaa kuinka muuttujan liikkuvan keskiarvon lasketaan koko datajoukon, viimeisten N-havaintojen perusteella tietojoukossa tai viimeisten N-havaintojen perusteella BY-ryhmässä. Nämä esimerkkitiedostot ja SAS Institute Inc: n antamat koodin esimerkit ovat ilman minkäänlaista takuuta, mitä tahansa nimenomaista tai epäsuoraa takuuta, mukaan lukien, mutta ei rajoittuen, epäsuorat takuut, jotka ovat kaupankäynnin mahdollisuutta ja sopivuutta tiettyyn tarkoitukseen. Vastaanottajat tunnustavat ja hyväksyvät, että SAS Institute ei ole vastuussa mistään tämän aineiston käytöstä aiheutuvia vahinkoja Lisäksi SAS-instituutti ei tue mitään tässä esitettyjä materiaaleja. Näitä otosasiakirjoja ja koodin esimerkkejä toimittaa SAS Institute Inc, kuten ilman minkäänlaista nimenomaista tai epäsuoraa takuuta, Mukaan lukien, mutta ei rajoittuen, epäsuorat takuut kaupallisuudesta ja soveltuvuudesta tiettyyn tarkoitukseen. Vastaanottajat tunnustavat ja sopivat, että SAS-instituutti ei saa E SAS-instituutti ei myöskään tue mitään muuttujan liikkuvan keskiarvon sisältämiä materiaaleja koko datajoukon, viimeisten N-havaintojen aikana datasarjassa, tai Viimeisen N-havainnon sisällä BY-ryhmässä. Autoregressiivinen liikkuvan keskiarvon virheitä käsittelevät ARMA-virheet ja muut mallit, joihin liittyy virheen termejä, voidaan arvioida käyttämällä FIT-lausekkeita ja simuloitua tai ennustaa käyttämällä SOLVE-lausekkeita. ARMA-malleja virheprosessille ovat usein käytetään malleissa, joissa on autokorreloidut jäännökset AR-makroa voidaan käyttää mallien määrittämiseen autoregressiivisten virheprosessien avulla MA-makro voidaan käyttää malleja, joissa on liikkuvan keskiarvon virheprosesseja. Autoregressive Errors. A malli, jolla on ensimmäisen kertaluvun autoregressiiviset virheet, AR 1 , on muotoa. jos AR 2 - virheprosessilla on muoto ja niin edelleen korkeamman prosessin prosesseihin Huomaa, että s ovat riippumattomia ja identtisesti jaettuja ja on odotettu arvo 0. Esimerkiksi AR 2 - komponentilla on malli ja niin edelleen korkeamman asteen prosesseja varten. Esimerkiksi voit kirjoittaa yksinkertaisen lineaarisen regressiomallin, jossa on MA2-liikkumavaruusvirheitä, kun MA1 ja MA2 ovat liikkuvan keskiarvon parametreja. Huomaa, että RES MODY on määritelty RESID Y: n avulla. Huomaa, että RESID Y on negatiivinen. ZLAG-funktiota on käytettävä MA-malleissa leikkaamaan viiveiden rekursiota. Tämä varmistaa, että viivästynyt Virheet alkavat nollassa viivästysaikavaiheessa eivätkä levitä puuttuvia arvoja, kun viivästysaika-ajan muuttujia puuttuu ja se varmistaa, että tulevat virheet ovat nollia pikemminkin kuin puuttuvat simuloinnin tai ennusteen aikana. osio Lag Logic. Tämä malli on kirjoitettu käyttäen MA-makro on seuraava. Yleinen muoto ARMA-mallit. Yleinen ARMA p, q prosessi on seuraava lomake. ARMA p, q malli voidaan määritellä seuraavasti. J edusta autoregressive ja movin g-keskiarvoparametreja eri viiveille Voit käyttää näitä muuttujia varten haluamasi nimet ja monia vastaavia tapoja, joilla määrittely voidaan kirjoittaa. Vektorin ARMA-prosessit voidaan myös arvioida PROC MODEL: llä. Esimerkiksi kahden muuttujan AR 1 prosessi kahden endogeenisen muuttujan Y1 ja Y2 virheille voidaan määritellä seuraa - vasti. ARMA-mallien konvertointiongelmat ARMA-malleja voi olla vaikea arvioida Jos parametriarvot eivät ole sopivalla alueella, liikkuva keskiarvo mallin jäännösarvo Termit kasvavat eksponentiaalisesti Lasketut jäännösjulkaisut myöhemmille havainnoille voivat olla hyvin suuria tai voivat ylivuotoa. Tämä voi tapahtua joko siksi, että virheellisiä aloitusarvoja käytettiin tai koska iteroinnit siirtyivät kohtuullisilta arvoilta. Kaavaa olisi käytettävä valitsemalla ARMA-parametrien aloitusarvoja. 0 001 ARMA-parametreille tavallisesti toimii, jos malli sopii datan hyvin ja ongelma on hyvin kunnostettu Huomaa, että MA-malli voi usein olla sopiva Tämä voi johtaa korkeaan kolinearisuuteen ARMA-malleissa, jotka puolestaan ​​voivat aiheuttaa vakavaa huononemista laskentaan ja parametrien estimaattien epävakaisuuteen. Jos sinulla on lähentymisongelmia arvioitaessa Malli ARMA-virheprosessien kanssa, yritä arvioida vaiheissa. Käytä ensin FIT-käskyä arvioimaan vain rakenneparametrit, joiden ARMA-parametrit ovat nollatut tai kohtuulliset ennakkoarviot, jos ne ovat käytettävissä. Seuraavaksi käytä toista FIT-lausetta ARMA-parametrien arvioimiseksi, käyttäen rakenneparametrien arvoja ensimmäisestä ajosta Koska rakenneparametrien arvot todennäköisesti ovat lähellä niiden lopullisia arvioita, ARMA-parametrien arviot saattavat nyt konvergoitua Lopuksi, käytä toista FIT-lausetta tuottamaan samanaikaiset arviot kaikista parametreista Koska alku - parametrien arvot ovat todennäköisesti melko lähellä niiden lopullisia yhteisiä arvioita, arvioiden pitäisi lähentyä nopeasti, jos mo del on sopiva data. AR: n alustavaan olosuhteeseen. AR p - mallien virheen ehdon alkuviiveet voidaan mallintaa eri tavoin SAS ETS - menetelmien tukemat autoregressiiviset virheiden aloittamismenetelmät ovat seuraavat. ehdottomat pienimmän neliösumman ARIMA - ja MODEL-menetelmät. Ehdottomasti pienimpiin neliöihin AUTOREG, ARIMA ja MODEL menettelytapoja. Maksimpi todennäköisyys AUTOREG, ARIMA ja MODEL menettelyjä. Yule-Walker AUTOREG-menettely vain. Hildreth-Lu, joka poistaa ensimmäisen p-havainnot vain MODEL-menettelytavoista. Katso luku 8, AUTOREG - selittämiseksi ja keskustelemiseksi erilaisten AR p käynnistysmenetelmien ansioista. CLS-, ULS-, ML - ja HL-alustukset voidaan suorittaa PROC MODELllä AR 1 - virheille nämä alustukset voidaan tuottaa taulukon 18 mukaisesti. 2 Nämä menetelmät ovat ekvivalentti suurissa näytteissä. Taulukko 18 2 PROC MODEL AR 1: n tekemät alustukset ERRORS. MA q - mallien virheen ehdon alkuviiveet voidaan myös mallintaa eri tavoin Seuraavassa siirto-av erationvirheiden käynnistysparametreja tukee ARIMA - ja MODEL-menettelytapa. ehdottomasti pienimmän neliösumman. ehdoitta pienimmän neliösumman. ehdollinen pienin neliösumma - menetelmä liikkuvien keskimääräisten virheiden arvioimiseksi ei ole optimaalinen, koska se jättää huomiotta käynnistysongelman Tämä vähentää tehokkuutta vaikka ne pysyisivät puolueettomina Alkuperäisten viivästyneiden jäännösten, jotka ulottuvat ennen tietojen alkua, oletetaan olevan 0, niiden ehdoton odotettu arvo. Tämä tuo esiin erotuksen näiden jäännösmäärien ja yleistettyjen pienimmän neliösumman jäännöksistä liikkuvan keskiarvon kovarianssin , joka toisin kuin autoregressiivinen malli, säilyy tietojoukon välityksellä Yleensä tämä ero konvergoi nopeasti nopeasti 0: een, mutta melkein ei-verrattavissa liikkuvan keskiarvon prosesseissa konvergenssi on melko hidas Tämän ongelman minimoimiseksi sinun pitäisi olla runsaasti dataa, keskimääräisten parametrien arvioiden pitäisi olla hyvin vaihtosuuntaisen vaihteluvälin sisällä. Tämä ongelma voidaan korjata kirjoituskustannuksella ga monimutkaisempi ohjelma Mahdolliset ehdottomat pienimmän neliösumman estimaatit MA 1-prosessiin voidaan tuottaa määrittämällä malli seuraa - vasti. Keskimääräisten virheiden siirtäminen voi olla vaikeaa arvioida. Olisi harkittava AR p: n approksimaation käyttämistä liikkuvaa keskimääräistä prosessia kohti Liikkuvan keskiarvon prosessia voidaan tavallisesti approksimoida autoregressiivisella prosessilla, jos dataa ei ole tasoitettu tai eriytetty. AR Macro. SAS makro AR tuottaa ohjelmointitodistuksia PROC MODELille autoregressiivisille malleille AR-makro on osa SAS ETS - ohjelmistoa eikä mitään Erityisvaihtoehtoja on asetettava makron käyttämiseksi. Autoregressiivinen prosessi voidaan soveltaa rakenteellisten yhtälövirheiden tai endogeenisten sarjojen itsensä kanssa. AR-makro voidaan käyttää seuraavaan tyyppisiin autoregression. unlimited vector autoregression. restricted vector autoregression. Univariate Autoregression. Tämä yhtälön virhetilan malli autoregressiiviseksi prosessiksi, käytä seuraavaa lausetta yhtälön jälkeen. Liitä, oletetaan, että Y on X1-, X2- ja AR 2 - virheen lineaarinen funktio kirjoittaisit tämän mallin seuraa - vasti. AR: n puhelujen tulee olla kaikkien prosessien jälkeen käytettyjen yhtälöiden jälkeen. Edeltävä makron kutsuma, AR y, 2, tuottaa lausekkeet LIST-ulostulossa kuviossa 18 58. Kuva 18 58 LIST Optio-ulostulo AR 2 - mallille. PRED-ennalta määritetyt muuttujat ovat väliaikaisia ​​ohjelmamuuttujia, joiden avulla jäännösten viiveet ovat oikeat jäännökset ja ei niitä, jotka on määritelty uudelleen tämän yhtälön avulla Huomaa, että tämä vastaa ARMA-mallien yleisen lomakkeen nimenomaisesti kirjoitettuja lausumia. Voit myös rajoittaa autoregressiivisten parametrien nollaan valituilla viiveillä. Esimerkiksi jos halutaan autoregressiiviset parametrit viiveinä 1, 12 ja 13, voit käyttää seuraavia lausumia. Nämä lausumat muodostavat kuviossa 18 59 esitetyn ulostulon. Kuva 18 59 LIST Optio-ulostulo AR-mallille, jonka viive on 1, 12 ja 13. MODEL-menettely Ohjelma Co De. Statement as Parsed. PRED yab x1 c x2.RESID y PRED y - ACTUAL y. ERROR y PRED y - y. OLDPRED y PRED y yl1 ZLAG1 y - perdy yl12 ZLAG12 y - perdy yl13 ZLAG13 y - PREDy. RESID y PRED y - ACTUAL y. ERROR y PRED y - y. Ehdollisen pienimmän neliösumman menetelmällä on vaihteluja, riippuen siitä, käytetäänkö sarjakon alkua koskevia havaintoja AR-prosessin lämmittämiseen Oletuksena AR-ehdollinen pienimmän neliösumman menetelmä käyttää kaikki havainnot ja oletukset nollia autoregressiivisten termien alkuperäisille viiveille Käyttämällä M-vaihtoehtoa voit pyytää AR käyttämään ehdottoman pienimmän neliösumman ULS - tai maksimikvivalentti-ML-menetelmää. Esimerkiksi näistä menetelmistä on tietoja osassa AR Ensimmäiset olosuhteet. Käyttämällä M CLS n - vaihtoehtoa voit pyytää, että ensimmäiset n havainnot käytetään estimaattien laskemiseen alkuperäiseltä autoregressiivisviiveeltä. Tässä tapauksessa analyysi alkaa havainnolla n 1 Esimerkiksi. Voit käyttää AR-makroa Soveltaa autoregressiivista mallia Endogeeninen muuttuja virhevirheen sijaan käyttämällä TYPE V - vaihtoehtoa Esimerkiksi jos haluat lisätä Y: n viisi aiempia viiveitä edellisessä esimerkissä olevaan yhtälöön, voit käyttää AR: ta generoimaan parametreja ja viiveitä käyttämällä seuraavat edut. Edeltävät lausumat luovat kuviossa 18 60 esitetyn lähdön. Kuva 18 60 LIST Optio-ulostulo Y: n AR-mallille. Tämä malli ennustaa Y lineaarisena yhdistelmänä X1, X2, leikkaus ja Y: n arvot viimeksi kuluneiden viiden jakson aikana. Rajoittamaton vektori autoregression. Mallia vektorin autoregressiivisen prosessin virhetietojen käyttämiseksi, käytä AR: n seuraavaa muotoa yhtälöiden jälkeen. Prosessinimiarvo on mikä tahansa nimi, jonka toimitat AR: lle käyttää nimellistää autoregressiivisia parametreja Voit käyttää AR-makroa mallintamiseen useita eri AR-prosesseja eri yhtälöryhmille käyttämällä eri prosessin nimeä jokaiselle joukolle Prosessin nimi varmistaa, että käytettävät muuttujat nimet ovat uni que Käytä prosessin lyhyttä prosessinimiarvoa, jos parametriarvot kirjoitetaan lähtötietojen joukkoon AR-makro yrittää rakentaa parametrin nimet, jotka ovat pienempiä tai yhtä suuria kuin kahdeksan merkkiä, mutta tätä rajoittaa prosessinimen pituus, jota käytetään AR: n parametrien nimien etuliite. Variablodistinen arvo on yhtälöiden endogeenisten muuttujien luettelo. Esimerkiksi oletetaan, että yhtälöissä Y1, Y2 ja Y3 olevat virheet generoidaan toisen kertaluvun vektorin autoregressiivisella prosessilla Voit käyttää seuraavaa lausekkeita, jotka tuottavat seuraavan Y1: lle ja vastaavalle koodille Y2: lle ja Y3: lle. Vain vektoriprosesseihin voidaan käyttää ehdollisia pienimmän neliösumman M CLS - tai M CLS n - menetelmää. Voit myös käyttää samaa lomaketta rajoituksin, että kerroinmatriisi on 0 valitut viiveet Esimerkiksi seuraavat toteamukset soveltavat kolmannen kertaluvun vektoriprosessia yhtälövirheisiin, kun kaikki kertoimet viiveellä 2 rajoitetaan arvoon 0 ja kertoimet viiveillä 1 ja 3 rajoittamattomilla . Voit mallintaa kolme sarjaa Y1 Y3 vektorina autoregressiivisena prosessina muuttujissa virheiden sijaan käyttämällä TYPE V - vaihtoehtoa Jos haluat mallin Y1 Y3 Y1 Y3: n aikaisempien arvojen funktiona ja joitain eksogeenisiä muuttujia tai vakioita , voit käyttää AR: ta generoimaan lausekkeet lag-termeille Kirjoita yhtälö jokaiselle muuttujalle mallin nonautoregressiiviselle osalle ja sitten kutsua AR: n TYPE V - vaihtoehdolla Esimerkiksi mallin nonautoregressiivinen osa voi toimia eksogeeniset muuttujat tai se voi olla leikkausparametreja Jos vektorin autoregression - mallille ei ole olemassa eksogeenisiä komponentteja, mukaanlukien ei leikkauksia, osoita nolla kaikille muuttujille. Jokaiselle muuttujalle täytyy olla tehtävä tehtävä, ennen kuin AR: ta kutsutaan. Tämä esimerkki Mallin vektori Y Y1 Y2 Y3 lineaarisena funktiona vain sen arvosta edellisissä kahdessa jaksossa ja valkoisen meluhäiriön vektorissa. Mallissa on 18 3 3 3 3 parametria. AR Macro - standardia. AR-makron ntax Kun AR-prosessin rajoituksia ei tarvita, AR-makron syntaksilla on yleinen muoto. Määritetään AR: n etuliite, jota käytetään AR: n määrittämiseen tarvittavien muuttujien nimeämisessä käytettäessä. Jos endoristi ei ole määritetään endogeeninen lista oletusarvoisesti nimeksi, jonka on oltava sen yhtälön nimi, johon AR-virheprosessi on tarkoitus soveltaa. Nimellisarvo voi olla enintään 32 merkkiä. on AR-prosessin järjestys. määrittää yhtälöryhmän, johon AR-prosessia on sovellettava Jos käytetään useampaa kuin yhtä nimeä, luodaan rajoittamaton vektoriprosessi, jossa kaikkien yhtälöiden regressorien sisältämät yhtälöt ovat rakenteellisia jäännöksiä. Jos ei ole määritelty, endolist defaults name. specifics of lags Jossa AR-termit lisätään. Loppukertojen ehtojen kertoimet asetetaan arvoon 0. Kaikkien lueteltujen viivojen on oltava pienempiä tai yhtä suuria kuin nlag ja ei saa olla kaksoiskappaleita Jos ei ole määritelty, laglist defaul ts kaikille viiveille 1-nlag. specifies estimointimenetelmää toteuttamaan M: n voimassa olevat arvot ovat CLS-ehdolliset pienimmän neliösumman estimaatit, ULS-ehdottomat pienimmän neliösumman estimaatit ja ML-maksimi-todennäköisyysarviot M CLS on oletusarvo Vain M CLS sallitaan, kun useampi kuin yksi yhtälö on määritelty AR: n AR-malleille ei tueta ULS - ja ML-menetelmiä, vaan määritetään AR-prosessin soveltaminen endogeenisiin muuttujiin itseensä yhtälöiden rakenteellisten jäännösmäärien sijasta. Rajoitettu Vector Autoregression. You voi hallita mitä parametrit sisällytetään prosessiin ja rajoittavat 0 parametreihin, joihin et sisällyt. Ensimmäinen, käytä AR: n DEFER-vaihtoehtoa ilmoittaaksesi muuttujaluettelon ja määrittele prosessin mitan. Käytä sitten ylimääräisiä AR-puheluja luomalla termit valittuihin yhtälöihin Valitut muuttujat valituilla viiveillä Esimerkiksi tuotetut virheyhtälöt ovat seuraavat. Tässä mallissa todetaan, että Y1: n virheet riippuvat virheistä sekä Y1: n että Y2: n, mutta ei Y3: n molemmissa viiveissä 1 ja 2, ja että virheet Y2: lle ja Y3: lle riippuvat kaikkien kolmen muuttujan aiemmista virheistä, mutta vain viiveellä 1. AR Macro Syntax rajoitetulle vektorille AR. An vaihtoehtoinen käyttö AR: n sallitaan asettaa rajoituksia vektori AR-prosessiin soittamalla AR useita kertoja eri AR-termien ja viivojen määrittelemiseksi eri yhtälöille. Ensimmäinen puhelu on yleinen muoto. määrittää AR: n etuliitteen käytettäväksi muuttuvien nimien rakentamisessa, joita tarvitaan määritä vektori AR-prosessi. määrittää AR-prosessin järjestyksen. spesää niiden yhtälöiden luettelon, joihin AR-prosessi on tarkoitus soveltaa. specifies, että AR ei ole AR-prosessin tuottaminen, vaan odottaa myöhempää AR: vaatii samaa nimellisarvoa. Seuraavissa puheluissa on yleinen muoto. on sama kuin ensimmäisessä puhelussa. täsmentää niiden yhtälöiden luetteloa, joihin tämän AR-puhelun määrityksiä sovelletaan. Ensimmäinen kal l, että nimitunnus voi näkyä yhtälöryhmässä eqlist. specifies niiden yhtälöiden luettelon, joiden viivästyneet rakenteelliset jäännökset on sisällytettävä regressorina yhtälöissä eqlistissa. Nimen arvot voivat olla vain ensimmäisen puhelun endolistissä Varlist Jos ei ole määritelty, varlist oletusarvoisesti endolist. specifics list of lags, jolloin AR termit on lisätty Ehtoja kertoimet myöhässä ei ole lueteltu asetetaan 0 Kaikkien luettelossa lag on oltava pienempi tai yhtä suuri kuin arvo nlag ja ei saa olla kaksoiskappaleita Jos ei ole määritelty, laglist oletusarvoisesti kaikki viivästyy 1-nlag. The MA Macro. SAS makro MA luo ohjelmointitodistukset PROC MODEL liikkuvan keskimäärin malleja MA-makro on osa SAS ETS ohjelmistoa, eikä makroon käytetä erityisiä lisävaihtoehtoja Liikkuvaa keskimääräistä virheprosessia voidaan soveltaa rakenteellisten yhtälövirheiden kanssa MA-makron syntaksi on sama kuin AR-makro, paitsi että TYPE-argumenttia ei ole. Kun olet MA - ja AR-makrojen yhdistelmät, MA-makrojen on noudatettava AR-makroa Seuraavat SAS IML - lausumat tuottavat ARMA 1, 1 3 - virheprosessin ja tallentavat sen MADAT2-tietojoukkoon. Seuraavat PROC MODEL - lausumat käytetään parametrien arvioimiseen tämän mallin maksimi todennäköisyysvirherakenteen avulla. Tämän juoksun tuottamien parametrien arviot on esitetty kuvassa 18 61. Kuva 18 61 ARMA 1, 1 3 - prosessin arvioinnit. MA-makrojen syntaksissa on kaksi tapausta Jos vektori-MA-prosessia ei tarvita, MA-makron syntaksissa on yleinen muoto. Määrittää MA: n etuliitteen, jota käytetään määrittämään MA-prosessin määrittämiseen tarvittavien muuttujien nimet ja se on oletushäiriö. MA-prosessi. Määrittelee yhtälöt, joihin MA-prosessi on tarkoitus soveltaa. Jos käytetään useampaa kuin yhtä nimeä, CLS-estimaattia käytetään vektoriprosessissa. Määrittää viiveet, joilla MA-termit lisätään. Kaikki luetellut viiveet on oltava pienempi tai yhtä suuri al-nlag ja ei saa olla kaksoiskappaleita Jos ei ole määritelty, laglistin oletusarvo on kaikki viiveet 1-nlag. specifies estimointimenetelmää toteuttamaan M: n voimassa olevat arvot ovat CLS-ehdolliset pienimmän neliösumman estimaatit, ULS-ehdottomat pienimmän neliösumman estimaatit ja ML-maksimi todennäköisyys arviot M CLS on oletusarvo Vain M CLS sallitaan, kun endolisteissä on määritetty useampi kuin yksi yhtälö. MA-makron syntaksi rajoitetulle vektorimuutolle - keskiarvo. MA: n vaihtoehtoisen käytön sallitaan asettaa rajoituksia vektori MA-prosessiin soittamalla MA: lle useita kertoja eri MA-termien ja viivästysten määrittelemiseksi eri yhtälöille. Ensimmäinen puhelu on yleinen muoto. MA: n etuliite, jota käytetään muokkaamaan muuttujien nimet, jotka tarvitaan vektorin MA prosessin määrittämiseen. Määrittää MA-prosessin järjestyksen. Määrittää niiden yhtälöiden luettelon, joihin MA-prosessi on sovellettava. Määrittää, että MA ei synny MA-prosessi, mutta odottaa, että myöhemmissä MA-puheluissa määritetyt lisätiedot vastaavat samaa nimeä. Seuraavissa puheluissa on yleinen muoto. On sama kuin ensimmäisessä puhelussa. Määritellään yhtälöryhmä, johon tämän MA-puhelun tekniset tiedot on sovellettava. määritellään niiden yhtälöiden luettelo, joiden viivästyneet rakenteelliset jäännökset on sisällytettävä regressorina yhtälöissä eqlist. specifii niiden viivästysten luettelon, joilla MA-termit lisätään. Regression with SAS Luku 2 Regression Diagnostics. Chapter Outline 2 0 Regressio-diagnostiikka 2 1 Epätavallinen ja vaikutusvaltainen data 2 2 Resistenssin normaaleja testejä 2 3 Testit epäyhtenäisestä poikkeamisvirheestä 2 4 Monikollinearisuuteen kohdistuvat testit 2 5 Epälineaarisuuden testaukset 2 6 Malliasetus 2 7 Numerot Riippumattomuus 2 8 Yhteenveto 2 9 Lisätietoja2 0 Regressio-diagnostiikka. Viimeisessä luvussa opimme tavallisen lineaarisen regressioinnin tekemisen SAS: n kanssa ja päättelemällä menetelmillä, joilla tutkitaan muuttujien jakaumaa, jotta voidaan tarkistaa ei-normaalisti jaettuja muuttujia Ensimmäinen tarkastelu oletusolosuhteissa regressiossa Tarkistamatta, että tietosi ovat täyttäneet regressiota koskevia oletuksia, tuloksesi voivat olla harhaanjohtavia Tässä luvussa selvitetään, miten voit käyttää SAS: ia testaamaan, vastaavatko tietosi lineaarisen regression oletuksiin. Erityisesti harkitsemme Seuraavat oletukset. Linearisuus suhteet ennustajien ja tulos muuttuja olisi lineaarinen. Normaliteetti virheet tulisi normaalisti jakaa teknisesti normaaliarvo on välttämätön vain, jos t-testit ovat päteviä, kertoimien arvioiminen edellyttää vain, että virheet ovat identtisesti ja itsenäisesti jakautuneina. Varianssi homoskedastiaktiivisuuden homogeenisuus virhevirheen on oltava vakio. havainto ei korreloi muiden havaintojen virheiden kanssa. Muuttujien virheiden ennustamuuttujien arvot mitataan virheettömästi. Luku 4. Malli-määrittely, malli on määriteltävä oikein mukaan lukien kaikki asiaankuuluvat muuttujat ja pois lukien merkityksettömät muuttujat. ovat kysymyksiä, joita voi syntyä analyysissä, että vaikka tiukasti, eivät ole oletuksia regressiota, ovat kuitenkin erittäin huolissaan regressioanalyytikoille. Vaikutus yksittäisiin havaintoihin, jotka vaikuttavat kohtuuttomasti kertoimiin. Kolinernaarisuuden ennustajat, jotka ovat erittäin koleinaisia, eli lineaarisesti liittyvät, voivat aiheuttaa ongelmia estimoinnissa regressiokerroin. Monilla graafisilla menetelmillä ja numeerisilla testeillä on kehitetty vuosien varrella regressio-diagnostiikkaa. Tässä luvussa tarkastelemme näitä menetelmiä ja kerromme regressiolöydösten ja potentiaalisten ongelmien havaitsemisesta SAS.2: n avulla. 1 Epätavalliset ja vaikutusvaltaiset tiedot. Yksittäinen havainto, joka eroaa huomattavasti kaikista muista havainnoista, voi tehdä suuren eron regressioanalyysin tuloksista. Jos yksittäinen havainto tai pieni ryhmä havaintoja muuttaa huomattavasti tuloksia, haluat tietää tästä ja tutkia edelleen. tavat, että havainto voi olla epätavallinen. Outiliers Lineaarisessa regressiossa outlier on havainto suurella jäännöksellä Toisin sanoen se on havainto, jonka riippuvaisen muuttujan arvo on epätavallinen, koska sen arvot ennustajamuuttujat Outlier voi ilmaista näytteen erityispiirteen tai saattaa ilmaista tiedon syöttövirheen tai muun ongelman E arvoa ennustevuudelle kutsutaan pisteenä, jolla on suuri vipuvaikutus Vipuvaikutus on mitta, kuinka kaukana havainto poikkeaa kyseisen muuttujan keskiarvosta. Nämä vipuvaikutuspisteet voivat vaikuttaa regressiokerrointen arvioon. Vaikutus Havainto sanotaan olevan vaikutusvaltainen, jos havainnon poistaminen muuttaa huomattavasti kertoimien arviota Vaikutus voidaan ajatella vipuvaikutuksen ja ylivoimaisuuden tuotteeksi. Mistä voimme tunnistaa nämä kolme havainnointityyppiä Tarkastelemme esimerkkinä olevaa rikostutkimusmateriaalia. Tämä tietosarja näkyy tilastollisissa sosiaalisen median menetelmissä Tiede, kolmas painos Alan Agresti ja Barbara Finlay Prentice Hall, 1997 Muuttujat ovat valtion id sid, valtion nimi, väkivaltaiset rikokset 100 000 ihmistä rikoksesta, murhat per 1 000 000 murhaa, prosenttiosuus väestöstä metropolialueilla pctmetro, prosenttia Väestöstä, joka on valkoista pctwhite, prosenttiosuus väestöstä, jolla on korkea koulu tai yli pcths, minuutti t väestön keskuudessa elää köyhyysrajan köyhyys ja prosenttiosuus väestöstä, joka on yksinhuoltajien yksin Yritämme käyttää proc-sisältöä ja proc tarkoittaa oppia lisää tästä datatiedostosta. Let on sanoa, että haluamme ennustaa rikollisuuden pctmetro köyhyyden ja yksittäinen Tämä on sanoa, haluamme rakentaa lineaarisen regressiomallin vastauksen muuttuvan rikollisuuden ja itsenäisten muuttujien pctmetro-köyhyyden ja yksittäisen välillä. Tarkastelemme ennen kunkin regressioanalyysin kohdalla rikosten hajontajoukkoja kutakin ennustaja-muuttujaa kohti, joten meillä on joitain ideoita potentiaalisista ongelmista Voimme luoda näiden muuttujien hajotusmatriisin alla esitetyllä tavalla. Reaktioiden graafit muiden muuttujien kanssa osoittavat mahdollisia ongelmia Jokaisessa kuvaajassa näemme datapisteen, joka on kaukana muista datapisteistä. yksittäiset kaaviot rikoksesta pctmetro ja köyhyys ja yksi, jotta voimme saada paremman kuvan näistä scatterplots Lisäämme pointlabel valtion vaihtoehto symboli lausunnossa pl Kaikkien hajontakaavioiden mukaan tilanne dc: n tarkkailu on piste, joka vaatii erityistä huomiota, koska se poikkeaa kaikista muista pisteistä. Pidämme sen mielessä, kun tehdään regressioanalyysi . Nyt yritetään kokeilla regressio-komentoa, joka ennustaa rikollisuuden pctmetro, köyhyys ja yksittäinen. Siirrymme vaiheittain tunnistamaan kaikki mahdollisesti epätavalliset tai vaikutusvaltaiset kohdat jälkikäteen. Tuotamme useita tilastoja, joita tarvitsemme seuraaville analyyseille tietokokonaisuus nimeltään crime1res ja selitämme jokaisen tilaston vuorollaan Nämä tilastot sisältävät opiskelijan jäännöksen nimeltään r, leverage nimeltä lev, Cook s D kutsutaan cd ja DFFITS kutsutaan dffit Pyydämme kaikkia näitä tilastoja nyt, jotta ne voidaan sijoittaa yhteen tietokanta, jota käytämme seuraaville useille esimerkeille Muussa tapauksessa voimme joutua toistamaan proc reg aina kun halusimme uutta tilastotietoa ja tallentaa tilastotiedot toiseen lähtötiedostoon. Let s ex amiini opiskelijoitetut jäännökset ensimmäisenä keinona havaita ylituotot Olemme pyytäneet oppilaiden jäännöksiä edellä mainitussa regressiossa tuotoslausumassa ja nimettiin ne r Voimme valita haluamamme nimen, kunhan se on laillinen SAS-muuttuja - nimi Studentized residuals on tyyppi standardoidusta jäännöksestä, jota voidaan käyttää ylhäältäjien tunnistamiseen. Tarkastellaan jäännöksiä varren ja lehtijunan kanssa. Nähdään kolme jäännöstä, jotka jähmettyvät, -3 57, 2 62 ja 3 77. Varsi - ja lehtienäytön avulla näemme mahdollisia poikkeamia , Mutta emme voi nähdä, mikä tila, mitkä havainnot ovat potentiaalisia poikkeamia. Anna lajitella tiedot jäännöksistä ja näyttää 10 suurinta ja 10 pienintä jäännöstä sekä valtion id ja valtion nimi. Meidän on kiinnitettävä huomiota ylioppilastutettuihin jäännöksiin, jotka ylittävät 2 tai - 2, ja vielä enemmän huolissaan jäämistä, jotka ylittävät 2 5 tai -2 5 ja vielä enemmän huolissaan jäännöksistä, jotka ylittävät 3 tai -3. Nämä tulokset osoittavat, että DC ja MS ovat huolestuttavia havaintoja, Lasketaan kaikki muuttujamme regressiomme, jossa opiskelijajäännös ylittää 2 tai -2, ts. Jos absoluuttinen arvo jäännöstä ylittää 2 Näemme tiedot kolmesta potentiaalisesta outliers olemme tunnistaneet, nimittäin Florida, Mississippi ja Washington DC Tarkastelemalla tarkasti näitä kolmea havaintoa, emme löytäneet mitään tietojen syöttövirheitä, vaikka voisimme tehdä toisen regressioanalyysin äärimmäisen pisteen, kuten DC poistettu. Palaamme tähän kysymykseen myöhemmin. Katsotaan nyt, Jotta voidaan havaita havaintoja, joilla voi olla suuri vaikutus regressiokerroinarvioihin. Yleensä yli 2 k 2 n: n suuruinen vipuvaikutus on tutkittava huolellisesti, missä k on ennustajien lukumäärä ja n on havaintojen määrä Tässä esimerkissä tämä Toimii 2 3 2 51 15686275 niin voimme tehdä seuraavia. Kuten olemme nähneet, DC on havainto, jolla molemmilla on suuri jäljellä oleva ja suuri vipuvaikutus. Nämä kohdat ovat mahdollisesti vaikutusvaltaisin Voi tehdä kaavion, joka osoittaa jäljelle jääneen neliön vivutuksen ja etsiä havaintoja, jotka molemmat näistä toimenpiteistä ovat yhdessä korkeita. Voimme tehdä tämän käyttämällä vipuvaikutusta jäljellä olevaan neliöön verrattuna. Jäljelle jääneen neliön sijaan itse jäännösmäärittelyn kaavio on rajattu ensimmäinen kvadrantti ja datapisteiden suhteelliset sijainnit säilyvät Tämä on nopea tapa tarkistaa mahdolliset vaikutusvaltaiset havainnot ja outliers samanaikaisesti Molemmat pistemäärät ovat meille erittäin huolestuneita. DC: n kohta tarttuu huomiomme, jolla on molemmat korkeimmat jäljellä oleva neliö ja suurin vipuvaikutus, mikä viittaa siihen, että se voisi olla erittäin vaikutusvaltainen. MS: n kohta on lähes yhtä suuri jäännösmittari, mutta sillä ei ole samaa vipuvaikutusta. Tarkastelemme näitä havaintoja tarkemmin luetelemalla ne alla. kokonaisvaltaiset vaikutusmäärät Tarkastellaan erityisesti Cookin D: n ja DFITS: n Näitä toimenpiteitä yhdistetään tiedot jäämistä ja vipuvaikutusta Cookin D ja DFITS ovat hyvin s mutta he antavat meille samanlaisia ​​vastauksia. Pienin arvo, jonka Cook s D voi olettaa olevan, on nolla, ja mitä suurempi Cookin D on, sitä vaikutusvaltaisempi on. Tavallinen leikkauspiste on 4 n Voimme luetella minkä tahansa havainnon leikkauspisteen yläpuolelle tekemällä seuraavaa. Huomaamme, että DC: n Cookin DC on ylivoimaisesti suurin. Nyt katsotaan DFITS: iä. Tavallinen DFITS-katkaisupiste on 2 sqrt Kn DFITS voi olla joko positiivinen tai negatiivinen, ja nollan lähellä olevat numerot vastaavat pisteitä, joilla on pieni tai nolla vaikutus. Kuten näemme, DFITS osoittaa myös, että DC on ylivoimaisesti vaikutusvaltaisin havainto. Edellä mainitut toimenpiteet ovat yleisiä vaikutusmekanismeja Voit myös harkita tarkempia vaikutusmittareita, jotka arvioivat kunkin kertoimen muuttamista poistamalla havainto. Tätä toimenpidettä kutsutaan DFBETAksi ja luodaan jokaiselle ennustajalle. Ilmeisesti tämä on laskennallisesti intensiivisempi kuin yhteenvetotilastot, kuten Coo ks D, koska mallin ennustajamäärät ovat sitä suuremmat laskelmat, joihin se voi liittyä. Voimme rajoittaa huomiomme vain niihin ennusteisiin, joista olemme eniten huolissaan ja kuinka hyvin käyttäytyvät nämä ennustajat ovat SAS: ssä, meidän on käytettävä ods-tuotos OutStatistics-lausunto DFBETA: n tuottamiseksi kullekin ennustajalle SAS: n valitsemat uusien muuttujien nimet automaattisesti ja alkavat DFB: llä. Tämä loi kolme muuttujaa, DFBpctmetro DFBpoverty ja DFBsingle. Tarkastellaan ensimmäisiä 5 arvoa. DFBsingle-arvo Alaska on 0 14, mikä tarkoittaa, että sisällyttämällä analyysiin verrattuna pois sulkematta Alaska kasvattaa yhden kertoimen kertoimella 0 14 standardivirhellä eli 0 14 kertaa standardivirhe BSinglen tai 0 14 15 5 Koska havainnon sisällyttäminen voi joko edistää regressiokerroin suurentaa tai pienentää, DFBETA: t voivat olla joko positiivisia tai negatiivisia. DFBETA-arvo ylittää 2 neliömetriä. Tässä esimerkissä olisimme huolestuneita absoluuttisista arvoista, jotka ylittäisivät 2 neliömetriä 51 tai 0 28. Voimme piirtää kaikki kolme DFBETA-arvoa tilakenttään verrattuna yhteen kuvaan. Lisätään riville 0 28 ja -0 28 Auttavat meitä näkemään mahdolliset ongelmalliset havainnot Näemme, että suurin arvo on noin 3 0 DFsingleä. Voimme toistaa tämän kaavion pistemerkinnän valinnalla symbol1-lausekkeella pisteiden merkitsemiseksi. Edellä olevan kaavion avulla voimme tunnistaa, mikä DFBeta on ongelma ja Alla olevan kaavion kanssa voimme yhdistää havainnon sen tilan kanssa, josta se on peräisin. Nyt annamme listan nämä havainnot DFBsingleä suuremmaksi kuin cut-off-arvo. Jälleen näemme, että DC on ongelmallisin havainto. Seuraavassa taulukossa on yhteenveto yleisestä Peukalosääntöjä, joita käytämme näihin toimenpiteisiin tunnistaakseen havainnot, jotka ansaitsevat lisätutkimuksia, joissa k on ennustajien lukumäärä ja n on havaintojen määrä. Washington DC on ilmestynyt outlierina ja vaikutusvaltaisena Huomaa jokaisessa analyysissä Koska Washington DC ei todellakaan ole valtio, voimme käyttää tätä perustelemaan sen jättäminen pois analyysistä sanomalla, että haluamme vain analysoida osavaltioita. Ensinnäkin, toistamme analyysimme mukaan lukien DC. Now, analyysi, joka jättää DC: n pois sisällyttämällä missä lauseen tässä ei ole yhtä kuin, mutta voit myös käyttää sitä. to mean the same thing As we expect, deleting DC made a large change in the coefficient for single The coefficient for single dropped from 132 4 to 89 4 After having deleted DC, we would repeat the process we have illustrated in this section to search for any other outlying and influential observations. In this section, we explored a number of methods of identifying outliers and influential points In a typical analysis, you would probably use only some of these methods Generally speaking, there are two types of methods for assessing outliers statistics such as residuals, leverage, Cook s D and DFITS, that assess the overall impact of an observation on the regression results, and statistics such as DFBETA that assess the specific impact of an observation on the regression coefficients. In our example, we found that DC was a point of major concern We performed a regression with it and without it and the regression equations were very different We can justify removing it from our analysis b y reasoning that our model is to predict crime rate for states, not for metropolitan areas.2 2 Tests for Normality of Residuals. One of the assumptions of linear regression analysis is that the residuals are normally distributed This assumption assures that the p-values for the t-tests will be valid As before, we will generate the residuals called r and predicted values called fv and put them in a dataset called elem1res We will also keep the variables api00 meals ell and emer in that dataset. Let s use the elemapi2 data file we saw in Chapter 1 for these analyses Let s predict academic performance api00 from percent receiving free meals meals , percent of English language learners ell , and percent of teachers with emergency credentials emer. Below we use proc kde to produce a kernel density plot kde stands for kernel density estimate It can be thought as a histogram with narrow bins and a moving average. Proc univariate will produce a normal quantile graph qqplot plots the quantiles of a variable against the quantiles of a normal distribution qqplot is most sensitive to non-normality near two tails and probplot As you see below, the qqplot command shows a slight deviation from normal at the upper tail, as can be seen in the kde above We can accept that the residuals are close to a normal distribution. Severe outliers consist of those points that are either 3 inter-quartile-ranges below the first quartile or 3 inter-quartile-ranges above the third quartile The presence of any severe outliers should be sufficient evidence to reject normality at a 5 significance level Mild outliers are common in samples of any size In our case, we don t have any severe outliers and the distribution seems fairly symmetric The residuals have an approximately normal distribution See the output of the proc univariate above. In the Shapiro-Wilk W test for normality, the p-value is based on the assumption that the distribution is normal In our example, the p-value is very large 0 51 , indicating that we cannot reject that r is normally distributed See the output of the proc univariate above.2 3 Tests for Heteroscedasticity. One of the main assumptions for the ordinary least squares regression is the homogeneity of variance of the residuals If the model is well-fitted, there should be no pattern to the residuals plotted against the fitted values If the variance of the residuals is non-constant, then the residual variance is said to be heteroscedastic There are graphical and non-graphical methods for detecting heteroscedasticity A commonly used graphical method is to plot the residuals versus fitted predicted values Below we use a plot statement in the proc reg The r and p tell SAS to calculate the residuals r and predicted values p for use in the plot We see that the pattern of the data points is getting a little narrower towards the right end, which is an indication of mild heteroscedasticity. Now let s look at a test for heteroscedasticity, the White test The White test tests the null hypothesis that the variance of the residuals is homogenous Therefore, if the p-value is very small, we would have to reject the hypothesis and accept the alternative hypothesis that the variance is not homogenous We use the spec option on the model statement to obtain the White test. While the White test is significant, the distribution of the residuals in the residual versus fitted plot did not seem overly heteroscedastic. Consider another example where we use enroll as a predictor Recall that we found enroll to be skewed to the right in Chapter 1 As you can see, this example shows much more serious heteroscedasticity. As we saw in Chapter 1, the variable enroll was skewed considerably to the right, and we found that by taking a log transformation, the transformed variable was more normally distributed Below we transform enroll run the regression and show the residual versus fitted plot The distribution of the residuals is much improved Certainly, this is not a perfect distribu tion of residuals, but it is much better than the distribution with the untransformed variable. Finally, let s revisit the model we used at the start of this section, predicting api00 from meals ell and emer Using this model, the distribution of the residuals looked very nice and even across the fitted values What if we add enroll to this model Will this automatically ruin the distribution of the residuals Let s add it and see. As you can see, the distribution of the residuals looks fine, even after we added the variable enroll When we had just the variable enroll in the model, we did a log transformation to improve the distribution of the residuals, but when enroll was part of a model with other variables, the residuals looked good enough so that no transformation was needed This illustrates how the distribution of the residuals, not the distribution of the predictor, was the guiding factor in determining whether a transformation was needed.2 4 Tests for Collinearity. When there is a per fect linear relationship among the predictors, the estimates for a regression model cannot be uniquely computed The term collinearity describes two variables are near perfect linear combinations of one another When more than two variables are involved, it is often called multicollinearity, although the two terms are often used interchangeably. The primary concern is that as the degree of multicollinearity increases, the regression model estimates of the coefficients become unstable and the standard errors for the coefficients can get wildly inflated In this section, we will explore some SAS options used with the model statement that help to detect multicollinearity. We can use the vif option to check for multicollinearity vif stands for variance inflation factor As a rule of thumb, a variable whose VIF values is greater than 10 may merit further investigation Tolerance, defined as 1 VIF, is used by many researchers to check on the degree of collinearity A tolerance value lower than 0 1 i s comparable to a VIF of 10 It means that the variable could be considered as a linear combination of other independent variables The tol option on the model statement gives us these values Let s first look at the regression we did from the last section, the regression model predicting api00 from meals, ell and emer and use the vif and tol options with the model statement. The VIFs look fine here Here is an example where the VIFs are more worrisome. In this example, the VIF and tolerance 1 VIF values for avged gradsch and colgrad are worrisome All of these variables measure education of the parents and the very high VIF values indicate that these variables are possibly redundant For example, after you know gradsch and colgrad you probably can predict avged very well In this example, multicollinearity arises because we have put in too many variables that measure the same thing parent education. Let s omit one of the parent education variables, avged Note that the VIF values in the analysis below appear much better Also, note how the standard errors are reduced for the parent education variables, gradsch and colgrad This is because the high degree of collinearity caused the standard errors to be inflated With the multicollinearity eliminated, the coefficient for gradsch which had been non-significant, is now significant. Let s introduce another option regarding collinearity The collinoint option displays several different measures of collinearity For example, we can test for collinearity among the variables we used in the two examples above Note that if you use the collin option, the intercept will be included in the calculation of the collinearity statistics, which is not usually what you want The collinoint option excludes the intercept from those calculations, but it is still included in the calculation of the regression. We now remove avged and see the collinearity diagnostics improve considerably. The condition number is a commonly used index of the global instability of the regression coefficients a large condition number, 10 or more, is an indication of instability.2 5 Tests on Nonlinearity. When we do linear regression, we assume that the relationship between the response variable and the predictors is linear This is the assumption of linearity If this assumption is violated, the linear regression will try to fit a straight line to data that does not follow a straight line Checking the linear assumption in the case of simple regression is straightforward, since we only have one predictor All we have to do is a scatter plot between the response variable and the predictor to see if nonlinearity is present, such as a curved band or a big wave-shaped curve For example, let us use a data file called that has data about a number of nations around the world Below we look at the proc contents for this file to see the variables in the file Note that the position option tells SAS to list the variables in the order that they are in the data file. Let s look a t the relationship between GNP per capita gnpcap and births birth Below if we look at the scatterplot between gnpcap and birth we can see that the relationship between these two variables is quite non-linear We added a regression line to the chart, and you can see how poorly the line fits this data Also, if we look at the residuals by predicted plot, we see that the residuals are not nearly homoscedastic, due to the non-linearity in the relationship between gnpcap and birth. Now we are going to modify the above scatterplot by adding a lowess also called loess smoothing line By default, SAS will make four graphs, one for smoothing of 0 1, 0 2, 0 3 and 0 4 We show only the graph with the 0 4 smooth. some output omitted. The lowess line fits much better than the OLS linear regression In trying to see how to remedy these, we notice that the gnpcap scores are quite skewed with most values being near 0, and a handful of values of 10,000 and higher This suggests to us that some transformation of the variable may be useful One of the commonly used transformations is a log transformation Let s try it below As you see, the scatterplot between lgnpcap and birth looks much better with the regression line going through the heart of the data Also, the plot of the residuals by predicted values look much more reasonable. This section has shown how you can use scatterplots to diagnose problems of non-linearity, both by looking at the scatterplots of the predictor and outcome variable, as well as by examining the residuals by predicted values These examples have focused on simple regression however, similar techniques would be useful in multiple regression However, when using multiple regression, it would be more useful to examine partial regression plots instead of the simple scatterplots between the predictor variables and the outcome variable.2 6 Model Specification. A model specification error can occur when one or more relevant variables are omitted from the model or one or more irre levant variables are included in the model If relevant variables are omitted from the model, the common variance they share with included variables may be wrongly attributed to those variables, and the error term is inflated On the other hand, if irrelevant variables are included in the model, the common variance they share with included variables may be wrongly attributed to them Model specification errors can substantially affect the estimate of regression coefficients. Consider the model below This regression suggests that as class size increases the academic performance increases Before we publish results saying that increased class size is associated with higher academic performance, let s check the model specification. There are a couple of methods to detect specification errors A link test performs a model specification test for single-equation models It is based on the idea that if a regression is properly specified, one should not be able to find any additional independent varia bles that are significant except by chance To conduct this test, you need to obtain the fitted values from your regression and the squares of those values The model is then refit using these two variables as predictors The fitted value should be significant because it is the predicted value One the other hand, the fitted values squared shouldn t be significant, because if our model is specified correctly, the squared predictions should not have much of explanatory power That is, we wouldn t expect the fitted value squared to be a significant predictor if our model is specified correctly So we will be looking at the p-value for the fitted value squared. Let s try adding one more variable, meals to the above model and then run the link test again. The link test is once again non-significant Note that after including meals and full the coefficient for class size is no longer significant While acsk3 does have a positive relationship with api00 when no other variables are in the model, when w e include, and hence control for, other important variables, acsk3 is no longer significantly related to api00 and its relationship to api00 is no longer positive.2 7 Issues of Independence. The statement of this assumption is that the errors associated with one observation are not correlated with the errors of any other observation cover several different situations Consider the case of collecting data from students in eight different elementary schools It is likely that the students within each school will tend to be more like one another that students from different schools, that is, their errors are not independent We will deal with this type of situation in Chapter 4.Another way in which the assumption of independence can be broken is when data are collected on the same variables over time Let s say that we collect truancy data every semester for 12 years In this situation it is likely that the errors for observation between adjacent semesters will be more highly correlated than fo r observations more separated in time This is known as autocorrelation When you have data that can be considered to be time-series, you should use the dw option that performs a Durbin-Watson test for correlated residuals. We don t have any time-series data, so we will use the elemapi2 dataset and pretend that snum indicates the time at which the data were collected We will sort the data on snum to order the data according to our fake time variable and then we can run the regression analysis with the dw option to request the Durbin-Watson test. The Durbin-Watson statistic has a range from 0 to 4 with a midpoint of 2 The observed value in our example is less than 2, which is not surprising since our data are not truly time-series. In this chapter, we have used a number of tools in SAS for determining whether our data meets the regression assumptions Below, we list the major commands we demonstrated organized according to the assumption the command was shown to test. Detecting Unusual and Inf luential Data. scatterplots of the dependent variables versus the independent variable. looking at the largest values of the studentized residuals, leverage, Cook s D, DFFITS and DFBETAs. Tests for Normality of Residuals Tests for Heteroscedasity. kernel density plot. quantile-quantile plots. standardized normal probability plots. Shapiro-Wilk W test. scatterplot of residuals versus predicted fitted values. Tests for Multicollinearity. looking at VIF. looking at tolerance. Tests for Non-Linearity. scatterplot of independent variable versus dependent variable. Tests for Model Specification. time series. Durbin-Watson test.2 9 For more information.

No comments:

Post a Comment