logo
  • userLoginStatus

Welcome

Our website is made possible by displaying online advertisements to our visitors.
Please disable your ad blocker to continue.

Current View

Mathematica Engineering - Modelli e Metodi dell'Inferenza Statistica

Modelli e metodi dellâinferenza statistica - Teoria

Collections of notes, exercises or exams

MODELLI E METODI DELL’INFERENZA STATISTICA Professore Anna Maria Paganoni Alessandro Marco Cesare Moneta Programma 1. Il modello statistico Statistiche sufficienti, minimali e complete. 2. Stima puntuale Metodi per valutare gli stimatori Stimatori UMVU 3. Prova delle ipotesi Test basati sul rapporto di verosimiglianza Test unione intersezione Metodi per valutare i test Probabilità di errore e funzione potenza Test UMP P-value 4. Stima intervallare metodi per costruire e valutare regioni di confidenza inversione di statistiche test Quantità pivotali Ampiezza e probabilità di copertura 5. Inferenza sulla media di distribuzioni univariate Richiami sul t-test per una o più popolazioni ANOVA one-way e two-way 6. Modelli lineari Approccio matriciale alla regressione multivariata con risposta semplice o multipla Stime ai minimi quadrati Inferenza sul modello di regressione Inferenza dalla funzione di regressione stimata Diagnostica e selezione del modello 7. Modelli lineari generalizzati 8. Analisi della sopravvivenza Ripasso Campione casuale di ampiezza n identicamente distribuito Media campionariaVarianza campionaria Densità di probabilità di una t di student Ripasso Caso discreto Caso continuo Caso misto Ripasso - leggi condizionate Ripasso - leggi condizionate Ripasso - attesa condizionata Calcolo facendo la sostituzione oppure aggiungendo la moltiplicazione per e stando attenti ai casi particolari per e Caso discretoCaso continuo Regola del valore atteso Ripasso - attesa condizionata Ripasso - varianza condizionata Caso discretoCaso continuo Regola del valore atteso Ripasso - convergenza di variabili aleatorie Caso discreto Caso continuo Funzione di ripartizione Funzione caratteristica Teorema di continuità di Levy Ripasso - convergenza di variabili aleatorie Come classe di equivalenza La legge limite è unica I dati sono la realizzazione del vettore aleatorio, in corrispondenza dell’omega associato all’esperimento aleatorio, che l’osservatore osserva Idea della statistica Lo statistico cerca di ricostruire il modello che genera i dati, tramite i parametri che lo costituiscono, ovvero , a partire dai dati. Ovviamente non è mai possibile trovare il vero parametro ma si può stimare con un certo grado di incertezza La statistica è una variabile aleatoria che è funzione del campione considerato. La distribuzione della statistica Y è detta distribuzione campionaria. È importante notare che Y è funzione del campione e non del parametro incognito. Essa è quindi una funzione dei dati che ci può essere utile per fare stime sui parametri del modello senza dover sfruttare tutto il dataset ma aggregazioni significative dell’insieme dei dati, in inglese la statistica fa un data summary o data reduction. L’inferenza statistica parte dal presupposto di avere un campione casuale La legge della singola variabile aleatoria, , dipende da parametri incogniti che possono essere anche vettoriali Noi assumiamo il parametro theta fissato, come un numero, una coppia di numeri o un vettore di numeri di lunghezza nota a priori visto che non ha senso usare il parametro per fare inferenza su se stesso Una statistica essendo una variabile aleatoria riporta dei valori a partire da delle possibili realizzazioni, quindi in un certo senso partiziona l’insieme delle possibili realizzazioni in insiemi del tipo: Per esempio ci sono tante possibili realizzazioni che possono restituire la stessa somma Inferenza statistica è calcolabile a partire dai dati osservati è quindi cambia a seconda del singolo esperimento è statistica sufficiente per quando ogni inferenza su dipende dal campione solo tramite il valore di Quindi se sono due realizzazioni del campione tali che l’inferenza su sarà identica sia se osservo che se osservo Una statistica è sufficiente quando tutte le leggi del vettore condizionate ai possibili valori assunti dalla statistica non dipendono da , ovvero non presentano theta nella loro formulazione. Importante dire per che cosa la statistica è sufficiente Tramite la conoscenza di una statistica sufficiente per un parametro si può fare inferenza statistica su quel parametro basandosi solo sulla statistica sufficiente e non conoscendo il campione casuale. Il principio di sufficienza fa trattare come equivalenti due realizzazioni le quali producono lo stesso valore della statistica, quindi l’inferenza sul parametro rimane la stessa a prescindere dall’osservazione Una statistica si dice sufficiente quando tutte le informazioni relative al parametro sono prese in considerazione dalla statistica e quindi essa è sufficiente a fare inferenza sul parametro. La statistica sufficiente mantiene tutte le informazioni riguardanti il parametro fornite dal campione casuale pur manipolandolo tramite funzioni. affermazione o statement fatto sul parametro Il campione stesso, la funzione biunivoca di una statistica sufficiente e la funzione identità di una statistica sufficiente sono statistiche sufficienti Molto improbabile fare il conto e dimostrare che la legge è indipendente per statistiche più complesse, quindi introduciamo il teorema di fattorizzazione... Intuitivamente si perché se sappiamo tutti gli esiti possiamo dedurre il parametro (può essere continua, discreta, o altro...) Se posso scrivere la densità come prodotto tra due funzioni allora la statistica può essere detta sufficiente Basta dimostrare il legame di biunivocità tra due statistiche test di cui solo una è sufficiente per dimostrare la sufficienza anche dell’altra Questo però è inutile perché non si ha nessun guadagno La definizione di famiglia esponenziale è utile perché permette di trovare più facilmente le statistiche sufficienti sfruttando il teorema di fattorizzazione Inoltre la famiglia esponenziale permette di esprimere la legge di un campione iid di variabili aleatorie (un vettore) in maniera semplificata: sommando i coefficienti degli esponenziali e moltiplicando (solitamente solo elevando al numero di variabili) le funzioni non esponenziali della formula Utilità della famiglia esponenziale La Poisson appartiene alla famiglia esponenziale?La Normale appartiene alla famiglia esponenziale?La uniforme appartiene alla famiglia esponenziale? w sono i coefficienti delle t La Bernoulli appartiene alla famiglia esponenziale? Vogliamo introdurre degli strumenti per fare inferenza statistica sui parametri incogniti Le due cose “vanno insieme”, ovvero non può esistere una statistica minimale non sufficiente La statistica è sufficiente e minimale se è funzione di ogni altra statistica sufficiente, quindi è la statistica più riassuntiva di tutte le altre dei dati perché contiene le informazioni date anche da tutte le altre statistiche. La statistica minimale è quindi la statistica che riduce il più possibile i dati mantenendo la sufficienza, e quindi mantenendo tutta l’informazione riguardante il parametro. Non è una condizione necessaria e sufficiente come si potrebbe pensare ad una prima lettura, il “se e solo se” indica che bisogna controllare che il rapporto tra le due densità di probabilità sia costante come funzione di theta quando le statistiche dei due vettori sono uguali le statistiche devono assumere lo stesso valore per realizzazioni differenti per tutte le coppie di realizzazioni ...anche se è più elegante dimostrarle entrambe La media campionaria è ridotta rispetto al campione, che è una statistica egli stesso, e ne è funzione, quindi sarà una statistica minimale Guardo le diverse realizzazioni dei datiGuardo le diverse realizzazioni dei dati La statistica minimale è unica, per definizione di statistica minimale Il passaggio da a si può fare grazie al fatto che la statistica è ipotizzata sufficiente È una famiglia perché per ogni theta è diversa la densità, ma tutte le variabili aleatorie che hanno quella densità di probabilità (o legge) saranno complete Una statistica è completa quando contiene solo le informazioni utili per stimare il parametro, l’informazione inutile in particolare è data dalla funzione dei componenti della statistica g(T) per cui il valore atteso è nullo anche se essa non è identicamente nulla quasi ovunque (andando contro la condizione necessaria imposta dalla definizione) Ci permette di osservare la densità univariata ed estendere facilmente alla densità congiunta Come si può sfruttare il concetto di famiglia esponenziale per verificare la completezza? verifico se lo spazio immagine del vettore w contiene un aperto di Rk Lo spazio immagine non comprende un aperto, se è un punto (per R) o se è una curva (per R2) Noi vogliamo, a partire dalle osservazioni/realizzazioni, di un campione aleatorio di variabili iid fare inferenza sul valore dei parametri incogniti (puntualmente) poiché grazie alla conoscenza di questi ci è possibile risalire alla struttura del modello che genera le realizzazioni che osserviamo Ogni statistica è uno stimatore Il valore della media campionaria calcolato dagli elementi della realizzazione è un buon stimatore della media del mio campione casuale Lo stimatore è associato ad un determinato parametro, che è il parametro incognito che voglio stimare Stimatori: stima puntuale Lo stimatore come variabile aleatoria è indipendente dal parametro, mentre la sua legge solitamente dipende da esso. Il fatto che lo stimatore non abbia legami con il parametro da stimare permette di avere un set di stimatori più ampio. Stima Stimatore La stima dipende dalla realizzazione, è quindi un valore trovato dallo stimatore a partire da una realizzazione Lo stimatore è una funzione del campione casuale che restituisce valori chiamati stime Come trovare gli stimatori? Momento empirico o campionario Momento teorico Ordine 1 Ordine 2 Ordine k Risolvendo il sistema rispetto a tutti i parametri incogniti trovo gli stimatori Idea di Pearson : i momenti empirici saranno molto vicino ai momenti teorici, poiché la funzione di ripartizione empirica (quantità che caratterizza i momenti empirici) converge alla funzione di ripartizione teorica (quantità che caratterizza i momenti teorici) per il teorema di Glivenko-Cantelli, e quindi il mondo empirico e quello teorico non potranno essere così lontani. Tipicamente i momenti teorici sono funzione dei parametri incogniti e uguagliando i momenti teorici a quelli empirici si trovano gli stimatori empirici dei parametri incogniti teorici. Metodi per trovare gli stimatori, essi dovranno poi essere valutati per conoscerne l’effettiva qualità Il più delle volte questo metodo restituisce dei buoni stimatori, ma può succedere che ne restituisca alcuni che devono essere rimaneggiati per essere resi utili Il metodo afferma che per trovare gli stimatori di un campione bisogna massimizzare la verosimiglianza La verosimiglianza è la funzione ma guardata come funzione di fisso e guardo la densità come funzione di A volte non si trova il parametro di massima verosimiglianza in forma chiusa (maniera semplice, tramite calcoli) e bisogna trovare il massimo con dei metodi numerici Maximum likelihood estimator Vado a cercare il punto che massimizza la verosimiglianza Per definizione lo stimatore di massima verosimiglianza assume sempre valori ammissibili, ovvero che appartengono al possibile spazio dei parametri, questo é dovuto al fatto che lo stiamo cercando tra quei valori, mentre col metodo dei momenti questo non accade. (vedi ex) A volte non si trova il parametro di massima verosimiglianza in forma chiusa (maniera semplice, tramite calcoli) e bisogna trovare il massimo con dei metodi numerici (stando attenti anche alla sensibilità numerica del metodo alle piccole variazioni nei dati) Questa è l’idea ma in realtà questo metodo funziona meglio quando la verosimiglianza è convessa piuttosto che quando il parametro non appartiene alle code, poiché in questo caso si ha una funzione che ha un massimo assoluto Se ho un campione casuale e vado a vedere la funzione densità in funzione del parametro sto guardando qual è la probabilità di osservare un determinato dato in funzione del parametro, scelgo quindi il parametro che rende massima la probabilità di ciò che ho osservato (il MLE). Facendo ciò penso di aver osservato il parametro che tributa grande probabilità a quello che volevo valutare, non l’evento di coda che avviene con probabilità bassissima (non penso sia avvenuto il miracolo). Osservo il punto dove la funzione densità è massima, quello sarà il valore puntuale con maggiore probabilità di realizzazione Il massimo di un prodotto può essere difficile da calcolare a volte Si studia la log-likelihood Massimizzare una somma può essere più semplice della massimizzazione di un prodotto, questo passaggio è giustificato dal fatto che il logaritmo è monotono Si valutano i punti stazionari ...e se sono punti di massimo globale Logaritmo naturale La funzione da massimizzare deve ammettere le derivate parziali (almeno prime) Nella seconda devo mettere la soluzione della prima perché altrimenti trovavo uno stimatore che dipendeva dal parametro incognito e questo non va bene Una parte costante che derivando si annulla che sarebbe relativa al logaritmo dell’indicatrice Sempre crescente Sempre decrescente Ha senso che sia così il parametro di massima verosimiglianza essendo che se osservo tutti 1 penserò che il parametro p sia uguale a 1 Con il metodo dei momenti: non si trova una statistica nemmeno sufficiente con il metodo dei momenti statistica sufficiente e minimale Non posso derivate la funzione ma posso guardare come si comporta sul grafico, il massimo della funzione si avrà nel massimo delle mie osservazioni essendo decrescente Se ho dei vincoli aggiuntivi sul parametro devo introdurre una restrizione del range Quando viene fatta la restrizione del range bisogna solo ricordarsi di fare i calcoli osservando i risultati e facendo le derivate nel range ristretto Stimatore di massima verosimiglianza Funzione generica Se voglio lo stimatore di ML per perché mi interessa sapere solo qual è la probabilità che si abbia X = 0 In questo modo si può trovare velocemente lo stimatore di una funzione del parametro applicando la funzione allo stimatore di massima verosimiglianza del parametro Come valutare gli stimatori? Gli stimatori sono statistiche che usiamo per fare inferenza sui parametri incogniti della distribuzione del nostro campione casuale Metodo dei momenti - metodo semplice che permette di trovare stimatori (sempre nel range dove si cercano) risolvendo equazioni algebriche Metodo della massima verosimiglianza - più difficile da calcolare, in alcuni casi bisogna sfruttare metodi numerici Come quantifichiamo la performance di uno stimatore nel trovare un parametro incognito Questo è un modo di massimizzare una distanza tra lo stimatore e il parametro incognito Stiamo calcolando una perdita media, che sarebbe la distanza tra T e theta Più l’MSE è grande più è lontano il parametro dalla stima Cerchiamo lo stimatore minore che combina una bassa varianza e un basso bias L’MSE è una funzione del parametro che deve stimare, quindi può essere difficile la decisione dell’ordinamento del MSE. Si dice che esso non induce un ordinamento nello spazio degli stimatori. Bias o distorsione dello stimatore = differenza tra il valor medio dello stimatore e il parametro Essendo il bias negativo significa che sottostimiamo la varianza Quando il campione cresce il bias diminuisce Per ogni valore della varianza lo stimatore di massima verosimiglianza anche essendo distorto è sempre migliore visto che ha MSE più piccolo Solitamente c’è un trade off, ovvero se la variabilità dello stimatore è alta allora il bias sarà basso e viceversa Devo entrare nel box con la macchina: Uno stimatore non distorto mi può dire che la metà delle volte prendo in pieno il muro a destra e l’altra metà quello a sinistra, essendo la varianza alta per il trade off, però in media mi dice che entro. Uno stimatore distorto ammette variabilità più bassa quindi esso mi dice che tutte le volte entro ma alcune striscio la fiancata. Non sempre bisogna amare gli stimatori non distorti, dipende dai casi Il MSE ha due componenti, uno che misura la precisione, che è la varianza, e uno che misura la sua accuratezza, il bias In generale però presentando l’MSE il bias al quadrato non sappiamo se pecca di sovrastima o sottostima, e non sempre questo può essere trascurato. La stima potrebbe aver problemi di simmetria. L’errore quadratico medio non è la risposta alla domanda di valutazione degli stimatori poiché il confronto tra MSE è un confronto tra due funzioni, quindi esse potrebbero non essere ordinate ma potrebbe succedere che non per tutti i valori del parametro theta uno è maggiore dell’altro. Quindi il criterio dell’MSE non induce un ordine nello spazio degli stimatori. Legge generica I due MSE si incrociano e quindi non sappiamo ordinarli per scegliere qual è il migliore è uno stimatore non distorto di ma può assumere solo due valori, quindi sebbene sia non distorto non da informazioni di spessore uniform minimum variance unbiased estimator = stimatore non distorto a varianza uniformemente minima La varianza dello stimatore è minima uniformemente ovvero per ogni valore possibile del parametro tra gli stimatori non distorti Per la classe degli stimatori non distorti lo stimatore UMVUE è quello con varianza più piccola, e di conseguenza essendo che la classe degli stimatori non distorti ha MSE pari alla varianza questo stimatore sarà quello migliore, quello avente MSE minore In generale presentando l’MSE il bias al quadrato non sappiamo se questo pecca di sovrastima o sottostima, e non sempre questo può essere trascurato. Il supporto del campione casuale non dipende da Si può scambiare derivata e integrale (vale per tutti gli stimatori) Fissiamo un lower bound per la varianza e valutiamo una classe di stimatori non distorti, in questo caso se uno stimatore raggiunge il limite di Cramer-Rao è lo stimatore UMVUE Nel caso di variabili aleatorie la cui densità appartiene a una famiglia esponenziale sappiamo che sicuramente sarà verificata la disuguaglianza di Cramer-Rao È un lower bound per la varianza Detta anche disuguaglianza informativa Utilizzo (è un’applicazione della disuguaglianza di Cauchy-Schwarz) È come fosse una parabola in a che deve essere sempre maggiore o uguale di 0 Disuguaglianza di Cauchy-Schwarz e applichiamo Cauchy-Schwarz Scegliamo e L’uguaglianza di Cauchy-Schwartz funziona quando le due variabili sono linearmente dipendenti. Quindi la disuguaglianza di Cramer-Rao è un’uguaglianza quando lo stimatore è trasformazione lineare di Lo stimatore T che fa valere l’uguaglianza (lo stimatore UMVUE) lo cerchiamo tra le trasformazioni lineari della variabile Y L’informazione di Fischer è la media della derivata della log-likelihood al quadrato Se l’informazione di Fischer è alta (e quindi anche la likelihood è alta) il limite di Cramer-Rao è basso la varianza può essere bassa il bias sarà alto Se l’informazione di Fischer è bassa (e quindi anche la likelihood è bassa) il limite di Cramer-Rao è alto la varianza è alta il bias sarà basso Questa funzione è informativa perché ci restituisce il bound sulla varianza e di conseguenza anche sul bias Più l’informazione di Fischer cresce, più informazione abbiamo sul parametro theta, e minore diventa il lower bound sulla varianza e quindi più ci avviciniamo ad uno stimatore con MSE basso nel caso di stimatori non distorti Se il supporto dipendesse da theta non potrei scrivere la derivata del logaritmo della funzione f rispetto a theta La media campionaria nel caso Poisson raggiunge il limite di Cramer-Rao quindi è l’UMVUE Se valgono le assunzioni di Cramer-Rao e ho stimatore T non distorto che raggiunge il limite di Cramer-Rao allora esso è l’UMVUE Non sempre l’UMVUE raggiunge il limite di Cramer-Rao, potrebbe non raggiungerlo o potrebbe anche essere che non valga il teorema di Cramer-Rao Nella classe degli stimatori non distorti condizionare a una statistica sufficiente ci restituisce uno stimatore con MSE minore (essendo non distorti dipende tutto dalla varianza e M ha quella minima) È un modo veloce per trovare uno stimatore migliore, ma non necessariamente l’UMVUE (trovo un uniformly better unbiased estimator) M è non distorto Qualcosa maggiore o uguale di zero essendo l’attesa di una varianza condizionata sicuramente maggiore o uguale di zero Dimostro che M è uno stimatore tramite il fatto che W è sufficiente È la densità della legge di condizionata a una statistica sufficiente quindi non dipende dal parametro M non dipende dal parametro e quindi è uno stimatore Non è uno stimatore perché dipende dal parametro Supponiamo esista un altro stimatore UMVUE Cauchy-Schwartz Se sono entrambi UMVUE devono avere stessa varianza Ma essendo T UMVUE deve valere l’uguaglianza tra le varianza, altrimenti T non sarebbe UMVUE avendo T* varianza minore Ma se vale l’uguaglianza nella disuguaglianza di Cauchy-Schwarz allora T’ è funzione lineare di T Ma T’ non distorto Cauchy Schwartz con l’uguaglianza e uguaglianza tra le varianze di T e T’ da sola è statistica sufficiente per ? Infatti preso uno stimatore non distorto del campione, come lo è la media campionaria : non vale il teorema di Rao-Blackwell e infatti si ha che non è uno stimatore (per contraddizione) Linearità della covarianza Uniformemente migliore (Mostriamo che condizionare a una statistica non sufficiente non restituisce uno stimatore) Supponiamo per assurdo che M non sia UMVUE è stimatore non distorto e tale che M’ anch’esso è una funzione di W (come M) (M’ - M) è una funzione di W Dato che W è completa, essendo la media di questa funzione di W nulla la funzione dovrà essere nulla quasi certamente Ma questo contraddice La completezza ci aggiunge il fatto che M è l’UMVUE Come trovo l’UMVUE? Cerco W statistica sufficiente, minimale e completaCerco W sufficiente, minimale e completa M è uno stimatore perché W è sufficiente M è non distorto Lemma di Doob Osservazioni Uso Rao-Blackwell e costruisco visto che se sono uguali quasi certamente non possono avere questo legame le varianze M è UMVUE visto che se non lo fosse si arriverebbe a questo assurdo Per il teorema precedente l’UMVUE è unico e quindi anche M lo è in questo caso Se W è anche non distorto allora esso stesso è l’UMVUESe W non è non distorto allora cerco T non distorto Trovo l’UMVUE come 2 metodi stimatore non distorto di Cerco l’UMVUE Incognito Fissato Trovare UMVUE per So che è statistica sufficiente, minimale e completa, ma distorta Trovo uno stimatore non distorto di una probabilità di un campione come in questo caso che devo trovare con un metodo che posso usare sempre Mi serve un trucco perché la funzione di theta data dalla probabilità di un campione è una funzione brutta di cui difficilmente troverei uno stimatore Osservazioni Se le variabili del campione sono iid possiamo fare i conti nel caso univariato, ovvero si può calcolare l’informazione su tutto il campione in maniera più agevole sfruttando l’informazione sulla singola variabile aleatoria Se in aggiunta alle assunzioni di Cramer-Rao si ha che per l’ipotesi aggiuntiva La seconda verosimiglianza è molto più informativa della prima perché è molto concava e ha varianza molto alta, e il limite di Cramer-Rao diventa molto basso Trovare il massimo di una verosimiglianza piatta è difficile, anche gli algoritmi numerici hanno problemi nel trovarlo con , sono soddisfatte le assunizioni di Cramer-Rao e Nella famiglia esponenziale ho un’autostrada per trovare l’UMVUE, poiché vale la disuguaglianza di Cramer-Rao e lo stimatore dato ha una varianza che raggiunge il limite di Cramer-Rao, quindi essendo lo stimatore non distorto a varianza minima è proprio l’UMVUE è l’UMVUE Calcolo accessorio Calcolo il denominatore del limite di Cramer-Rao Calcolo il numeratore del limite di Cramer-Rao Limite di Cramer-Rao L’informazione di Fischer calcolata sul campione coincide con quella calcolata su T statistica sufficiente Se abbiamo una statistica sufficiente facciamo prima a calcolare la famiglia di densità della statistica perché tanto se la statistica è sufficiente si può calcolare l’informazione di Fischer sul campione tramite questa essendo le due equivalenti Limite di Cramer-Rao Quando il campione cresce passo dalla stima della media sfruttando la media a priori alla stima data dal campione Ci esce una beta di nuovo perché è un campione coniugato, ma succede in pochi casi e questo è il problema della statistica Bayesiana: il fatto che bisogna quasi sempre calcolare in modo difficile la posterior è parametro incognito reale nell’approccio frequentista, nell’approccio bayesiano esso è invece modellato come una variabile aleatoria Cerchiamo la legge di detta prior per poter trovare la legge del parametro condizionata al campione, detta posterior Il problema del Bayesiano è l’assunzione Test d’ipotesi Un’ipotesi statistica è un’affermazione sui parametri incogniti della legge del campione Se stiamo campionando da una Bernoulli un ipotesi su p potrebbe essere H0: p = 0.5 In un test d’ipotesi abbiamo due ipotesi complementari: una detta ipotesi nulla e indicata con H0 e l’altra chiamata ipotesi alternativa e indicata con H1 L’ipotesi nulla è verificata fino a prova contraria, bisogna quindi dimostrare che essa è falsa per poterla rifiutare Un test d’ipotesi è una regola decisionale che specifica:Per quali valori del campione accetto H0Per quali valori del campione si rifiuta H0 (e quindi si accetta H1) Questi valori di rifiuto sono i valori della regione critica rifiuto H0La regione di accettazione è il complementare della regione critica Tipicamente questa regione critica viene specificata sulla base dei valori di una statistica che viene detta statistica test, in base ai valori della statistica test decido se accettare o rifiutare La regione di accettazione è un sottoinsieme di Test del rapporto di verosimiglianza Cerchiamo metodi per trovare le regioni critiche dei test, poi cercheremo dei metodi per valutare i test costruiti... Statistica È il rapporto tra la verosimiglianza dello stimatore di massima verosimiglianza cercato in e quello cercato in Regione critica Se la statistica è piccola (minore di un certo c) significa che c’è una grossa differenza tra i due sup (in particolare il numeratore è molto più piccolo del denominatore) e quindi il parametro starà nell’insieme complementare di , in quell’insieme ottengo una verosimiglianza molto più grande (che è quella a denominatore) A seconda del c scelto si possono commettere comunque errori di valutazione Controlli sul risultato Sotto radice è tutto positivo? c è minore di 1? Ha senso il verso della disuguaglianza trovato? Normale che ha generato i dati Stimatore di massima verosimiglianza cercato restringendo il range all’interno di È una statistica perché non ho bisogno del parametro theta per calcolare questa variabile aleatoria, essa dipende infatti solo dal campione e dallo stimatore che per definizione dipende solo dal campione (quindi facendo il sup è come se theta sparisse) Il più verosimile stimatore non è in , quindi rifiuto H0 Criterio di fattorizzazione Posso fare i calcoli sfruttando una statistica sufficiente e allora faccio così che mi vengono più facili È peggio commettere errore del primo tipo perché il rifiuto è più costoso come decisione, l’errore di secondo tipo è meno costoso poichè non interrompe nessun processo e lascia le cose invariate, ma questo non significa che sia meno grave! Il verso è coerente all’intuizione perché se il minimo è maggiore di theta 0 (il termine con il log si somma a theta zero essendo c minore di 1) allora posso rifiutare il fatto che theta sia minore o uguale di theta 0, che è l’ipotesi nulla DecisioneAccettoAccetto Ipotesi effettivamente vera Errore di Iº tipoErrore di IIº tipo Semplifico h perché è indipendente dal parametro Densità di probabilità di T Rifiuto H0 veraAccetto H0 falsa probabilità di commettere errore di Iº tipo se 1 - probabilità di commettere errore di secondo tipo se La funzione potenza di un test d’ipotesi con regione critica R è Funzione potenza ideale È impossibile costruire un test che abbia questa funzione potenza perché c’è un trade off tra probabilità di errore del primo tipo e del secondo tipo: infatti se non volessi mai accettare un ipotesi sbagliata (errore del primo tipo) dovrei rifiutare tutte le ipotesi, in questo modo incorrerei nell’errore del secondo tipo rifiutando ipotesi vere Interpretazione a seconda di dove si trova theta Rifiuto H0 se e solo se osservo solo successiRifiuto H0 se Questa probabilità è una funzione di theta Probabilità che il campione casuale stia nella regione critica Costruisco in due modi che mi pare le regioni critiche dei test Le rappresento al variare di theta Probabilità di avere errore del primo tipo nullaProbabilità di avere errore del secondo tipo nulla È al massimo il massimo che raggiunge per Parametri accettabili Dipendono molto dal tipo di esperimento però! Voglio la massima probabilità di errore del primo tipo pari a 0.1Voglio la massima probabilità di errore del secondo tipo pari a 0.2 quando Posso agire solo su n, in particolare devo aumentarlo Non sempre è possibile trovare un valore del sup (in caso sia discreta la probabilità) però si può trovare un qualcosa che lo maggiora, anche se solitamente livello e dimensione coincidono Specificare il livello del test permette di fissare l’errore del primo tipo, non quello del secondo tipo Voglio che il test sia di dimensione Solitamente c lo trovo a ritroso imponendo altre proprietà che voglio che il test abbia, come per esempio una certa dimensione o un certo errore del primo o secondo tipo (all’inizio lo tengo come parametro incognito) Il test UMP è il migliore (sicuramente in termini di errore del secondo tipo, ma a volte anche in generale) nella classe dei test di tipo C: ha funzione potenza che batte tutte le altre funzioni potenze nell’ipotesi alternativa Solitamente cerco il test UMP a parità di alfa è monotona crescente in Una classe di test è un insieme di test della stessa tipologia (stessi insiemi associati ai valori di ipotesi nulla e ipotesi alternativa) che ha stesso livello alfa Se la classe C è la classe dei test alfa allora il test UMP è il miglior test avente “quell’errore del primo tipo”, essendo l’errore del secondo tipo inversamente proporzionale alla grandezza della funzione potenza del test valutata nella regione critica Questo test è detto test UMP di livello alfa Posso caratterizzare un test con la regione critica o la funzione potenza È un teorema costruttivo che ci permette di costruire il test UMP di livello alfa, ma lo fa nel caso particolare di ipotesi semplici.....che poi estenderemo al caso generale Qualunque test che soddisfa (1) e (2) è UMP di livello Se stai cercando un test UMP allora costruiscilo in modo che valgano (1) e (2) Se esiste un test che soddisfa (1) e (2) con k > 0 Ottengo una probabilità di avere x con theta uno k volte maggiore rispetto ad avere x con theta zero Se ho osservato qualcosa l’ho osservata a causa di un parametro che la rende altamente probabile Osserviamo che un test che soddisfa la (2) è un test di dimensione e di livello alfa Chiamiamo una funzione sullo spazio campionario che è ogni test UMP di livello alfa ha anche dimensione alfa (quindi soddisfa la (2)) e soddisfa la (1) fatta eccezione di un insieme di probabilità nulla sia su theta zero che su theta uno È uguale ad ogni altro test UMP Funzione densità del campione Parte sufficiente usata per dimostrare la possibilità di esistenza di un test UMP (non basta questa però) Parte necessaria usata per dimostrare l’unicità del test UMP, se non vale si ha la non esistenza del test Se integro qualcosa di positivo ottengo qualcosa di positivo Sia la funzione di un qualsiasi test UMP di livello alfa Il punto (a) ci dice che la funzione di un test che soddisfa (1) e (2) è di un test UMP di livello alfa Ma essendo di livello alfa si ha anche che Visto che deve soddisfare la (1), allora dovrà essere uguale a , tranne al massimo in un insieme A di misura nulla Si potrebbe usare Neymann-Pearson per valutare ipotesi semplici di due famiglie differenti Al massimo beta di theta zero è pari ad alfa perché in theta zero si ha il sup è UMP di livello avendo funzione potenza del test maggiore o uguale di qualsiasi altro test di livello per tutti i valori di , qui rappresentati da che essendo generico è la variabile indipendente della funzione beta essendo entrambi UMP, se così non fosse non sarebbe verificata la definizione di UMP è di dimensione infatti visto che è di livello e quindi si ha che In questo caso vale l’uguaglianza L’unico modo per soddisfare l’uguaglianza e che si abbia Il corollario lega il lemma di Neymann-Pearson con il concetto di statistica sufficiente, mi permette di mediare l’informazione di x tramite una statistica sufficiente Uso Neymann-Pearson Valuto per Rifiuto sempre essendo Accetto sempre statistica sufficiente Commetto sempre errore del primo tipo se rifiuto sempre Non posso commettere errore del primo tipo se accetto sempre Costruisco un test UMP (quindi costruisco la regione critica) che ha un determinato valore di alfa scegliendo il k in modo tale che valgano le ipotesi del lemma di Neymann-Pearson Applicazione del corollario di Neymann-Pearson tramite la statistica sufficiente data dalla media campionaria Test UMP Guardiamo la forma della regione critica: ci sta dicendo se la media campionaria è più grande o più piccola di una certa soglia e che se è più piccola si rifiuta Una volta vista la forma della regione critica dobbiamo impostare il livello: Quantile di ordine alfa della normale standard Rifiuto se osservo un valore della media campionaria minore di theta zero NB Potevo ottenere lo stesso test con il likelihood ratio test ma qui ottengo il test UMP NB Non ci importa di risalire al k del lemma di Neymann-Pearson ma solo della forma della regione critica, il k lo definiamo a partire dalla standardizzazione come Ho bisogno della varianza nota per poter calcolare la costante della regione critica Campione gaussiano Stesso test del primo anno ma ora sappiamo che è UMP di livello alfa Il livello deve essere calcolabile, per poter utilizzare il test devo quindi avere tutti i dati per calcolarlo Monotona non decrescente in t Se la forma della regione critica non dipende dal valore che assume allora è comunque UMP per il test Perché se devo calcolare la regione critica per un qualunque theta più grande o in alternativa più piccolo di theta zero arriviamo alla stessa conclusione, purché valga NB Varianza notaVarianza ignota Legge univariata ha MLR (rapporto di likelihood monotono)? è monotona decrescente avrà MLR posto una statistica sufficiente per e supponiamo che la legge di abbia MLR il test con regione critica è UMP di livello alfa con Una volta che sappiamo qual è la legge di T definiamo andando a trovare qual è il quantile di ordine alfa della statistica T sotto questo semplifica molto il calcolo del livello del test perché posso calcolare il valore per un theta noto e non per tutti i theta e poi trovare il sup Dato che T ha MLR è monotona non decrescente È crescente in t visto che ho assunto che T avesse MLR La derivata passa da negativa a positiva oppure è sempre positiva Il massimo è raggiunto per t = o per t = dove A prima vista uno pensa che la chiave del teorema di Karlin-Rubin sia di dare la forma della regione critica del test UMP data una statistica sufficiente avente MLR, è vero, ma ho un’informazione in più: so che l’informazione del test (il livello) è È positiva per definizione di funzione densità di probabilità La differenza tra le funzioni di ripartizione può solo essere crescente o prima essere decrescente e poi crescente Per definizione di funzione di ripartizione funzione potenza monotona non decrescente di test Il livello del test è Definiamo con Il test è UMP funzione monotona non decrescente Ogni funzione è sempre minore o uguale del suo massimo Induce un ordinamento stocastico Ordinamento stocastico significa che una variabile assume tendenzialmente valori più grandi di un’altra, ci serve la funzione di ripartizione per dirlo perché la densità non sempre è espressiva Ordinamento stocastico Quindi se Consideriamo il test Per il corollario di Neymann-Pearson che sfrutta le statistiche sufficienti se sono nella regione critica vale la maggiorazione per un k generico che può essere k’ allora il test così costruito è UMP Se T è maggiore di t0 il quoziente è maggiore di k’ perché k’ è l’inf su quel dominio Analogamente potrei fare la dim inversa con test e avente MLR otterrei che l’UMP è con livello Sfrutto un test avente ipotesi diverse ma avente stessa regione critica per dimostrare che è UMP usando il corollario di Neymann-Pearson Sistemo il problema sulle ipotesi verificando che vale il corollario di Neymann-Pearson , facendo così ho che il test qui definito è UMP e di conseguenza che che si traduce nella definizione di test UMP del test iniziale Facendo così ho che il test iniziale è UMP Funzione test di un test generico della classe Per Karlin-Rubin con Ma per Neymann-Pearson ogni test UMP di livello alfa deve avere stessa regione di rifiuto a meno di insiemi di misura nulla se funzione potenza del test i-esimo con Assurdo perché 1 è UMP I due test sono distorti per queste ipotesi nulle perché non vale che Il test 3 è UMP nella classe dei test non distorti perché la funzione potenza è sale meno rispetto a quelle dei test 1 e 2 Bisogna definire per bene la classe in cui si sta cercando il test UMP, poiché se la classe è troppo ampia non riusciremo a trovarlo Se la classe di test è troppo ampia si può non trovare un test UMP Test 1Test 2 Definisco Osservo che statistica sufficiente MLR È maggiore visto che ho meno area sottesa se diventa meno negativo ciò rispetto a cui valuto X Per simmetria della normale È maggiore visto che ho meno area sottesa se diventa meno positivo ciò rispetto a cui valuto X UMP di livello per queste ipotesi (Non è valida la condizione b di Neymann-Pearson) Non esistendo un test UMP nella classe dei test distorti cerchiamo almeno l’UMP nella classe dei test non distorti... Uso Karlin - Rubin con regione Per Karlin - Rubinprecedente Supponiamo che l’ipotesi nulla H0 sia scrivibile come un’intersezione di sottoinsiemi di Supponiamo che la regione critica sia Non devo rifare tutti i conti per i test ma basta che prenda l’unione di queste regioni Troviamo le regioni critiche dei test sfruttando solo l’informazione di struttura dell’ipotesi nulla Se il LRT ha livello alfa allora anche il test UI ha livello alfa ovvero rifiuto quando sto in almeno una delle regioni di rifiuto associate alle sottoipotesi Il likelihood ratio test, come ci dice il punto b, è uniformemente più potente del test UI che però ha errore del primo tipo minore anche se a volte le statistiche possono coincidere Regione di rifiuto del test UI Regione di rifiuto del test LRT UI quindi il numero di sottoregioni è intero e numerabile Livello di test su T Il test UI ha livello alfa se il test LRT ha livello alfa Il sup su un insieme più grande può essere solo maggiore o uguale, mentre il denominatore rimane lo stesso Nel caso di un test IU se siamo in grado di trovare una successione di parametri tale per cui quando siamo in una delle sottregioni delle sottoipotesi la regione critica ha limite di queste probabilità in base a questa successione pari ad alfa, mentre il limite delle probabilità sulle sottoregioni non considerate fa 1 allora il test IU dimensione alfa Definizione di livello del test Il sup è sempre maggiore di tutti gli alfa La maggiorazione delle probabilità vale per ogni gamma Posso trovare il livello del test IU solamente valutando i limiti delle probabilità delle regioni critiche secondo delle successioni dei parametri, mentre nel teorema precedente dovevo conoscere tutti i livelli dei test nelle sottoregioni Posso trovare il livello del test IU conoscendo tutti i livelli dei test nelle sottoregioni e valutando il sup Disuguaglianza di Bonferroni Disuguaglianza di bonferroni Utilità del teorema precedente Vogliamo valutare se valgono due test che deve superare un prodotto misure della resistenza passo o non passo il test di infiammabilità Per poter calcolare il livello del test devo per forza modellare la relazione tra X e Y essendo che queste non sono indipendenti a priori, mentre invece con questo teorema non serve fare nessuna modellizzazione La sommatoria è sicuramente maggiore o uguale di k-1+alfa poiché alfa è minore di 1 e se al posto che avere il limite per un solo j pari ad alfa ce l’ho per più j allora la somma è minore Test IU Trovo le sottosuccessioni per far valere il teorema precedente Dati Costante per ogni l Il test UI ha dimensione poiché esiste una sottosuccessione che tende ad e tutte le altre tendono a 1 Il p-value è una statistica, ovvero una quantità che calcolo dai dati, tale che è sempre compresa tra 0 e 1 Una statistica p-value è valida (ovvero è utile) se Se ho un p-value valido posso costruire un test con regione critica quindi un test che ha livello alfa Il p-value è il più piccolo degli alfa per cui rifiuto Dimostrare che il p-value è valido, quindi che rientra nella definizione che abbiamo dato al primo anno Se il p-value è una quantità piccola ci dà evidenza sul rifiutare H0 dicendo che H1 è vera, inoltre tanto più è piccolo il p-value tanto più abbiamo evidenza per il rifiuto di H0 Posso scrivere una regione critica in cui rifiuto se il p-value è minore di alfa Il teorema ci indica un metodo costruttivo per trovare dei p-value validi Sicuramente è compreso tra 0 e 1 il p-value così definito essendo che deriva da una probabilità Statistiche i cui valori grandi portano evidenza a favore di H1 funzione di ripartizione della statistica Il p-value è quindi il più piccolo valore di alfa per cui rifiuto La funzione potenza è massima quando i test sono simmetrici Osservazione In realtà vale l’uguale per definizione di funzione di ripartizione di una variabile aleatoria uniforme Stima intervallare o intervalli o regioni di confidenza Vogliamo fornire una forchetta di valori che ci permette di dare una possibilità di variabilità della stima e vogliamo conoscere qual è la probabilità che il parametro cada in questi intervalli (se il parametro appartiene ad R) o regioni (se il parametro appartiene ad Rk) La stima intervallare di un parametro reale è una coppia di statistiche tali che La stima intervallare è l’intervallo con estremi aleatori e l’inferenza è Può essere che La stima intervallare è ben posta perché gli estremi sono variabili aleatorie Essendo la media campionaria una variabile aleatoria continua la probabilità che sia uguale a un numero è zero Da ricordare Data una stima intervallare per è detta probabilità di copertura Data una stima intervallare per è detto livello o coefficiente di confidenza Voglio sempre avere livello di confidenza altoSolitamente è indicato con Probabilità di copertura costante in , quindi è anche il livello perché coincide con l’inf Nel momento in cui costruisco l’intervallo il parametro può essere dentro l’intervallo o meno, quindi la stima intervallare o è corretta (mu appartiene all’intervallo) o non è corretta (mu non appartiene all’intervallo), è sbagliato dire che è corretta con una certa probabilità. Infatti il 95% non è la probabilità che mu stia nella realizzazione, ma è la probabilità di costruire tramite una macchina un intervallo in cui mu è contenuto: è la caratteristica dell’intervallo che ha estremi aleatori. La confidenza mi permette di dire che ho “una macchina” che crea intervalli che un tot numero di volte (% di confidenza) mi restituisce un intervallo corretto (che contiene il parametro). Essa è una proprietà dello stimatore aleatorio che produce l’intervallo. NB L’unico intervallo di confidenza con livello di confidenza 100% è ( , ) Solo il 95% delle volte viene intercettato il parametro Limite inferioreLimite superiore Non conoscendo il parametro ci interessa sapere se nel caso peggiore (l’estremo inferiore) si ha copertura limitata, questo è il caso che dobbiamo tenere sotto controllo Rappresenta la probabilità che il parametro sia effettivamente nell’intervallo di confidenza costruito Livello di confidenza di I1 essendo costante rispetto a theta L’intervallo I1 è molto meglio Metodi per trovare stimatori intervallariInversione di un test Facendo il test A fisso il parametro e cerco dati campionari consistenti col valore fissato, mentre viceversa tramite l’intervallo di confidenza C fisso il valore del campione che osservo e cerco i valori dei parametri che sono compatibili con l’intervallo Sto guardando la vicinanza tra parametro e valore della statistica da due punti diversi, nella regione di accettazione del test sto fissando il parametro e ottenendo tutti i valori dei dati che me lo rendono accettabile (per cui vado nella regione di accettazione), dall’altro lato fisso le osservazioni e vedo tutti i valori del parametro che sarebbero stati compatibili Di livello alfa la regione di accettazione, ovvero la regione critica complementare, di un test di livello è una regione di confidenza per di livello è la regione di confidenza di livello Test di livello La forma della regione di confidenza dipende dall’ipotesi alternativa che stiamo invertendo Test bilateri Intervalli Test unilteri Semirette Esempio sulla forma della regione è la regione di accettazione di un test di livello per Questo teorema ci da la possibilità di passare da regione di accettazione a intervalli di confidenza, leggendo lo stesso insieme degli x e dei theta però da una parte come regione di confidenza (insieme dei theta per cui x appartiene alla regione di accettazione) dall’altra parte come regione di accettazione (insieme degli x per cui il theta che stiamo testando appartiene alla regione di confidenza) Inversione di un LRT Stiamo cercando un intervallo di confidenza per Quantità pivotale La quantità pivotale è un qualcosa su cui facciamo perno per trovare l’intervallo di confidenza La sua legge non dipende da theta (ha stessa distribuzione per ogni valore del parametro), ma essa come oggetto può dipendere da theta NB La quantità pivot non è una statistica, perché dipende dal parametro Non dipende dal parametro è quantità pivotaleè quantità pivotale Forma della regione di accettazione Forma dell‘intervallo di confidenza Data una quantità pivot, dato possiamo sempre trovare una coppia che non dipende da tale che questa è una regione di confidenza di livello Il problema è quello di invertire Q e trovare un intervallo di confidenza per il parametro Intervallo di confidenza di livello Intervallo di confidenza di livello Scegliendo questo a e questo b viene l’intervallo di confidenza più corto possibile Hanno stessa quota Metodi per valutare intervalli di confidenza Fissato il livello di confidenza possiamo minimizzare la lunghezza? Una densità è unimodale se ha un solo massimo dove x* è la moda è l’intervallo più corto tra quelli che soddisfano a Senza perdita di generalità supponiamo I valori di a e b sono alla stessa altezza sulla densità è uno è da una parte della moda mentre l’altro dall’altra (se la densità è simmetrica rispetto all’origine sono tali che a = -b) è unimodale e scelgo (a, b) come da teorema allora ho lunghezza minima Sfrutto il teorema per definire l’intervallo di confidenza se l’intervallo è proporzionale alla lunghezza dell’intervallo (b - a) a e b sono tra loro vincolati, quindi anche se non riesco a trovarli tramite il teorema, basta che scelgo un a qualsiasi, e poi scelgo b tale che valga b è una funzione di a NB Tipicamente l’unimodalità si studia sulla quantità pivot Caso 1: L’intervallo è proporzionale alla lunghezza dell’intervallo (b - a) Sfrutto il teorema per definire l’intervallo di confidenza minimo Caso 2: L’intervallo non è proporzionale alla lunghezza dell’intervallo (b - a) Sfrutto la minimizzazione tramite derivata per definire l’intervallo Cerco a e b tali che Non sfrutto il teorema precedente Derivo il vincolo sull’intervallo rispetto ad a ricavo questa relazione tra a e b Teoria asintotica Studiamo le proprietà asintotiche degli stimatori e dei test per campioni in cui la dimensione n del campione è tale che n Se stiamo studiando la successione di stimatori al crescere di n per prima cosa dobbiamo valutare se questo è consistente, ovvero se converge con un alfa probabilità nei pressi del valore corretto del parametro che stiamo stimando, altrimenti la successione di stimatori è inutile Successione di stimatori media campionaria Consistenza debole Consistenza forte Consistenza in L in qualche metrica Metodi per la verifica della consistenza Forme di consistenza consistente in quella metrica Disuguaglianza di Chebyshev NB La disuguaglianza vale anche al limite Facendo tendere a infinito la dimensione del campione i calcoli si semplificano La probabilità che una successione di stimatori consistente non centri il parametro quando n tende a infinito è bassa Mostra che varianza asintotica e limite delle varianze possono essere diverse Formula delle probabilità totali Una successione di stimatori è asintoticamente efficiente se è asintoticamente normale e la varianza asintotica è il limite di Cramer-Rao a meno di un n che però è quello davanti al primo termine La varianza è la minima Se non sappiamo come approssimare la legge dello stimatore se sappiamo che esso è asintoticamente efficiente allora sappiamo anche che per n grande possiamo approssimarlo con una gaussiana che ha la varianza minima possibile Se riesco a mostrare che uno stimatore ha MSE che tende a zero per n che va a infinito allora questo è uno stimatore consistente Criterio della funzione di ripartizione = varianza asintotica Asintotica normalità Asintotica normalità Consistenza Il teorema ci dice che tutti gli stimatori MLE hanno efficienza asintotica soddisfa le ipotesi di regolarità di Cramer-Rao Mi serve che il supporto non dipenda da theta e che la funzione sia abbastanza regolare per poter scambiare integrale e derivate, ma queste valgono per tutte le famiglie esponenziali Questo è utile perché sappiamo che sotto sufficienti ipotesi di regolarità lo stimatore di massima verosimiglianza di tau di theta è asintoticamente normale e la sua varianza limite è quella di Cramer-Rao L’MLE non è asintoticamente normale visto che il supporto dipende dal parametro (infatti è asintoticamente una costante) Per Slutsky Tanto più n è grande tanto più gli stimatori somigliano a una gaussiana standard Il corollario non funziona se non valgono le ipotesi di Cramer-Rao Tutte le volte che la likelihood non è facilmente scrivibile e non si può facilmente trovare la legge dello stimatore MLE si sfrutta questo risultato asintotico per scrivere intervalli di confidenza e tutto il resto È ancora MLE per il principio di invarianza, inoltre se uso la funzione identità ho che l’MLE è egli stesso asintoticamente efficiente Lo stimatore più efficiente è il secondo poiché è l’MLE e la sua varianza asintotica raggiunge il limite di Cramer-Rao che è la varianza minima (l’asintotica normalità degli stimatori di massima verosimiglianza vale perché la Poisson è una famiglia esponenziale) Se abbiamo una successione di stimatori asintoticamente normali e la trasformiamo con una funzione g sufficientemente regolare allora la successione g(Yn) che troviamo è ancora asintoticamente normale con varianza legata alla derivata della funzione e alla varianza di Yn più efficiente dimeno efficiente di usiamo il TCL usiamo l’asintotica efficienza degli MLE = efficienza asintotica relativa Sfrutto i metodi delta con Il segno sembra strano ma in realtà lo stimatore è sempre minore di 1/4 e quindi la legge a cui converge ha senso che sia negativa parametro naturale Tipicamente è preferito lo studio dell’odds ratio allo studio di per confrontare due popolazioni di Bernoulli Vogliamo studiare il comportamento asintotico di monotona crescentemonotona crescente e invertibile Stimatore dell’odds (esempio del metodo delta 1) L’odds vale 1 se la moneta è equilibrata Lo scriviamo così poiché sfruttiamo il principio di invarianza Metodo delta 1 Osservazione Perché 1/4 è il massimo della funzione x(1-x) Metodo delta 1 Asintotica efficienza degli stimatori MLE Calcoliamo la varianza asintotica Tramite il metodo delta 1 e l’asintotica efficienza degli MLE si arriva allo stesso risultato Vale sia per (a) che per (b) e a partire da questo posso costruire intervalli di confidenza e test Per n grande Calcolo un intervallo di confidenza a partire da questo risultato di asintotica normalità Attenzione : questo non è un intervallo di confidenza perché p è incognito ed è improponibile risolvere rispetto a p, sfruttiamo quindi la LFGN e il teorema di Slutsky Varianza asintotica Usando il teorema di Slutsky abbiamo ottenuto che per l’asintotica normalità dello stimatore per LFGN Trovo questo intervallo di confidenza asintotico di livello Per Slutsky Vale lo stesso ragionamento per l’intervallo di confidenza di p (trovato al primo anno) In entrambi i casi non basta il TCL per trovare l’intervallo di confidenza ma bisogna combinarlo alla convergenza quasi certa (tramite il teorema di Slutsky) stimatore di massima verosimiglianza per essendo che lo stimatore di massima verosimiglianza è punto di massimo per la log likelihood Sotto le ipotesi di regolarità si può mostrare che Informazione di Fisher campionaria Sufficientemente regolare = valgono le ipotesi di Cramer Rao Se riusciamo a dire qualcosa sulla legge di un’opportuna statistica sotto H0 allora possiamo costruire una regione critica, qui diciamo che asintoticamente sotto H0 possiamo approssimare a A prescindere da quanto sia intrattabile la legge della lambda possiamo costruire un intervallo di confidenza asintotico sfruttando questo teorema Supponiamo che i parametri incogniti della distribuzione parametrica dipendano da altre variabili Supponiamo di uscire dal framework parametrico per studiare modelli non parametrici Modelli di regressione indipendenti ma non identicamente distribuiti funzione di altre variabili Per esempio se guardiamo il prezzo di una casa questo può dipendere da tanti fattori quali la metratura, la distanza dal centro, .... Statistica non parametrica Come verificare la gaussianità di dei dati? Test di Shapiro-Wilk Test di Anderson-Darling Test di buon adattamento qqplot o qqnorm Quantili empirici Quantili standard Quantili empirici Quantili standard È una gaussiana se è lineareNon è una gaussiana se l’andamento non è lineare Come evolverà il corso Sfrutta modelli che non sfruttano parametri per modellizzare la legge di distribuzione delle variabili aleatorie in gioco (per esempio quando i dati non sono gaussiani) Modelli di regressione lineari Lo scopo è quello di modellare una variabile aleatoria Y chiamata risposta in base ai valori assunti da r variabili reali che per noi non saranno aleatorie che chiameremo predittori o covariate Vogliamo capire quanto la variabile aleatoria è spiegabile in termini di covariate e quanto in termini di variabilità residua Vettore di parametri incogniti variabile aleatoria tale che NB Non facciamo nessuna assunzione sulla legge di , più avanti ci servirà che sia gaussiana Fissate le covariate Variabilità residua Modello non lineare La linearità del modello lineare l’abbiamo nei parametri Il nostro scopo è stimare i parametri incogniti del modello : Per poter interpretare il fenomeno Per poter fare una predizione sulla variabile Y Bisogna scegliere le covariate in maniera oculata, infatti possono non essere tutte necessarie e significative, alcune possono essere ridondanti (una implica l’altra), quindi non è sempre un bene scegliere più covariate possibili sovraparametrizzando il modello indipendenti ma non identicamente distribuite Matrice disegno NB Si vuole avere r