logo
  • userLoginStatus

Welcome

Our website is made possible by displaying online advertisements to our visitors.
Please disable your ad blocker to continue.

Current View

Mathematica Engineering - Modelli e Metodi dell'Inferenza Statistica

Complete course notes

Complete course

Modelli e metodi dell’inferenza statistica Corso tenuto da Anna Maria “Pagatauro” Paganoni 2019 - 2020 Indice 1 Campioni casuali e statistiche 3 1.1 Sucienza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2 Famiglia esponenziale (EF) . . . . . . . . . . . . . . . . . . . . . 4 1.3 Minimalit`a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.4 Completezza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2 Stima puntuale 7 2.1 Metodo dei momenti . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.2 Metodo di massima verosimiglianza . . . . . . . . . . . . . . . . . 7 2.3 Valutazione degli stimatori . . . . . . . . . . . . . . . . . . . . . 8 2.4 Uniform Minimum Variance Unbiased Estimator . . . . . . . . . 9 2.5 Informazione di Fisher . . . . . . . . . . . . . . . . . . . . . . . . 12 3 Test di ipotesi 14 3.1 Likelihood Ratio Test . . . . . . . . . . . . . . . . . . . . . . . . 14 3.2 Valutare i test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.3 Risultati notevoli sugli UMP . . . . . . . . . . . . . . . . . . . . 17 3.4 Test UI (IU) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.5 p-values . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 4 Stima intervallare 21 4.1 Inversione di test . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 4.2 Quantit`a pivot . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 4.3 Scegliere CI a lunghezza minimale . . . . . . . . . . . . . . . . . 22 5 Teoria asintotica 24 6 Test di gaussianit`a 27 6.1 Shapiro-Wilk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 6.2 QQ-plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 1 7 Modelli lineari di regressione 28 7.1 Regressione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 7.2 Predittori lineari e categorici . . . . . . . . . . . . . . . . . . . . 28 7.3 Minimi quadrati . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 7.4 Decomposizione della varianza . . . . . . . . . . . . . . . . . . . 30 7.5 R2 ................................... 31 7.6 Risultati notevoli sui minimi quadrati . . . . . . . . . . . . . . . 31 7.7 Inferenza sui parametri . . . . . . . . . . . . . . . . . . . . . . . . 32 7.8 Test sui parametri . . . . . . . . . . . . . . . . . . . . . . . . . . 34 7.9 Confronto con sottomodelli . . . . . . . . . . . . . . . . . . . . . 35 7.10 Analysis of Variance (ANOVA) . . . . . . . . . . . . . . . . . . . 36 7.11 Previsione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 8 Diagnostica 39 8.1 Goodness of fit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 8.2 Grafici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 8.3 Selezione delle variabili . . . . . . . . . . . . . . . . . . . . . . . . 40 8.4 Metodi stepwise ............................ 40 8.5 Eteroschedasticit`a . . . . . . . . . . . . . . . . . . . . . . . . . . 40 8.6 Outliers ................................ 41 8.7 Dati influenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 8.8 Cross-validation ........................... 42 8.9 Trasformazioni Box-Cox . . . . . . . . . . . . . . . . . . . . . . . 42 8.10 Interazioni di ordine superiore . . . . . . . . . . . . . . . . . . . . 42 8.11 Indice di Akaike . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 9 Modelli lineari generalizzati 44 9.1 Devianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 9.2 Exponential dispersion family . . . . . . . . . . . . . . . . . . . . 45 9.3 Equazioni di verosimiglianza . . . . . . . . . . . . . . . . . . . . . 46 10 Modello logistico 48 10.1 Classificatore logistico . . . . . . . . . . . . . . . . . . . . . . . . 48 10.2 Receiver Operating Characteristic Curve . . . . . . . . . . . . . . 49 2 1 Campioni casuali e statistiche L’inferenza statistica ´e il processo con cui si deducono propriet`a di una dis- tribuzione a partire dai dati. Per raggiungere questo scopo ´e essenziale intro- durre il concetto di campione casuale. Definizione 1.1 (Campione casuale) .Un campione casuale di variabili aleato- rie iid di ampiezza n´e indicato come ~X = {Xi}i=1 ,...,n = X1,X 2,...,X n Dove la legge di Xipu`o dipendere da parametri incogniti ✓. Dato un campione casuale X1,...,X notteniamo delle realizzazioni o dati x1,...,x n. Definizione 1.2 (Statistica) .Una statistica Y ´e una variabile aleatoria definita come funzione unicamente del campione : Y = T(X1,X 2,...,X n) E la sua distribuzione si dice distribuzione campionaria. Tra le statistiche pi`u note abbiamo la media e varianza campionaria: ¯Xn= 1 n nX i=1 Xi S2= 1 n1 nX i=1 Xi ¯Xn2 1.1 Sucienza Definizione 1.3 (Sucienza di una statistica) .Una statistica Y si dice su- ciente per un parametro ✓se ogni inferenza sul parametro dipende da ~X solo tramite Y. Formalizzando la definizione, a↵ermare che T ⇣~X ⌘ ´e suciente equivale ad a↵ermare che la legge L ✓ ~X T(~X)= t ◆ non dipende da ✓per ogni valore di t. Consideriamo per esempio un campione casuale X1,X 2estratto da una popo- lazione Bernoulliana Be( p) e una statistica suciente T ⇣~X ⌘ = X1+ X2che assume valori in {0,1,2}. T=0 X1=0 X1=1 X2=0 1 0 X2=1 0 0 T=1 X1=0 X1=1 X2=0 0 12 X2=1 12 0 3 T=2 X1=0 X1=1 X2=0 0 0 X2=1 0 1 Le probabilit`a non dipendono dal parametro p,seinveceavessimodefinito una statistica Q ⇣~X ⌘ = X1avremmo che le probabilit`a di X2dipendono da p, mostrando quindi che Q non ´e una statistica suciente. Propriet`a. Se ~x e~ysono due realizzazioni di uno stesso campione ~X (e.g. ~X(!1)= ~xe ~X(!2)= ~y) tali che T(~x)= T(~y), al lora l’inferenza sui parametri incogniti ✓sar`a la stessa sia che osserviamo ~xche ~y. Teorema 1.1 (Teorema di fattorizzazione) .Sia f(~x ,✓ ) la densit`a di probabilit`a congiunta di ~x(continua o discreta, ´e irrilevante). T ´e una statistica suciente () 9 g, h t.c. f(~x ,✓ )= g(t,✓ )h(~x) 1.2 Famiglia esponenziale (EF) Una distribuzione di probabilit`a f(x, ~✓) appartiene alla EF se e solo se: f(x, ~✓)= h(x)c(~✓)ePkj=1 wj(~✓)tj(x) Dove k´e la dimensione di ~✓. Molte distribuzioni note appartengono alla famiglia esponenziale: Bernoulli f(x, p )= px(1 p)1x1{0,1}(x) f(x, p )= 1{0,1}(x)(1 p)exp ✓ log 1p p ·x ◆ Poisson f(x, )= ex x! 1N(x) f(x, )= 1N(x) x! eelog ·x Normale f(x, ~✓)= 1 p2⇡ 2e(xµ)2 22 f(x, ~✓)= 1 p2⇡ 2ex2+2xµµ2 22 f(x, ~✓)= eµ222 p2⇡ 2e 122·x2+µ2·x 4 Propriet`a. Se {Xi}i=1 ,...,n iid ⇠D2 EF al lora T(~x)= nX i=1 t1(xi), nX i=1 t2(xi),..., nX i=1 tk(xi) ! ´e una statistica suciente per ✓. Dimostrazione. Applicazione immediata del teorema di fattorizzazione. 1.3 Minimalit`a Una statistica suciente T ´e anche minimale se 8T0suciente, T = '(T0). Questo implica che T ha tutte le informazioni per fare inferenza su ✓(in quanto completa per definizione) ed ´e una co n t ra z i o n e di tutte le altre statistiche su- cienti. Teorema 1.2 (Lehman & Sche↵´e) .Sia f(~x ,✓ ) la densit`a congiunta di ~x e supponiamo che esista T(~x) tale che: f(~x ,✓ ) f(~y ,✓ )non dipenda da ✓ () T(~x)= T(~y) Allora T(~x)´e suciente e minimale . Corollario. Se T ´e una statistica suciente e minimale al lora lo sono tutte le funzioni biunivoche di T. 1.4 Completezza Definizione 1.4. Sia f(t,✓ ) la famiglia di densit`a di probabilit`a di una statistica T(~x), questa famiglia ´e completa se e solo se: E✓[g(T)] = 0 8✓ () g(T) = 0 q.o. L’interpretazione di questa propriet`a ´e decisamente meno intuitiva delle precedenti due macropropriet`a (sucienza e minimalit`a). Procediamo in nega- tivo assumendo che esista una funzione gnon banale tale che g(T) abbia valore atteso nullo per tutti i ✓. Questo vuol dire che T sta anche raccogliendo infor- mazioni su una grandezza indipendente da ✓e quindi non ´e completamente concentrato su ✓. Teorema 1.3 (Bahadur) .Una statistica suciente e completa ´e anche min- imale. L’interpretazione ´e quindi che, se una statistica contiene tutte le informazioni su ✓(in quanto suciente) e allo stesso tempo ´e concentrata completamente su ✓(in quanto completa), allora ´e minimale perch´e tutte e sole le informazioni spurie sono state eliminate. 5 Teorema 1.4. Se {Xi}i=1 ,...,n iid ⇠ f(x, ~✓)= h(x)c(~✓)ePkj=1 wj(~✓)tj(x)allora T(~x)= nX i=1 t1(xi), nX i=1 t2(xi),..., nX i=1 tk(xi) ! ´e u n a statistica completa se : {(w1(~✓),...,w k(~✓)) | ~✓2⇥} A sottoinsieme aperto di Rk Corollario. Per il teorema di Bahadur T(~x)´e anche minimale. 6 2 Stima puntuale Definizione 2.1. Uno stimatore puntuale ´e una qualsiasi statistica del cam- pione. 2.1 Metodo dei momenti Momenti empirici o campionari Momenti teorici m1= 1n P Xi µ1=E[ Xi] m2= 1n P X2i µ2=E[ X2i] ... ... mk= 1n P Xki µk=E[ Xki] Tipicamente i momenti teorici µjsono funzioni di ~✓e gli stimatori ˆ✓1,..., ˆ✓k possono essere ottenuti dalla risoluzione del sistema seguente: 8>>>>< >>>>: m1 = µ1(✓1,✓2,...,✓ k) m2 = µ2(✓1,✓2,...,✓ k) ... mk = µk(✓1,✓2,...,✓ k) 2.2 Metodo di massima verosimiglianza Definizione 2.2. La funzione di likelihood L(✓,~x ) ´e solamente la densit`a con- giunta vista trattando ✓come la variabile e ~xcome il parametro. L(✓,~x )= f(~x ,✓ ) Definizione 2.3. Lo stimatore di massima verosimiglianza ( Maximum Likeli- hood Estimator ) viene quindi definito come: ˆ✓MLE = argsup ✓2⇥L(✓,~x ) A volte ´e pi`u semplice passare dalla log-likelihood l(✓,~x ) = log L(✓,~x )in quanto funzione monotona crescente che semplifica le densit`a della famiglia esponenziale. Propriet`a (Invarianza) . ˆ✓´e MLE per ✓ =)8 ⌧(✓)l’MLE d⌧(✓)MLE = ⌧(ˆ✓MLE ) 7 2.3 Valutazione degli stimatori Definizione 2.4 (Mean Squared Error) .L’MSE di uno stimatore T di ✓´e pari a: MSE ✓(T)=E ✓[(T✓)2] Propriet`a. L’MSE pu`o essere scomposto in due componenti specifiche, la var- ianza del lo stimatore ed il bias : MSE ✓(T)= Va r ✓(T)+( E✓[T]✓)2 Definizione 2.5. Uno stimatore T ´e detto non distorto (o unbiased )se: Bias ✓(T)=E ✓[T]✓=0 Esempio. Consideriamo il caso specifico dello stimatore della varianza per una variabile normale, e determiniamo l’MLE: \2MLE = argsup 22⌃2L(2,~x ) l(2,~x )= nµ 2 22 n 2log 2 ⇡ 2 1 22 X x2i+ µ 2 X xi d d2l(2,~x )= nµ 2 24 n 22+ 1 24 X x2i µ 4 X xi=0 nµ 2 24 n 22+ 1 24 X x2i µ 4 X xi=0 nµ 2+X x2i2µX xi= n 2 P (xiµ)2 n = S20 Ricordiamo che: n1 2 S2⇠ 2(n1) echequindiE 2[S2]= 2e l’MSE coincide con la varianza di S2: MSE( S2) = Var( S2)= 24 (n1) Sapendo che S20= n1n S2possiamo calcolare: E[S20]22= 4 n2 Var( S20)= n1 n2 24 Per cui: 8 MSE( S2)= 24 (n1) > MSE( S20)= (2n1)4 n2 2 3 4 5 6 7 8 9 10 0.5 1 1.5 2 n MSE / 4 MSE( S2) MSE( S20) e ci conviene scegliere S20nonostante il bias negativo in quanto ha un MSE minore per ogni valore di en. 2.4 Uniform Minimum Variance Unbiased Estimator Definizione 2.6 (UMVUE) .Uno stimatore T⇤si dice UMVUE per ✓se: E✓[T⇤]= ✓ e 8T stimatore non distorto di ✓ =) Var ✓(T⇤) Var ✓(T) 8✓ Teorema 2.1 (Disuguaglianza di Cramer-Rao) .Sia ~X un campione casuale e T(~x) uno stimatore di ✓sotto le seguenti ipotesi: 1) Supporto di ( X1,...,X n) non dipende da ✓ 2) dd✓E✓[T]= dd✓ R RnT(~x)f(~x ,✓ )d~x= R RnT(~x)@@✓f(~x ,✓ )d~x 3) E✓[T2]< +1 Allora 0< E✓[ ✓ @ @✓ log f(~X,✓ ) ◆2 ]< +1 =) Var ✓(T) dd✓E✓[T]2 E✓[ ⇣@@✓ log f(~X,✓ ) ⌘2] 9 Corollario. Il denominatore del limite di Cramer-Rao ´e detto informazione di Fisher: In(✓)=E ✓ "✓ @ @✓ log f(~X,✓ ) ◆2# Dimostrazione. Applicazione della disuguaglianza di Cauchy-Schwarz: |Cov( V, W )|2 Var( V)Var( W ) Var( V) Cov 2(V, W ) Var( W ) Scegliamo V = T(~X)e W = @@✓ log f(~X,✓ )e: d d✓E✓[T]= Z RnT(~x)@ @✓ f(~x ,✓ )d~x= Z RnT(~x) @ @✓ log f(~x ,✓ ) f(~x ,✓ )d~x=E ✓[VW ] Dunque dd✓E✓[T]=Cov( V, W ) in quanto E ✓[W ] = 0. Per verificare l’ultima a↵ermazione si osservi che: 0= d d✓1= d d✓ Z Rnf(~x ,✓ )d~x= Z Rn @ @✓ log f(~x ,✓ ) f(~x ,✓ )d~x=E ✓[W ] E, di conseguenza, anche Var( W )=E ✓[ ⇣@@✓ log f(~X,✓ ) ⌘2]. Varianza e covarianza vengono sostituite nella disuguaglianza di Cauchy- Schwarz per ottenere le tesi: Var ✓(T) dd✓E✓[T]2 E✓[ ⇣@@✓ log f(~X,✓ ) ⌘2] Corollario. Dal la dimostrazione ´e possibile notare che il limite inferiore di varianza si ottiene quando T(~X)´e u n a t r a s f o r m a z i o n e l i n e a r e d i @@✓ log f(~X,✓ ). Risulta quindi, che se esiste T(~X)= a@@✓ log f(~X,✓ )+ btale che E✓[T]= ✓, al lora T(~X)´e u n U M V U E . Teorema 2.2 (Rao-Blackwell) .Sia T(~X) uno stimatore non distorto per ✓e W una statistica suciente per ✓, allora: M =E ✓[T|W ] ´e uno stimatore non distorto di ✓e Var( M ) Var( T) Dimostrazione. Mostriamo innanzitutto che M sia una statistica (i.e. non dipenda esplicitamente da ✓): M =E ✓[T|W ]= Z T(x)f(x,✓ |w)dx 10 Ma per definizione di statistica suciente, f(x,✓ |w)= f(x|w)equindi M ´e una statistica. Mostriamo quindi banalmente che M sia non distorto in quanto E✓[M ]=E ✓[E✓[T|W ]] = E ✓[T]= ✓ e che la sua varianza sia inferiore alla varianza di T: Var ✓(T) = Var ✓(E ✓[T|W ]) + E ✓[Var ✓(T|W )] Var ✓(E ✓[T|W ]) = Var ✓(M ) Teorema 2.3 (Unicit`a dell’UMVUE) .Se esiste T(~X) UMVUE, allora ´e unico. Dimostrazione. Per assurdo. Ipotizziamo l’esistenza di T0UMVUE 6= T e consideriamo lo stimatore T⇤= 12(T+T0), ovviamente non distorto e di varianza: Var( T⇤)= 1 4(Var( T) + Var( T0) + 2Cov( T, T 0)) Dove, applicando Cauchy-Schwarz e sostituendo Var( T0) con Var( T) (uguali in quanto entrambi UMVUE), otteniamo: Var( T⇤) 1 4Var( T)+ 1 4Var( T)+ 1 2 pVar( T)Var( T) Var( T⇤) Var( T)= ) Var( T⇤) = Var( T) Ma, se deve valere l’uguaglianza in Cauchy-Schwarz, allora T0= aT + be, per avere la stessa varianza, a= 1, ma quindi per mantenere l’ unbiasedness b=0e quindi T0= T Teorema 2.4 (Lehman & Sche↵´e) .Sia T unbiased per ✓eW una statistica suciente, minimale, e completa , allora: M =E ✓[T|W ] ´e UMVUE per ✓ Dimostrazione. Per il teorema di Rao-Blackwell conosciamo le propriet`a di M . Procediamo per assurdo ipotizzando l’esistenza di T0tale che Var( T0)< Var( M ). Costruiamo allora sempre con Rao-Blackwell M 0=E ✓[T0|W ] e otteniamo che: Var( M 0) Var( T0)< Var( M ) Siccome sia M che M 0sono funzioni di W allora anche M M 0´e funzione di W e, per completezza della statistica deve essere uguale a 0 con probabilit`a 1 (in quanto il valore atteso nullo ´e dato dall’ unbiasedness di entrambi) ma: Pr( M 0= M )=1 = ) Var( M 0) = Var( M ) Portando ad una contraddizione. Concludiamo quindi che @T0tale che Var( T0)< Var( M ) 11 2.5 Informazione di Fisher In(✓)=E ✓ "✓ @ @✓ log f(~X,✓ ) ◆2# Lemma 2.5. Sia ~X un campione i.i.d. e sia In(✓)la sua informazione di Fisher. Al lora In(✓)= nI1(✓)= nE✓ "✓ @ @✓ log f(X1,✓) ◆2# Dimostrazione. In(✓)=E ✓ "✓ @ @✓ log f(~X,✓ ) ◆2# =E ✓ 2 4 @ @✓ nX i=1 log f(Xi,✓) !23 5 =E ✓ 2 4 nX i=1 @ @✓ log f(Xi,✓) !23 5= Var ✓ nX i=1 @ @✓ log f(Xi,✓) ! (per i.i.d.) = nVar ✓ ✓ @ @✓ log f(X1,✓) ◆ = nI1(✓) Lemma 2.6. Se in aggiunta al le ipotesi di Cramer-Rao si ha che: d d✓ Z Rn @ @✓ f(~x ,✓ )d~x= Z Rn @2 @✓ 2f(~x ,✓ )d~x=0 Al lora In(✓)= E✓ @2 @✓ 2log f(~X,✓ ) Dimostrazione. E✓ @2 @✓ 2log f(~X,✓ ) = Z Rn @ @✓ @@✓f(~x ,✓ ) f(~x ,✓ ) ! f(~x ,✓ )d~x = Z Rn f(~x ,✓ )@2 @✓2f(~x ,✓ )@@✓f(~x ,✓ )2 f2(~x ,✓ ) f(~x ,✓ )d~x = Z Rn f(~x ,✓ )@2 @✓2f(~x ,✓ )@@✓f(~x ,✓ )2 f(~x ,✓ ) d~x= Z Rn @@✓f(~x ,✓ )2 f(~x ,✓ ) d~x = Z Rn ✓ @ @✓ log f(~x ,✓ ) ◆2 f(~x ,✓ )d~x= In(✓) 12 Teorema 2.7. Sia ~X un campione casuale di variabili i.i.d. appartenenti alla famiglia esponenziale e tale che 9wj(✓)t.c. dd✓wj(✓)6= 0 e continua 8✓. Allora: 1) Le condizioni di Cramer-Rao sono soddisfatte 2) Tj(~X)= 1n P ni=1 tj(Xi) ´e UMVUE per E[ tj(X)] Dimostrazione. Osserviamo che: 0= d d✓ Z Rh(x)c(✓)ew(✓)t(x)dx = Z Rh(x)c0(✓)ew(✓)t(x)dx+ Z Rh(x)c(✓)ew(✓)t(x)w0(✓)t(x)dx = c0(✓) c(✓)+w0(✓)E ✓[t(X)] Dunque E ✓[t(X)] = 1w0(✓)dd✓log c(✓). Usiamo questa relazione nell’espressione della informazione di Fisher (de- nominatore di Cramer-Rao) per ottenere: In(✓)= nI1(✓)= nE✓ "✓ @ @✓ log f(X,✓ ) ◆2# = nE✓ "✓ @ @✓ (log h(x) + log c(✓)+ w(✓)t(x)) ◆2# = nE✓ "✓ @ @✓ log c(✓)+ w0(✓)t(x) ◆2# = w0(✓)2nVar ✓(t) Ein dd✓E✓[t] (numeratore di Cramer-Rao): d d✓E✓[t]= d d✓ Z Rt(x)h(x)c(✓)ew(✓)t(x)dx = Z Rt(x)h(x)c0(✓)ew(✓)t(x)dx+ Z Rt2(x)h(x)c(✓)ew(✓)t(x)w0(✓)dx = w0(✓)E ✓[t2]+ c0(✓) c(✓)E✓[t]= w0(✓)E ✓[t2]w0(✓)E ✓[t]2= w0(✓)Var ✓(t) E il limite di Cramer-Rao diventa quindi: dd✓E✓[T]2 In(✓) = w0(✓)2Var ✓(t)2 w0(✓)2nVar ✓(t)= Var ✓(t) n = Var ✓(T) 13 3 Test di ipotesi Definizione 3.1 (Ipotesi) .L’ipotesi statistica ´e un’a↵ermazione sui parametri incogniti della legge del campione. In un problema di test di ipotesi dobbi- amo dare due ipotesi alternative, H0detta ipotesi nulla, e H1detta ipotesi alternativa. In generale: ( H0:✓2⇥0 H1:✓2⇥C0 Definizione 3.2 (Test di ipotesi) .Un test di ipotesi ´e una regola che specifica per quali valori del campione rifiuto H0. Questi valori formano la cosiddetta regione critica R = {~x2Rn:rifiuto H0se osservo ~x} 3.1 Likelihood Ratio Test Definizione 3.3 (Statistica test) .Per la verifica del test di ipotesi classico, definiamo la statistica test del LRT: (~x)= sup ✓2⇥0L(✓,~x ) sup ✓2⇥L(✓,~x ) Segue che 8~x (~x)2[0,1] e la regione critica deve essere definita tramite una costante cper cui: R = {~x2Rn:(~x) c} Teorema 3.1. Definiamo: ⇤(t)= sup ✓2⇥0G(✓, t ) sup ✓2⇥G(✓, t ) Dove G ´e l a l i k e l i h o o d d i T statistica suciente . Allora 8~x: ⇤(T(~x)) = (~x) Dimostrazione. Applichiamo il teorema di fattorizzazione per le statistiche sucienti: (~x)= sup ✓2⇥0L(✓,~x ) sup ✓2⇥L(✓,~x )= sup ✓2⇥0f(~x ,✓ ) sup ✓2⇥f(~x ,✓ )= sup ✓2⇥0g(t,✓ )h(~x) sup ✓2⇥g(t,✓ )h(~x) = sup ✓2⇥0g(t,✓ ) sup ✓2⇥g(t,✓ )= sup ✓2⇥0G(✓, t ) sup ✓2⇥G(✓, t )= ⇤(t) 14 3.2 Valutare i test Realt`a v. Decisione Accetto H0 Rifiuto H0 H0 OK Errore di tipo I H1 Errore di tipo II OK Definizione 3.4 (Potenza) .La potenza di un test di ipotesi definito da una regione critica R ´e definita come: :⇥ ! [0,1] ✓7! Pr ✓(~X 2R) La funzione potenza ideale avrebbe una potenza nulla 8✓2 ⇥0e potenza pari a 1 8✓2⇥C0 Figure 1: Esempio di potenza statistica Definizione 3.5 (Livello e dimensione) .Sia (✓) la funzione potenza di un test di ipotesi. (✓)sidir`adi livello ↵se: sup✓2⇥0(✓) ↵ edi dimensione ↵se vale l’uguaglianza: sup✓2⇥0(✓)= ↵ Definizione 3.6 (Non distorsione) .Un test con funzione potenza (✓)´e non distorto se: 8✓C2⇥C0, 8✓02⇥0 (✓C) (✓0) Definizione 3.7 (Uniformly Most Powerful) .Sia Cuna classe di test per veri- ficare: ( H0:✓2⇥0 H1:✓2⇥C0 15 Un test in C con funzione potenza (✓) ´e detto UMP in C se 80(✓)2C e 8✓C2⇥C0: (✓C) 0(✓C) Tipicamente C´e l ’ i n s i e m e d e i t e s t d i l i v e l l o ↵ in modo da non avere UMP inutili con potenze alte in⇥ 0. 16 3.3 Risultati notevoli sugli UMP Teorema 3.2 (Neyman-Pearson) .Consideriamo un test semplice, ovvero dove le ipotesi sono: ( H0:✓= ✓0 H1:✓= ✓1 Allora se: 1) R = {~x2Rn:f(~x ,✓ 1)>f (~x ,✓ 0)} 2) ↵:= Pr ✓0(~X 2R)= (✓0) Implica che: 1) Il test ´e UMP di livello ↵. (Nota bene, nonostante il test sia di dimensione ↵´e UMP di livel lo ↵che implica essere anche UMP di dimensione ↵ed ´e quindi una condizione superiore) 2) Se > 0 allora anche ogni altro UMP test di livello ↵´e anche di dimensione ↵e in aggiunta la loro regione di rifiuto ´e uguale a R amenodiun A tale che Pr ✓0(~X 2A)=Pr ✓1(~X 2A)=0. Dimostrazione. Chiamiamo (✓) la funzione indicatrice di R associata a (✓) e0(✓) la sua equivalente per un qualsiasi altro test di livello ↵: ((~x)0(~x)) ( f(~x ,✓ 1)f (~x ,✓ 0)) 0 8~x Quindi: Z Rn((~x)0(~x)) ( f(~x ,✓ 1)f (~x ,✓ 0)) d ~x 0 Pr ✓1(~x2R)Pr ✓1(~x2R0)Pr ✓0(~x2R)+ Pr ✓0(~x2R0) 0 (✓1)0(✓1) (✓0)+  0(✓0) 0 (✓1)0(✓1)↵ + 0(✓0) 0 Ma siccome 0´e d i l i v e l l o ↵, allora 0(✓0) ↵: (✓1)0(✓1) (✓1)0(✓1)↵ + 0(✓0) 0 Equindi: (✓1) 0(✓1) 1 Supponiamo ora che 0sia anche lui UMP di livello ↵. Allora (✓1)= 0(✓1) e di conseguenza anche 0(✓0)= ↵. Quindi: Z Rn((~x)0(~x)) ( f(~x ,✓ 1)f (~x ,✓ 0)) d ~x=0 e l’unico modo anch´e l’integrale sia nullo ´e che sia 0 quasi ovunque in quanto l’integranda ´e 0. 2 17 Corollario. Come per il LRT, lo stesso risultato vale anche per T statistica suciente grazie al teorema di fattorizzazione. Definizione 3.8 (Monotone Likelihood Ratio) .Data una famiglia di leggi {f(x,✓ ),✓ 2⇥}, ´e detta a MLR se 8✓2>✓ 1: f(x,✓ 2) f(x,✓ 1)´e monotona non decrescente in x Teorema 3.3 (Karlin-Rubin) .Sia un test: ( H0:✓ ✓0 H1:✓>✓ 0 esia T una statistica suciente con legge a MLR. Allora 8t0il test con R = {T>t 0}´e UMP di livello ↵:= Pr ✓0(T>t 0). Dimostrazione. Se la densit`a di T ha un MLR allora, 8✓2>✓ 1e8t: G(t,✓ 2) G(t,✓ 1) e quindi si dimostra che ↵=Pr ✓0(T>t 0) tramite: (✓2) (✓1)= ) sup✓✓0(✓)= (✓0) Per dimostrare che il test ´e UMP ci rifacciamo a Neyman-Pearson, general- izzando al caso con ipotesi non semplici. 3.4 Test UI (IU) Propriet`a. Supponiamo che H0 :✓ 2 ⇥0sia scrivibile come intersezione (unione) di sottoinsiemi ⇥di ⇥ eH1sia ✓2⇥C0. Al lora la regione di rifiuto di H0corrisponde al l’unione (intersezione) del le regioni di rifiuto R. Teorema 3.4. Sia (~x)la likelihood ratio per H0:✓2⇥e(~x)la likelihood rat i o per H0:✓2⇥0. Allora se definiamo T(~x):= inf 2(~x) RT:= {T(~x)