Welcome

Our website is made possible by displaying online advertisements to our visitors.
Please disable your ad blocker to continue.

Management Engineering - Business Data Analytics

Multiple choice test

Domande parte A esame BDA 1) Si vuole valutare l’efficacia di un finanziamento statale alle imprese del settore dei trasporti ritenute più in difficoltà a seguito dello scoppio della pandemia da Covid -19. Pertanto, viene selezionato un campione di 260 imprese di autotrasporti, le quali sono suddivise in due gruppi: trattati e non trattati. Le imprese trattate sono quelle che, nell’ anno 2020, hanno registrato un rapporto tra fatturato e fatturato medio delle imprese che operano nello stesso settore inferiore ad un certo cut -off. La variabile di assegnazione è indicata con x. Per valutare l’efficacia del trattamento, si valuti l’impatto che esso ha generato sul fatturato del 2021 (variabile y), confrontando le imprese trattate con quelle non trattate . Sulla base del seguente output di R, indicare le risposte corrette: • =l kernel utilizzato nella regressione è di tipo “ Uniform”. FALSO , il kernel usato è di tipo Epanechnikov • Poiché l’effetto del trattamento è negativo, le imprese a cui viene assegnato il trattamento registrano un peggioramento del proprio fatturato del 73,1% nel 2021. FALSO , in questo caso, un effetto del trattamento negativo indica un incremento del fatturato del 73,1% da parte delle imprese trattate (tale valore però n on è statisticamente significativo) • Il valore del cut -off è pari al 50% FALSO , il cut -off è pari al 70% • Per la stima dell’impatto del programma, la Regressione Discontinua utilizza meno della metà delle osservazioni del dataset. VERO , sono utilizzate 67 os servazioni (42+25) su 260 totali, circa il 26% • Nessuna delle precedenti FALSO, la 4 è vera. 2) Si supponga di avere a disposizione i dati contenuti nella seguente tabella. Considerare che la porzione di popolazione non trattata è pari a 0,7 e la porzione di popolazione trattata è pari a 0,3. Selezionare le affermazioni corrette. So che: - NE= E(Y1|D=1) –E(Y0|D=0)=12 –4=8 - ATT= E(Y1|D=1) –E(Y0|D=1)=12 –7=5 - ATU= E(Y1|D=0)−E(Y0|D=0)=8 -4=4 - ATE= µATT+(1−µ)ATU=0,3*5+0,7*4=4,3. µ è la percentuale della po polazione trattata . Conseguentemente: a) La differenza tra ATT (Average Treatment on Treated) ed ATU (Average Treatment Effect on Untreated) è inferiore a 3. VERO , la differenza è p ari a ATT -ATU = 5 -4 = 1 < 3. b) L’Average Treatment Effect (ATE) è pari a 4,8. FALSO , ATE = 4,3. c) L’ATT è Maggiore dell N aive Estimator (NE) FALSO , ATT = 5 < NE = 8. d) Il NE = 4. FALSO , il NE = 8. e) Nessuna delle altre è corretta 3) Considerando la rete riportata in figura si individui quali tra le seguenti affermazioni sono vere: a) Il nodo 4 ha un grado pari a 5 che è il massimo della rete. FALSO , Il nodo 4 ha grado pari a 6 perché il link col nodo 1 si conta due volte. b) Vi sono due nodi con grado in entrata pari a 0. FALSO , Solo il nodo 3 non ha li nk in entrata. c) Non vi sono cammini più corti che partono dal nodo 2 o dal nodo 4. FALSO , I due nodi hanno almeno un link in uscita. d) La lunghezza del cammino più corto tra il nodo 3 e il nodo 6 è 5. VERO , È il cammino 3 -> 2 -> 8 -> 4 -> 1 -> 6 e) Il nodo 2 fa part e di 3 triangoli ma ha un clustering coefficient inferiore a quello del nodo 8 se si considera la rete nella sua forma non diretta. VERO , Il nodo 2 fa parte dei triangoli 2 5 4| 2 5 6| 2 8 4. Il nodo 8 invece fa parte solo di quest’ultimo triangolo. Per ca lcolare il clustering coefficient si calcola la frazione di triangoli di cui fa parte il nodo rispetto a tutti i triangoli costruibili fra i suoi link. Dal momento che tutti i link del nodo 8 fanno parte di triangoli il suo CC è 1 al contrario il nodo 2 ha link tra coppie di nodi a loro volta non connessi (ad esempio i nodi 3 e 6) e quindi il suo CC è inferiore a 1. 4) La distribuzione del grado della rete g è stata approssimata con due modelli, m1 ed m2 plottati in figura. Si riportano a destra i parametri e i risultati dei test sul fitting dei modelli. Indicare le risposte corrette tra le seguenti: a) Se il modello m1 fosse un modello di power law, allora avrebbe un esponente pari a 9,431397 VERO b) Il secondo test (compare_distributions (m1,m2)$ p_one_sided) non rifiuta l’ipotesi nulla che il modello 1 non sia migliore del modello 2 nello spiegare i dati. VERO , Il p -value del test è molto alto quindi non si può rifiutare l’ipotesi nulla . c) I tre test considerati assieme indicano che il modello 1 è i l più adatto a modellare i dati. FALSO , indicano che il modello due è il migliore. 5) Sapendo che: la sensitivity di un classificatore è pari al 20%, la specificity è uguale all’80%, nel dataset sono presenti 500 osservazioni positive e 200 osservazioni nega tive. Calcolare l’accuracy e la precision del classificatore. P = 500 N = 200 TPR = 0.2 TNR = 0.8 TP = TPR*P TN = TNR*N Acc = (TP+TN)/(P+N) Print(acc) #0.3714 FP = N – TN Prec = TP/ (TP+FP) Print(prec) #0.714 6) In Figura sono riportati gli scatterplot dell’a ltezza e diametro di sequoie in due parchi nazionali statunitensi (pannelli (a) e (b)), e il dendrogramma risultato di un clustering gerarchico agglomerativo , applicato a uno dei due dataset (distanza euclidea e ward linkage, pannello (c)). a) Il dendrogramma in Figura (c) è compatibile con lo scatterplot riportato in Figura (a) VERO . Il dendrogramma in Figura (c) suggerisce la presenza di 4/5 clusters. b) Il dendrogramma in Figura (c) suggerisce una netta suddivisione in 2 cluster. FALSO . Il dendrogr amma in Figura (c) suggerisce la presenza di 4/5 clusters. c) Il risultato del clustering gerarchico riportato in Figura (c) suggerisce la presenza di un cluster composto da 2 dati (outliers) FALSO . Dalle ramificazioni alla base dal dendrogramma non emerge ne ssun cluster formato da 2 dati. d) Il dendrogramma in Figura (c) suggerisce una netta suddivisione in 8 cluster. FALSO . Il dendrogramma in Figura (c) suggerisce la presenza di 4/5 clusters. 7) La figura seguente riporta il risultato di un albero di classificazione costruito per stimare il genere (variabile risposta dicotomica Maschio/femmina) di una popolazione di canguri adulti australiani, a partire da tre covariate : peso, altezza e lunghezza del pelo. a) L’albero ottenuto classifica ogni canguro p iù alto di 180 cm come maschio. VERO . Seguendo gli splits binari dell’albero di classificazione riportato in figura, per una altezza > 180 cm (ramo sinistro dell’albero) si giunge alla foglia con valore predetto ‘maschio’. b) L'albero ottenuto suggerisce che la lunghezza del pelo del canguro sia una covariata rilevante per determinarne il genere. FALSO . La lunghezza del pelo non è una covariata che l’albero usa per prevedere il genere del canguro (visto che non compare in nessuno split). Di conseguenza, non ri sulta essere una covariata rilevante. c) Tutti i canguri osservati più alti di 180 cm sono maschi. FALSO . L’albero prevede che i canguri più alti di 180 cm siano maschi, ma questo non significa che tutti i canguri osservati più alti di 180 cm siano effettivam ente maschi. d) Il peso del canguro risulta essere una covariata rilevante per determinarne il genere, ma solo se l’altezza del canguro non supera i 180 cm. VERO , infatti, la covariata peso compare solo nel ramo destro dell’albero, ossia quello in cui l’altez za dei canguri è inferiore a 180 cm. 8) Si vogliono analizzare gli utilizzi delle biciclette comunali BikeMi durante i mesi di maggio/giungo e novembre/dicembre a Milano. Nei mesi di maggio/giugno 2021 sono stati registrati i numeri di biciclette noleggiate giornalmente (61 osservazioni), ottenendo un numero medio di biciclette noleggiate al giorno di 2241.7 con varianza 857.1. Nei mesi di dicembre/gennaio (62 osservazioni), il numero medio di biciclette noleggiate al giorno è stato di 2229.3 con v arianza 921.7. Assumendo le due popolazioni gaussiane e a varianze uguali, effettuare un opportuno test di confronto per verificare se l’utilizzo delle biciclette durante i mesi estivi sia stato mediamente maggiore di quello durante i mesi invernali. Si ri portino: a) Il valore della statistica test Svolgimento: S2_pooled = (60*857.1 + 61*921.7) /(60+61) = 889.6669 T = (2241.7 - 2229.3)/ sqrt (889.6669* (1/61 + 1/62)) = 2.30524 b) Il p -value del test Svolgimento: Pval = P(T^(61+62 2) > 2.30524) = 0.0114 c) La conclus ione a cui si giunge a livello 5%: Rifiuto :0, ho evidenza per dire che i consumi d’estate sono maggiori 9) La figura seguente riporta il risultato di due modelli di regressione penalizzata, uno Ridge e uno Lasso. a) Il grafico nel panel (a) si riferisce alla ridge regression mentre quello nel panel (b) alla Lasso regression. VERO . I valori stimati dei coefficienti nel panel (a) sia avvicinano a zero ma non lo raggiungono (ridge regression), mentre quelli nel panel (b) raggiungono lo zero (lasso regression). b) In generale, al crescere del parametro di penalizzazione lambda, i metodi di ridge e lasso regression stimano parametri beta in modulo maggiori. FALSO . Più cresce il parametro di penalizzazione lambda, più vengono penalizzati valori dei coefficienti in modulo maggiori. c) Quando in un modello di ridge o lasso regression il parametro di penalizzazione lambda è uguale a zero, i parametri beta stimati coincidono con quelli OLS, a meno di approssimazioni numeriche. VERO . A meno di approssimazioni numeriche, se lambda =0, ridge e lasso non penalizzano e, di conseguenza, stimano i parametri coincidenti con quelli di OLS. 10) La figura seguente riporta il summary di un modello lineare per la durata di un viaggio in taxi da Milano all’aeroporto di Milano Malpensa (variabile “duration”), in funzione della distanza percorsa (variabile distance ”) e della fascia oraria dello spostamento (variabile categorica “time” = Rush.hour/No -Rush.hour) a) =l fattore “fascia oraria” influisce signi ficativamente sulla durata media del viaggio, ma solo in interazione con la variabile distanza. VERO . =nfatti il coefficiente della dummy ‘timeRush.hour’ non è significativo (pvalue= 0.484), ma quello dell’interazione timeRush.hour:distance ’ lo è (pvalue = 3.63e 06) b) Il p -value dello Shapiro test effettuato sui residui del modello è 0. FALSO . Lo Shapiro test non compare nell’output in figura. c) L’intercetta stimata per i viaggi effettuati durante le ore di punta è 51.8537. FALSO . L’intercetta stimata per i vi aggi effettuati durante le ore di punta è 51.8537 + 8.9647 = 60.8184. d) Il valore della statistica F indica che il modello presenta uno scarso adattamento ai dati. FALSO . Il valore che indica un buono/scarso adattamento ai dati è R^2. 11) Si vuole stimare l’impatto della variabile d (variabile trattamento) sulla variabile Y (variabile outcome). Le variabili a, b e c sono caratteristiche osservabili. Facendo riferimento al seguente output del codice R, selezionare le affermazioni corrette. a) Nel camp ione completo, i t test forniscono evidenza che le unità trattate e le unità non trattate risultano comparabili rispetto alle caratteristiche osservabili a, b, c. FALSO , = t test rigettano l’ipotesi nulla che le unità trattate e non trattate abbiano stessa media rispetto alle variabili osservabili a, b, c. b) Il dataset ristretto dopo la stima del Propensity Score Matching presenta unità trattate e non trattate che risultano comparabili rispetto al alle caratteristiche osservabili a, b, c. VERO , I t test NON r igettano l’ipotesi nulla che le unità trattate e non trattate abbiano stessa media rispetto alle variabili osservabili a, b, c. c) =l Propensity Score Matching incrementa la validità esterna di un’analisi svolta sul dataset ristretto, per la stima dell’impatt o della variabile D sulla variabile Y. FALSO , Il Propensity Score Matching può contribuire ad aumentare la validità interna dell’analisi, ma non ha impatto sulla possibilità di generalizzare i risultati dell’analisi effettuata. d) Il propensity score matching va a stimare una regressione logistica dove la variabile dipendente è la variabile Y e le covariate sono le caratteristiche osservabili a,b , c ed il trattamento d. FALSO , Il Propensity Score Matching va a stimare una regressione logistica dove la variabi le dipendente è la variabile d e le covariate sono le caratteristiche osservabili a, b, c. 12) Si supponga di avere a disposizione i dati contenuti nella seguente tabella. Considerare che la porzione di popolazione non trattata è pari a 0.8 e la porzione di popolazione trattata è pari a 0.2. Selezionare le affermazioni corrette: NE = E(Y1 |D=1) - E(Y0 |D=0) = 10 -3 = 7 ATT = E(Y1 |D=1) -E(Y0 |D=1) = 10 -6 = 4 ATU = E(Y1|D=0) − E(Y0|D=0) = 4 -3 = 1 ATE = µATT + (1 − µ)ATU, dove µ è la percentuale della popolazione trattata = 0.2* 4 + 0.8*1 = 1.6 a) La differenza tra Naive Estimator (NE) ed Average Treatment on Treated (ATT) è superiore a 4. FALSO , La differenza è pari a 3. b) L’ Average Treatment Effect (ATE) è pari a 3.4. FALSO , L’ATE è pari a 1.6. c) L’ATT è superiore all’ATU (Average Treatment Effect on Untreated). VERO , L’ATT è pari a 4, mentre l’ATU è pari a 1. d) L’ATT è pari a 4. VERO . 13) Selezionare le affermazioni corrette: a) L'algoritmo Girvan Newmann usa la betweenness dei nodi per ottenere le comuni tà di una rete. FALSO : usa la betweenness dei link della rete. b) Il grado di un nodo in una rete ha un massimo teorico che non dipende dal numero di link. VERO : è pari a n -1 per le reti non direzionate e 2(n -1) per le reti direzionati. c) Se assumiamo che il pa rametro beta sia pari a 1 calcolare l’algoritmo PageRank è equivalente a calcolare la centralità di Katz riscalando per l’outdegree. VERO d) L'authority score di un nodo è la somma degli hub score dei nodi che fanno parte della sua stessa comunità. FALSO : è l a somma degli hub score dei nodi che puntano a quel nodo. e) Una misura di assortatività della rete è il coefficiente di correlazione Pearson tra il grado dei nodi della rete. Se esso è uguale a 0 la rete è disassortativa. FALSO : per le reti disassortative r è negativo. 14) Un classificatore mostra le seguenti caratteristiche: Sensitivity = 80%, Specificity = 80%, Precision = 2/3. Si calcoli l’accuracy Sensitivity = TP/P = TP/(TP+FN) = 80% TP = 80% (TP+FN) 20% TP = 80% FN FN = TP/4 = 0.25 TP Precision = TP/(TP+FP) = 2/3 TP = (2/3) (TP+FP) (1/3) TP = (2/3) FP FP = TP/2 = 0.5 TP Specificity = TN / (TN+FP) = 80% TN = 80% (TN+FP) 20% TN = 80% FP TN = 4 FP = (4/2) TP = 2 TP Accuracy = (TP+TN)/(TP+TN+FP+FN) = (TP+2TP)/(TP+2TP+0.25TP+0.5TP) = = 3TP/3 .75TP = 3/3.75 = 80% 15) Il seguente dendogramma mostra il risultato di un algoritmo di hierarchical clustering su 9 osservazioni con distanza Euclidea e method =” complete ”. Selezionare le risposte corrette : a) Tagliando il dendogramma a height=6 si ottengono 3 cluster FALSO : tagliando a height=6 si ottengono 2 cluster b) Tagliando il dendogramma a height=2 si ottengono 3 cluster . VERO : tagliando a height=2 si ottengono 3 cluster c) L’osservazione 1 è simile all’osservazione 4 tanto quanto è simile all’osservazione 3 VERO : 1 si fonde con 3 nello stesso punto del dendogramma in cui si fonde con 4 . d) Tagliando il dendogramma a height=2, le osservazioni 2 e 6 apparterrebbero allo stesso cluster . FALSO : tagliando a height=2 le osservazioni 2 e 6 appartengo no a due cluster diversi e) Tagliando il dendogramma a height=4, le osservazioni 6 e 7 apparterebbero allo stesso cluster . VERO : tagliando a height=4, le osservazioni 6 e 7 appartengono allo stesso cluster 16) Indicare quali delle seguenti affermazioni relative al metodo KNN sono da considerarsi corrette: a) Viene tipicamente usato per un output a 2 classi . FALSO : può essere usato con un numero di classi qualsiasi b) Non permette di determinare la significatività della dipendenza da una covariata. VERO : il concetto di covariata non esiste nel KNN c) Costruisce sempre un bordo lineare di classificazione FALSO : il KNN è un metodo non parametrico che identifica dei bordi non lineari, che variano a seconda del k d) Può essere usato con un numero di classi qualsiasi VERO 17) I grafic i in Figura riportano l’output R relativo a una regressione LASSO con parametro lambda di penalizzazione fissato (Figura (a)), e il valore dei coefficienti stimati al variare del parametro lambda (Figura (b); le ascisse sono riportate su scala logaritmica) . Indicare l’affermazione vera. a) Il logaritmo del parametro lambda relativo ai coefficienti in Figura (a) è nel range [ -10, -5] FALSO : tra -10 e -5 si vedono più di 6 coefficienti (come invece appare nella figura a) diversi da 0. b) Il logaritmo del parametro lambda relativo ai coefficienti in Figura (a) è nel range [5,10] FALSO : tra 5e 10 tutti i coefficienti sono a 0. c) Il logaritmo del parametro lambda relativo ai coefficienti in Figura (a) è nel range [ -5,5] VERO : è in questo range di lambda che si passa da 13 coefficienti diversi da 0 a 0 coefficienti diversi da 0. d) La stima dei coefficienti ottenuta in Figura (a) coincide con quella di una regressione OLS (lambda = 0). FALSO : la stima dei coefficienti ottenuta in Figura (a) non corrisponde a lambda=0 e non è quindi uguale a quella di una regressione OLS. 18) Il grafico in Figura presenta il biplot relativo all'Analisi delle Componenti Principali di due variabili x e y (pannello a), e i barplot dei loadings lungo le prime due compone nte principali (pannelli b c). Indicare le affermazioni vere: a) La prima componente principale rappresenta una media delle variabili x e y. FALSO : la prima componente principale rappresenta solo la variabile x b) Scores alti lungo la seconda componente princi pali sono associati a valori più bassi della media per la variabile y VERO : la seconda componente principale cresce inversamente alla variabile y c) Una componente principale è sufficiente a spiegare l'intera variabilità del dataset. VERO : la prima componente principale spiega il 99.99% della variabilità totale d) Le variabili originali sono scorrelate VERO : al crescere della x, la y non ha un andamento lineare definito (non cresce e non decresce) 19) Se in un test d'ipotesi unilatero per la differenza delle medie tra due popolazioni gaussiane con livello di significatività 5% il p -value è 0.036, allora: a) rifiuto l'ipotesi nulla VERO : il p -value è il più piccolo valore per cui rifiuto. Quindi, rifiuto per qualsiasi valore di alpha > p -value b) concludo che le medi e delle due popolazioni sono diverse VERO : al 5% rifiuto H0 e quindi le medie sono diverse c) non ho evidenza per rifiutare l'ipotesi nulla FALSO : visto che 0.05 > 0.036, rifiuto H0 d) la probabilità di errore di I tipo è 0.025 e la probabilità di errore di II t ipo 0.036 FALSO : il p -value non è l’errore di == tipo e alpha è l’errore di = tipo 20) Nel contesto della validazione interna, con il termine "errore di test" ci si riferisce: a) all’errore medio che si ottiene utilizzando il modello sullo stesso insieme di dati usato per calibrare il modello FALSO : l’errore di test si calcola sull’insieme di dati non utilizzato per calibrare il modello (che viene invece chiamato training set). b) all’errore medio che si ottiene utilizzando il metodo per prevedere la risposta su una nuova osservazione, che non è stata usata per stimare il modello. VERO c) ad una quantità che è sempre inferiore all'errore di training FALSO : solitamente ci si aspetta che l’errore di test sia maggiore dell’errore di training d) ad una quantità che viene tendenzialmente sottostimata dall'errore di training VERO : vedi punto sopra 21) il g overno it aliano vuole promuovere un programma di sensibilizzazione contro l ’obesità . In particolare, risultano oggetto del programma gli individui con un rappo rto altezza/peso superiore a 1.5 . per stimare l ’effetto di tale programma viene effettuata l ’analisi riportata nell ’output del codice R riporta to in figura. Selezionare le affermazioni corrette: a) La figura mostra l’output di una Regressione Discontinua di tipo fuzzy. FALSO , la regressione discontinua è di tipo sharp, dal momento che come argomento della funzione rdd non è stata specificata una variabile «eleggibilità per il trattamento» diversa rispetto alla variabile «assegnazione del trattamento» (rapporto altezza -peso) . b) Il prog ramma ha un impatto statisticamente non significativo sulla riduzione di peso ad un livello di significatività del 10%. VERO , si osservi il p -value del coefficiente stimato nella slide precedente . c) Per la stima dell’impatto del programma la Regressione Discont inua utilizza meno del 55% delle osservazioni contenute nel dataset fuzzy. FALSO , il numero effettivo di osservazioni utilizzato è 598 (308+290), corrispondente al 59.8% delle osservazioni del dataset . d) L’ordine del polinomio locale utilizzato per stimare il modello è pari a 3 . FALSO , l’ordine del polinomio locale è 2 (parametro p) . e) Il coefficien te stimato ( -0.034) corrisponde al parametro � del seguente modello di regressione parametrico: ��= �+ �1�+ �2�2+ ��+ �� dove X è la variabile assegnazione (rapporto altezza peso) e D è la variabile trattamento ( ��= 1 se l ’individuo i è oggetto del trattamento, altrimenti val e zero ). FALSO , la regressione proposta è un modello parametrico che utilizza tutte le osservazioni contenute nel dataset. La RDD stimata è un modello non parametrico che utilizza un subset di osservazioni nell’intorno del cut -off . 22) Facendo riferimento al seguente output del codice R, selezionare le risposte corrette: a) La variabile x_2 è una variabile endogena, mentre x_1 ed x_3 sono variabili eso gene. VERO , la variabile x_2 è presente solo nella «first side» della formula, mentre non è presente nella «second side» ed è dunque una variabile endogena. Le variabili x_1 ed x_3 sono presenti sia nella «first» che nella «second side» della fo rmula e sono pertanto esogene . b) L’output ottenuto è il risultato della stima di un modello di regressione discontinua sharp. FALSO , l’output è il risultato di un modello con variabili strumentali . c) Il modello fornisce evidenza che la variabile strumentale utilizzata è rilevante. VERO , si veda il p -value associato al Weak Instrument test . d) Il Sargan test non viene stimato in quanto il numero di variabili strumentali è uguale al numero di variabili conside rate esogene. FALSO , il Sargan test non viene stimato in quanto il numero di variabili strumentali è uguale al numero di variabili considerate endogene . 23) È dato il codice in figura . Per la variabile x_3 l ’unica fonte di bias è dovuta alla correlazione che tale vari abile presenta con il termine di errore eps_1. Calcolare il valore del coefficiente x_3 che si otterrebbe stimando la regressione OLS ( mod_ols) riportato in figura. Sappiamo che la formula pe r calcolare beta_ols è �̂�� = �+ �� (��,��)�� Dunque, avremo �̂�� = 0.1+ 0.667 ∗1.010 1.352 = 0.598 24) Data la rete non diretta e non pesata rappresentata in fi gura selezionare le risposte vere: a) La distanza tra il nodo b e il nodo n è pari a 3 e si può misurare tramite 4 cammini diversi. FALSO : I cammini sono 3: b -e-d-n / b -c-d-n/b -g-m-n. b) La densità della rete riportata alla terza cifra decimale senza arrotondamento è 0.227 . VERO : 15/((12*(12 -1))/2) dove 15 è il numero di link e 12 è il numero di nodi. c) Il nodo col Massimo grado è b. FAL SO , è g. d) La closenes s centrality del nodo g riportata alla terza cifra decimale senza arrotondamento è 0.705. FALSO , è 0.647. 25) Si ripo rta la figura seguente. Con una possibile suddivisione in comunità (1,2,3) e il profilo di modularità ottenuto tramite un algoritmo di community detection . Indicare quale delle seguenti affermazioni è vera. a) La suddivisione rappresentata in figura a sinistra è la migliore. VERO : infatti la modularità raggiunge il massimo con una suddivisione in tre comunità b) Unendo la comunit à 1 e 2 in una singola comunità si ottiene una modularità migliore di una suddivisione in 4 comunità. FALSO : unendo le comunità 1 e 2 si ottiene una rete con sole due comunità e la modularità per una rete con due comunità è minore di quella con 4 comunità . c) Qu alunque suddivisione in comunità è migliore di quella in cui l'unica comunità è composta dall'intera rete. FALSO : tale suddivisione ha sempre una modularità pari a 0, tuttavia se si assegna una singola comunità ad ogni singolo nodo si ottiene una modularità negativa. d) Suddividere la rete in 10 comunità ottiene una modularità migliore rispetto al suddividere la rete in una comunità per nodo. VERO : suddividere la rete in una comunità per nodo ha una modularità negativa, suddividere la rete in 10 comunità ha una m odularità bassa ma comunque positiva. 26) Si vogliono analizzare i consumi di granita nella città di Palermo nei mesi di maggio e giugno. Nel mese di maggio 2 02 1, sono state misurate le quantità di granita vendute in un giorno in 80 gelaterie ottenendo un consumo medio di 5.01kg con varianza 0.194 ; nel mese di giugno 2021 le quantità giornaliere di granit a venduta sono state misurate in 40 gelaterie ottenendo un consumo medio di 12.43kg con varianza 0.178. si vuole verificare se vi è stata una variazione significativa nella media delle vendite tra i mesi di ma ggio e giu gno . Riportare, il valore della statistica spooled , il valore della statistica test, la co nclusione del test a livello 1% - Pooled varia nce : sp2 = (0.194*(80 -1) +0.178*(40 -1)) / (80 -1+40 -1) = 0.1887 - Test a varianze ugual i: s = s qrt(sp2*(1/n1 + 1/n2)) = 0.0841 ; t-test = (5.01 -12.43)/s = -88.20 - Sotto H0 , e ipotizzando che l a Gaussiana dei dati e l ’omogen eità delle varianza nel le due po polazioni, la statistica t è distribuita come una t -student con 118 gradi di libertà . In queste ipotesi rifiuto l’ipotesi nella a livello 1% 27) In figura viene riportato il summary di un modello lineare per spiegare il prezzo di affitto d i una villa in Grecia (variabile “price ” espressa in euro al giorno), sulla base de lla dis tanza dal mare (variabile “dista nce ”) e della presenza di una piscina (variabile du mmy D 1, D1 = 1 se la piscina è presente ). Indicare qua li affermazioni sono vere: a) =l fattore “presenza di una piscina” è significativo. VERO : Il p -value del test sul corrispondente coefficiente è prossimo a 0 (terza riga della tabella dei coefficienti nel summary) . b) La distanza dal mare influisce signifi cativamente sul prezzo medio di affitto di una villa. VERO : Il p -value del test sul corrispondente coefficiente è prossimo a 0 (seconda riga della tabella dei coefficienti nel summary) . c) Si accetta il test F a livello 1%. FALSO : Il test F restituisce un p -value prossimo a 0 (ultima riga del summary) . d) L’indice R2 suggerisce un cattivo adattamento del modello ai dati FALSO : l'indice R2=0.8 78 suggerisce un ottimo adattamento del modello ai dati . e) Al crescere della distanza dal mare si osserva, in media, una crescita significativa del prezzo di affitto di una villa, a parità degli altri fattori . FALSO : al crescere della distanza dal mare si osserv a in media una decrescita significativa del prezzo di affitto, a parità degli altri fattori. Infatti, la stima del corrispondente coefficiente è negativa ( -0.08) e significativamente diversa da 0 (p -value prossimo a 0) . 28) La figura seguente riporta la tabe lla di confu sione, calcolata sul training set, di un classificatore di BAyes, utile a identificare la presenza o assenza di inquinanti da un campione d ’acqua sulla bas e di variabili geochimiche. Riportare il valore dell ’errore di misclassificazione e del true positive rate . L’errore del classificatore stimato dalla tabella di confusione in figura rappr esenta una stima pessimistica dell ’errore di classificazione su un test indipendente? - Accuracy = (56+73)/(56+73+4+8) = 0.915 Errore di misclassificazione = 1 - Accuracy = 0.085 - Sensitivity = Recall = True Positive Rate = TP/P = 73/(73+4) = 0.948 - FALSO . L’errore di misclassificazione calcolato sul training set è una stima OTT=M=ST=CA dell’errore di misclassificazione calcolato su un test set, a causa della possibilità di overfitting . 29) Considerare le immagini nella figura seguente riferite all ’applicazione di un metodo k -means a dati bivariati . Indicare le affermazioni vere e false. a) Il grafico in figura (d) si riferisce alla clusterizzazione dei dat i riportati in figura (a). VERO : Il grafico in figura (d) mostra chiaramente un gomito a K=2, corrispondente alla clusterizzazione che si evince dal grafico in figura (a) b) Il grafico in figura (d) si riferisce alla clusterizzazione dei dati riportati in figura (b). FALSO : Il grafico in figura (d) mostra chiaramente un gomito a K=2, che non trova corrispondenza nella nuvola di punti in figura (b), dove non si evince alcuna clu sterizzazione evidente. c) Il grafico in figura (c) suggerisce una netta divisione in K=3 cluster. FALSO : il grafico in figura (c) non presenta alcun gomito evidente d) Il grafico in figura (c) suggerisce una divisione in K=2 cluster. FALSO : il grafico in figura (c) non presenta alcun gomito evidente e) Il grafico in figura (d) suggerisce una divisione in K=2 cluster. VERO : Il grafico in figura (d) presenta un chiaro gomito per K=2 f) Il grafico in figura (c) suggerisce di non operare una clusterizzazione dei dati (unico clus ter). VERO : il grafico in figura (c) non presenta alcun gomito evidente . 30) In occasione delle semifinali degli europei di calcio, sono stati racoclti dati di vendi ta di sciar pe della nazionale in diverse aree d’Italia . Si è svolto un test ANOVA per verificare la significatività del fattore “area d ’Italia ” sulla media delle vendite otten en do il summary seguente. Riportare le informazioni corrette. a) Il p -value del test ANOVA è alto . VERO : Il p -value del test ANOVA è superiore a tutti i livelli di significatività comunemente usati (1%, 5%, 10%) . b) =l test ANOVA suggerisce che il fattore “a rea d’=talia” ha un’influenza significativa sulla media delle vendite di sciarpe . FALSO : Il p -value=0.287 suggerisce che l'influenza del fattore "area d'Italia" non è significativa (p -value alto) . c) Il p -value indica che, con probabilità 28.7%, il fattore “area d’=talia” ha un’influenza significativa sulla media delle vendite di sciarpe. FALSO : Il p -value indica che, sotto H0, la probabilità di osservare un valore della statistica test maggiore di quella osservata dal campione è 28.7%. d) Sotto H0, la statistica F del test ANOVA ha distribuzione t -student con 2 gradi di libertà. FALSO : Sotto H0, la statistica F ha distribuzione F -Fisher con 2 e 161 gradi di libertà F(2,161) e) Il p -value del test F riportato nel summary porta ad accettare l’ipotesi che i residui siano Gauss iani. FALSO : Il p -value del test F riportato nel summary si riferisce alla significatività del fattore "area d' Italia", non alla Gaussianità dei residui . 31) È dato il seguente DAG ( Directed Acyclic Graph) che descr ive le relazioni tra le diverse variabili. In particolare, Y è la variabile dipendente, D è la variabile trattamento , A ,B e C sono altre variabili osservabi li ed U è una variabile non osservabile . Si supponga di voler studiare l’impatto della variabile D sulla variabile Y. Indicare le affermazioni corrette. a) D è un colllider rispetto a B e C . VERO , le variabili B e C concausano D. b) A è un mediator dell’impatto di D su Y. FALSO , A è un confounder dell’impatto di D su Y. c) Al fine di chiudere tutti i BDP aperti è sufficiente controllare la variabile A. VERO , la variabile A è presente in tutti i BDP aperti e controllare per tal e variabile consente di chiudere tutti i BDP aperti. d) Se la variabile U influenzasse anche la variabile Y (oltre a D), la regressione Y_i= β_0+β_1 D_i+ β_2 A_i+ β_3 B_i+ ε_i fornirebbe una stima biased del coefficiente β_1 . VERO , perché in tal caso si avrebbe un BDP aperto (U → D→ Y; U → Y) che non viene chiuso poiché U non è osservabile. 32) Data la seguente matrice di confusione indicare le affermazioni vere. Calcolo i valori di: a) Precision = 200/(200+40) = 83.33% b) Sensitivity = 200/(200+60) = 76.92% c) Specificity = 400/ (400+40) = 90.91% d) Accuracy = (200+400)/700 = 85.71% 33) È stata stimata la seguente regressione logistica. La variabile dipendente è una dummy pari a 1 se l ’esame è stato superato, l ’un ica covariata è una dummy pari a 1 se è stato frequentato il corso. I risultati della regressione sono come in figura. Si calcoli la probabilità di superare il corso da frequenta nte . a) O = odds b) Ln(o) = 0.4+0.8 = 1.2 c) o = e^1.2 = 3.32 d) p = o/(o+1) = 3.32/4.32 = 76.85% 34) Due reti A e B hanno una distribuzione del grado di tipo power -law con esponente gamma. In figura si osser va per entrambe le distrib uzioni del grado in scala log in base 10. Pertanto, sull ’asse X abbiamo il grado k trasformato in logaritmo in base 10 e sull ’asse Y abbiamo la probabilità di k a sua volta trasformata in logaritmo in base 10. Indicare le affermazioni vere. a) Nella figura il massimo valore del grado k è 10 milioni: FALSO : per il massimo grado in figura è tale per cui log10( k) = 6 quindi k = 10 ^6 b) L'esponente gamma della rete A è maggiore dell'esponente gamma della rete B FALSO c) Il valore assoluto dell'esponente gamma della rete B è pari a 2. FALSO : come conseguenza di quanto visto sopra d) In entrambe le reti il rapporto tra la probabilità di osservare un no do con grado 100 e la probabilità di osservare un nodo con grado 10 è uguale al rapporto tra la probabilità di osservare un nodo con grado 100000 e la probabilità di osservare un nodo di grado 10000 . VERO 35) Definiamo una rete a fiore con n petali come la rete non diretta composta da 1 nodo centrale e da nodi periferici pari a (2*n petali) . Un petalo della rete fiore è costituito da due nodi periferici conness i tra di loro ed entrambi a loro volta c onnessi al nodo centrale. I nodi sui petali non hanno altre connessioni. Il nodo centrale è l ’unico nodo connesso a tutti i su oi petali. Il coefficiente di clustering del nodo centrale è pari a 0.333 nella rete con 2 petali e a 0.111 nella rete a 5 petali . Selezionare le affermazioni corrette. a) Il coefficiente di clustering del nodo centrale della ret e con 3 petali è pari a 0.4 . FALSO : dagli esempi forniti nel testo possiamo ottenere la relazione tra numero di petali e variabili b) Il coefficiente di cluster ing dei nodi periferici sui petali è sempre pari a 1 VERO : è immediato notare che i nodi sui petali hanno clustering massimo perché il numero di triangoli di cui fanno parte è esattamente uguale al numero di triangoli potenziali di cui potrebbero fare parte . c) Il coefficiente di clustering del nodo centrale di una rete a 63 petali è 0.008 (coefficiente riportato con 3 cifre decimali, senza arrotondamento dell'ultima cifra) . VERO . d) Il grado d ei nodi della rete è sempre pari a 2, ad eccezione del nodo centrale . VERO : tutti i nodi fanno parte di due link soltanto, ad eccezione del nodo centrale 36) Sono stati raccolti i dati relativi agli incassi di un noto locale milanese nei 10 giorni prima del 14/6/21 e nei 10 giorni dopo. Si è r ivelato che l ’incasso medio prima di tale data è stato di 6616 con varianza 1881671 mentre l ’incasso medio dopo oò 14/6/21 è stato di 8384 con varianza 395448 .9. Riportare il valore della statistica test, il p value e la conclusione . a) 3.705 b) 0.001 c) Rifiuto 37) In figura è riportato il summary di un ’ANOVA one way per spiegare il prezzo di vasi tipici siciliani sulla base della loro dimen sione. Riportare il numero di livelli del fattore size, la dimensi one del dataset e se si può ritenere che size sia o meno significativo. a) 3 b) 216 c) Sì 38) Il grafico nel panel di sinistra in figura riporta lo sca tterplot relativo ai dati di vendita di un grande magazzino milanese nel periodo di febb raio -luglio 2019 per diverse categorie di prodotti. Il grafico nel panel di destra riporta invece in dendrogramma ottenuto clusterizzando i dati con un algoritmo gerarchico agglomerativo basato sulla distanza euclidea e il ward linkage. Indicare le aff ermazioni vere: a) Il dendrogramma suggerisce una partizione in 3 cluster FALSO b) Il dendrogramma suggerisce una partizione in 4 cluster FALSO c) La variabile “abbigliamento ” mostra una chi ara suddivisione in 2 cluster VERO d) La variabile “souv enir ” mostra una chiara suddivi sione in 2 cluster FALSO e) La forte dispersione dei dati non consente l’identificazione di un cluster tramite un algoritmo gerarchico agglomerativo. FALSO 39) Si consideri il grafico dei residui in figura . Sia inoltre 0.24 il p value del test di shapiro associato ai dati del QQ Plo t. Indicare le affermazioni vere. a) Sono presenti outliers VERO b) Andrebbe aggiunto al modello un t ermine polinomiale di secondo grado VERO c) Ipotesi di normalità è rispettat a VERO d) Nessuna delle precedenti 40) Sia dato l ’albero di classificazione in figura. Indicare le affermazioni vere. a) In R 2 cadono le osservazioni con X1 t2 VERO 41) Si supponga di addestrare un classificatore binario basato sulla regressione logistica. Allora all’au mentare del threshold (si selezionino le affermazioni vere): a) La sensitivity aumenta b) La sensitivity diminuis ce VERO c) La specificity aumenta VERO d) La specificity diminuisce e) L’accuracy aumenta f) L’accuracy diminuisce 42) Siano date le due reti in figura, entrambe con 9 nodi ma una con 11 link e l’altra con 20. Segnalare quale delle seguenti affermazioni è vera: a) Il massimo grado della rete azzurra è il doppio del massimo grado della rete arancione . VERO , la rete azzurra ha massimo grado 8, quella arancione 4 . b) Vi è solo un nodo col massimo grado nella rete azzurra mentre ve ne sono 3 nella rete arancione . FALSO , i nodi p iù centrali sono: il #1 nella rete azzurra, il #3 e il #5 nella rete arancione. c) La rete azzurra ha un diametro più lungo del diametro della rete arancione . FALSO , è il contrario: la rete arancione ha diametro 5 e la rete azzurra 2. d) La lunghezza del cammino più corto tra il nodo 9 e il 2 è la stessa in entrambe le reti . VERO , in entrambi i casi il cammino più corto ha lunghezza 2. e) Nella rete arancione vi è un solo nodo col massimo clustering coefficient ed è il nodo 3 . FALS O, è il nodo 2. f) La rete arancione ha il 55% dei link del la rete azzurra (11/20). Dato che la densità rete azzur ra è 0.4938272 allora la densità della rete arancione sarà il 55% di essa cioè 0.271605. FALSO . La rete azzurra ha una densità pari a 2*20/(9*8) = 0.555556. Il resto del ragionamento è corretto. 43) Nelle due figure sono riportate due analisi di community detection eseguite su due reti. Le reti sono rappresentate dalle rispettive matrici di adiacenza e sono stati utilizzati due algoritmi: l’algoritmo greedy e l’algoritmo di edge betweenness. Analizzando i risu ltati dell’analisi selezionare quale delle seguenti affermazioni è vera: a) Nella rete 1 vi è una maggiore frequenza di interazioni tra nodi di comunità diverse rispetto alla rete 2. FALSO , la matrice di adiacenza è sparsa nei punti al di fuori delle comunità , al contrario la rete 1 è più densa negli stessi punti con interazioni interne alle comunità meno frequenti. b) La modularità della rete 1 è maggiore della modularità della rete 2 a prescindere dall’algoritmo utilizzato . VERO , il grafico in basso a sinistra della rete 1 raggiunge il picco ad un livello di modularità maggiore. c) La modularità della rete 2 converge più velocemente al suo massimo valore rispetto a lla modularità della rete 1, a prescindere dall’algoritmo utilizzato. FALSO , è il contrario. Il grafico in basso a sinistra della rete 2 raggiunge il picco ad un numero di interazioni maggiore. d) L’algoritmo edge betweenness trova comunità di dimensione divers a nella rete 1. FALSO , la standard deviation della dimensione delle classi è 0. e) L’algoritmo greedy trova comunità di dimensione uguale nella rete 2. VERO , la standard deviation della dimensio ne delle classi è 0. f) Per entrambe le reti gli algoritmi convergono su un numero di comunità pari a 6. FALSO , il comando member ship mostra solo 6 comunità per la rete 1, mentre ne mostra 7 per l’algoritmo edge betweenness nella rete 2. 44) L’azienda farmaceutica XYZ vuole mettere in commercio un nuovo vaccino e vuole valutare l’efficacia della protezione di un vaccino. Pertanto, l’azienda decide di sommistrare il vaccino soltanto ai soggetti ritenuti più fragili (di età uguale o superiore ad un certo valore di cut -off della variabile age). Successivamente, l’ azienda seleziona un campione di 1.000 persone che hanno contratto la malattia, di età compresa tra i 18 e i 99 anni, e decide di valutare il peggioramento del loro stato di salute dopo essersi ammalati. I soggetti inclusi nel campione e di età uguale o superiore al cut -off sono stati tutti vaccinati. L’indicatore utilizzato per valutare il peggioramento dello stato di salute di un individuo del campione è una variabile continua (health), compresa tra 0 (peggior stato di salute) e 1 (miglior stato di salute). Sulla base del seguente output di R, selezionare le risposte corrette . a) Il cut -off della variabile age è pari a 70 anni. FALSO , il cut -off è pari a 65 anni (parametro c) . b) =l McCrary sorting test rifiuta l’ipotesi nulla di assenza di discontinuità. VERO , infatti il test rifiuta l’ipotesi nulla secondo cui non è presente discontinuità nell’intorno del cut -off . c) Il modello è stimato mediante un polinomio locale di secondo grado. FALSO , il polinomio utilizzato è di primo grado (param etro p) . d) L’output del codice R mostra una regressione di tipo sharp. VERO , la regressione è di tipo sharp in quanto come argomento della funzione rdrobust non viene specificata una variabile «eleggibi lità per il trattamento» diversa rispetto alla variabile «assegnazione del trattamento» (age) e) Il kernel utilizzato nella regressione è di tipo Epanechnikov e il coefficiente ha un impatto statisticamente significativo sul miglioramento della salute ad un livello di significatività del 5%. FALSO , viene utilizzato un kernel di tipo triangular e la significatività del modello è inferiore al 5% . 45) Sulla base dei seguenti output del codice R, selezionare le risposte corrette . a) L’elevata correlazione tra la variabile dipendente (y) e una variabile indipendente (x1) suggerisce un problema di endogeneità. FALSO , il problema di endogeneità si presenta quando una variabile indipendente è correlata con il termine di errore . b) =l test Wu :ausman rifiuta l’ipotesi nulla che il modello OLS corrispondente sia unbiased. VERO , il test rifiuta l’ipotesi nulla poiché il p -value è circa 0 . c) Il requisito di esclusività della variabile strumentale (z) è verificabile attraverso una elevata cor relazione tra z e la variabile dipendente (y). FALSO , affinché il requisito di esclusività sia soddisfatto è necessario che Corr(Z, Y|X) = 0 . 46) La tabella seguente contiene le entrate di 11 ristoranti di Aosta , nei mesi di dicembre 2019 e dicembre 2021. Si vuole verificare se esiste una differenza significativa nella media delle entrate dei ristoranti di Aosta tra 2019 e 2 021 . Sotto ipotesi di gaussianità rifiuto il test di ipotesi bilatero a livello 10%. Calcoliamo la differenza media , Si tratta di misurazioni ripetute sulla stessa popolaz ione, non di popolazioni indipendenti, per cui NON bisogna usare Spooled, bisogna procedere ad un t - test per dati accoppiati, sotto ipotesi di Gaussianità . Perciò rifiutiamo l’ipotesi nulla nel test bilatero al 10% . 47) Il summary seguente riporta un modello lineare per spiegare il numero di partecipanti a uno spettacolo di luci a Lione in funzione di giorno , temperatura e condizioni meteo. Indicare le affermazioni vere. a) La dipendenza del numero di partecipanti dalla temperatura non è significativa a livello 10% VERO b) Sotto ipotesi di gaussianità si rifiuta test F a livello 10% VERO La presenza di pioggia non incide significa tivamente sulla media dei partecipanti, poichè il relative p -value è molto alto (43.5%) . Idem per la temperatura (p -value 69.0%) . Si rifiuta l’ipotesi nulla nel test F, poichè il relativo p -value è molto basso (praticamente nullo, < 2e -16 . I gradi di li bertà della statistica F sono 50, come si evince dal summary. I gradi di libertà si calcolano come n - p - 1, perciò il numero di dati usato per stimare il modello è n = 55 . 48) La figura seguente riporta i risultati di un clustering gerarchico agglomerativo (dist euclidea e single linkage) e lo scatterplot dei dati. Indicare le affermazioni vere. Non ci sono zone di stabilità nel dendrogramma che suggeriscano una divisione in 2 cluster . Tagliando a K = 2, effettivamente un unico punto rimane isolato dal resto dei dati . Pertanto, non si ottengono gruppi bilanciati . Dallo scatterplot è evidente ch e è presenta una certa separazione in cluster . a) Tagliando a K= 2 il dendrogramma si isola un singolo outlier . VE RO 49) Il grafico in figura presenta il bplot relativo all ’analisi delle com ponenti principali di variabili standardizzate e i barplot dei loadings lungo le prime due componenti principali. Indicare le affermazioni vere. a) La prima componente principale rappresenta una media delle variabili x.std e y.std. VERO b) Scores alti lungo la seconda componente principale sono associati a valori più bassi della media per l a variabile ystd e più alti della media per la variabile x std . VERO 50) In un test statistico di livello 5% .. a) L’erro re di secondo tipo è ricavabile come “1-potenza ” VER O b) Su 100 ripetizioni della procedura, mi aspetto di rifiutare un’ipotesi nulla vera al più il 5% delle volte. VERO In generale, non esiste alcuna relazione tra le probabilità errore di primo e secondo tipo La definizione di potenza è esattamente il complemento a 1 della probabilità di errore di primo tipo . Rifiutare un’i potesi nulla vera è l’errore di primo tipo, dunque su un gran numero di test mi aspetto di rifiutare un’ipotesi nulla vera in percentuale non superiore al livello di significatività del test . 51) È dato il Directed Acyclic G raph in figura che des crive le relazioni tra le diverse variabili. In particolare , Y è la variabile dipendente , D la trattamento, A, B, C ed E variabili osservabili. Si supponga di voler studiare l ’impatto di D su Y. Selezionare le affermazioni corrette: a) La variabile A costituisce un mediator per la relazione tra la va riabile D e la variabile Y FALSO , la variabile A è un confounder per la relazione tra D ed Y. b) La variabile B è un collider nella relazione tra la variabile D e la variabile Y FALSO , la variabile B è un mediator nella relazione tra la variabile D e la variabi le Y. c) Esistono 3 Back door path aperti. FALSO , esistono 2 back door path aperti. d) Nella regressione �_��= �+ �_1 B+ �_2 C + �_3 D + �_4 E+ ��_�� il parametro �_3 risulta unbiased. FALSO , resta aperto il back door path A→Y ; A→D→B→Y. e) La variabile C è un con founder nella relazione tra D ed Y. VER O 52) Si considerino le tre reti in figura , definire le affermazioni corrette : a) La rete 2 ha un clustering coefficient medio maggiore delle altre due reti . VERO : tutti i nodi fanno parte di triangoli . b) Il grado massimo tra le tre reti si ottiene nella rete 3 ed è pari a 5. FALSO : è pari a 6 . c) Il grado medio della rete 1 è pari a 3 ed è maggiore del grado medio della rete 2. FALSO : il grado medio della rete 1 è 12/5 mentre quello della rete 2 è pari a 3 . d) La densità della rete 3 è 0.761 (arrotondando per difetto) ed è maggiore della densità della rete 1 . FALSO : la densità della rete 3 è pari a 0.619 . 53) In figura è rappresentata la distribuzione empirica dei gradi di una rete insieme a due modelli teorici (M1 ed M2) che approssimano la distribuzione empirica. Sotto la figura sono riportati i p -value dei relativi test sul fitting dei modelli. Sulla base dei risultati dei test a) La curva blu rappresenta la distribuzione M1 VERO b) La curva rossa rappresenta la distribuz ione M1 FALSO c) Con i risultati dei test a disposizione non è possibile rispondere alle domande FALSO 54) Il seguente dataset contiene le 2 features X1 e X2, l'outcome Y e 8 osservazioni Su questo dataset è stato addestrato l'albero decisionale Le lettere A, B, C e D rappresentano il valore predetto nelle foglie dell'albero in c ui sono collocate. Quali sono i valori di A, B, C e D? 55) La prossima settimana si disputerà la partita di pallacanestro Warriors contro Phoenix. Devin è il giocatore di punta dei Phoenix, e giocherà X1 minuti. Stephen è il giocatore di punta dei Warriors, e giocherà X2 minuti. Y è l'evento "Phoenix vincerà la partita". E' stata stimata una regressione logistica per l'evento Y. Il termine noto di tale regressione è pari a -0.6, il coefficiente per X1 è pari a 4.9, mentre il coefficiente per X2 è pari a -3.7. Sapendo che X1=30, X2=40, e che una partita di pallacanestro non può mai finire in pareggio, si calcoli la probabilità che i Warriors vincano la partita. logit(p) = ln(o) = -0.6 + 4.9*30 -3.7* 40 = -1.6 o = e^(ln(o)) = 0.2018 p = o/(1+o) = 0.1679 1-p = 0.8321 17 56) Facendo riferimeto alla domanda precedente, e con gli stessi dati, si sa che, prima della partita, gli scommetitori trasferiranno all'allibratore la scommessa S. Se l'evento Y si dovesse verificare, l'allibratore restituirà agli scommettitori la somma `a*S`. Se l'evento Y non si dovesse verificare, l'allibratore tratterrà la scommessa `S`. Sapendo che S=5000, si calcoli il massimo valore di `a` tale per cui il valore atteso del profitto dell'allibratore sia non negativo . Prof. all = { (S) con (1 -p); (S -a*S) con (p) } E(pi) = + S * (1 -p) + (S -a*S) * p >= 0 => S - S*p + S*p - a*S*p >= 0 => S - a*S*p >= 0 => 1 - a*p >= 0 => a*p a