Titolo

Quando e come si visita noisefromamerika

5 commenti (espandi tutti)

Perche' in una regressione con N categorie devi sempre omettere una delle categorie, in modo che gli indicatori delle categorie siano N-1. Se le metti tutte, la regressione non funziona piu' perche' gli indicatori delle varie categorie diventano indistinguibili dalla costante (il livello "base" di visite).

Il termine tecnico e' collinearita'.

La scelta di quale categoria omettere e' assolutamente arbitraria: Andrea ha scelto bibliotheka (immagino) perche' e' quella con visite minori. I parametri associati alle altre categorie vanno interpretati come "rispetto a Bibliotheka". Ad esempio, gli articoli Ex-K generano in media 3.206 visite in piu' rispetto a quelli Bibliotheka.

grazie per risposta, tempo e spiegazione.

Io non capisco tanto bene... mi rendo conto che in campi di studio diversi si usano nomi diversi per le stesse cose, o si usano standard diversi. Da biologo sono un po' confuso e vorrei capire.

In questo esempio, la biblioteca e' l'intercetta? Perche' la chiamate regressione se il fattore 'tipo di articolo' e' una variabile categorica? Cosa rappresenta l'ultima riga 'Costante'?

Grazie per le delucidazioni!

Andrea ha fatto non una "semplice" regressione lineare ma una multinomial logistic regression, che spiega perche' biblioteca e' considerata come referenza. Il motivo e' che le variabili dipendenti che guarda nella regressione (numero di visite e numero di commenti) non possono essere  considerate statisticamente independenti l'una dall'altra (al contrario, credo che sia ragionevole assumere che siano ben correlate, il che toglie statistical power)

No no e' una regressione lineare, non c'e' bisogno di fare logistic. Non ho usato la variabile categorica "tipo di pubbicazione" ma ho creato dummies (variabili con valore zero o uno) per ogni tipo, omettendone ovviamente uno (che si', diventa la costante).