Bellezza Pancake Tagli di capelli

L'analisi di regressione è un metodo statistico per studiare la dipendenza di una variabile casuale dalle variabili. Equazione di regressione. Equazione di regressione multipla Analisi di regressione in breve

Analisi di regressioneè alla base della creazione della maggior parte dei modelli econometrici, che includono modelli di stima dei costi. Per costruire modelli di valutazione, questo metodo può essere utilizzato se il numero di analoghi (oggetti comparabili) e il numero di fattori di costo (elementi di confronto) sono correlati tra loro come segue: N> (5-g-10)x A, quelli. dovrebbero esserci 5-10 volte più analoghi rispetto ai fattori di costo. Lo stesso requisito per il rapporto tra la quantità di dati e il numero di fattori si applica ad altri compiti: stabilire una connessione tra il costo e i parametri di consumo dell'oggetto; giustificazione della procedura di calcolo degli indici correttivi; identificare le tendenze dei prezzi; stabilire una connessione tra usura e cambiamenti nei fattori che influenzano; ottenere dipendenze per il calcolo degli standard di costo, ecc. Il rispetto di questo requisito è necessario per ridurre la probabilità di lavorare con un campione di dati che non soddisfa il requisito della distribuzione normale delle variabili casuali.

La relazione di regressione riflette solo la tendenza media delle variazioni nella variabile risultante, ad esempio il costo, dalle variazioni di una o più variabili fattore, ad esempio ubicazione, numero di stanze, area, piano, ecc. Questa è la differenza tra una relazione di regressione e una funzionale, in cui il valore della variabile risultante è rigorosamente definito per un dato valore delle variabili fattore.

La presenza di una relazione di regressione / tra i risultanti A e variabili fattore x pag ..., xk(fattori) indica che questa relazione è determinata non solo dall'influenza di variabili fattore selezionate, ma anche dall'influenza di variabili, alcune delle quali sono generalmente sconosciute, altre non possono essere valutate e prese in considerazione:

L'influenza delle variabili non contabilizzate è indicata dal secondo termine di questa equazione ?, che prende il nome di errore di approssimazione.

Si distinguono i seguenti tipi di dipendenze di regressione:

  • ? regressione appaiata - relazione tra due variabili (risultante e fattore);
  • ? regressione multipla: la relazione tra una variabile di risultato e due o più variabili fattore incluse nello studio.

Il compito principale dell'analisi di regressione è quantificare la vicinanza della relazione tra variabili (nella regressione appaiata) e variabili multiple (nella regressione multipla). La vicinanza della connessione è espressa quantitativamente dal coefficiente di correlazione.

L'utilizzo dell'analisi di regressione consente di stabilire il modello di influenza dei principali fattori (caratteristiche edonistiche) sull'indicatore studiato, sia nel loro insieme che per ciascuno di essi separatamente. Con l'aiuto dell'analisi di regressione, come metodo di statistica matematica, è possibile, in primo luogo, trovare e descrivere la forma della dipendenza analitica della variabile risultante (cercata) da quelle fattoriali e, in secondo luogo, valutare la vicinanza di questa dipendenza.

Risolvendo il primo problema si ottiene un modello matematico di regressione, con l'aiuto del quale viene poi calcolato l'indicatore desiderato per determinati valori dei fattori. La risoluzione del secondo problema ci consente di stabilire l'affidabilità del risultato calcolato.

Pertanto, l'analisi di regressione può essere definita come un insieme di procedure formali (matematiche) progettate per misurare la vicinanza, la direzione e l'espressione analitica della forma di connessione tra le variabili risultanti e quelle fattoriali, vale a dire il risultato di tale analisi dovrebbe essere un modello statistico strutturalmente e quantitativamente definito della forma:

Dove sì - il valore medio della variabile risultante (l'indicatore desiderato, ad esempio, costo, affitto, tasso di capitalizzazione) di N le sue osservazioni; x - valore della variabile fattore (/esimo fattore di costo); A - numero di variabili fattore.

Funzione f(x l ,...,x lc), la descrizione della dipendenza della variabile risultante dai fattori fattoriali è chiamata equazione (funzione) di regressione. Il termine "regressione" (regressione (latino) - ritiro, ritorno a qualcosa) è associato alle specificità di uno dei problemi specifici risolti nella fase di formazione del metodo e attualmente non riflette l'intera essenza del metodo, ma continua ad essere utilizzato.

L’analisi di regressione generalmente comprende i seguenti passaggi:

  • ? formare un campione di oggetti omogenei e raccogliere le prime informazioni su questi oggetti;
  • ? selezione dei principali fattori che influenzano la variabile risultante;
  • ? controllando la normalità del campione utilizzando X 2 o prova binomiale;
  • ? accettazione di un'ipotesi sulla forma della comunicazione;
  • ? elaborazione di dati matematici;
  • ? ottenere un modello di regressione;
  • ? valutazione dei suoi indicatori statistici;
  • ? calcoli di verifica utilizzando un modello di regressione;
  • ? analisi dei risultati.

La sequenza di operazioni specificata avviene quando si studia sia una relazione accoppiata tra una variabile fattore e una variabile risultante, sia una relazione multipla tra una variabile risultante e diversi fattori.

L'uso dell'analisi di regressione impone determinati requisiti sulle informazioni iniziali:

  • ? il campione statistico degli oggetti deve essere omogeneo dal punto di vista funzionale e strutturale-tecnologico;
  • ? abbastanza numerosi;
  • ? l'indicatore di costo in studio - la variabile risultante (prezzo, costo, spese) - deve essere portato alle stesse condizioni per il suo calcolo per tutti gli oggetti del campione;
  • ? le variabili fattoriali devono essere misurate con sufficiente precisione;
  • ? le variabili fattore devono essere indipendenti o minimamente dipendenti.

I requisiti di omogeneità e completezza del campione sono in conflitto: quanto più rigorosa è la selezione degli oggetti in base alla loro omogeneità, tanto più piccolo è il campione ottenuto, e, viceversa, per allargare il campione è necessario includere oggetti poco simili a quelli l'un l'altro.

Dopo aver raccolto i dati su un gruppo di oggetti omogenei, questi vengono analizzati per stabilire la forma di connessione tra le variabili risultanti e quelle fattoriali sotto forma di una linea di regressione teorica. Il processo per trovare una retta di regressione teorica consiste nella scelta ragionevole della curva di approssimazione e nel calcolo dei coefficienti della sua equazione. La retta di regressione è una curva regolare (in un caso particolare una linea retta) che descrive, utilizzando una funzione matematica, l'andamento generale della relazione studiata e smussa le emissioni irregolari e casuali derivanti dall'influenza di fattori collaterali.

Per visualizzare le dipendenze della regressione accoppiata nelle attività di valutazione, vengono spesso utilizzate le seguenti funzioni: lineare - y - uno 0 + ars + s energia - y - aj&i + s indicativo - sì - esponenziale lineare - y - a 0 + ap* + c. Qui - e errore di approssimazione causato dall'azione di fattori casuali non contabilizzati.

In queste funzioni, y è la variabile risultante; x - variabile fattore (fattore); UN 0 , ar a 2 - parametri del modello di regressione, coefficienti di regressione.

Il modello esponenziale lineare appartiene alla classe dei cosiddetti modelli ibridi della forma:

Dove

dove x (io = 1, /) - valori dei fattori;

b t (i = 0, /) - coefficienti dell'equazione di regressione.

In questa equazione i componenti A, B E Z corrispondono al costo dei singoli componenti dell'attività da valutare, ad esempio il costo appezzamento di terreno e il costo dei miglioramenti e il parametro Qè comune. È progettato per adeguare il valore di tutti i componenti del bene da valutare a un fattore di influenza comune, come la posizione.

I valori dei fattori che stanno al potere dei coefficienti corrispondenti sono variabili binarie (0 o 1). I fattori alla base della laurea sono variabili discrete o continue.

Anche i fattori associati ai coefficienti di moltiplicazione sono continui o discreti.

La specificazione viene effettuata, di norma, utilizzando un approccio empirico e comprende due fasi:

  • ? tracciare i punti del campo di regressione su un grafico;
  • ? analisi grafica (visiva) del tipo di possibile curva di approssimazione.

Non sempre è possibile selezionare immediatamente il tipo di curva di regressione. Per determinarlo, traccia prima i punti del campo di regressione in base ai dati originali. Quindi traccia visivamente una linea lungo la posizione dei punti, cercando di scoprire lo schema qualitativo della connessione: crescita uniforme o declino uniforme, crescita (diminuzione) con un aumento (diminuzione) del tasso di dinamica, approccio graduale a un certo livello.

Questo approccio empirico è integrato dall'analisi logica, a partire da idee già note sulla natura economica e fisica dei fattori studiati e sulla loro reciproca influenza.

Ad esempio, è noto che le dipendenze delle variabili risultanti - indicatori economici (prezzo, affitto) da una serie di variabili fattore - fattori che formano i prezzi (distanza dal centro dell'insediamento, area, ecc.) non sono lineari in natura, e possono essere descritti in modo abbastanza rigoroso come potenza, esponenziale o funzioni quadratiche. Ma per piccoli intervalli di variazioni dei fattori, è possibile ottenere risultati accettabili utilizzando una funzione lineare.

Se, tuttavia, è ancora impossibile effettuare immediatamente una scelta sicura di una qualsiasi funzione, vengono selezionate due o tre funzioni, vengono calcolati i loro parametri e quindi, utilizzando i criteri appropriati per la vicinanza della connessione, la funzione viene infine selezionato.

In teoria, il processo di regressione per trovare la forma di una curva si chiama specifica modello e i suoi coefficienti - calibrazione modelli.

Se si riscontra che la variabile risultante y dipende da diverse variabili fattore (fattori) x ( , x2 , ..., xk, quindi ricorrono alla costruzione di un modello di regressione multipla. Tipicamente vengono utilizzate tre forme di comunicazione multipla: lineare - y - a 0 + a x x x + a^x2+ ... + akxk, indicativo - y - a 0 a*io a x t- a x b, energia - y - a 0 x x ix 2 a 2. .x^o loro combinazioni.

Le funzioni esponenziali e di potenza sono più universali, poiché approssimano le relazioni non lineari, che sono la maggior parte di quelle studiate nella valutazione delle dipendenze. Inoltre, possono essere utilizzati nella valutazione degli oggetti e nel metodo di modellazione statistica nella valutazione di massa e nel metodo del confronto diretto nella valutazione individuale quando si stabiliscono i fattori di correzione.

Nella fase di calibrazione, i parametri del modello di regressione vengono calcolati utilizzando il metodo dei minimi quadrati, la cui essenza è che la somma delle deviazioni al quadrato dei valori calcolati della variabile risultante A., cioè. calcolato utilizzando l'equazione di accoppiamento selezionata, dai valori effettivi dovrebbe essere minimo:

Valori j) (. e tu. sono noti, quindi Qè una funzione dei soli coefficienti dell'equazione. Per trovare il minimo S devi fare le derivate parziali Q dai coefficienti dell'equazione e uguagliarli a zero:

Di conseguenza, otteniamo il sistema equazioni normali, il cui numero è uguale al numero di coefficienti determinati dell'equazione di regressione desiderata.

Supponiamo di dover trovare i coefficienti equazione lineare y - a 0 + ars. La somma delle deviazioni quadrate ha la forma:

/=1

Differenziare la funzione Q da coefficienti sconosciuti uno 0 e e equiparare le derivate parziali a zero:

Dopo le trasformazioni otteniamo:

Dove P - numero di valori effettivi originali A loro (numero di analoghi).

La procedura data per il calcolo dei coefficienti dell'equazione di regressione è applicabile anche per le dipendenze non lineari, se queste dipendenze possono essere linearizzate, cioè portare ad una forma lineare utilizzando un cambiamento di variabili. Le funzioni di potenza ed esponenziali dopo il logaritmo e l'appropriato cambiamento delle variabili acquisiscono una forma lineare. Ad esempio, una funzione di potenza dopo il logaritmo assume la forma: In y = 1p 0 +una x 1ph. Dopo aver sostituito le variabili Y- In y, L 0 - In e n. X- In x otteniamo una funzione lineare

Y=A0 + cijX, i cui coefficienti si trovano nel modo sopra descritto.

Il metodo dei minimi quadrati viene utilizzato anche per calcolare i coefficienti di un modello di regressione multipla. Pertanto, un sistema di equazioni normali per il calcolo di una funzione lineare con due variabili Xj E x2 dopo una serie di trasformazioni appare così:

Tipicamente, questo sistema di equazioni viene risolto utilizzando metodi di algebra lineare. La funzione di potenza multipla viene ridotta alla forma lineare prendendo i logaritmi e modificando le variabili allo stesso modo della funzione di potenza di coppia.

Quando si utilizzano modelli ibridi, i coefficienti di regressione multipla vengono trovati utilizzando procedure numeriche del metodo delle approssimazioni successive.

Per effettuare una scelta finale tra diverse equazioni di regressione, è necessario testare ciascuna equazione per la forza della relazione, che viene misurata dal coefficiente di correlazione, dalla varianza e dal coefficiente di variazione. Per la valutazione possono essere utilizzati anche i test di Student e di Fisher. Quanto maggiore è la vicinanza della connessione mostrata da una curva, tanto più preferibile è, a parità di tutte le altre condizioni.

Se viene risolto un problema di questa classe, quando è necessario stabilire la dipendenza di un indicatore di costo dai fattori di costo, è comprensibile il desiderio di tenere conto del maggior numero possibile di fattori di influenza e quindi costruire un modello di regressione multipla più accurato . Tuttavia, l’espansione del numero di fattori è ostacolata da due limitazioni oggettive. In primo luogo, per costruire un modello di regressione multipla, è necessario un campione di oggetti molto più ampio rispetto a quello necessario per costruire un modello accoppiato. È generalmente accettato che il numero di oggetti nel campione superi il numero N fattori di almeno 5-10 volte. Ne consegue che per costruire un modello con tre fattori influenzanti, è necessario raccogliere un campione di circa 20 oggetti con un diverso insieme di valori dei fattori. In secondo luogo, i fattori selezionati per il modello nella loro influenza sull’indicatore di costo devono essere sufficientemente indipendenti l’uno dall’altro. Ciò non è facile da garantire, poiché il campione solitamente combina oggetti appartenenti alla stessa famiglia, per cui esiste un cambiamento naturale di molti fattori da oggetto a oggetto.

La qualità dei modelli di regressione viene solitamente verificata utilizzando i seguenti indicatori statistici.

Deviazione standard dell'errore dell'equazione di regressione (errore di stima):

Dove P - dimensione del campione (numero di analoghi);

A - numero di fattori (fattori di costo);

Errore non spiegato dall'equazione di regressione (Figura 3.2);

tu. - il valore effettivo della variabile risultante (ad esempio, costo); sì t - il valore calcolato della variabile risultato.

Questo indicatore è anche chiamato errore standard di stima (errore RMS). Nella figura, i punti indicano valori campione specifici, il simbolo indica la linea dei valori medi del campione e la linea tratteggiata inclinata è la linea di regressione.


Riso. 3.2.

La deviazione standard dell'errore di stima misura la quantità di deviazione dei valori effettivi di y dai corrispondenti valori calcolati A( , ottenuto utilizzando un modello di regressione. Se il campione su cui è costruito il modello è soggetto alla legge della distribuzione normale, allora si può sostenere che il 68% dei valori reali A sono nella gamma A ± &e dalla linea di regressione e il 95% rientra nell'intervallo A ± 2d e. Questo indicatore è conveniente perché le unità di misura sì? corrispondono alle unità di misura A,. A questo proposito, può essere utilizzato per indicare l'accuratezza del risultato ottenuto nel processo di valutazione. Ad esempio, in un certificato di valore è possibile indicare che il valore di mercato è ottenuto utilizzando un modello di regressione V con una probabilità del 95% di essere nell'intervallo da (V -2d,.) A (sì + 2d s).

Coefficiente di variazione della variabile risultante:

Dove sì - il valore medio della variabile risultante (Fig. 3.2).

Nell'analisi di regressione, il coefficiente di variazione var è la deviazione standard del risultato espressa come percentuale della media della variabile di risultato. Il coefficiente di variazione può servire come criterio per le qualità predittive del modello di regressione risultante: minore è il valore var, tanto più elevate sono le qualità predittive del modello. L'utilizzo del coefficiente di variazione è preferibile all'indicatore &e, poiché è un indicatore relativo. Quando si utilizza questo indicatore nella pratica, si può raccomandare di non utilizzare un modello il cui coefficiente di variazione superi il 33%, poiché in questo caso non si può dire che i dati del campione siano soggetti a una legge di distribuzione normale.

Coefficiente di determinazione (coefficiente di correlazione multipla quadrata):

Questo indicatore viene utilizzato per analizzare la qualità complessiva del modello di regressione risultante. Indica quale percentuale della variazione nella variabile risultante è spiegata dall'influenza di tutte le variabili fattore incluse nel modello. Il coefficiente di determinazione è sempre compreso tra zero e uno. Quanto più il valore del coefficiente di determinazione si avvicina all'unità, tanto più modello migliore descrive la serie di dati originale. Il coefficiente di determinazione può essere rappresentato diversamente:

Ecco l'errore spiegato dal modello di regressione,

UN - errore, inspiegabile

modello di regressione. Da un punto di vista economico, questo criterio ci consente di giudicare quale percentuale di variazione dei prezzi è spiegata dall'equazione di regressione.

Il limite esatto di accettabilità dell'indicatore R2È impossibile specificare per tutti i casi. È necessario tenere conto sia della dimensione del campione che dell’interpretazione significativa dell’equazione. Di norma, quando si studiano dati su oggetti dello stesso tipo ottenuti approssimativamente nello stesso momento, il valore R2 non supera il livello di 0,6-0,7. Se tutti gli errori di previsione sono pari a zero, ad es. quando la relazione tra la variabile risultante e quella fattoriale è funzionale, allora R2 =1.

Coefficiente di determinazione corretto:

La necessità di introdurre un coefficiente di determinazione adeguato è spiegata dal fatto che con un aumento del numero di fattori A il consueto coefficiente di determinazione aumenta quasi sempre, ma il numero dei gradi di libertà diminuisce (p-k-1). La regolazione immessa riduce sempre il valore R2, Perché (P - 1) > (p-k- 1). Di conseguenza, il valore R2CKOf) potrebbe addirittura diventare negativo. Ciò significa che il valore R2 era vicino allo zero prima della correzione e la proporzione della varianza della variabile spiegata utilizzando l'equazione di regressione A molto piccolo.

Delle due opzioni per i modelli di regressione che differiscono nel valore del coefficiente di determinazione corretto, ma hanno altri criteri di qualità altrettanto buoni, è preferibile l'opzione con un valore maggiore del coefficiente di determinazione corretto. Il coefficiente di determinazione non viene adeguato se (p - k): k> 20.

Coefficiente di Fisher:

Questo criterio viene utilizzato per valutare la significatività del coefficiente di determinazione. Somma residua dei quadrati rappresenta una misura dell'errore di previsione utilizzando la regressione di valori di costo noti sì... Il suo confronto con la somma dei quadrati della regressione mostra quante volte la dipendenza della regressione predice il risultato meglio della media A. Esiste una tabella dei valori critici FR Coefficiente di Fisher, dipendente dal numero di gradi di libertà del numeratore - A, denominatore v 2 = p-k- 1 e livello di significatività a. Se il valore calcolato del test di Fisher FRè maggiore del valore della tabella, allora l'ipotesi sull'insignificanza del coefficiente di determinazione, vale a dire sulla discrepanza tra le connessioni incorporate nell'equazione di regressione e quelle effettivamente esistenti, con probabilità p = 1 - a viene respinta.

Errore medio di approssimazione(deviazione percentuale media) è calcolata come la differenza relativa media, espressa in percentuale, tra i valori effettivi e calcolati della variabile risultante:

Minore è il valore di questo indicatore, migliori saranno le qualità predittive del modello. Quando questo indicatore non è superiore al 7%, il modello è altamente accurato. Se 8 > 15% indica una precisione insoddisfacente del modello.

Errore standard del coefficiente di regressione:

dove (/I) -1 .- elemento diagonale della matrice (X G X)~ 1 k - numero di fattori;

X- matrice dei valori delle variabili fattore:

X7- matrice trasposta dei valori delle variabili fattore;

(Zhl) _| - matrice inversa della matrice.

Quanto più piccoli sono questi indicatori per ciascun coefficiente di regressione, tanto più affidabile è la stima del corrispondente coefficiente di regressione.

Test di studente (statistica t):

Questo criterio consente di misurare il grado di affidabilità (significatività) della relazione determinata da un dato coefficiente di regressione. Se il valore calcolato T. maggiore del valore della tabella

T av, dove v - p - k - 1 è il numero dei gradi di libertà, allora l'ipotesi che questo coefficiente sia statisticamente non significativo viene scartata con probabilità (100 - a)%. Esistono apposite tabelle di distribuzione / che consentono di determinare il valore critico del criterio in base a un dato livello di significatività a e al numero di gradi di libertà v. Il valore più comunemente utilizzato per a è 5%.

Multicollinearità, cioè. l'effetto delle mutue connessioni tra variabili fattore porta alla necessità di accontentarsi di un numero limitato di esse. Se questo non viene preso in considerazione, puoi ritrovarti con un modello di regressione illogico. Per evitare l'effetto negativo della multicollinearità, i coefficienti di correlazione a coppie vengono calcolati prima di costruire un modello di regressione multipla r xjxj tra le variabili selezionate X. E X

Qui XjX; - il valore medio del prodotto di due variabili fattore;

XjXj- il prodotto dei valori medi di due variabili fattore;

Stima della varianza della variabile fattore x..

Si considera che due variabili siano correlate tra loro (cioè collineari) se il loro coefficiente di correlazione a coppie in valore assoluto è strettamente maggiore di 0,8. In questo caso, una qualsiasi di queste variabili deve essere esclusa dalla considerazione.

Al fine di espandere le capacità di analisi economica dei modelli di regressione risultanti, media coefficienti di elasticità, determinato dalla formula:

Dove Xj- il valore medio della variabile fattore corrispondente;

sì - il valore medio della variabile risultante; un io- coefficiente di regressione per la variabile fattore corrispondente.

Il coefficiente di elasticità mostra di quale percentuale media cambierà il valore della variabile risultante quando la variabile fattore cambia dell'1%, ovvero come la variabile risultante reagisce ai cambiamenti nella variabile fattore. Ad esempio, come reagisce il prezzo del mq? m di superficie dell'appartamento a distanza dal centro urbano.

Dal punto di vista dell'analisi del significato di un particolare coefficiente di regressione, è utile stimare coefficiente parziale di determinazione:

Ecco la stima della varianza del risultato

variabile. Questo coefficiente mostra in quale percentuale la variazione nella variabile risultante è spiegata dalla variazione nella variabile fattore i-esima inclusa nell'equazione di regressione.

  • Le caratteristiche edonistiche sono intese come caratteristiche di un oggetto che riflettono le sue proprietà utili (preziose) dal punto di vista di acquirenti e venditori.

L’analisi di regressione è uno dei metodi più diffusi di ricerca statistica. Può essere utilizzato per stabilire il grado di influenza delle variabili indipendenti sulla variabile dipendente. Microsoft Excel dispone di strumenti progettati per eseguire questo tipo di analisi. Vediamo cosa sono e come utilizzarli.

Ma, per poter utilizzare la funzione che consente di eseguire l'analisi di regressione, è necessario prima attivare il Pacchetto Analisi. Solo allora gli strumenti necessari per questa procedura appariranno sulla barra multifunzione di Excel.


Ora quando andiamo alla scheda "Dati", sulla barra multifunzione nella casella degli strumenti "Analisi" vedremo un nuovo pulsante - "Analisi dei dati".

Tipi di analisi di regressione

Esistono diversi tipi di regressioni:

  • parabolico;
  • calmare;
  • logaritmico;
  • esponenziale;
  • dimostrativo;
  • iperbolico;
  • regressione lineare.

Parleremo più dettagliatamente dell'esecuzione dell'ultimo tipo di analisi di regressione in Excel in seguito.

Regressione lineare in Excel

Di seguito, a titolo di esempio, è riportata una tabella che mostra la temperatura media giornaliera dell'aria esterna e il numero di clienti del negozio per il giorno lavorativo corrispondente. Utilizzando l'analisi di regressione, scopriamo esattamente in che modo le condizioni meteorologiche sotto forma di temperatura dell'aria possono influenzare la frequentazione di un punto vendita.

L'equazione generale della regressione lineare è la seguente: Y = a0 + a1x1 +...+akhk. In questa formula Y significa una variabile, l'influenza dei fattori su cui si cerca di studiare. Nel nostro caso, questo è il numero di acquirenti. Senso X sono i vari fattori che influenzano una variabile. Opzioni UN sono coefficienti di regressione. Cioè, sono loro che determinano il significato di un particolare fattore. Indice k denota il numero totale di questi stessi fattori.


Analisi dei risultati dell'analisi

I risultati dell'analisi di regressione vengono visualizzati sotto forma di tabella nella posizione specificata nelle impostazioni.

Uno degli indicatori principali è R-quadrato. Indica la qualità del modello. Nel nostro caso, questo coefficiente è 0,705 ovvero circa il 70,5%. Questo è un livello di qualità accettabile. Una dipendenza inferiore a 0,5 è negativa.

Un altro indicatore importante si trova nella cella all'intersezione della linea "Intersezione a Y" e colonna "Probabilità". Ciò indica quale valore avrà Y e, nel nostro caso, questo è il numero di acquirenti, con tutti gli altri fattori pari a zero. In questa tabella, questo valore è 58,04.

Valore all'intersezione del grafico "Variabile X1" E "Probabilità" mostra il livello di dipendenza di Y da X. Nel nostro caso, questo è il livello di dipendenza del numero di clienti del negozio dalla temperatura. Un coefficiente di 1,31 è considerato un indicatore di influenza abbastanza elevato.

Come puoi vedere, utilizzando Microsoft Excel è abbastanza semplice creare una tabella di analisi di regressione. Ma solo una persona addestrata può lavorare con i dati di output e comprenderne l'essenza.

Se esiste una correlazione tra fattore e caratteristiche di prestazione, spesso i medici devono stabilire di quanto può cambiare il valore di una caratteristica quando l'altra cambia in un'unità di misura generalmente accettata o stabilita dal ricercatore stesso.

Ad esempio, come cambierà il peso corporeo degli scolari di 1a elementare (ragazze o ragazzi) se la loro altezza aumenta di 1 cm. Per questi scopi, viene utilizzato il metodo dell'analisi di regressione?

Molto spesso, il metodo dell'analisi di regressione viene utilizzato per sviluppare scale normative e standard di sviluppo fisico.

  1. Definizione di regressione. La regressione è una funzione che permette, a partire dal valore medio di una caratteristica, di determinare il valore medio di un'altra caratteristica correlata alla prima.

    A questo scopo vengono utilizzati il ​​coefficiente di regressione e una serie di altri parametri. Ad esempio, è possibile calcolare il numero medio di raffreddori a determinati valori della temperatura media mensile dell'aria nel periodo autunno-inverno.

  2. Determinazione del coefficiente di regressione. Il coefficiente di regressione è il valore assoluto in base al quale, in media, il valore di una caratteristica cambia quando un'altra caratteristica associata cambia di un'unità di misura specificata.
  3. Formula del coefficiente di regressione. R y/x = r xy x (σ y / σ x)
    dove R у/х - coefficiente di regressione;
    r xy - coefficiente di correlazione tra le caratteristiche xey;
    (σ y e σ x) - deviazioni standard delle caratteristiche x e y.

    Nel nostro esempio;
    σ x = 4,6 (deviazione standard della temperatura dell'aria nel periodo autunno-inverno;
    σ y = 8,65 (deviazione standard del numero di malattie infettive e fredde).
    Pertanto, R y/x è il coefficiente di regressione.
    R y/х = -0,96 x (4,6 / 8,65) = 1,8, cioè Quando la temperatura media mensile dell'aria (x) diminuisce di 1 grado, il numero medio di malattie infettive e del raffreddore (y) nel periodo autunno-inverno cambierà di 1,8 casi.

  4. Equazione di regressione. y = M y + R y/x (x - M x)
    dove y è il valore medio della caratteristica, che dovrebbe essere determinato quando cambia il valore medio di un'altra caratteristica (x);
    x è il valore medio noto di un'altra caratteristica;
    R y/x - coefficiente di regressione;
    M x, M y - valori medi noti delle caratteristiche x e y.

    Ad esempio, il numero medio di malattie infettive e raffreddori (y) può essere determinato senza misurazioni speciali a qualsiasi valore medio della temperatura media mensile dell'aria (x). Quindi, se x = - 9°, R y/x = 1,8 malattie, M x = -7°, M y = 20 malattie, allora y = 20 + 1,8 x (9-7) = 20 + 3 ,6 = 23,6 malattie.
    Questa equazione viene applicata nel caso di una relazione lineare tra due caratteristiche (xey).

  5. Scopo dell'equazione di regressione. L'equazione di regressione viene utilizzata per costruire una retta di regressione. Quest'ultimo permette, senza misurazioni speciali, di determinare qualsiasi valore medio (y) di una caratteristica se cambia il valore (x) di un'altra caratteristica. Sulla base di questi dati, viene costruito un grafico: retta di regressione, che può essere utilizzato per determinare il numero medio di raffreddori a qualsiasi valore della temperatura media mensile nell'intervallo tra i valori calcolati del numero di raffreddori.
  6. Regressione Sigma (formula).
    dove σ Rу/х - sigma (deviazione standard) della regressione;
    σ y - deviazione standard della caratteristica y;
    r xy - coefficiente di correlazione tra le caratteristiche x e y.

    Quindi, se σ y - deviazione standard del numero di raffreddori = 8,65; r xy - il coefficiente di correlazione tra il numero di raffreddori (y) e la temperatura media mensile dell'aria nel periodo autunno-inverno (x) è pari a - 0,96, quindi

  7. Assegnazione sigma di regressione. Fornisce una descrizione della misura della diversità della caratteristica risultante (y).

    Ad esempio, caratterizza la diversità del numero di raffreddori ad un certo valore della temperatura media mensile dell'aria nel periodo autunno-inverno. Pertanto, il numero medio di raffreddori a temperatura dell'aria x 1 = -6° può variare da 15,78 malattie a 20,62 malattie.
    A x 2 = -9°, il numero medio di raffreddori può variare da 21,18 malattie a 26,02 malattie, ecc.

    La regressione sigma viene utilizzata per costruire una scala di regressione, che riflette la deviazione dei valori della caratteristica risultante dal suo valore medio tracciato sulla linea di regressione.

  8. Dati richiesti per calcolare e tracciare la scala di regressione
    • coefficiente di regressione - R y/х;
    • equazione di regressione - y = M y + R y/x (x-M x);
    • sigma di regressione - σ Rx/y
  9. Sequenza di calcoli e rappresentazione grafica della scala di regressione.
    • determinare il coefficiente di regressione utilizzando la formula (vedere paragrafo 3). Ad esempio, è necessario determinare quanto cambierà in media il peso corporeo (a una certa età a seconda del sesso) se l'altezza media cambia di 1 cm.
    • utilizzando la formula dell'equazione di regressione (vedi punto 4), determinare quale sarà, ad esempio, il peso corporeo in media (y, y 2, y 3 ...) * per un determinato valore di altezza (x, x 2, x 3 . ..).
      ________________
      * Il valore di "y" deve essere calcolato per almeno tre valori noti di "x".

      Allo stesso tempo, sono noti i valori medi del peso corporeo e dell'altezza (M x e M y) per una certa età e sesso

    • calcolare il sigma della regressione, conoscendo i valori corrispondenti di σ y e r xy e sostituendo i loro valori nella formula (vedi paragrafo 6).
    • sulla base dei valori noti x 1, x 2, x 3 e dei corrispondenti valori medi y 1, y 2 y 3, nonché del più piccolo (y - σ rу/х) e del più grande (y + σ rу /х) i valori (y) costruiscono una scala di regressione.

      Per rappresentare graficamente la scala di regressione, sul grafico vengono innanzitutto segnati i valori x, x2, x3 (asse delle ordinate), ovvero viene costruita una linea di regressione, ad esempio, la dipendenza del peso corporeo (y) dall'altezza (x).

      Successivamente, nei corrispondenti punti 1, y 2, y 3, si annotano i valori numerici del sigma di regressione, cioè trova il più piccolo sul grafico e valore più alto sì 1, sì 2, sì 3.

  10. Uso pratico della scala di regressione. Sono in fase di sviluppo scale e standard normativi, in particolare per lo sviluppo fisico. Utilizzando una scala standard, puoi fornire una valutazione individuale dello sviluppo dei bambini. In questo caso, lo sviluppo fisico è valutato come armonioso se, ad esempio, ad una certa altezza, il peso corporeo del bambino rientra in un sigma di regressione all'unità media calcolata di peso corporeo - (y) per data la crescita(x) (y ± 1 σ Ry/x).

    Lo sviluppo fisico è considerato disarmonico in termini di peso corporeo se il peso corporeo del bambino per una certa altezza rientra nel secondo sigma di regressione: (y ± 2 σ Ry/x)

    Lo sviluppo fisico sarà nettamente disarmonico a causa sia del peso corporeo in eccesso che di quello insufficiente se il peso corporeo per una certa altezza rientra nel terzo sigma di regressione (y ± 3 σ Ry/x).

Secondo i risultati di uno studio statistico sullo sviluppo fisico dei ragazzi di 5 anni, è noto che la loro altezza media (x) è di 109 cm e il loro peso corporeo medio (y) è di 19 kg. Il coefficiente di correlazione tra altezza e peso corporeo è +0,9, le deviazioni standard sono presentate nella tabella.

Necessario:

  • calcolare il coefficiente di regressione;
  • utilizzando l'equazione di regressione, determinare quale sarà il peso corporeo atteso dei bambini di 5 anni con un'altezza pari a x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • calcolare il sigma della regressione, costruire una scala di regressione e presentare graficamente i risultati della sua soluzione;
  • trarre le opportune conclusioni.

Le condizioni del problema e i risultati della sua soluzione sono presentati nella tabella riassuntiva.

Tabella 1

Condizioni problematiche Risultati della risoluzione del problema
equazione di regressione sigma di regressione scala di regressione (peso corporeo previsto (in kg))
M σ rxy R y/x X U σRx/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Altezza (x) 109cm ± 4,4 cm +0,9 0,16 100 cm 17,56 chilogrammi ±0,35 kg 17,21 chilogrammi 17,91 chilogrammi
Massa corporea (y) 19 chilogrammi ± 0,8kg 110 cm 19,16 chilogrammi 18,81 chilogrammi 19,51 chilogrammi
120 cm 20,76 chilogrammi 20,41 chilogrammi 21,11 chilogrammi

Soluzione.

Conclusione. Pertanto, la scala di regressione entro i limiti dei valori calcolati del peso corporeo consente di determinarlo a qualsiasi altro valore di altezza o di valutare lo sviluppo individuale del bambino. Per fare ciò, ripristinare la perpendicolare alla retta di regressione.

  1. Vlasov V.V. Epidemiologia. - M.: GEOTAR-MED, 2004. - 464 p.
  2. Lisitsyn Yu.P. Sanità pubblica e sanità. Libro di testo per le università. - M.: GEOTAR-MED, 2007. - 512 p.
  3. Il medico V.A., Yuryev V.K. Corso di lezioni sulla sanità pubblica e l'assistenza sanitaria: Parte 1. Sanità pubblica. - M.: Medicina, 2003. - 368 p.
  4. Minyaev V.A., Vishnyakov N.I. e altri. Medicina sociale e organizzazione sanitaria (Manuale in 2 volumi). - San Pietroburgo, 1998. -528 p.
  5. Kucherenko V.Z., Agarkov N.M. e altri. Igiene sociale e organizzazione sanitaria ( Esercitazione) - Mosca, 2000. - 432 p.
  6. S. Glanz. Statistica medica e biologica. Traduzione dall'inglese - M., Praktika, 1998. - 459 pag.

Analisi di regressione metodo di modellizzazione dei dati misurati e studio delle loro proprietà. I dati sono costituiti da coppie di valori variabile dipendente(variabile di risposta) e variabile indipendente(variabile esplicativa). Un modello di regressione è una funzione della variabile indipendente e dei parametri con l'aggiunta di una variabile casuale. I parametri del modello vengono adattati in modo che il modello si adatti al meglio ai dati. Il criterio per la qualità dell'approssimazione (funzione obiettivo) è solitamente l'errore quadratico medio: la somma dei quadrati della differenza tra i valori del modello e la variabile dipendente per tutti i valori della variabile indipendente come un discussione. Ramo dell'analisi di regressione della statistica matematica e dell'apprendimento automatico. Si presuppone che la variabile dipendente sia la somma dei valori di un modello e di una variabile casuale. Vengono fatte delle ipotesi riguardo alla natura della distribuzione di questa quantità, chiamate ipotesi di generazione dei dati. Per confermare o confutare questa ipotesi vengono eseguiti test statistici chiamati analisi dei residui. Si presuppone che la variabile indipendente non contenga errori. L'analisi di regressione viene utilizzata per previsioni, analisi di serie temporali, test di ipotesi e identificazione di relazioni nascoste nei dati.

Definizione di analisi di regressione

Un campione potrebbe non essere una funzione ma una relazione. Ad esempio, i dati per costruire una regressione potrebbero essere così: . In un campione di questo tipo, un valore variabile corrisponde a diversi valori variabili.

Regressione lineare

La regressione lineare presuppone che la funzione dipenda linearmente dai parametri. In questo caso la dipendenza lineare dalla variabile libera non è necessaria,

Nel caso in cui la funzione di regressione lineare abbia la forma

ecco le componenti del vettore.

I valori dei parametri nel caso della regressione lineare si trovano utilizzando il metodo dei minimi quadrati. L'utilizzo di questo metodo è giustificato dall'ipotesi di una distribuzione gaussiana della variabile casuale.

Vengono chiamate le differenze tra i valori effettivi della variabile dipendente e quelli ricostruiti residui di regressione(residui). In letteratura vengono utilizzati anche sinonimi: residui E errori. Una delle valutazioni importanti del criterio di qualità della dipendenza ottenuta è la somma dei quadrati dei residui:

Qui somma degli errori al quadrato.

La varianza dei residui viene calcolata utilizzando la formula

Qui errore quadratico medio, errore quadratico medio radice.

I grafici mostrano i campioni, indicati da punti blu, e le relazioni di regressione, indicate da linee continue. La variabile libera è tracciata lungo l'asse delle ascisse, mentre la variabile dipendente è tracciata lungo l'asse delle ordinate. Tutte e tre le dipendenze sono lineari rispetto ai parametri.

Regressione non lineare

Modelli di regressione non lineare - modelli della forma

che non può essere rappresentato nella forma prodotto scalare

dove sono i parametri del modello di regressione, è una variabile libera dallo spazio, è una variabile dipendente, è una variabile casuale ed è una funzione di un dato insieme.

I valori dei parametri nel caso della regressione non lineare vengono trovati utilizzando uno dei metodi di discesa del gradiente, ad esempio l'algoritmo di Levenberg-Marquardt.

A proposito di termini

Il termine "regressione" fu coniato da Francis Galton alla fine del XIX secolo. Galton scoprì che i figli di genitori alti o bassi di solito non ereditano un'altezza eccezionale e chiamò questo fenomeno "regressione alla mediocrità". Inizialmente il termine veniva utilizzato esclusivamente in senso biologico. Dopo il lavoro di Karl Pearson, questo termine cominciò ad essere utilizzato in statistica.

Nella letteratura statistica si distingue tra regressione che coinvolge una variabile libera e regressione che coinvolge più variabili libere unidimensionale E multidimensionale regressione. Si presuppone di utilizzare diverse variabili libere, ovvero un vettore di variabili libere. In casi speciali in cui la variabile libera è uno scalare, sarà denotata da . Distinguere lineare E non lineare regressione. Se il modello di regressione non è una combinazione lineare di funzioni dei parametri, allora si dice che sia una regressione non lineare. In questo caso, il modello può essere una sovrapposizione arbitraria di funzioni di un determinato insieme. I modelli non lineari sono esponenziali, trigonometrici e altri (ad esempio, funzioni di base radiale o perceptron di Rosenblatt), che presuppongono che la relazione tra i parametri e la variabile dipendente sia non lineare.

Distinguere parametrico E non parametrico regressione. È difficile tracciare una linea netta tra questi due tipi di regressioni. Attualmente non esiste un criterio generalmente accettato per distinguere un tipo di modello da un altro. Ad esempio, i modelli lineari sono considerati parametrici, mentre i modelli che includono la media della variabile dipendente sullo spazio della variabile libera sono non parametrici. Esempio di modello di regressione parametrica: predittore lineare, percettrone multistrato. Esempi di modelli di regressione misti: funzioni a base radiale. Media mobile del modello non parametrico in una finestra di una certa larghezza. In generale, la regressione non parametrica differisce dalla regressione parametrica in quanto la variabile dipendente non dipende da un valore della variabile libera, ma da un intorno specifico di questo valore.

Esiste una distinzione tra i termini "approssimazione di funzioni", "approssimazione", "interpolazione" e "regressione". È il seguente.

Approssimazione delle funzioni. Viene data una funzione di un argomento discreto o continuo. È necessario trovare una funzione di una determinata famiglia parametrica, ad esempio tra polinomi algebrici di un dato grado. I parametri della funzione devono fornire un minimo di alcune funzionalità, ad esempio,

Termine approssimazione sinonimo del termine “approssimazione di funzioni”. Utilizzato più spesso quando stiamo parlando su una data funzione in funzione di un argomento discreto. Qui devi anche trovare una funzione che passa più vicino a tutti i punti di una determinata funzione. Questo introduce il concetto residui distanze tra i punti di una funzione continua e i punti corrispondenti di una funzione ad argomento discreto.

Interpolazione funziona un caso speciale del problema di approssimazione, quando è richiesto che in determinati punti chiamati nodi di interpolazione i valori della funzione e della funzione che la approssimava coincidevano. Più in generale, vengono poste restrizioni sui valori di alcuni derivati ​​dei derivati. Cioè, viene data una funzione di un argomento discreto. È necessario trovare una funzione che passi per tutti i punti. In questo caso solitamente non viene utilizzata la metrica, ma spesso viene introdotto il concetto di “uniformità” della funzione desiderata.

L'analisi di regressione e di correlazione sono metodi di ricerca statistica. Questi sono i modi più comuni per mostrare la dipendenza di un parametro da una o più variabili indipendenti.

Di seguito, utilizzando specifici esempi pratici, prenderemo in considerazione queste due analisi molto apprezzate dagli economisti. Daremo anche un esempio di come ottenere risultati combinandoli.

Analisi di regressione in Excel

Mostra l'influenza di alcuni valori (indipendenti, indipendenti) sulla variabile dipendente. Ad esempio, in che modo il numero della popolazione economicamente attiva dipende dal numero di imprese, dai salari e da altri parametri. Oppure: come influiscono gli investimenti esteri, i prezzi dell’energia, ecc. sul livello del PIL.

Il risultato dell'analisi consente di evidenziare le priorità. E sulla base dei fattori principali, prevedere, pianificare lo sviluppo delle aree prioritarie e prendere decisioni di gestione.

La regressione avviene:

  • lineare (y = a + bx);
  • parabolico (y = a + bx + cx 2);
  • esponenziale (y = a * exp(bx));
  • potenza (y = a*x^b);
  • iperbolico (y = b/x + a);
  • logaritmico (y = b * 1n(x) + a);
  • esponenziale (y = a * b^x).

Diamo un'occhiata a un esempio di creazione di un modello di regressione in Excel e interpretazione dei risultati. Prendiamo il tipo di regressione lineare.

Compito. A 6 imprese, la media mensile salari e il numero di dipendenti che se ne sono andati. È necessario determinare la dipendenza del numero di dipendenti in uscita dallo stipendio medio.

Il modello di regressione lineare si presenta così:

Y = a 0 + a 1 x 1 +…+a k x k.

Dove a sono coefficienti di regressione, x sono variabili che influenzano, k è il numero di fattori.

Nel nostro esempio, Y è l'indicatore delle dimissioni dei dipendenti. Il fattore che influenza è il salario (x).

Excel dispone di funzioni integrate che possono aiutarti a calcolare i parametri di un modello di regressione lineare. Ma il componente aggiuntivo "Pacchetto analisi" lo farà più velocemente.

Attiviamo un potente strumento analitico:

Una volta attivato, il componente aggiuntivo sarà disponibile nella scheda Dati.

Ora eseguiamo l'analisi di regressione vera e propria.



Prima di tutto prestiamo attenzione all'R quadrato e ai coefficienti.

R quadrato è il coefficiente di determinazione. Nel nostro esempio – 0,755, ovvero 75,5%. Ciò significa che i parametri calcolati del modello spiegano il 75,5% della relazione tra i parametri studiati. Più alto è il coefficiente di determinazione, migliore è il modello. Buono - superiore a 0,8. Cattivo – inferiore a 0,5 (tale analisi difficilmente può essere considerata ragionevole). Nel nostro esempio – “non male”.

Il coefficiente 64.1428 mostra quale sarà Y se tutte le variabili nel modello in esame sono uguali a 0. Cioè, il valore del parametro analizzato è influenzato anche da altri fattori non descritti nel modello.

Il coefficiente -0,16285 mostra il peso della variabile X su Y. Cioè, lo stipendio mensile medio all'interno di questo modello influenza il numero di coloro che lasciano il lavoro con un peso di -0,16285 (si tratta di un piccolo grado di influenza). Il segno “-” indica un impatto negativo: più alto è lo stipendio, meno persone lasciano il lavoro. Il che è giusto.



Analisi di correlazione in Excel

L'analisi di correlazione aiuta a determinare se esiste una relazione tra gli indicatori in uno o due campioni. Ad esempio, tra il tempo di funzionamento di una macchina e il costo delle riparazioni, il prezzo dell'attrezzatura e la durata di funzionamento, l'altezza e il peso dei bambini, ecc.

Se esiste una connessione, l'aumento di un parametro porta ad un aumento (correlazione positiva) o una diminuzione (negativa) dell'altro. L'analisi di correlazione aiuta l'analista a determinare se il valore di un indicatore può essere utilizzato per fare previsioni possibile significato un altro.

Il coefficiente di correlazione è indicato con r. Varia da +1 a -1. La classificazione delle correlazioni per le diverse aree sarà diversa. Quando il coefficiente è 0, non esiste una relazione lineare tra i campioni.

Diamo un'occhiata a come trovare il coefficiente di correlazione utilizzando Excel.

Per trovare coefficienti accoppiati, viene utilizzata la funzione CORRELAZIONE.

Obiettivo: determinare se esiste una relazione tra il tempo di funzionamento di un tornio e il costo della sua manutenzione.

Posiziona il cursore in qualsiasi cella e premi il pulsante fx.

  1. Nella categoria “Statistica”, seleziona la funzione CORRELAZIONE.
  2. Argomento “Array 1” - il primo intervallo di valori – tempo di funzionamento della macchina: A2:A14.
  3. Argomento “Array 2” - secondo intervallo di valori – costo di riparazione: B2:B14. Fare clic su OK.

Per determinare il tipo di connessione, è necessario considerare il numero assoluto del coefficiente (ogni campo di attività ha la propria scala).

Per l'analisi di correlazione di più parametri (più di 2), è più conveniente utilizzare “Analisi dei dati” (il componente aggiuntivo “Pacchetto di analisi”). È necessario selezionare la correlazione dall'elenco e designare l'array. Tutto.

I coefficienti risultanti verranno visualizzati nella matrice di correlazione. In questo modo:

Analisi di correlazione e regressione

In pratica, queste due tecniche vengono spesso utilizzate insieme.

Esempio:


Ora i dati dell'analisi di regressione sono diventati visibili.