skönheten Hälsa Högtider

Regressionsanalys är en statistisk metod för att studera en stokastisk variabels beroende av variabler. Regressions ekvation. Multipel regressionsekvation Regressionsanalys i korthet

Regressionsanalys ligger till grund för skapandet av de flesta ekonometriska modeller, bland vilka bör inkluderas kostnadsuppskattningsmodellerna. För att bygga värderingsmodeller kan denna metod användas om antalet analoger (jämförbara objekt) och antalet kostnadsfaktorer (jämförelseelement) korrelerar med varandra enligt följande: P> (5 -g-10) x till, de där. det borde finnas 5-10 gånger fler analoger än kostnadsfaktorer. Samma krav på förhållandet mellan mängden data och antalet faktorer gäller för andra uppgifter: fastställa ett förhållande mellan kostnaden och konsumentparametrarna för ett objekt; motivering av förfarandet för beräkning av korrigerande index; klargörande av pristrender; etablera ett samband mellan slitage och förändringar i påverkande faktorer; erhållande av beroenden för beräkning av kostnadsnormer m.m. Uppfyllelsen av detta krav är nödvändigt för att minska sannolikheten att arbeta med ett dataurval som inte uppfyller kravet på normalfördelning av slumpvariabler.

Regressionssambandet speglar endast den genomsnittliga trenden för den resulterande variabeln, till exempel kostnad, från förändringar i en eller flera faktorvariabler, till exempel plats, antal rum, yta, våning etc. Detta är skillnaden mellan ett regressionsförhållande och ett funktionellt, där värdet på den resulterande variabeln är strikt definierat för ett givet värde av faktorvariabler.

Förekomsten av ett regressionsförhållande / mellan de resulterande och faktorvariabler x sid ..., x k(faktorer) indikerar att detta samband inte bara bestäms av påverkan av de valda faktorvariablerna, utan också av påverkan av variabler, av vilka några är allmänt okända, andra kan inte bedömas och beaktas:

Inverkan av variabler som inte har redovisats betecknas med den andra termen i denna ekvation ?, som kallas approximationsfelet.

Det finns följande typer av regressionsberoende:

  • ? parad regression - förhållandet mellan två variabler (resultant och faktoriell);
  • ? multipel regression - beroende av en resulterande variabel och två eller flera faktorvariabler som ingår i studien.

Huvuduppgiften för regressionsanalys är att kvantifiera närheten av sambandet mellan variabler (i parad regression) och multipla variabler (i multipel regression). Förhållandets täthet kvantifieras av korrelationskoefficienten.

Användningen av regressionsanalys låter dig fastställa mönstret för påverkan av huvudfaktorerna (hedoniska egenskaper) på indikatorn som studeras, både i sin helhet och var och en av dem individuellt. Med hjälp av regressionsanalys, som en metod för matematisk statistik, är det möjligt att dels hitta och beskriva formen för den resulterande (önskade) variabelns analytiska beroende av de faktoriella och dels att uppskatta tätheten av detta beroende.

Genom att lösa det första problemet erhålls en matematisk regressionsmodell med hjälp av vilken den önskade indikatorn sedan beräknas för givna faktorvärden. Lösningen av det andra problemet gör det möjligt att fastställa tillförlitligheten hos det beräknade resultatet.

Således kan regressionsanalys definieras som en uppsättning formella (matematiska) procedurer utformade för att mäta tätheten, riktningen och det analytiska uttrycket av formen av sambandet mellan de resulterande variablerna och faktorvariablerna, dvs. resultatet av en sådan analys bör vara en strukturellt och kvantitativt definierad statistisk modell av formen:

var y - medelvärdet av den resulterande variabeln (den önskade indikatorn, till exempel kostnad, hyra, kapitaliseringsgrad) över P hennes iakttagelser; x är värdet av faktorvariabeln (/-:te kostnadsfaktorn); till - antal faktorvariabler.

Fungera f(x l ,...,x lc), att beskriva beroendet av den resulterande variabeln av de faktoriella kallas regressionsekvationen (funktion). Termen "regression" (regression (lat.) - retirera, återgå till något) är förknippad med detaljerna i en av de specifika uppgifterna som löstes i det skede då metoden bildades, och återspeglar för närvarande inte hela essensen av metoden, men fortsätter att användas.

Regressionsanalys inkluderar i allmänhet följande steg:

  • ? bildande av ett urval av homogena objekt och insamling av initial information om dessa objekt;
  • ? urval av de viktigaste faktorerna som påverkar den resulterande variabeln;
  • ? kontrollerar provet för normalitet med hjälp av X 2 eller binomialkriterium;
  • ? acceptans av hypotesen om kommunikationsformen;
  • ? matematisk databehandling;
  • ? erhållande av en regressionsmodell;
  • ? utvärdering av dess statistiska indikatorer;
  • ? verifieringsberäkningar med hjälp av en regressionsmodell;
  • ? analys av resultat.

Den specificerade sekvensen av operationer äger rum i studien av både ett parsamband mellan en faktorvariabel och en resulterande variabel, och ett multipelsamband mellan den resulterande variabeln och flera faktorvariabler.

Användningen av regressionsanalys ställer vissa krav på den initiala informationen:

  • ? ett statistiskt urval av objekt bör vara homogent i funktionella och konstruktiv-teknologiska termer;
  • ? ganska många;
  • ? kostnadsindikatorn som studeras - den resulterande variabeln (pris, kostnad, kostnader) - måste reduceras till samma villkor för dess beräkning för alla objekt i urvalet;
  • ? faktorvariabler måste mätas tillräckligt noggrant;
  • ? faktorvariabler måste vara oberoende eller minimalt beroende.

Kraven på provets homogenitet och fullständighet är i konflikt: ju striktare urvalet av objekt utförs enligt deras homogenitet, desto mindre tas provet emot, och omvänt, för att förstora provet, är det nödvändigt att inkludera objekt som inte är särskilt lika varandra.

Efter att data har samlats in för en grupp homogena objekt analyseras de för att fastställa formen av sambandet mellan de resulterande och faktorvariablerna i form av en teoretisk regressionslinje. Processen att hitta en teoretisk regressionslinje består av ett rimligt val av en approximativ kurva och beräkning av koefficienterna för dess ekvation. Regressionslinjen är en jämn kurva (i ett särskilt fall en rät linje) som med hjälp av en matematisk funktion beskriver den allmänna trenden för beroendet som studeras och jämnar ut oregelbundna, slumpmässiga extremvärden från påverkan av sidofaktorer.

För att visa parade regressionsberoenden i bedömningsuppgifter används oftast följande funktioner: linjär - y - a 0 + ars + s kraft - y - aj&i + c demonstrativt - y - linjär exponentiell - y - a 0 + ar * + s. Här - e approximationsfel på grund av verkan av slumpmässiga faktorer som inte har redovisats.

I dessa funktioner är y den resulterande variabeln; x - faktorvariabel (faktor); men 0 , a r a 2 - regressionsmodellparametrar, regressionskoefficienter.

Den linjära exponentialmodellen tillhör klassen av så kallade hybridmodeller av formen:

var

där x (i = 1, /) - värden på faktorer;

b t (i = 0, /) är koefficienterna för regressionsekvationen.

I denna ekvation, komponenterna A, B Och Z motsvarar kostnaden för enskilda komponenter i tillgången som värderas, till exempel kostnaden för en tomt och kostnaden för förbättringar, och parametern F det är vanligt. Den är utformad för att justera värdet av alla komponenter i tillgången som värderas för en gemensam påverkansfaktor, såsom plats.

Värdena på faktorer som är i graden av motsvarande koefficienter är binära variabler (0 eller 1). De faktorer som ligger till grund för examen är diskreta eller kontinuerliga variabler.

Faktorer associerade med muär också kontinuerliga eller diskreta.

Specifikationen utförs som regel med hjälp av ett empiriskt tillvägagångssätt och inkluderar två steg:

  • ? plotta punkter för regressionsfältet på grafen;
  • ? grafisk (visuell) analys av typen av en möjlig approximerande kurva.

Typen av regressionskurva är inte alltid omedelbart valbar. För att bestämma det, plottas regressionsfältets punkter först på grafen enligt initialdata. Sedan ritas en linje visuellt längs punkternas position, för att försöka ta reda på det kvalitativa mönstret för anslutningen: enhetlig tillväxt eller enhetlig minskning, tillväxt (minskning) med en ökning (minskning) av dynamikens hastighet, ett smidigt tillvägagångssätt till en viss nivå.

Detta empiriska tillvägagångssätt kompletteras med logisk analys, med utgångspunkt från redan kända idéer om den ekonomiska och fysiska karaktären hos de faktorer som studeras och deras ömsesidiga inflytande.

Till exempel är det känt att beroenden av de resulterande variablerna - ekonomiska indikatorer (priser, hyra) på ett antal faktorvariabler - prisbildande faktorer (avstånd från bebyggelsens centrum, område etc.) är icke-linjära , och de kan beskrivas ganska strikt med en potens, exponentiell eller kvadratisk funktion. Men med små intervall av faktorer kan acceptabla resultat också erhållas med en linjär funktion.

Om det fortfarande är omöjligt att omedelbart göra ett säkert val av en funktion, väljs två eller tre funktioner, deras parametrar beräknas, och sedan, med hjälp av lämpliga kriterier för anslutningens täthet, väljs slutligen funktionen.

I teorin kallas regressionsprocessen för att hitta formen på en kurva Specifikation modell och dess koefficienter - kalibrering modeller.

Om det visar sig att den resulterande variabeln y beror på flera faktorvariabler (faktorer) x ( , x 2 , ..., x k, sedan tillgriper de att bygga en multipel regressionsmodell. Vanligtvis används tre former av multipel kommunikation: linjär - y - a 0 + a x x x + a^x 2+ ... + a k x k, demonstrativt - y - a 0 a*i a x t- a x b, kraft - y - a 0 x x ix 2 a 2. .x^ eller kombinationer därav.

De exponentiella och exponentiella funktionerna är mer universella, eftersom de approximerar icke-linjära samband, som är majoriteten av de beroenden som studeras i bedömningen. Dessutom kan de användas vid utvärdering av objekt och i metoden för statistisk modellering för massutvärdering, och i metoden för direkt jämförelse vid individuell utvärdering vid fastställande av korrektionsfaktorer.

På kalibreringsstadiet beräknas parametrarna för regressionsmodellen med minsta kvadratmetoden, vars kärna är att summan av de kvadrerade avvikelserna för de beräknade värdena för den resulterande variabeln ., dvs. beräknat enligt den valda relationsekvationen, från de faktiska värdena ska vara minimala:

Värden j) (. och y. känd alltså Fär en funktion av endast ekvationens koefficienter. För att hitta minimum S ta partiella derivator F med ekvationens koefficienter och likställ dem med noll:

Som ett resultat får vi ett system med normala ekvationer, vars antal är lika med antalet bestämda koefficienter för den önskade regressionsekvationen.

Antag att vi behöver hitta koefficienterna för den linjära ekvationen y - a 0 + ars. Summan av kvadrerade avvikelser är:

/=1

Differentiera en funktion F med okända koefficienter en 0 och och likställa de partiella derivatorna till noll:

Efter transformationer får vi:

var P - antal ursprungliga faktiska värden dem (antalet analoger).

Ovanstående procedur för att beräkna koefficienterna för regressionsekvationen är också tillämplig för icke-linjära beroenden, om dessa beroenden kan linjäriseras, dvs. få till en linjär form med hjälp av en förändring av variabler. Potens- och exponentialfunktioner efter att ha tagit logaritm och motsvarande förändring av variabler får en linjär form. Till exempel har en potensfunktion efter att ha tagit en logaritm formen: I y \u003d 1n 0 +a x 1ph. Efter förändring av variabler Y- I y, L 0 - I och nr. X- I x får vi en linjär funktion

Y=A0 + cijX, vars koefficienter återfinns enligt beskrivningen ovan.

Minsta kvadratmetoden används också för att beräkna koefficienterna för en multipel regressionsmodell. Så, systemet med normala ekvationer för att beräkna en linjär funktion med två variabler Xj Och x 2 efter en serie transformationer ser det ut så här:

Vanligtvis löses detta ekvationssystem med linjära algebrametoder. En multipel exponentialfunktion bringas till en linjär form genom att ta logaritmer och ändra variabler på samma sätt som en parad exponentialfunktion.

När hybridmodeller används, hittas multipla regressionskoefficienter med användning av numeriska procedurer för metoden för successiva approximationer.

För att göra ett slutgiltigt val bland flera regressionsekvationer är det nödvändigt att testa varje ekvation för förhållandets täthet, vilket mäts av korrelationskoefficienten, variansen och variationskoefficienten. För utvärdering kan du också använda kriterierna Student och Fisher. Ju större anslutningen är tätare avslöjar kurvan, desto mer föredraget är det, allt annat lika.

Om ett problem av en sådan klass håller på att lösas, när det är nödvändigt att fastställa beroendet av en kostnadsindikator på kostnadsfaktorer, är önskan att ta hänsyn till så många påverkande faktorer som möjligt och därigenom bygga en mer exakt multipel regressionsmodell. begriplig. Två objektiva begränsningar hindrar dock ökningen av antalet faktorer. För det första kräver att bygga en multipel regressionsmodell ett mycket större urval av objekt än att bygga en parad modell. Det är allmänt accepterat att antalet objekt i urvalet bör överstiga antalet P faktorer, minst 5-10 gånger. Av detta följer att för att bygga en modell med tre påverkande faktorer är det nödvändigt att samla ett urval av cirka 20 objekt med olika uppsättningar av faktorvärden. För det andra bör de faktorer som väljs för modellen i deras inverkan på värdeindikatorn vara tillräckligt oberoende av varandra. Detta är inte lätt att säkerställa, eftersom provet vanligtvis kombinerar objekt som tillhör samma familj, där det sker en regelbunden förändring av många faktorer från objekt till objekt.

Kvaliteten på regressionsmodeller testas vanligtvis med hjälp av följande statistik.

Standardavvikelse för regressionsekvationens fel (uppskattningsfel):

var P - provstorlek (antal analoger);

till - antal faktorer (kostnadsfaktorer);

Fel som inte förklaras av regressionsekvationen (Fig. 3.2);

y. - det faktiska värdet av den resulterande variabeln (till exempel kostnad); y t - beräknat värde för den resulterande variabeln.

Denna indikator kallas också standardfel för uppskattning (RMS-fel). I figuren indikerar prickarna specifika värden för provet, symbolen indikerar linjen för medelvärdena för provet, den lutande streckade linjen är regressionslinjen.


Ris. 3.2.

Standardavvikelsen för uppskattningsfelet mäter mängden avvikelse för de faktiska värdena för y från motsvarande beräknade värden. ( , erhållen med hjälp av regressionsmodellen. Om urvalet som modellen bygger på är föremål för normalfördelningslagen, så kan man hävda att 68 % av de verkliga värdena finns i sortimentet ± & e från regressionslinjen och 95% - i intervallet ± 2d e. Denna indikator är bekväm eftersom måttenheterna sg? matcha måttenheterna ,. I detta avseende kan den användas för att indikera noggrannheten hos resultatet som erhållits i utvärderingsprocessen. Till exempel, i ett värdecertifikat, kan du ange att värdet av marknadsvärdet erhålls med hjälp av regressionsmodellen V med en sannolikhet på 95% ligger i intervallet från (V-2d,.) innan (på + 2ds).

Variationskoefficient för den resulterande variabeln:

var y - medelvärdet för den resulterande variabeln (Figur 3.2).

I regressionsanalys är variationskoefficienten var standardavvikelsen för resultatet, uttryckt i procent av medelvärdet av resultatvariabeln. Variationskoefficienten kan fungera som ett kriterium för de prediktiva egenskaperna hos den resulterande regressionsmodellen: ju mindre värde var, desto högre är modellens prediktiva egenskaper. Användningen av variationskoefficienten är att föredra framför exponenten &e, eftersom det är en relativ exponent. I den praktiska användningen av denna indikator kan det rekommenderas att inte använda en modell vars variationskoefficient överstiger 33%, eftersom det i detta fall inte kan sägas att dessa prover omfattas av normalfördelningslagen.

Bestämningskoefficient (multipelkorrelationskoefficient i kvadrat):

Denna indikator används för att analysera den övergripande kvaliteten på den resulterande regressionsmodellen. Den anger hur stor andel av variationen i den resulterande variabeln som beror på påverkan av alla faktorvariabler som ingår i modellen. Bestämningskoefficienten ligger alltid i intervallet från noll till ett. Ju närmare värdet av bestämningskoefficienten enhet, desto bättre beskriver modellen den ursprungliga dataserien. Bestämningskoefficienten kan representeras på ett annat sätt:

Här är felet som förklaras av regressionsmodellen,

men - fel oförklarat

regressionsmodell. Ur ekonomisk synvinkel gör detta kriterium det möjligt att bedöma hur stor andel av prisvariationen som förklaras av regressionsekvationen.

Den exakta acceptansgränsen för indikatorn R2 det är omöjligt att specificera för alla fall. Både urvalsstorleken och den meningsfulla tolkningen av ekvationen måste beaktas. Som regel, när man studerar data om föremål av samma typ, erhållna vid ungefär samma tidpunkt, värdet R2 inte överstiger nivån 0,6-0,7. Om alla prediktionsfel är noll, dvs. när förhållandet mellan de resulterande variablerna och faktorvariablerna är funktionellt, då R2 =1.

Justerad bestämningskoefficient:

Behovet av att införa en justerad bestämningskoefficient förklaras av det faktum att med en ökning av antalet faktorer till den vanliga bestämningskoefficienten ökar nästan alltid, men antalet frihetsgrader minskar (n - k- ett). Den inmatade justeringen minskar alltid värdet R2, i den mån som (P - 1) > (n- till - ett). Som ett resultat, värdet R 2 CKOf) kan till och med bli negativ. Detta innebär att värdet R2 var nära noll före justering och andelen varians förklaras av variabelns regressionsekvation väldigt liten.

Av de två varianter av regressionsmodeller som skiljer sig åt i värdet på den justerade bestämningskoefficienten, men som har lika bra andra kvalitetskriterier, är varianten med ett stort värde på den justerade bestämningskoefficienten att föredra. Bestämningskoefficienten justeras inte om (n - k): k> 20.

Fisher ratio:

Detta kriterium används för att bedöma betydelsen av bestämningskoefficienten. Restsumman av kvadrater är ett mått på prediktionsfel som använder en regression av kända kostnadsvärden på.. Dess jämförelse med regressionssumman av kvadrater visar hur många gånger regressionsberoendet förutsäger resultatet bättre än medelvärdet . Det finns en tabell med kritiska värden F R Fisher-koefficient beroende på antalet frihetsgrader för täljaren - till, nämnare v 2 = p - k- 1 och signifikansnivå a. Om det beräknade värdet av Fisher-kriteriet F Rär större än tabellvärdet, då hypotesen om bestämningskoefficientens obetydlighet, dvs. om diskrepansen mellan relationerna inbäddade i regressionsekvationen och de verkligt existerande, med en sannolikhet p = 1 - a förkastas.

Genomsnittligt uppskattningsfel(genomsnittlig procentuell avvikelse) beräknas som den genomsnittliga relativa skillnaden, uttryckt i procent, mellan de faktiska och beräknade värdena för den resulterande variabeln:

Ju lägre värde denna indikator har, desto bättre är modellens prediktiva kvalitet. När värdet på denna indikator inte är högre än 7% indikerar de modellens höga noggrannhet. Om 8 > 15 %, anger modellens otillfredsställande noggrannhet.

Standardfel för regressionskoefficienten:

där (/I) -1 .- diagonalt element i matrisen (X G X) ~ 1 till - antal faktorer;

X- matris av faktorvariabler värden:

X7- transponerad matris av faktorvariabler värden;

(JL) _| är en matris invers till en matris.

Ju mindre dessa poäng för varje regressionskoefficient, desto mer tillförlitlig är uppskattningen av motsvarande regressionskoefficient.

Elevens prov (t-statistik):

Detta kriterium låter dig mäta graden av tillförlitlighet (signifikans) av sambandet på grund av en given regressionskoefficient. Om det beräknade värdet t. större än tabellvärdet

t av , var v - p - k - 1 är antalet frihetsgrader, då förkastas hypotesen att denna koefficient är statistiskt insignifikant med en sannolikhet på (100 - a)%. Det finns speciella tabeller över /-fördelningen som gör det möjligt att bestämma det kritiska värdet av kriteriet genom en given signifikansnivå a och antalet frihetsgrader v. Det vanligaste värdet på a är 5 %.

Multikollinearitet, dvs. effekten av ömsesidiga samband mellan faktorvariabler leder till att man måste nöja sig med ett begränsat antal av dem. Om man inte tar hänsyn till detta kan man sluta med en ologisk regressionsmodell. För att undvika den negativa effekten av multikollinearitet, innan man bygger en multipel regressionsmodell, beräknas parkorrelationskoefficienterna rxjxj mellan valda variabler X. Och X

Här XjX; - medelvärdet av produkten av två faktorvariabler;

XjXj- produkten av medelvärdena för två faktorvariabler;

Utvärdering av variansen för faktorvariabeln x..

Två variabler anses vara regressivt relaterade (d.v.s. kolinjära) om deras parvisa korrelationskoefficient är strikt större än 0,8 i absolut värde. I detta fall bör någon av dessa variabler uteslutas från övervägande.

För att utöka möjligheterna till ekonomisk analys av de resulterande regressionsmodellerna används medelvärden elasticitetskoefficienter, bestäms av formeln:

var Xj- medelvärdet för motsvarande faktorvariabel;

y - medelvärdet av den resulterande variabeln; ett jag - regressionskoefficient för motsvarande faktorvariabel.

Elasticitetskoefficienten visar hur många procent värdet på den resulterande variabeln kommer att förändras i genomsnitt när faktorvariabeln ändras med 1 %, d.v.s. hur den resulterande variabeln reagerar på en förändring i faktorvariabeln. Till exempel, hur fungerar priset på kvm. m område av lägenheten på avstånd från centrum.

Användbar ur synvinkeln för att analysera betydelsen av en viss regressionskoefficient är skattningen privat bestämningskoefficient:

Här är uppskattningen av variansen för resultatet

variabel. Denna koefficient visar hur många procent variationen av den resulterande variabeln förklaras av variationen av den /-te faktorvariabeln som ingår i regressionsekvationen.

  • Hedoniska egenskaper är egenskaperna hos ett objekt som återspeglar dess användbara (värdefulla) egenskaper från köpares och säljares synvinkel.

Regressionsanalys är en av de mest populära metoderna för statistisk forskning. Den kan användas för att bestämma graden av påverkan av oberoende variabler på den beroende variabeln. Funktionaliteten i Microsoft Excel har verktyg utformade för att utföra denna typ av analys. Låt oss ta en titt på vad de är och hur man använder dem.

Men för att använda funktionen som låter dig utföra en regressionsanalys måste du först och främst aktivera Analyspaketet. Först då kommer de verktyg som behövs för denna procedur att visas på Excel-bandet.


Nu när vi går till tab "Data", på bandet i verktygslådan "Analys" vi kommer att se en ny knapp - "Dataanalys".

Typer av regressionsanalys

Det finns flera typer av regression:

  • parabolisk;
  • kraft;
  • logaritmisk;
  • exponentiell;
  • demonstration;
  • hyperbolisk;
  • linjär regression.

Vi kommer att prata mer i detalj om implementeringen av den sista typen av regressionsanalys i Excel senare.

Linjär regression i Excel

Nedan finns som exempel en tabell som visar den genomsnittliga dygnslufttemperaturen på gatan, och antalet butikskunder för motsvarande arbetsdag. Låt oss med hjälp av regressionsanalys ta reda på exakt hur väderförhållanden i form av lufttemperatur kan påverka närvaron av en detaljhandel.

Den allmänna linjära regressionsekvationen ser ut så här: Y = a0 + a1x1 + ... + axk. I denna formel Y betyder variabeln vars inflytande vi försöker studera. I vårt fall är detta antalet köpare. Menande xär de olika faktorer som påverkar variabeln. Parametrar aär regressionskoefficienterna. Det vill säga de bestämmer betydelsen av en viss faktor. Index k anger det totala antalet av dessa samma faktorer.


Analysresultat analys

Resultaten av regressionsanalysen visas i form av en tabell på den plats som anges i inställningarna.

En av huvudindikatorerna är R-torget. Det indikerar kvaliteten på modellen. I vårt fall är denna koefficient 0,705 eller cirka 70,5%. Detta är en acceptabel kvalitetsnivå. Ett förhållande mindre än 0,5 är dåligt.

En annan viktig indikator finns i cellen vid skärningspunkten mellan linjen "Y-korsning" och kolumn "Koefficienter". Här anges vilket värde Y kommer att ha, och i vårt fall är detta antalet köpare, med alla andra faktorer lika med noll. I den här tabellen är detta värde 58,04.

Värde i skärningspunkten för grafen "Variabel X1" Och "Koefficienter" visar graden av beroende av Y på X. I vårt fall är detta graden av beroende av antalet butikskunder på temperaturen. En koefficient på 1,31 anses vara en ganska hög indikator på inflytande.

Som du kan se är det ganska enkelt att skapa en regressionsanalystabell med hjälp av Microsoft Excel. Men bara en utbildad person kan arbeta med data som erhålls vid utgången och förstå deras väsen.

I närvaro av en korrelation mellan faktor och resulterande tecken måste läkare ofta bestämma med vilken mängd värdet på ett tecken kan ändras när ett annat ändras med en måttenhet som allmänt accepteras eller fastställts av forskaren själv.

Hur kommer till exempel kroppsvikten hos skolbarn i 1:a klass (flickor eller pojkar) att förändras om deras längd ökar med 1 cm. För dessa ändamål används regressionsanalysmetoden.

Oftast används regressionsanalysmetoden för att ta fram normativa skalor och standarder för fysisk utveckling.

  1. Definition av regression. Regression är en funktion som gör det möjligt, baserat på medelvärdet för ett attribut, att bestämma medelvärdet för ett annat attribut som är korrelerat med det första.

    För detta ändamål används regressionskoefficienten och ett antal andra parametrar. Till exempel kan du beräkna antalet förkylningar i genomsnitt vid vissa värden av den genomsnittliga månatliga lufttemperaturen under höst-vinterperioden.

  2. Definition av regressionskoefficienten. Regressionskoefficienten är det absoluta värde med vilket värdet av ett attribut ändras i genomsnitt när ett annat attribut som är associerat med det ändras med en specificerad måttenhet.
  3. Formel för regressionskoefficient. R y / x \u003d r xy x (σ y / σ x)
    där R y / x - regressionskoefficient;
    r xy - korrelationskoefficient mellan egenskaperna x och y;
    (σ y och σ x) - standardavvikelser för egenskaperna x och y.

    I vårt exempel ;
    σ x = 4,6 (standardavvikelse för lufttemperatur under höst-vinterperioden;
    σ y = 8,65 (standardavvikelse för antalet smittsamma förkylningar).
    Således är R y/x regressionskoefficienten.
    R y / x \u003d -0,96 x (4,6 / 8,65) \u003d 1,8, d.v.s. med en minskning av den genomsnittliga månatliga lufttemperaturen (x) med 1 grad, kommer det genomsnittliga antalet smittsamma förkylningar (y) under höst-vinterperioden att förändras med 1,8 fall.

  4. Regressions ekvation. y \u003d M y + R y / x (x - M x)
    där y är medelvärdet för attributet, vilket bör bestämmas när medelvärdet för ett annat attribut (x) ändras;
    x - känt medelvärde för en annan egenskap;
    R y/x - regressionskoefficient;
    M x, M y - kända medelvärden för funktionerna x och y.

    Till exempel kan medelantalet smittsamma förkylningar (y) bestämmas utan speciella mätningar vid något medelvärde av den genomsnittliga månatliga lufttemperaturen (x). Så, om x \u003d - 9 °, R y / x \u003d 1,8 sjukdomar, M x \u003d -7 °, M y \u003d 20 sjukdomar, då y \u003d 20 + 1,8 x (9-7) \u003d 20 + 3,6 = 23,6 sjukdomar.
    Denna ekvation tillämpas i fallet med ett rätlinjigt samband mellan två egenskaper (x och y).

  5. Syftet med regressionsekvationen. Regressionsekvationen används för att plotta regressionslinjen. Den senare tillåter, utan speciella mätningar, att bestämma vilket medelvärde som helst (y) för ett attribut, om värdet (x) för ett annat attribut ändras. Baserat på dessa data byggs en graf - regressionslinje, som kan användas för att bestämma det genomsnittliga antalet förkylningar vid vilket värde som helst av den genomsnittliga månadstemperaturen inom intervallet mellan de beräknade värdena för antalet förkylningar.
  6. Regression sigma (formel).
    där σ Ru/x - sigma (standardavvikelse) för regressionen;
    σ y är standardavvikelsen för egenskapen y;
    r xy - korrelationskoefficient mellan egenskaperna x och y.

    Så, om σ y är standardavvikelsen för antalet förkylningar = 8,65; r xy - korrelationskoefficienten mellan antalet förkylningar (y) och den genomsnittliga månatliga lufttemperaturen under höst-vinterperioden (x) är - 0,96, då

  7. Syftet med sigma-regression. Ger en egenskap för måttet på mångfalden av den resulterande egenskapen (y).

    Till exempel kännetecknar det mångfalden av antalet förkylningar vid ett visst värde av den genomsnittliga månatliga lufttemperaturen under höst-vinterperioden. Så det genomsnittliga antalet förkylningar vid lufttemperatur x 1 \u003d -6 ° kan variera från 15,78 sjukdomar till 20,62 sjukdomar.
    Vid x 2 = -9° kan det genomsnittliga antalet förkylningar variera från 21,18 sjukdomar till 26,02 sjukdomar osv.

    Regressionssigma används i konstruktionen av en regressionsskala, som återspeglar avvikelsen mellan värdena för det effektiva attributet från dess medelvärde som plottas på regressionslinjen.

  8. Data som krävs för att beräkna och plotta regressionsskalan
    • regressionskoefficient - Ry/x;
    • regressionsekvation - y \u003d M y + R y / x (x-M x);
    • regression sigma - σ Rx/y
  9. Beräkningssekvensen och grafisk representation av regressionsskalan.
    • bestäm regressionskoefficienten med formeln (se punkt 3). Till exempel bör man bestämma hur mycket kroppsvikten kommer att förändras i genomsnitt (vid en viss ålder beroende på kön) om medelhöjden ändras med 1 cm.
    • enligt formeln för regressionsekvationen (se punkt 4), bestäm vad som blir medelvärdet, till exempel kroppsvikten (y, y 2, y 3 ...) * för ett visst tillväxtvärde (x, x 2, x 3 ...).
      ________________
      * Värdet på "y" bör beräknas för minst tre kända värden på "x".

      Samtidigt är medelvärdena för kroppsvikt och längd (M x och M y) för en viss ålder och kön kända

    • beräkna sigma för regressionen, känna till motsvarande värden för σ y och r xy och ersätta deras värden i formeln (se punkt 6).
    • baserat på de kända värdena x 1, x 2, x 3 och deras motsvarande medelvärden y 1, y 2 y 3, såväl som de minsta (y - σ ru / x) och största (y + σ ru / x) värden\u200b\u200b(y) konstruerar en regressionsskala.

      För en grafisk representation av regressionsskalan markeras först värdena x, x 2 , x 3 (y-axeln) på grafen, dvs. en regressionslinje byggs, till exempel kroppsviktens (y) beroende av längden (x).

      Sedan, vid motsvarande punkter y 1 , y 2 , y 3 är de numeriska värdena för regressionssigma markerade, dvs. på grafen hitta de minsta och största värdena av y 1 , y 2 , y 3 .

  10. Praktisk användning av regressionsskalan. Normativa skalor och standarder utvecklas, särskilt för fysisk utveckling. Enligt standardskalan är det möjligt att ge en individuell bedömning av barns utveckling. Samtidigt bedöms den fysiska utvecklingen som harmonisk om till exempel vid en viss höjd barnets kroppsvikt är inom ett sigma av regression till den genomsnittliga beräknade kroppsviktsenheten - (y) för en given längd (x) (y ± 1 σ Ry/x).

    Fysisk utveckling anses disharmonisk vad gäller kroppsvikt om barnets kroppsvikt för en viss längd ligger inom den andra regressionen sigma: (y ± 2 σ Ry/x)

    Den fysiska utvecklingen kommer att vara kraftigt disharmonisk både på grund av överskott och otillräcklig kroppsvikt om kroppsvikten för en viss höjd ligger inom regressionens tredje sigma (y ± 3 σ Ry/x).

Enligt resultaten från en statistisk studie av den fysiska utvecklingen av 5-åriga pojkar är det känt att deras genomsnittliga höjd (x) är 109 cm och deras genomsnittliga kroppsvikt (y) är 19 kg. Korrelationskoefficienten mellan längd och kroppsvikt är +0,9, standardavvikelser presenteras i tabellen.

Nödvändig:

  • beräkna regressionskoefficienten;
  • med hjälp av regressionsekvationen, bestäm vad den förväntade kroppsvikten för 5-åriga pojkar kommer att vara med en höjd lika med x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • beräkna regressionssigma, bygga en regressionsskala, presentera resultaten av dess lösning grafiskt;
  • dra lämpliga slutsatser.

Tillståndet för problemet och resultaten av dess lösning presenteras i den sammanfattande tabellen.

bord 1

Villkor för problemet Resultat av problemlösning
regressions ekvation sigma regression regressionsskala (förväntad kroppsvikt (i kg))
M σ r xy R y/x X σRx/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Höjd (x) 109 cm ± 4,4 cm +0,9 0,16 100 cm 17,56 kg ± 0,35 kg 17,21 kg 17,91 kg
Kroppsvikt (y) 19 kg ± 0,8 kg 110 cm 19,16 kg 18,81 kg 19,51 kg
120 cm 20,76 kg 20,41 kg 21,11 kg

Lösning.

Produktion. Således låter regressionsskalan inom de beräknade värdena för kroppsvikt dig bestämma den för något annat värde av tillväxt eller att bedöma barnets individuella utveckling. För att göra detta, återställ vinkelrät mot regressionslinjen.

  1. Vlasov V.V. Epidemiologi. - M.: GEOTAR-MED, 2004. - 464 sid.
  2. Lisitsyn Yu.P. Folkhälsa och sjukvård. Lärobok för gymnasieskolor. - M.: GEOTAR-MED, 2007. - 512 sid.
  3. Medik V.A., Yuriev V.K. En föreläsningskurs om folkhälsa och hälso- och sjukvård: Del 1. Folkhälsa. - M.: Medicin, 2003. - 368 sid.
  4. Minyaev V.A., Vishnyakov N.I. m.fl. Socialmedicin och hälsovårdsorganisation (Guide i 2 volymer). - St Petersburg, 1998. -528 sid.
  5. Kucherenko V.Z., Agarkov N.M. Social hygien och organisation av hälso- och sjukvård (Tutorial) - Moskva, 2000. - 432 s.
  6. S. Glantz. Medikobiologisk statistik. Per från engelska. - M., Practice, 1998. - 459 sid.

Regressionsanalys— En metod för att modellera uppmätta data och studera deras egenskaper. Data består av värdepar beroende variabel(svarsvariabel) och oberoende variabel(förklarande variabel). Regressionsmodellen är en funktion av den oberoende variabeln och parametrar med en tillagd slumpvariabel. Modellparametrarna är avstämda på ett sådant sätt att modellen approximerar data på bästa möjliga sätt. Approximationskvalitetskriteriet (objektiv funktion) är vanligtvis medelkvadratfelet: summan av kvadraterna av skillnaden mellan modellens värden och den beroende variabeln för alla värden av den oberoende variabeln som ett argument. Regressionsanalys är en gren av matematisk statistik och maskininlärning. Det antas att den beroende variabeln är summan av värdena för någon modell och en slumpvariabel. Beträffande arten av fördelningen av detta värde görs antaganden, kallade datagenereringshypotesen. Statistiska tester, så kallade restanalyser, utförs för att bekräfta eller motbevisa denna hypotes. Detta förutsätter att den oberoende variabeln inte innehåller fel. Regressionsanalys används för prognostisering, tidsserieanalys, hypotestestning och för att upptäcka dolda samband i data.

Definition av regressionsanalys

Provet kanske inte är en funktion, utan en relation. Till exempel kan data för att bygga en regression vara: . I ett sådant urval motsvarar ett värde av variabeln flera värden på variabeln.

Linjär regression

Linjär regression förutsätter att funktionen beror linjärt på parametrarna. I det här fallet är ett linjärt beroende av den fria variabeln valfritt,

I det fall där den linjära regressionsfunktionen har formen

här är komponenterna i vektorn.

Parametervärden i fallet med linjär regression hittas med minsta kvadratmetoden. Användningen av denna metod motiveras av antagandet om en gaussisk fördelning av en slumpvariabel.

Skillnaderna mellan de faktiska värdena för den beroende variabeln och de rekonstruerade kallas regressionsrester(rester). Synonymer används också i litteraturen: rester Och misstag. En av de viktiga uppskattningarna av kvalitetskriteriet för det erhållna beroendet är summan av kvadraterna av residualerna:

Här - Summan av kvadratiska fel.

Variansen av residualerna beräknas med formeln

Här - Mean Square Error, Mean Square Error, Mean Square Error.

Graferna visar prov markerade med blå punkter och regressionsberoenden markerade med heldragna linjer. Abskissan visar den fria variabeln och ordinatan visar den beroende variabeln. Alla tre beroenden är linjära med avseende på parametrarna.

Icke-linjär regression

Icke-linjära regressionsmodeller - Visa modeller

som inte kan representeras som en prickprodukt

var är parametrarna för regressionsmodellen, är en fri variabel från utrymmet, är den beroende variabeln, är en slumpvariabel och är en funktion från någon given uppsättning.

Parametervärden i fallet med icke-linjär regression hittas med en av metoderna för gradientnedstigning, till exempel Levenberg-Marquardt-algoritmen.

Om villkor

Termen "regression" myntades av Francis Galton i slutet av 1800-talet. Galton fann att barn till långa eller korta föräldrar vanligtvis inte ärver enastående längd och kallade detta fenomen för "regression till medelmåttighet". Till en början användes termen uteslutande i biologisk mening. Efter Karl Pearsons arbete började denna term användas i statistik.

I den statistiska litteraturen skiljer man på regression som involverar en fri variabel och med flera fria variabler − en-dimensionell Och flerdimensionell regression. Det antas att vi använder flera fria variabler, det vill säga den fria variabeln är en vektor. I speciella fall, när den fria variabeln är en skalär, kommer den att betecknas med . Skilja på linjär Och icke-linjär regression. Om regressionsmodellen inte är en linjär kombination av funktioner av parametrar, så talar man om en icke-linjär regression. I det här fallet kan modellen vara en godtycklig överlagring av funktioner från en viss uppsättning. Icke-linjära modeller är exponentiella, trigonometriska och andra (till exempel radiella basfunktioner eller Rosenblatt-perceptronen), som antar att förhållandet mellan parametrarna och den beroende variabeln är icke-linjärt.

Skilja på parametrisk Och icke-parametrisk regression. Det är svårt att dra en skarp gräns mellan dessa två typer av regressioner. För närvarande finns det inget allmänt accepterat kriterium för att skilja en typ av modell från en annan. Till exempel anses linjära modeller vara parametriska, medan modeller som inkluderar medelvärdesberäkning av den beroende variabeln över utrymmet för den fria variabeln anses vara icke-parametriska. Ett exempel på en parametrisk regressionsmodell: linjär prediktor, flerskiktsperceptron. Blandad regressionsmodell Exempel: Radiella basfunktioner. Icke-parametrisk modell - glidande medelvärde i ett fönster med viss bredd. I allmänhet skiljer sig icke-parametrisk regression från parametrisk regression genom att den beroende variabeln inte beror på ett värde av den fria variabeln, utan på någon given grannskap av detta värde.

Det finns en skillnad mellan termerna: "funktionsapproximation", "approximation", "interpolation" och "regression". Den består av följande.

Approximation av funktioner. En funktion av ett diskret eller kontinuerligt argument ges. Det krävs att man hittar en funktion från någon parametrisk familj, till exempel bland algebraiska polynom av en given grad. Funktionsparametrar måste leverera ett minimum av viss funktionalitet, t.ex.

Termin approximationär en synonym för termen "approximation av funktioner". Det används oftare när det gäller en given funktion, som en funktion av ett diskret argument. Här krävs också att man hittar en sådan funktion som passerar närmast alla punkter i den givna funktionen. Detta introducerar konceptet resterär avstånden mellan punkterna i en kontinuerlig funktion och motsvarande punkter i funktionen för ett diskret argument.

Interpolation funktioner är ett specialfall av approximationsproblemet, när det krävs att vid vissa punkter, kallas interpolationsnoder funktionens värden och funktionen som approximerar den sammanföll. I ett mer allmänt fall läggs restriktioner på värdet på vissa derivat av derivat. Det vill säga givet en funktion av ett diskret argument. Det krävs att man hittar en funktion som går igenom alla punkter. I det här fallet används vanligtvis inte måtten, men begreppet "jämnhet" för den önskade funktionen introduceras ofta.

Regressions- och korrelationsanalys - statistiska forskningsmetoder. Dessa är de vanligaste sätten att visa en parameters beroende av en eller flera oberoende variabler.

Nedan kommer vi, med hjälp av konkreta praktiska exempel, att överväga dessa två mycket populära analyser bland ekonomer. Vi kommer också att ge ett exempel på hur man får resultat när de kombineras.

Regressionsanalys i Excel

Visar påverkan av vissa värden (oberoende, oberoende) på den beroende variabeln. Till exempel, hur antalet ekonomiskt aktiva befolkningen beror på antalet företag, löner och andra parametrar. Eller: hur påverkar utländska investeringar, energipriser etc. nivån på BNP.

Resultatet av analysen gör att du kan prioritera. Och baserat på huvudfaktorerna, att förutsäga, planera utvecklingen av prioriterade områden, fatta ledningsbeslut.

Regression sker:

  • linjär (y = a + bx);
  • parabolisk (y = a + bx + cx 2);
  • exponentiell (y = a * exp(bx));
  • potens (y = a*x^b);
  • hyperbolisk (y = b/x + a);
  • logaritmisk (y = b * 1n(x) + a);
  • exponentiell (y = a * b^x).

Betrakta exemplet med att bygga en regressionsmodell i Excel och tolka resultaten. Låt oss ta en linjär typ av regression.

En uppgift. Vid 6 företag analyserades den genomsnittliga månadslönen och antalet anställda som slutade. Det är nödvändigt att bestämma antalet pensionerade anställdas beroende av den genomsnittliga lönen.

Den linjära regressionsmodellen har följande form:

Y \u003d a 0 + a 1 x 1 + ... + a k x k.

Där a är regressionskoefficienterna, x är de påverkande variablerna och k är antalet faktorer.

I vårt exempel är Y indikatorn för att sluta arbeta. Den påverkande faktorn är löner (x).

Excel har inbyggda funktioner som kan användas för att beräkna parametrarna för en linjär regressionsmodell. Men Analysis ToolPak-tillägget kommer att göra det snabbare.

Aktivera ett kraftfullt analysverktyg:

När det har aktiverats kommer tillägget att vara tillgängligt under fliken Data.

Nu ska vi ta itu med regressionsanalysen direkt.



Först och främst uppmärksammar vi R-kvadraten och koefficienterna.

R-kvadrat är bestämningskoefficienten. I vårt exempel är det 0,755, eller 75,5%. Detta innebär att modellens beräknade parametrar förklarar sambandet mellan de studerade parametrarna med 75,5 %. Ju högre bestämningskoefficient, desto bättre modell. Bra - över 0,8. Dålig - mindre än 0,5 (en sådan analys kan knappast anses rimlig). I vårt exempel - "inte illa".

Koefficienten 64,1428 visar vad Y blir om alla variabler i modellen i fråga är lika med 0. Det vill säga andra faktorer som inte beskrivs i modellen påverkar också värdet på den analyserade parametern.

Koefficienten -0,16285 visar vikten av variabeln X på Y. Det vill säga att den genomsnittliga månadslönen inom denna modell påverkar antalet avhoppare med en vikt på -0,16285 (detta är en liten grad av påverkan). Tecknet "-" indikerar en negativ inverkan: ju högre lön, desto mindre slutar. Vilket är rättvist.



Korrelationsanalys i Excel

Korrelationsanalys hjälper till att fastställa om det finns ett samband mellan indikatorer i ett eller två urval. Till exempel mellan maskinens drifttid och kostnaden för reparationer, priset på utrustningen och drifttiden, barnens längd och vikt etc.

Om det finns ett samband, om en ökning av en parameter leder till en ökning (positiv korrelation) eller en minskning (negativ) i den andra. Korrelationsanalys hjälper analytikern att avgöra om värdet av en indikator kan förutsäga det möjliga värdet av en annan.

Korrelationskoefficienten betecknas r. Varierar från +1 till -1. Klassificeringen av korrelationer för olika områden kommer att vara olika. När koefficientvärdet är 0, finns det inget linjärt samband mellan samplen.

Fundera på hur du använder Excel för att hitta korrelationskoefficienten.

CORREL-funktionen används för att hitta de parade koefficienterna.

Uppgift: Ta reda på om det finns ett samband mellan driftstiden för en svarv och kostnaden för dess underhåll.

Placera markören i valfri cell och tryck på fx-knappen.

  1. I kategorin "Statistisk" väljer du funktionen CORREL.
  2. Argument "Array 1" - det första värdeintervallet - tiden för maskinen: A2: A14.
  3. Argument "Array 2" - det andra värdeintervallet - kostnaden för reparationer: B2:B14. Klicka på OK.

För att bestämma typen av anslutning måste du titta på koefficientens absoluta antal (varje verksamhetsområde har sin egen skala).

För korrelationsanalys av flera parametrar (fler än 2) är det bekvämare att använda "Dataanalys" ("Analysis Package"-tillägget). I listan måste du välja en korrelation och ange en array. Allt.

De resulterande koefficienterna kommer att visas i korrelationsmatrisen. Som den här:

Korrelations-regressionsanalys

I praktiken används dessa två tekniker ofta tillsammans.

Exempel:


Nu syns regressionsanalysdata.