Factorul de inflație a variației (VIF) - Prezentare generală, formulă, utilizări

Factorul de inflație a variației (VIF) măsoară severitatea multicoliniarității în analiza de regresie Analiza de regresie Analiza de regresie este un set de metode statistice utilizate pentru estimarea relațiilor dintre o variabilă dependentă și una sau mai multe variabile independente. Poate fi utilizat pentru a evalua puterea relației dintre variabile și pentru modelarea relației viitoare dintre ele. . Este un concept statistic care indică creșterea varianței unui coeficient de regresie ca urmare a colinearității.

Factorul de inflație a variației

rezumat

  • Factorul de inflație a variației (VIF) este utilizat pentru a detecta severitatea multicoliniarității în analiza de regresie obișnuită a celui mai mic pătrat (OLS).
  • Multicoliniaritatea umflă varianța și eroarea de tip II. Face coeficientul unei variabile coerente, dar nesigure.
  • VIF măsoară numărul de varianțe umflate cauzate de multicoliniaritate.

Factorul de inflație a variației și multicoliniaritatea

În analiza de regresie obișnuită cu cel mai mic pătrat (OLS), multicoliniaritatea există atunci când două sau mai multe dintre variabilele independente Variabilă independentă O variabilă independentă este o intrare, o presupunere sau un driver care este modificat pentru a evalua impactul său asupra unei variabile dependente (rezultatul) . demonstrează o relație liniară între ele. De exemplu, pentru a analiza relația dintre dimensiunile și veniturile companiei la prețurile acțiunilor într-un model de regresie, capitalizările de piață și veniturile sunt variabile independente.

Capitalizarea de piață a unei companii Capitalizarea de piață Capitalizarea de piață (Market Cap) este cea mai recentă valoare de piață a acțiunilor restante ale unei companii. Capitalizarea pieței este egală cu prețul curent al acțiunilor înmulțit cu numărul de acțiuni aflate în circulație. Comunitatea investitoare folosește adesea valoarea capitalizării pieței pentru a clasifica companiile, iar veniturile sale totale sunt puternic corelate. Pe măsură ce o companie câștigă venituri tot mai mari, crește și ea în dimensiune. Conduce la o problemă de multicoliniaritate în analiza de regresie OLS. Dacă variabilele independente dintr-un model de regresie prezintă o relație liniară perfect previzibilă, este cunoscută sub numele de multicoliniaritate perfectă.

Cu multicoliniaritatea, coeficienții de regresie sunt încă consistenți, dar nu mai sunt fiabili, deoarece erorile standard sunt umflate. Înseamnă că puterea predictivă a modelului nu este redusă, dar coeficienții nu pot fi semnificativi statistic cu o eroare de tip II Eroare de tip II În testarea statistică a ipotezelor, o eroare de tip II este o situație în care un test de ipoteză nu reușește să respingă ipoteza nulă că este fals. În altele.

Prin urmare, dacă coeficienții variabilelor nu sunt semnificativi individual - nu pot fi respinși în testul t, respectiv - dar pot explica împreună varianța variabilei dependente cu respingere în testul F și un coeficient ridicat de determinare (R2), ar putea exista multicoliniaritate. Este una dintre metodele de detectare a multicoliniarității.

VIF este un alt instrument frecvent utilizat pentru a detecta dacă există multicoliniaritate într-un model de regresie. Măsurează cât de mult este umflată varianța (sau eroarea standard) a coeficientului de regresie estimat datorită colinearității.

Utilizarea factorului de inflație a variației

VIF poate fi calculat prin formula de mai jos:

Factorul de inflație a variației - Formula

În cazul în care R i 2 reprezintă coeficientul de determinare neajustat pentru regresul i - lea variabilă independentă pe cele rămase. Reciprocitatea VIF este cunoscută sub numele de toleranță . Fie VIF, fie toleranță pot fi utilizate pentru a detecta multicoliniaritatea, în funcție de preferințele personale.

Dacă R i 2 este egal cu 0, varianța restului de variabile independente nu poate fi prezisă din ith variabilă independentă. Prin urmare, atunci când VIF sau toleranța este egală cu 1, a iea variabilă independentă nu este corelată cu cele rămase, ceea ce înseamnă că multicoliniaritatea nu există în acest model de regresie. În acest caz, varianța coeficientului de regresie i nu este umflată.

În general, un VIF peste 4 sau toleranță sub 0,25 indică faptul că ar putea exista multicoliniaritate și este necesară o investigație suplimentară. Atunci când VIF este mai mare de 10 sau toleranța este mai mică de 0,1, există o multicoliniaritate semnificativă care trebuie corectată.

Cu toate acestea, există și situații în care VFI-urile ridicate pot fi ignorate în condiții de siguranță fără a suferi multicoliniaritate. Următoarele sunt trei astfel de situații:

1. VIF-urile mari există doar în variabilele de control, dar nu și în variabilele de interes. În acest caz, variabilele de interes nu sunt coliniare între ele sau variabilele de control. Coeficienții de regresie nu sunt afectați.

2. Atunci când VIF-urile mari sunt cauzate ca urmare a includerii produselor sau puterilor altor variabile, multicoliniaritatea nu provoacă impacturi negative. De exemplu, un model de regresie include atât variabilele sale independente, cât și x2.

3. Atunci când o variabilă falsă care reprezintă mai mult de două categorii are un VIF ridicat, multicoliniaritatea nu există neapărat. Variabilele vor avea întotdeauna VIF-uri mari dacă există o mică parte din cazuri în categorie, indiferent dacă variabilele categorice sunt corelate cu alte variabile.

Corectarea multicoliniarității

Deoarece multicoliniaritatea umflă varianța coeficienților și provoacă erori de tip II, este esențial să o detectăm și să o corectăm. Există două modalități simple și frecvent utilizate de corectare a multicoliniarității, așa cum sunt enumerate mai jos:

1. Primul este de a elimina una (sau mai multe) dintre variabilele foarte corelate. Deoarece informațiile furnizate de variabile sunt redundante, coeficientul de determinare nu va fi mult afectat de eliminare.

2. A doua metodă este de a utiliza analiza componentelor principale (PCA) sau regresia parțială minimă pătrată (PLS) în loc de regresia OLS. Regresia PLS poate reduce variabilele la un set mai mic, fără nicio corelație între ele. În PCA, sunt create noi variabile necorelate. Minimizează pierderea de informații și îmbunătățește predictibilitatea unui model.

Mai multe resurse

Finance este furnizorul oficial al certificatului global bancar și credit Analyst (CBCA) ™ Certificare CBCA ™ Acreditarea Certified Banking & Credit Analyst (CBCA) ™ este un standard global pentru analiștii de credit care acoperă finanțe, contabilitate, analiza creditelor, analiza fluxului de numerar , modelarea legământului, rambursarea împrumuturilor și multe altele. program de certificare, conceput pentru a ajuta pe oricine să devină un analist financiar de talie mondială. Pentru a continua să avansezi în carieră, resursele suplimentare de mai jos vor fi utile:

  • Concepte statistice de bază în finanțe Concepte statistice de bază pentru finanțe O înțelegere solidă a statisticilor este crucială pentru a ne ajuta să înțelegem mai bine finanțele. Mai mult, conceptele statistice pot ajuta investitorii să monitorizeze
  • Metode de prognoză Metode de prognoză Metode de prognoză de top. În acest articol, vom explica patru tipuri de metode de previzionare a veniturilor pe care analiștii financiari le folosesc pentru a prezice veniturile viitoare.
  • Regresia liniară multiplă Regresia liniară multiplă Regresia liniară multiplă se referă la o tehnică statistică utilizată pentru a prezice rezultatul unei variabile dependente pe baza valorii variabilelor independente
  • Variabila aleatorie Variabila aleatoare O variabilă aleatoare (variabilă stocastică) este un tip de variabilă în statistici ale cărei valori posibile depind de rezultatele unui anumit fenomen aleatoriu

Postări recente