Capitol Extras

Published on November 2016 | Categories: Documents | Downloads: 23 | Comments: 0 | Views: 246
of 13
Download PDF   Embed   Report

Capitol Extras

Comments

Content

Capitol extras din cartea „Introducere în economia aplicată”, 2004
autor Constantin Duguleană

1.14. Valorile aberante în analiza de regresie (outliers)
Valorile extreme ale variabilelor observate pot influenţa esenţial valoarea
estimatorilor. Aceste valori aberante, numite în limba engleză „outliers” sunt generate de
factori neobişnuiţi, deosebiţi, producând modificări majore asupra variabilelor, care apar în
cazurile respective, ca fiind rupte de contextul celorlalte observări.
Metoda grafică este calea cea mai simplă de a pune în evidenţă existenţa valorilor
aberante. Dar această metodă se poate aplica în cazul regresiei liniare simple. În cazul
regresiei multiple, este dificilă identificarea acestor valori extreme.
Analiza reziduurilor, care ar trebui să însoţească estimarea oricărei ecuaţii de regresie,
poate contribui la detectarea lor. Valorile mari pozitive sau negative ale reziduurilor arată că
respectivele observări constituie valori extreme.
În exemplul de mai jos, este rezolvat un exerciţiu, în care se cunosc despre economiştii
de la Universitatea din Michigan, date referitoare la salariul şi experienţa dobândită, în anul
1983-1984. Se cere să se stabilească dacă salariul este influenţat semnificativ de anii de
experienţă.
În Tabelul 1.14, variabila yi reprezintă salariul, exprimat în mii $/an, iar variabila xi
reprezintă anii de experienţă, ca număr de ani trecuţi de la acordarea titlului de doctor.
yi

xi

46.8 20

30.0 16

63.0 43

42.4 20

51.5 15

54.3 32

56.5 19

40.6 13

51.0 32

55.0 19

51.3 12

39.0 30

53.0 19

50.3 12

52.0 26

55.0 18

62.4 10

55.0 25

54.0 18

39.3 10

41.2 23

50.7 17

43.2 9

47.7 22

37.5 17

40.4 7

44.5 22

61.0 16

37.7 6

43.0 21

48.1 16

27.7 3

Exerciţiu propus spre rezolvare de G.S. Maddala, în „Introduction to Econometrics”, 2nd
Edition, Ed. Macmillan, New York, 1992, p. 108, sursa: R.H. Frank, „Are Workers Paid Their
Marginal Products?”, The American Economic Review, September 1984, p. 560

Tabelul 1.14. Datele despre salariul şi experienţa economiştilor, în 1983-1984
Graficul din Figura 1.15 are un punct aberant (încercuit), care este
depărtat de restul punctelor ce formează norul de puncte. Acest punct pare să
atragă drepta de regresie spre el.

Figura 1.15. Corelaţia dintre salariul şi vechimea angajaţilor în 1983-1984
Tabela de regresie obţinută cu Microsoft Excel este prezentată în Tabelul 1.15.
SUMMARY OUTPUT
Regression Statistics
Multiple R
0.4198
R Square
0.1762
Adjusted R Sq.
0.1487
Standard Error
8.0149
Observations
32
ANOVA
df
Regression
1
Residual
30
Total
31
Coeff.
Intercept
X Variable 1

39.643
0.436

SS
MS
412.20 412.20
1927.18 64.24
2339.38
Std.Err.
t Stat
3.467
0.172

11.433
2.533

F
Signific.F
6.42
0.01677

Pvalue
0.000
0.017

Lower
95%
32.561
0.085

Upper
95%
46.724
0.788

Tabelul 1.15. Tabela de regresie a salariului în funcţie de anii de experienţă
Modelul liniar identificat este yˆ i  39.643  0.436 xi . Coeficient de
determinaţie mic, de 0.17, arată că modelul liniar explică variaţia salariului în
proporţie de numai 17%.
Coeficientul de corelaţie liniară între salariul şi experienţa exprimată în
ani, de 0.42, arată o intensitate slabă între cei doi indicatori. Cei doi coeficienţi
ai modelului sunt semnificativ diferiţi de 0 (P-value), testul Fisher arată că
regresia este semnificativă începând de la un prag de semnificaţie de 1.67%.
Valorile teoretice calculate conform modelului liniar de regresie se află
reprezentate pe graficul din Figura 1.15. Valoarea mică a coeficientului de
determinaţie, indică posibilitatea existenţei unui „outlier”, care a fost deja
identificat pe grafic.
Se calculează reziuduurile ei  y i  yˆ i , ca abateri între valorile
observate şi cele ajustate.

Se ordonează, de exemplu, descrescător după variabila y şi se observă
care sunt abaterile mari, în ambele sensuri: pozitive şi negative. În Tabelul 1.16
sunt prezentate valorile ordonate.
În urma studierii erorilor se observă că există 2 puncte care generează
erori pozitive mari şi 3 puncte care generează erori negative mici, dar mari în
valoare absolută. Se elimină punctele marcate accentuat în Tabelul 1.16 şi se
repetă analiza de regresie, pentru cele 27 de observări rămase.
yi
62.4
61.0
56.5
55.0
55.0
54.0
51.3
50.3
51.5
53.0
63.0
55.0
50.7
48.1
52.0
54.3

xi

ei
18.4
14.4
8.6
7.5
7.1
6.5
6.4
5.4
5.3
5.1
4.6
4.5
3.6
1.5
1.0
0.7

10
16
19
18
19
18
12
12
15
19
43
25
17
16
26
32

yi
43.2
47.7
46.8
40.4
51.0
37.7
39.3
40.6
44.5
43.0
42.4
41.2
37.5
27.7
39.0
30.0

xi
9
22
20
7
32
6
10
13
22
21
20
23
17
3
30
16

ei
-0.4
-1.5
-1.6
-2.3
-2.6
-4.6
-4.7
-4.7
-4.7
-5.8
-6.0
-8.5
-9.6
-13.3
-13.7
-16.6

Tabelul 1.16. Analiza reziduurilor pentru detectarea punctelor aberante
Tabela de regresie din Tabelul 1.17, conduce la modelul liniar

yˆ i  38.952  0.494 xi , care indică un coeficient de corelaţie între variabile,

mai mare, de 0.60, arătând o legătură de intensitate medie; un coeficient de
determinaţie de 0.36, mai bun decât în regresia precedentă; estimatorii sunt
semnificativi diferiţi de 0 cu o probabilitate de 100%. Testul Fisher arată
acelaşi lucru; valoarea sa fiind mai mare, iar pragul de semnificaţie mai mic,
decât la regresia iniţială, indicând cu o probabilitate de 99.9% faptul că noua
regresie este global semnificativă.
SUMMARY OUTPUT
Regression Statistics
Multiple R
0.6016
R Square
0.3619
Adjusted R Sq.
0.3364
Standard Error
5.4099
Observations
27
ANOVA
df
Regression
1
Residual
25
Total
26
Coeff.
Intercept
X Variable 1

38.952
0.494

SS
414.966
731.674
1146.64
Std.Err.

MS
414.966
29.267

2.700
0.131

14.425
3.765

t Stat

F
Signif.F
14.179 0.000903

P-value
0.000
0.001

Lower
95%
33.390
0.224

Upper
95%
44.513
0.764

Tabelul 1.17. Tabela de regresie după eliminarea valorilor extreme
Valorile teoretice yt1 obţinute cu noul model sunt reprezentate pe
graficul din Figura 1.16.
Pe grafic se pot vedea punctele încercuite, care au fost eliminate şi nu
au fost considerate în noua analiză de regresie. Printre punctele eliminate nu se
află şi punctul considerat aberant la început, folosind metoda grafică. Se poate
încerca şi varianta prin care să se elimine numai punctul aberant identificat prin
metoda grafică.
Tabela de regresie din Tabelul 1.18 indică un model mult mai slab decât
varianta a 2-a, cu un coeficient de determinaţie de numai 0.09 faţă de 0.36 cât
era după eliminarea celor 5 puncte.

Figura 1.16. Dreapta de regresie după eliminarea valorilor extreme ale
reziduurilor
SUMMARY OUTPUT
Regression Statistics
Multiple R
0.3088
R Square
0.0954
Adjusted R Sq
0.0642
Standard Error
8.0868
Observations
31
ANOVA
df
SS
MS
Regression
1 199.95863 199.9586
Residual
29 1896.4923 65.39629
Total
30 2096.451
Coeff.
Std. Err.
t Stat
Intercept
X Variable 1

40.829
0.360

3.904
0.206

10.459
1.749

F
3.0576

P-value
0.000
0.091

Signif.F
0.0909

Lower
95%
32.845
-0.061

Upper
95%
48.812
0.782

Tabelul 1.18. Tabela de regresie după eliminarea punctului iniţial aberant
Se observă o intensitate slabă a corelaţiei dintre variabila explicată şi
cea explicativă, de numai 0.31, o regresie care începe să devină semnificativă

numai de la un prag  de 9%, după cum arată şi raţia Student a estimatorului
ˆ1 , la P-value. Pentru un prag de semnificaţie =5%, se observă că intervalul
a
de încredere al coeficientului variabilei x poate conţine valoarea 0, pentru că se
schimbă semnul din – al limitei inferioare în semnul + al limitei superioare. În
Figura 1.17 sunt prezentate valorile teoretice yt2 aflate pe dreapta de regresie.
Se observă că norul de puncte şi dreapta de regresie sunt aproape
paralele cu axa Ox, ceea ce arată exitenţa unei corelaţii slabe între salariu şi
numărul de ani trecuţi de la obţinerea doctoratului. Nu se poate renunţa la acest
punct, care la prima vedere părea a fi aberant.

Figura 1.17. Ajustarea salariului în funcţie de vechime, după eliminarea
punctului aberant, prin metoda grafică
Varianta, în care se elimină cele cinci puncte şi punctul iniţial aberant,
oferă tabela de regresie din Tabelul 1.19.
SUMMARY OUTPUT
Regression Statistics
Multiple R
0.4704
R Square
0.2213
Adj. R Sq.
0.1888
Std. Error
5.4733
Observations
26
ANOVA
df
SS
MS
Regression
1
204.279 204.279
Residual
24
718.975 29.957
Total
25
923.255
Coeff.
Standard
t Stat
Error
Intercept
39.9928
3.1655 12.6338
X Variable 1
0.4302
0.1647
2.6113

F
6.819

P-value
0.0000
0.0153

Signif.F
0.0153

Lower
95%
33.459
0.0902

Upper
95%
46.526
0.7702

Tabelul 1.19. Tabela de regresie după eliminarea celor 6 puncte aberante
Se observă că nici această variantă nu este mai bună decât cea în care
s-au eliminat cele 5 puncte detectate prin analiza reziduurilor, varianta a 2-a.

Modelul obţinut yˆ i  39.99  0.43 xi este mai bun decât cel din varianta
anterioară, dar nu mai bun decât cel din varianta a 2-a. Acest model este global
semnificativ, după cum arată testul Fisher, începând de la un prag  de 1.53%.
Coeficientul de determinaţie de numai 0.22 poate determina renunţarea la
această variantă şi păstrarea variantei, în care se elimină numai cele 5 valori
extreme, încercuite în Figura 1.16.
Modelul reţinut ca fiind cel mai bun este: yˆ i  38.952  0.494 xi . Nu se
poate renunţa la punctual izolat, pentru că acesta se află pe direcţia norului de
puncte, iar abaterea sa faţă de linia de regresie din modelul iniţial este mică.
1.15. Metode rezistente de regresie
Calitatea ajustării folosind metoda regresiei, se apreciază în funcţie de
coeficientul de determinaţie, R2. Informaţia conţinută în date, nu este toată
condensată în estimatorii: aˆ 0 şi aˆ1 , R2 şi SSE, ci se poate găsi şi în reziduuri,
care conţin partea de variaţie neexplicată a variabilei dependente. Dacă
analizând reziduurile, se constată prezenţa unei structuri, înseamnă că acestea
sunt încă purtătoare de informaţie, care s-ar putea modela. Modelul ales trebuie
modificat corespunzător.
Statisticianul Anscombe, în 1973, a găsit patru seturi de date care au
particularitatea de a furniza aceleaşi rezultate statistice. Pentru cele patru
grupuri de date, se găseşte aceeaşi dreaptă de regresie yˆ i  3  0.5 xi , aceeaşi
abatere reziduală 1.236 şi acelaşi coeficient de determinaţie 0.667, ceea ce
înseamnă că variabila x explică două treimi din varianţa variabilei y.
x
10
14
5
8
9
12
4
7
11
13
6

Grupul A
y
8.04
9.96
5.68
6.95
8.81
10.84
4.26
4.82
8.33
7.58
7.24

ˆ
y

8
10
5.5
7
7.5
9
5
6.5
8.5
9.5
6

x
10
14
5
8
9
12
4
7
11
13
6

Grupul B
ˆ
y
y
9.14
8
8.1
10
4.74 5.5
8.14
7
8.77 7.5
9.13
9
3.1
5
7.26 6.5
9.26 8.5
8.74 9.5
6.13
6

x
10
14
5
8
9
12
4
7
11
13
6

Grupul C
y
7.46
8.84
5.73
6.77
7.11
8.15
5.39
6.42
7.81
12.74
6.08

ˆ
y

8
10
5.5
7
7.5
9
5
6.5
8.5
9.5
6

x
8
8
8
8
8
8
8
19
8
8
8

Grupul D
ˆ
y
y
6.58
7
5.76
7
7.71
7
8.84
7
8.47
7
7.04
7
5.25
7
12.5 12.5
5.56
7
7.91
7
6.89
7

Tabelul 1.19. Grupurile de date ale lui Anscombe
Totuşi aceste patru seturi de date corespund unor situaţii foarte diferite,
prezentate în Tabelul 1.20, şi în Figurile 1.18, 1.19, 1.20 şi 1.21. Graficele
prezintă datele empirice şi dreapta de regresie într-o diagramă XY (Scatter).
Numai în cazul A, Figura 1.18, se justifică utilizarea regresiei liniare.
Pentru celelalte trei cazuri, aplicarea metodei regresiei nu are sens.

Datele grupului A si dreapta de regresie
12
10

y

8
6
4
2
0
0

5

x

Datele observate

10

15

dreapta de regresie

Figura 1.18. Grupul A de date şi dreapta de regresie
Figura 1.19. Grupul B de date şi dreapta de regresie
Pentru datele din grupul B, modelul nu este corect specificat. Graficul
din Figura 1.19 indică utilizarea unui model neliniar.
Pentru ansamblul C, datele sunt aliniate după o dreaptă, dar neşansa de
a conţine o valoare aberantă pentru x=13, face ca dreapta de regresie să nu
treacă prin nici unul din puncte.
Datele grupului C si dreapta de regresie

14

Datele grupului B si dreapta de regresie

12

12
10
y

10
8

y

6
8
4

6
2

4
0

2 0
0
0

5
Datele observate

x

5
Datele observate

x

10
dreapta de regresie

10
dreapta de regresie

Figura 1.20. Grupul C de date şi dreapta de regresie

15

15

Pentru grupul D, dreapta de regresie pare atrasă de punctul aberant, în
x=19 sau nu sunt suficiente date pentru a determina panta dreptei
Datele grupului D si dreapta de regresie
14
12
10
y

8
6
4
2
0
0

5
10
Datele observate

15
dreapta de regresie

20
x

Figura 1.21. Grupul D de date şi dreapta de regresie
Metodele rezistente pentru rezolvarea situaţiilor în care se manifestă
existenţa valorilor aberante, recurg la proceduri iterative şi respectă acelaşi
criteriu, cel al minimizării sumei pătratelor abaterilor valorilor observate de la
dreapta de regresie (varianţa reziduurilor să fie minimă), ca şi metoda regresiei,
n

min ( y i  yˆ i ) 2 .
i 1

Aceste metode sunt:
1. metoda celor trei puncte şi
2. metoda lui Theil.
Utilizarea medianei, în locul mediei, conferă rezistenţă acestor metode,
pentru că în stabilirea medianei nu se ţine seama de valorile extreme ale
variabilei.
1.15.1. Metoda celor trei puncte
Metoda celor trei puncte constă în:
- determinarea cuantilelor de ordinul 1/3 şi 2/3 ale variabilei x, notate
cu x1/3 şi x2/3;
- divizarea datelor în trei subansamble, astfel:
- I : xi < x1/3,
- II : x1/3 < xi < x2/3,
- III : xi > x2/3;
- determinarea a două puncte (xI, yI) şi (xIII, yIII) ca puncte mediane
ale subansamblelor I şi III, luând ca abscisă mediana absciselor
acestor puncte şi ordonata, mediana ordonatelor lor;
- calculul pantei dreptei care trece prin cele două puncte:
ˆ1 = (yIII – yI) / (xIII – xI);
a
- şi aˆ 0 se determină ca mediană a cantităţilor yi – aˆ1 xi.
Deşi metoda se numeşte a celor trei puncte, în acest caz, sunt numai
două puncte; al treilea apare în studiul curbelor de creştere.

Se utilizează pentru exemplificare, grupul C de date al lui Anscombe şi
se parcurg etapele descrise în continuare.
- Se ordonează crescător cele 11 valori ale variabilei x, pentru a determina
cuantilele de ordinul 1/3 şi 2/3. Se stabilesc probabilităţile cumulate
crescător sub forma unei scări cu pasul 1/11. Prin interpolare se stabilesc ce
valori ale lui x, corespund probabilităţilor 0.33 şi 0.67. Cuantila de ordinul
1/3 este 6.66, iar cea de ordinul 2/3 este 10.33. În Tabelul 1.21 sunt
prezentate calculele pentru determinarea cuantilelor.
- Se împart cele 11 observări în trei grupe, în funcţie de cele două cuantile
determinate. În Tabelul 1.22 se disting aceste grupe.
- Pentru primul punct (xI, yI), mediana valorilor x este 5, iar a valorilor y,
5.73, ca fiind valorile centrale. Pentru punctul (xIII, yIII), având un număr par
de elemente, mediana valorilor x este media aritmetică simplă a valorilor
12 şi 13, adică 12.5, iar mediana valorilor y, se obţine după ordonarea
crescătoare a seriei acestora, ca medie aritmetică între valorile centrale 8.15
şi 8.84, adică 8.495.
- Se calculează panta dreptei ce uneşte cele două puncte de coordonate
(5, 5.73), şi (12.50, 8.495). Această valoare este aˆ1 =0.3687.
- Termenul constant aˆ 0 , mediana cantităţilor yi – a1xi, se obţine după
ordonarea crescătoare a acestora, ca fiind termenul lor central, 3.821.
xi Probabilităţi cumulate
4
5
6
7
8
9
10
11
12
13
14

0.09
0.181818
0.272727
0.363636
0.454545
0.545455
0.636364
0.727273
0.818182
0.909091
1

Ordin
cuantile

Cuantilele
x1/3 şi x2/3

6.66
0.33333

10.33
0.66667

Tabelul 1.21. Calculul valorilor x1/3 şi x2/3
xi
yi
xi
4 5.39
5 5.73 Punctul 1
(5
6 6.08
7 6.42
8 6.77
a1 =
9 7.11
a0 =
10 7.46
11 7.81
12 8.15 Punctul 2 (12.50
13 12.74
14 8.84

yi
5.73)

0.3686
3.8206

8.495)

yi –a1xi
3.9153
3.8866
3.868
3.8393
3.8206
3.792
3.7733
3.7546
3.726
7.9473
3.6786

3.9153
3.8866
3.868
3.8393
3.8206
3.792
3.7733
3.7546
3.726
3.6786
7.9473

Tabelul 1.22. Calculul parametrilor de regresie

Cu modelul astfel determinat yˆ i  3.821  0.3687 xi , se obţin valorile
teoretice, situate pe o dreaptă aflată în imediata apropiere a datelor observate.
Această dreaptă de regresie nu mai este atrasă de punctul aberant, fiind astfel
mult
mai
Datele
grupului
C
si
dreapta
de
regresie
bună,
14
12
10
y

8
6
4
2
0
3

5

7

datele observate

9

11

13

15
dreapta de regresie corecta x

pentru că trece foarte aproape de majoritatea valorilor observate ale grupului C
de date.

Figura 1.22. Grupul de date C şi noua dreaptă de regresie
Pe graficul din Figura 1.22 se observă că noua dreaptă de regresie trece
prin aproape toate punctele, care sunt aliniate şi nu mai este atrasă de punctul
aberant.
1.15.2. Metoda lui Theil
Metoda lui Theil constă în parcurgerea următorilor paşi, pentru
determinarea unui model liniar yˆ i  bˆ0  bˆ1 xi :

-

se dispune de n puncte (xi, yi); se consideră

n( n  1)
cupluri de puncte;
2

-

se uneşte fiecare cuplu de puncte printr-o dreaptă; se calculează panta
fiecărei drepte;
n( n  1)
- valoarea reţinută pentru parametrul bˆ1 este mediana acestor
2
pante ale dreptelor;
- bˆ0 se determină ca mediană a cantităţilor y i  bˆ1 xi ale dreptelor.
Cu parametrii astfel determinaţi se obţine o dreaptă care va fi mai bună
decât dreapta de regresie iniţială, atrasă de punctul aberant.
Aplicarea metodei lui Theil pentru grupul de date C al lui Anscombe,
conduce la următoarele rezultate, prezentate în Tabelele 1.23, 1.24 şi 1.25.

xi  x j 14

10
14
5
8
9
12
4
7
11
13
6

5

8

9 12

4

7 11 13

6

4 -5 -2 -1 2 -6 -3 1 3 -4
0 -9 -6 -5 -2 -10 -7 -3 -1 -8
0 3 4 7 -1 2 6 8 1
0 1 4 -4 -1 3 5 -2
0 3 -5 -2 2 4 -3
0 -8 -5 -1 1 -6
0 3 7 9 2
0 4 6 -1
0 2 -5
0 -7
0

Tabelul 1.23. Calculul diferenţelor xi  x j
y i  y j 8.84

5.73

6.77

7.11

8.15

5.39

6.42

7.81 12.74

7.46 1.38 -1.73 -0.69 -0.35 0.69 -2.07 -1.04 0.35
8.84
0 -3.11 -2.07 -1.73 -0.69 -3.45 -2.42 -1.03
5.73
0 1.04 1.38 2.42 -0.34 0.69 2.08
6.77
0 0.34 1.38 -1.38 -0.35 1.04
7.11
0 1.04 -1.72 -0.69
0.7
8.15
0 -2.76 -1.73 -0.34
5.39
0 1.03 2.42
6.42
0 1.39
7.81
0
12.74
6.08

5.28
3.9
7.01
5.97
5.63
4.59
7.35
6.32
4.93
0

6.08
-1.38
-2.76
0.35
-0.69
-1.03
-2.07
0.69
-0.34
-1.73
-6.66
0

Tabelul 1.24. Calculul diferenţelor y i  y j
Calculele pantelor celor 55 de drepte şi mediana lor, folosind funcţia
MEDIAN(...) din Excel, precum şi cantităţile ce reprezintă termenii liberi şi
mediana lor, sunt prezentate în Tabelul 1.25.
Dreapta de regresie este yˆ i  4.0044  0.3456 xi , iar în Tabelul 1.26
sunt prezentate valorile teoretice obţinute prin metoda lui Theil, şi cele obţinute

prin metoda celor trei puncte. Graficul din Figura 1.23 prezintă cele două
drepte de regresie obţinute prin metoda celor 3 puncte şi prin metoda lui Theil.

xi  x j y i  y j
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49

4
-5
-2
-1
2
-6
-3
1
3
-4
-9
-6
-5
-2
-10
-7
-3
-1
-8
3
4
7
-1
2
6
8
1
1
4
-4
-1
3
5
-2
3
-5
-2
2
4
-3
-8
-5
-1
1
-6
3
7
9
2

1.38
-1.73
-0.69
-0.35
0.69
-2.07
-1.04
0.35
5.28
-1.38
-3.11
-2.07
-1.73
-0.69
-3.45
-2.42
-1.03
3.9
-2.76
1.04
1.38
2.42
-0.34
0.69
2.08
7.01
0.35
0.34
1.38
-1.38
-0.35
1.04
5.97
-0.69
1.04
-1.72
-0.69
0.7
5.63
-1.03
-2.76
-1.73
-0.34
4.59
-2.07
1.03
2.42
7.35
0.69

ˆ
b
1

ˆ
b
0

0.3450
0.3460
0.3450
0.3500
0.3450
0.3450
0.3467
0.3500
1.7600
0.3450
0.3456
0.3450
0.3460
0.3450
0.3450
0.3457
0.3433
-3.900
0.3450
0.3467
0.3450
0.3457
0.3400
0.3450
0.3467
0.8763
0.3500
0.3400
0.3450
0.3450
0.3500
0.3467
1.1940
0.3450
0.3467
0.3440
0.3450
0.3500
1.4075
0.3433
0.3450
0.3460
0.3400
4.5900
0.3450
0.3433
0.3457
0.8167
0.3450

4.0044
4.0022
4.0022
4.0056
4
4.0033
4.0078
4.0011
4.0089
8.2478
4.0067
Me=b0
4.0044

50
51
52
53
54
55

4
6
-1
2
-5
-7

1.39
6.32
-0.34
4.93
-1.73
-6.66
Me=b1

0.3475
1.0533
0.3400
2.4650
0.3460
0.9514
0.3456

Tabelul 1.25. Calculul parametrilor noii drepte de regresie
Grupul C
x
y
10
14
5
8
9
12
4
7
11
13
6

7.46
8.84
5.73
6.77
7.11
8.15
5.39
6.42
7.81
12.74
6.08

Regresia liniară Met. 3 puncte Metoda Theil
ˆi
ˆi
ˆi
y
y
y
8
7.51
7.46
10
8.98
8.84
5.5
5.66
5.73
7
6.77
6.77
7.5
7.14
7.11
9
8.24
8.15
5
5.30
5.39
6.5
6.40
6.42
8.5
7.88
7.81
9.5
8.61
8.50
6
6.03
6.08

Tabelul 1.26. Prezentarea comparativă a rezultatelor
Se observă în Tabelul 1.26, că valorile teoretice prin metoda lui Theil
coincid cu valorile yi, cu excepţia punctului aberat de coordonate (13, 12.74).
n

Deşi toate celelalte erori sunt 0, totuşi

(y
i 1

i

 yˆ i ) 2 este mai mare

decât în cazul metodei celor 3 puncte.

Figura 1.23. Compararea metodelor rezistente
Ambele metode sunt bune. Cu toate acestea faptul că regresia lui Theil
trece prin toate punctele, cu excepţia celui aberant, face ca aceasta din urmă să
fie preferată faţă de celelate variante. O altă soluţie ar fi să se elimine punctul
aberant conform metodei grafice, care indică faptul că punctul izolat
influenţează panta dreptei de regresie. Atunci punctele sunt aliniate după o
dreaptă a cărei ecuaţie este: ˆy i  4.0056  0.3454 xi , foarte apropiată de cea
obţinută prin metoda Theil.

Sponsor Documents

Or use your account on DocShare.tips

Hide

Forgot your password?

Or register your new account on DocShare.tips

Hide

Lost your password? Please enter your email address. You will receive a link to create a new password.

Back to log-in

Close