LSM pentru o funcție liniară. Elaborarea unei prognoze folosind metoda celor mai mici pătrate. Un exemplu de rezolvare a problemei. Date și aproximare y = k x

Metodă cele mai mici pătrate este utilizat pentru estimarea parametrilor ecuației de regresie.

Una dintre metodele de studiu a relațiilor stocastice dintre caracteristici este analiza regresiei.
Analiza de regresie este derivarea unei ecuații de regresie, care este folosită pentru a găsi valoarea medie a unei variabile aleatoare (caracteristică-rezultat), dacă este cunoscută valoarea altei (sau a altor) variabile (feature-factori). Acesta include următorii pași:

  1. alegerea formei de conectare (tipul ecuației de regresie analitică);
  2. estimarea parametrilor ecuației;
  3. evaluarea calității ecuației de regresie analitică.
Cel mai adesea, o formă liniară este folosită pentru a descrie relația statistică a caracteristicilor. Atenția acordată unei relații liniare se explică printr-o interpretare economică clară a parametrilor acesteia, limitată de variația variabilelor, și prin faptul că, în majoritatea cazurilor, formele neliniare ale unei relații sunt convertite (prin luarea unui logaritm sau schimbarea variabilelor) într-o formă liniară pentru a efectua calcule.
În cazul unei relații de perechi liniare, ecuația de regresie va lua forma: y i =a+b·x i +u i . Parametrii acestei ecuații a și b sunt estimați din datele observației statistice x și y . Rezultatul unei astfel de evaluări este ecuația: , unde , - estimări ale parametrilor a și b , - valoarea caracteristicii (variabilei) efective obținută prin ecuația de regresie (valoarea calculată).

Cel mai frecvent utilizat pentru estimarea parametrilor este metoda celor mai mici pătrate (LSM).
Metoda celor mai mici pătrate oferă cele mai bune estimări (consistente, eficiente și nepărtinitoare) ale parametrilor ecuației de regresie. Dar numai dacă sunt îndeplinite anumite ipoteze despre termenul aleator (u) și variabila independentă (x) (vezi ipotezele MCO).

Problema estimării parametrilor unei ecuații perechi liniare prin metoda celor mai mici pătrate constă în următoarele: obținerea unor astfel de estimări ale parametrilor , , la care suma abaterilor pătrate ale valorilor reale ale caracteristicii efective - y i din valorile calculate - este minimă.
Oficial criteriul OLS se poate scrie asa: .

Metode de clasificare a celor mai mici pătrate

  1. Metoda celor mai mici pătrate.
  2. Metoda maximei probabilități (pentru un model de regresie liniară clasică normală, se postulează normalitatea reziduurilor de regresie).
  3. Metoda generalizată a celor mai mici pătrate a GLSM este utilizată în cazul autocorelației erorilor și în cazul heteroscedasticității.
  4. Metoda celor mai mici pătrate ponderate (un caz special de GLSM cu reziduuri heteroscedastice).

Ilustrați esența metoda clasică a celor mai mici pătrate grafic. Pentru a face acest lucru, vom construi un dot plot în funcție de datele observaționale (x i , y i , i=1;n) într-un sistem de coordonate dreptunghiular (un astfel de dot plot se numește câmp de corelație). Să încercăm să găsim o linie dreaptă care este cea mai apropiată de punctele câmpului de corelație. Conform metodei celor mai mici pătrate, linia este aleasă astfel încât suma distanțelor verticale pătrate dintre punctele câmpului de corelație și această dreaptă să fie minimă.

Notarea matematică a acestei probleme: .
Valorile lui y i și x i =1...n ne sunt cunoscute, acestea sunt date de observație. În funcția S sunt constante. Variabilele din această funcție sunt estimările necesare ale parametrilor - , . Pentru a găsi minimul unei funcții de 2 variabile, este necesar să se calculeze derivatele parțiale ale acestei funcții față de fiecare dintre parametri și să le echivaleze cu zero, i.e. .
Ca rezultat, obținem un sistem de 2 normale ecuatii lineare:
Rezolvând acest sistem, găsim estimările parametrilor necesari:

Corectitudinea calculului parametrilor ecuației de regresie poate fi verificată prin compararea sumelor (este posibilă o anumită discrepanță datorită rotunjirii calculelor).
Pentru a calcula estimările parametrilor, puteți construi Tabelul 1.
Semnul coeficientului de regresie b indică direcția relației (dacă b > 0, relația este directă, dacă b<0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.
În mod formal, valoarea parametrului a este valoarea medie a lui y pentru x egal cu zero. Dacă factorul-semn nu are și nu poate avea o valoare zero, atunci interpretarea de mai sus a parametrului a nu are sens.

Evaluarea strângerii relației dintre trăsături se realizează utilizând coeficientul de corelație liniară pereche - r x,y . Poate fi calculat folosind formula: . În plus, coeficientul de corelație liniară a perechii poate fi determinat în funcție de coeficientul de regresie b: .
Gama de valori admisibile ale coeficientului liniar al corelației perechilor este de la –1 la +1. Semnul coeficientului de corelație indică direcția relației. Dacă r x, y >0, atunci conexiunea este directă; dacă r x, y<0, то связь обратная.
Dacă acest coeficient este aproape de unitate în modul, atunci relația dintre caracteristici poate fi interpretată ca una liniară destul de apropiată. Dacă modulul său este egal cu un ê r x , y ê =1, atunci relația dintre caracteristici este liniară funcțională. Dacă caracteristicile x și y sunt liniar independente, atunci r x,y este aproape de 0.
Tabelul 1 poate fi folosit și pentru a calcula r x,y.

Pentru a evalua calitatea ecuației de regresie obținută se calculează coeficientul teoretic de determinare - R 2 yx:

,
unde d 2 este varianța y explicată prin ecuația de regresie;
e 2 - varianța reziduală (neexplicată prin ecuația de regresie) y ;
s 2 y - variația totală (totală) y .
Coeficientul de determinare caracterizează ponderea de variație (dispersie) a caracteristicii rezultate y, explicată prin regresie (și, în consecință, factorul x), în variația totală (dispersia) y. Coeficientul de determinare R 2 yx ia valori de la 0 la 1. În consecință, valoarea 1-R 2 yx caracterizează proporția de varianță y cauzată de influența altor factori neluați în considerare în erorile de model și de specificație.
Cu regresie liniară pereche R 2 yx =r 2 yx .

Extrapolarea - aceasta este o metodă de cercetare științifică, care se bazează pe diseminarea tendințelor trecute și prezente, tipare, relații cu dezvoltarea viitoare a obiectului de prognoză. Metodele de extrapolare includ metoda mediei mobile, metoda netezirii exponențiale, metoda celor mai mici pătrate.

Esență metoda celor mai mici pătrate constă în minimizarea sumei abaterilor pătrate dintre valorile observate şi cele calculate. Valorile calculate se găsesc în funcție de ecuația selectată - ecuația de regresie. Cu cât distanța dintre valorile reale și cele calculate este mai mică, cu atât prognoza este mai precisă pe baza ecuației de regresie.

Analiza teoretică a esenței fenomenului studiat, a cărui modificare este afișată printr-o serie temporală, servește drept bază pentru alegerea unei curbe. Considerații despre natura creșterii nivelurilor seriei sunt uneori luate în considerare. Deci, dacă creșterea producției este de așteptat într-o progresie aritmetică, atunci netezirea este efectuată în linie dreaptă. Dacă se dovedește că creșterea este exponențială, atunci netezirea ar trebui făcută în funcție de funcția exponențială.

Formula de lucru a metodei celor mai mici pătrate : Y t+1 = a*X + b, unde t + 1 este perioada de prognoză; Уt+1 – indicator prezis; a și b - coeficienți; X - simbol al timpului.

Coeficienții a și b se calculează după următoarele formule:

unde, Uf - valorile reale ale seriei de dinamică; n este numărul de niveluri din seria temporală;

Netezirea seriilor de timp prin metoda celor mai mici pătrate servește la reflectarea tiparelor de dezvoltare a fenomenului studiat. În exprimarea analitică a unei tendințe, timpul este considerat ca o variabilă independentă, iar nivelurile seriei acționează în funcție de această variabilă independentă.

Dezvoltarea unui fenomen nu depinde de câți ani au trecut de la punctul de plecare, ci de ce factori au influențat dezvoltarea lui, în ce direcție și cu ce intensitate. Din aceasta rezultă clar că dezvoltarea unui fenomen în timp apare ca urmare a acțiunii acestor factori.

Stabilirea corectă a tipului de curbă, tipul de dependență analitică de timp este una dintre cele mai dificile sarcini ale analizei pre-predictive. .

Selectarea tipului de funcție care descrie tendința, ai cărui parametri sunt determinați prin metoda celor mai mici pătrate, este în majoritatea cazurilor empirică, prin construirea unui număr de funcții și compararea lor între ele prin valoarea mediei rădăcină. -eroare pătrată calculată prin formula:

unde Uf - valorile reale ale seriei de dinamică; Ur – valori calculate (netezite) ale seriei de timp; n este numărul de niveluri din seria temporală; p este numărul de parametri definiți în formulele care descriu tendința (tendința de dezvoltare).

Dezavantajele metodei celor mai mici pătrate :

  • atunci când se încearcă descrierea fenomenului economic studiat folosind o ecuație matematică, prognoza va fi precisă pentru o perioadă scurtă de timp și ecuația de regresie trebuie recalculată pe măsură ce devin disponibile noi informații;
  • complexitatea selecției ecuației de regresie, care poate fi rezolvată folosind programe de calculator standard.

Un exemplu de utilizare a metodei celor mai mici pătrate pentru a dezvolta o prognoză

Sarcină . Există date care caracterizează nivelul șomajului în regiune, %

  • Construiți o prognoză a ratei șomajului în regiune pentru lunile noiembrie, decembrie, ianuarie, folosind metodele: medie mobilă, netezire exponențială, cele mai mici pătrate.
  • Calculați erorile din prognozele rezultate folosind fiecare metodă.
  • Comparați rezultatele obținute, trageți concluzii.

Soluția celor mai mici pătrate

Pentru rezolvare, vom alcătui un tabel în care vom face calculele necesare:

Să definim simbolul timpului ca o numerotare consecutivă a perioadelor bazei de prognoză (coloana 3). Calculați coloanele 4 și 5. Calculați valorile seriei Ur vor fi determinate de formula Y t + 1 = a * X + b, unde t + 1 este perioada de prognoză; Уt+1 – indicator prezis; a și b - coeficienți; X - simbol al timpului.

Coeficienții a și b sunt determinați prin următoarele formule:

unde, Uf - valorile reale ale seriei de dinamică; n este numărul de niveluri din seria temporală.
a = / = - 0,17
b \u003d 22,13 / 10 - (-0,17) * 55 / 10 \u003d 3,15

Calculăm eroarea relativă medie folosind formula:

ε = 28,63/10 = 2,86% exactitatea prognozeiînalt.

Concluzie : Compararea rezultatelor obţinute în calcule metoda mediei mobile , netezire exponenţială și metoda celor mai mici pătrate, putem spune că eroarea relativă medie în calcule prin metoda de netezire exponențială se încadrează în 20-50%. Aceasta înseamnă că precizia predicției în acest caz este doar satisfăcătoare.

În primul și al treilea caz, acuratețea prognozei este mare, deoarece eroarea relativă medie este mai mică de 10%. Dar metoda mediei mobile a permis obținerea unor rezultate mai fiabile (prognoză pentru noiembrie - 1,52%, prognoză pentru decembrie - 1,53%, prognoză pentru ianuarie - 1,49%), deoarece eroarea relativă medie la utilizarea acestei metode este cea mai mică - 1 ,13%.

(Vezi poza). Este necesar să se găsească ecuația unei linii drepte

Cu cât numărul în valoare absolută este mai mic, cu atât se alege mai bine linia dreaptă (2). Ca o caracteristică a preciziei selecției unei linii drepte (2), putem lua suma pătratelor

Condițiile minime pentru S vor fi

(6)
(7)

Ecuațiile (6) și (7) pot fi scrise sub următoarea formă:

(8)
(9)

Din ecuațiile (8) și (9) este ușor de găsit a și b din valorile experimentale x i și y i . Linia (2) definită prin ecuațiile (8) și (9) se numește dreptă obținută prin metoda celor mai mici pătrate (acest nume subliniază că suma pătratelor S are un minim). Ecuațiile (8) și (9), din care se determină linia dreaptă (2), se numesc ecuații normale.

Este posibil să se indice un mod simplu și general de compilare a ecuațiilor normale. Folosind punctele experimentale (1) și ecuația (2), putem scrie sistemul de ecuații pentru a și b

y 1 \u003d ax 1 +b,
y 2 \u003dax 2 +b,
...
(10)
yn=axn+b,

Înmulțim părțile din stânga și din dreapta fiecăreia dintre aceste ecuații cu coeficientul de la prima necunoscută a (adică x 1 , x 2 , ..., x n) și adunăm ecuațiile rezultate, ca rezultat obținem prima ecuație normală ( 8).

Înmulțim părțile stânga și dreaptă ale fiecăreia dintre aceste ecuații cu coeficientul celei de-a doua necunoscute b, adică. cu 1 și adăugați ecuațiile rezultate, rezultând a doua ecuație normală (9).

Această metodă de obținere a ecuațiilor normale este generală: este potrivită, de exemplu, pentru funcție

este o valoare constantă și trebuie determinată din datele experimentale (1).

Sistemul de ecuații pentru k se poate scrie:

Găsiți linia (2) folosind metoda celor mai mici pătrate.

Soluţie. Găsim:

x i =21, y i =46,3, x i 2 =91, x i y i =179,1.

Scriem ecuațiile (8) și (9)

De aici găsim

Estimarea preciziei metodei celor mai mici pătrate

Să dăm o estimare a preciziei metodei pentru cazul liniar când are loc ecuația (2).

Fie valorile experimentale x i exacte, iar valorile experimentale y i au erori aleatoare cu aceeași varianță pentru tot i.

Introducem notația

(16)

Atunci soluțiile ecuațiilor (8) și (9) pot fi reprezentate ca

(17)
(18)
Unde
(19)
Din ecuația (17) găsim
(20)
În mod similar, din ecuația (18) obținem

(21)
deoarece
(22)
Din ecuațiile (21) și (22) găsim
(23)

Ecuațiile (20) și (23) oferă o estimare a preciziei coeficienților determinați de ecuațiile (8) și (9).

Rețineți că coeficienții a și b sunt corelați. Prin simple transformări găsim momentul de corelare a acestora.

De aici găsim

0,072 la x=1 și 6,

0,041 la x=3,5.

Literatură

Ţărm. Ya. B. Metode statistice de analiză și control al calității și fiabilității. M.: Gosenergoizdat, 1962, p. 552, p. 92-98.

Această carte este destinată unei game largi de ingineri (institute de cercetare, birouri de proiectare, locuri de testare și fabrici) implicați în determinarea calității și fiabilității echipamentelor electronice și a altor produse industriale de masă (construcții de mașini, fabricarea de instrumente, artilerie etc.).

Cartea oferă o aplicare a metodelor statisticii matematice la prelucrarea și evaluarea rezultatelor testelor, în care se determină calitatea și fiabilitatea produselor testate. Pentru comoditatea cititorilor, sunt oferite informațiile necesare din statisticile matematice, precum și un număr mare de tabele matematice auxiliare care facilitează calculele necesare.

Prezentarea este ilustrată de un număr mare de exemple preluate din domeniul electronicii radio și al tehnologiei de artilerie.

Are multe aplicații, deoarece permite o reprezentare aproximativă a unei anumite funcții de către altele mai simple. LSM poate fi extrem de util în procesarea observațiilor și este utilizat în mod activ pentru a estima unele cantități din rezultatele măsurătorilor altora care conțin erori aleatorii. În acest articol, veți învăța cum să implementați calculele celor mai mici pătrate în Excel.

Enunțarea problemei pe un exemplu specific

Să presupunem că există doi indicatori X și Y. Mai mult, Y depinde de X. Deoarece OLS este de interes pentru noi din punct de vedere al analizei de regresie (în Excel, metodele sale sunt implementate folosind funcții încorporate), ar trebui să procedăm imediat a lua în considerare o problemă specifică.

Deci, să fie X aria de vânzare a unui magazin alimentar, măsurată în metri pătrați, iar Y să fie cifra de afaceri anuală, definită în milioane de ruble.

Se cere sa se faca o previziune a ce cifra de afaceri (Y) va avea magazinul daca are unul sau altul spatiu comercial. Evident, funcția Y = f (X) este în creștere, deoarece hipermarketul vinde mai multe mărfuri decât taraba.

Câteva cuvinte despre corectitudinea datelor inițiale utilizate pentru predicție

Să presupunem că avem un tabel construit cu date pentru n magazine.

Conform statisticilor matematice, rezultatele vor fi mai mult sau mai puțin corecte dacă se examinează datele de pe cel puțin 5-6 obiecte. De asemenea, rezultatele „anomale” nu pot fi folosite. În special, un mic butic de elită poate avea o cifră de afaceri de multe ori mai mare decât cifra de afaceri a magazinelor mari din clasa „masmarket”.

Esența metodei

Datele din tabel pot fi afișate pe planul cartezian ca puncte M 1 (x 1, y 1), ... M n (x n, y n). Acum soluția problemei se va reduce la selectarea unei funcții de aproximare y = f (x), care are un grafic care trece cât mai aproape de punctele M 1, M 2, .. M n .

Desigur, puteți utiliza un polinom de grad înalt, dar această opțiune nu este doar dificil de implementat, ci pur și simplu incorectă, deoarece nu va reflecta tendința principală care trebuie detectată. Soluția cea mai rezonabilă este să căutați o dreaptă y = ax + b, care aproximează cel mai bine datele experimentale și, mai precis, coeficienții - a și b.

Scorul de precizie

Pentru orice aproximare, evaluarea acurateței sale este de o importanță deosebită. Notați cu e i diferența (abaterea) dintre valorile funcționale și experimentale pentru punctul x i , adică e i = y i - f (x i).

Evident, pentru a evalua acuratețea aproximării, puteți utiliza suma abaterilor, adică atunci când alegeți o linie dreaptă pentru o reprezentare aproximativă a dependenței lui X de Y, ar trebui să se acorde preferință celei care are cea mai mică valoare a suma e i în toate punctele luate în considerare. Cu toate acestea, nu totul este atât de simplu, deoarece împreună cu abaterile pozitive, practic vor fi și negative.

Puteți rezolva problema folosind modulele de abatere sau pătratele acestora. Această din urmă metodă este cea mai utilizată. Este folosit în multe domenii, inclusiv în analiza regresiei (în Excel, implementarea sa se realizează folosind două funcții încorporate) și s-a dovedit de mult timp a fi eficient.

Metoda celor mai mici pătrate

În Excel, după cum știți, există o funcție de asumare automată încorporată care vă permite să calculați valorile tuturor valorilor situate în intervalul selectat. Astfel, nimic nu ne va împiedica să calculăm valoarea expresiei (e 1 2 + e 2 2 + e 3 2 + ... e n 2).

În notația matematică, aceasta arată astfel:

Deoarece a fost luată inițial decizia de a aproxima folosind o linie dreaptă, avem:

Astfel, sarcina de a găsi o linie dreaptă care descrie cel mai bine o relație specifică între X și Y echivalează cu calcularea minimului unei funcții a două variabile:

Acest lucru necesită egalarea la zero derivate parțiale în raport cu noile variabile a și b și rezolvarea unui sistem primitiv format din două ecuații cu 2 necunoscute de forma:

După transformări simple, inclusiv împărțirea la 2 și manipularea sumelor, obținem:

Rezolvând-o, de exemplu, prin metoda lui Cramer, obținem un punct staționar cu anumiți coeficienți a * și b * . Acesta este minimul, adică pentru a prezice ce cifră de afaceri va avea magazinul pentru o anumită zonă, este potrivită linia dreaptă y = a * x + b *, care este un model de regresie pentru exemplul în cauză. Desigur, nu vă va permite să găsiți rezultatul exact, dar vă va ajuta să vă faceți o idee dacă cumpărarea unui magazin cu credit pentru o anumită zonă va da roade.

Cum se implementează metoda celor mai mici pătrate în Excel

Excel are o funcție pentru calcularea valorii celor mai mici pătrate. Are următoarea formă: TREND (valori Y cunoscute; valori X cunoscute; valori X noi; constantă). Să aplicăm formula pentru calcularea MOL în Excel la tabelul nostru.

Pentru a face acest lucru, în celula în care ar trebui să fie afișat rezultatul calculului folosind metoda celor mai mici pătrate în Excel, introduceți semnul „=” și selectați funcția „TENDINȚA”. În fereastra care se deschide, completați câmpurile corespunzătoare, evidențiind:

  • intervalul de valori cunoscute pentru Y (în acest caz date pentru cifra de afaceri);
  • interval x 1 , …x n , adică dimensiunea spațiului comercial cu amănuntul;
  • și valorile cunoscute și necunoscute ale lui x, pentru care trebuie să aflați dimensiunea cifrei de afaceri (pentru informații despre locația lor pe foaia de lucru, consultați mai jos).

În plus, există o variabilă logică „Const” în formulă. Dacă introduceți 1 în câmpul corespunzător acestuia, atunci aceasta va însemna că trebuie efectuate calcule, presupunând că b \u003d 0.

Dacă trebuie să cunoașteți prognoza pentru mai mult de o valoare x, atunci după introducerea formulei, nu trebuie să apăsați „Enter”, ci trebuie să introduceți combinația „Shift” + „Control” + „Enter” („Enter” ) pe tastatură.

Unele caracteristici

Analiza de regresie poate fi accesibilă chiar și pentru manechin. Formula Excel pentru prezicerea valorii unui tablou de variabile necunoscute – „TENDINȚA” – poate fi folosită chiar și de cei care nu au auzit niciodată de metoda celor mai mici pătrate. Este suficient doar să cunoști câteva caracteristici ale muncii sale. În special:

  • Dacă plasați intervalul de valori cunoscute ale variabilei y într-un rând sau coloană, atunci fiecare rând (coloană) cu valori cunoscute ale lui x va fi perceput de program ca o variabilă separată.
  • Dacă intervalul cu x cunoscut nu este specificat în fereastra TREND, atunci în cazul utilizării funcției în Excel, programul o va considera ca o matrice formată din numere întregi, al căror număr corespunde intervalului cu valorile date. a variabilei y.
  • Pentru a scoate o matrice de valori „prevăzute”, expresia tendinței trebuie introdusă ca formulă matrice.
  • Dacă nu sunt specificate noi valori x, atunci funcția TREND le consideră egale cu cele cunoscute. Dacă nu sunt specificate, atunci tabloul 1 este luat ca argument; 2; 3; 4;…, care este proporțional cu intervalul cu parametrii deja dați y.
  • Intervalul care conține noile valori x trebuie să aibă aceleași sau mai multe rânduri sau coloane ca și intervalul cu valorile y date. Cu alte cuvinte, trebuie să fie proporțional cu variabilele independente.
  • O matrice cu valori x cunoscute poate conține mai multe variabile. Cu toate acestea, dacă vorbim despre unul singur, atunci este necesar ca intervalele cu valorile date ale lui x și y să fie proporționale. În cazul mai multor variabile, este necesar ca intervalul cu valorile y date să se încadreze într-o coloană sau un rând.

Funcția FORECAST

Este implementat folosind mai multe funcții. Una dintre ele se numește „PREDICȚIE”. Este similar cu TREND, adică oferă rezultatul calculelor folosind metoda celor mai mici pătrate. Cu toate acestea, doar pentru un X, pentru care valoarea lui Y este necunoscută.

Acum cunoașteți formulele Excel pentru manechine care vă permit să preziceți valoarea viitoarei valori a unui indicator în funcție de o tendință liniară.

Care găsește cea mai largă aplicație în diverse domenii ale științei și practicii. Poate fi fizică, chimie, biologie, economie, sociologie, psihologie și așa mai departe. Prin voința sorții, de multe ori trebuie să mă ocup de economie și, prin urmare, astăzi vă voi aranja un bilet către o țară uimitoare numită Econometrie=) … Cum nu vrei asta?! E foarte bine acolo - trebuie doar să te decizi! …Dar ceea ce probabil că vrei cu siguranță este să înveți cum să rezolvi problemele cele mai mici pătrate. Și mai ales cititorii harnici vor învăța să le rezolve nu doar cu acuratețe, ci și FOARTE RAPID ;-) Dar mai întâi expunerea generală a problemei+ exemplu înrudit:

Să fie studiați indicatorii într-o anumită materie care au o expresie cantitativă. În același timp, există toate motivele să credem că indicatorul depinde de indicator. Această presupunere poate fi atât o ipoteză științifică, cât și bazată pe bun simț elementar. Să lăsăm totuși știința deoparte și să explorăm zone mai apetisante - și anume, magazinele alimentare. Se notează prin:

– spațiu comercial al unui magazin alimentar, mp,
- cifra de afaceri anuală a unui magazin alimentar, milioane de ruble.

Este destul de clar că, cu cât suprafața magazinului este mai mare, cu atât cifra de afaceri este mai mare în majoritatea cazurilor.

Să presupunem că după efectuarea de observații / experimente / calcule / dans cu o tamburină, avem la dispoziție date numerice:

Cu magazinele alimentare, cred că totul este clar: - aceasta este zona primului magazin, - cifra de afaceri anuală a acestuia, - zona celui de-al doilea magazin, - cifra de afaceri anuală etc. Apropo, nu este deloc necesar să aveți acces la materiale clasificate - o evaluare destul de precisă a cifrei de afaceri poate fi obținută folosind statistici matematice. Cu toate acestea, nu vă lăsați distras, cursul de spionaj comercial este deja plătit =)

Datele tabelare pot fi scrise și sub formă de puncte și descrise în mod obișnuit pentru noi. Sistemul cartezian .

Să răspundem la o întrebare importantă: de câte puncte sunt necesare pentru un studiu calitativ?

Cu cât mai mare cu atât mai bine. Setul minim admis este format din 5-6 puncte. În plus, cu o cantitate mică de date, rezultatele „anormale” nu ar trebui incluse în eșantion. Deci, de exemplu, un mic magazin de elită poate ajuta ordine de mărime mai mult decât „colegii lor”, distorsionând astfel modelul general care trebuie găsit!

Dacă este destul de simplu, trebuie să alegem o funcție, programa care trece cât mai aproape de puncte . O astfel de funcție este numită aproximând (aproximare - aproximare) sau functie teoretica . În general, aici apare imediat un „pretendint” evident - un polinom de grad înalt, al cărui grafic trece prin TOATE punctele. Dar această opțiune este complicată și adesea pur și simplu incorectă. (deoarece graficul se va „vânta” tot timpul și reflectă slab tendința principală).

Astfel, funcția dorită trebuie să fie suficient de simplă și, în același timp, să reflecte adecvat dependența. După cum ați putea ghici, una dintre metodele pentru găsirea unor astfel de funcții este numită cele mai mici pătrate. În primul rând, să analizăm esența sa într-un mod general. Fie ca o funcție să aproximeze datele experimentale:


Cum se evaluează acuratețea acestei aproximări? Să calculăm și diferențele (abaterile) dintre valorile experimentale și cele funcționale (studiam desenul). Primul gând care îmi vine în minte este de a estima cât de mare este suma, dar problema este că diferențele pot fi negative. (De exemplu, ) iar abaterile ca urmare a unei astfel de însumări se vor anula reciproc. Prin urmare, ca o estimare a preciziei aproximării, se sugerează să ia suma module abateri:

sau în formă pliată: (brusc, cine nu știe: este pictograma sumă și este o variabilă auxiliară-„contor”, care ia valori de la 1 la ).

Prin aproximarea punctelor experimentale cu diferite funcții, vom obține diferite valori ale lui , și este evident că acolo unde această sumă este mai mică, acea funcție este mai precisă.

O astfel de metodă există și este numită metoda modulului minim. Cu toate acestea, în practică a devenit mult mai răspândită. metoda celor mai mici pătrate, în care posibilele valori negative sunt eliminate nu prin modul, ci prin pătrarea abaterilor:

, după care eforturile sunt direcționate către selectarea unei astfel de funcție încât suma abaterilor pătrate era cât se poate de mică. De fapt, de aici și numele metodei.

Și acum revenim la un alt punct important: după cum sa menționat mai sus, funcția selectată ar trebui să fie destul de simplă - dar există și multe astfel de funcții: liniar , hiperbolic, exponenţială, logaritmică, pătratică etc. Și, bineînțeles, aici aș vrea imediat să „reduiesc domeniul de activitate”. Ce clasă de funcții să alegeți pentru cercetare? Tehnica primitivă, dar eficientă:

- Cel mai simplu mod de a atrage puncte pe desen și analizați locația acestora. Dacă tind să fie în linie dreaptă, atunci ar trebui să cauți ecuație în linie dreaptă cu valori optime și . Cu alte cuvinte, sarcina este de a găsi ACEPTĂ coeficienți - astfel încât suma abaterilor pătrate să fie cea mai mică.

Dacă punctele sunt situate, de exemplu, de-a lungul hiperbolă, atunci este clar că funcția liniară va da o aproximare slabă. În acest caz, căutăm cei mai „favorabili” coeficienți pentru ecuația hiperbolei - cele care dau suma minima de patrate .

Acum observați că în ambele cazuri vorbim funcţiile a două variabile, ale căror argumente sunt opțiuni de dependență căutate:

Și, în esență, trebuie să rezolvăm o problemă standard - să găsim minim de o funcție a două variabile.

Amintiți-vă exemplul nostru: să presupunem că punctele „magazin” tind să fie situate în linie dreaptă și că există toate motivele să credem că prezența dependență liniară cifra de afaceri din zona de tranzactionare. Să găsim astfel de coeficienți „a” și „fi”, astfel încât suma abaterilor pătrate a fost cel mai mic. Totul ca de obicei - mai întâi derivate parțiale de ordinul I. Conform regula liniarității puteți diferenția chiar sub pictograma sumă:

Dacă doriți să folosiți aceste informații pentru un eseu sau o lucrare de termen, vă voi fi foarte recunoscător pentru linkul din lista de surse, calcule atât de detaliate nu veți găsi nicăieri:

Să facem un sistem standard:

Reducem fiecare ecuație cu un „doi” și, în plus, „despărțim” sumele:

Notă : analizați în mod independent de ce „a” și „fi” pot fi scoase din pictograma sumă. Apropo, formal acest lucru se poate face cu suma

Să rescriem sistemul într-o formă „aplicată”:

după care începe să fie trasat algoritmul pentru rezolvarea problemei noastre:

Cunoaștem coordonatele punctelor? Noi stim. Sume putem gasi? Uşor. Compunem cel mai simplu sistem de două ecuații liniare cu două necunoscute("a" și "beh"). Rezolvăm sistemul, de exemplu, metoda lui Cramer, rezultând un punct staționar . Control condiție suficientă pentru un extremum, putem verifica că în acest moment funcția ajunge precis minim. Verificarea este asociată cu calcule suplimentare și, prin urmare, o vom lăsa în culise. (dacă este necesar, cadrul lipsă poate fi vizualizat). Tragem concluzia finală:

Funcţie cel mai bun mod (cel puțin în comparație cu orice altă funcție liniară) apropie punctele experimentale . În linii mari, graficul său trece cât mai aproape de aceste puncte. In traditie econometrie funcţia de aproximare rezultată se mai numeşte ecuație de regresie liniară pereche .

Problema luată în considerare este de mare importanță practică. În situația cu exemplul nostru, ecuația vă permite să preziceți ce fel de cifră de afaceri ("yig") va fi la magazinul cu una sau alta valoare a zonei de vânzare (unul sau altul sens al lui „x”). Da, prognoza rezultată va fi doar o prognoză, dar în multe cazuri se va dovedi a fi destul de precisă.

Voi analiza doar o singură problemă cu numerele „reale”, deoarece nu există dificultăți în ea - toate calculele sunt la nivelul programului școlar din clasele 7-8. În 95% din cazuri, vi se va cere să găsiți doar o funcție liniară, dar la sfârșitul articolului voi arăta că nu este mai dificil să găsiți ecuațiile pentru hiperbola optimă, exponent și alte funcții.

De fapt, rămâne să distribuiți bunătățile promise - astfel încât să învățați cum să rezolvați astfel de exemple nu numai cu acuratețe, ci și rapid. Studiem cu atenție standardul:

Sarcină

În urma studierii relației dintre doi indicatori, s-au obținut următoarele perechi de numere:

Folosind metoda celor mai mici pătrate, găsiți funcția liniară care aproximează cel mai bine empiric (cu experienta) date. Realizați un desen pe care, într-un sistem de coordonate dreptunghiular cartezian, să trasați punctele experimentale și un grafic al funcției de aproximare . Aflați suma abaterilor pătrate dintre valorile empirice și teoretice. Aflați dacă funcția este mai bună (în ceea ce privește metoda celor mai mici pătrate) puncte experimentale aproximative.

Rețineți că valorile „x” sunt valori naturale, iar aceasta are o semnificație caracteristică, despre care voi vorbi puțin mai târziu; dar ele, desigur, pot fi fracționate. În plus, în funcție de conținutul unei anumite sarcini, atât valorile „X” cât și „G” pot fi complet sau parțial negative. Ei bine, ni s-a dat o sarcină „fără chip” și o începem soluţie:

Găsim coeficienții funcției optime ca soluție a sistemului:

În scopul unei notații mai compacte, variabila „contor” poate fi omisă, deoarece este deja clar că însumarea se realizează de la 1 la .

Este mai convenabil să calculați sumele necesare într-o formă tabelară:


Calculele pot fi efectuate pe un microcalculator, dar este mult mai bine să utilizați Excel - atât mai rapid, cât și fără erori; vezi un scurt video:

Astfel, obținem următoarele sistem:

Aici puteți înmulți a doua ecuație cu 3 și scădeți al 2-lea din prima ecuație termen cu termen. Dar acesta este noroc - în practică, sistemele nu sunt adesea dotate și, în astfel de cazuri, economisesc metoda lui Cramer:
, astfel încât sistemul are o soluție unică.

Hai să facem o verificare. Înțeleg că nu vreau, dar de ce să sari peste greșeli în care nu le poți rata? Înlocuiți soluția găsită în partea stângă a fiecărei ecuații a sistemului:

Se obțin părțile corecte ale ecuațiilor corespunzătoare, ceea ce înseamnă că sistemul este rezolvat corect.

Astfel, funcția de aproximare dorită: – de la toate funcțiile liniare datele experimentale sunt cel mai bine aproximate prin aceasta.

Spre deosebire de Drept dependenţa cifrei de afaceri a magazinului de suprafaţa acestuia, dependenţa constatată este verso (principiul „cu cât mai mult – cu atât mai puțin”), iar acest fapt este imediat relevat de negativ coeficient unghiular. Funcţie ne informează că odată cu creșterea unui anumit indicator cu 1 unitate, valoarea indicatorului dependent scade in medie cu 0,65 unități. După cum se spune, cu cât prețul hrișcii este mai mare, cu atât se vând mai puțin.

Pentru a reprezenta graficul funcției de aproximare, găsim două dintre valorile acesteia:

și executați desenul:


Linia construită se numește linie de tendință (și anume, o linie de tendință liniară, adică, în cazul general, o tendință nu este neapărat o linie dreaptă). Toată lumea este familiarizată cu expresia „a fi în tendință”, și cred că acest termen nu are nevoie de comentarii suplimentare.

Calculați suma abaterilor pătrate între valorile empirice şi cele teoretice. Din punct de vedere geometric, aceasta este suma pătratelor lungimii segmentelor „crimson”. (dintre care două sunt atât de mici încât nici nu le poți vedea).

Să rezumam calculele într-un tabel:


Ele pot fi din nou efectuate manual, doar în cazul în care voi da un exemplu pentru primul punct:

dar este mult mai eficient să faci modul deja cunoscut:

Să repetăm: care este sensul rezultatului? Din toate funcțiile liniare funcţie exponentul este cel mai mic, adică este cea mai bună aproximare din familia sa. Și aici, apropo, întrebarea finală a problemei nu este întâmplătoare: ce se întâmplă dacă funcția exponențială propusă va fi mai bine să aproximăm punctele experimentale?

Să găsim suma corespunzătoare a abaterilor pătrate - pentru a le distinge, le voi desemna cu litera „epsilon”. Tehnica este exact aceeași:


Și din nou pentru fiecare calcul de incendiu pentru primul punct:

În Excel, folosim funcția standard EXP (Sintaxa poate fi găsită în Ajutor Excel).

Concluzie: , deci funcția exponențială aproximează punctele experimentale mai rău decât dreapta .

Dar trebuie remarcat aici că „mai rău” este nu înseamnă încă, Ce s-a întâmplat. Acum am construit un grafic al acestei funcții exponențiale - și trece, de asemenea, aproape de puncte - atât de mult încât fără un studiu analitic este greu de spus care funcție este mai exactă.

Aceasta completează soluția și revin la întrebarea valorilor naturale ale argumentului. În diverse studii, de regulă, economice sau sociologice, lunile, anii sau alte intervale de timp egale sunt numerotate cu „X” natural. Luați în considerare, de exemplu, o astfel de problemă.