sedhesrebsit.ru

Calculați valorile negative

o outlier

sau outlier în statistici este un punct de date care diferă semnificativ de celelalte puncte de date dintr-un eșantion. Adesea, statisticienii indică abaterile sau erorile măsurătorilor, după care pot elimina extrapolarea din setul de date. Dacă într-adevăr aleg să elimine valorile depășite din setul de date, acest lucru poate duce la schimbări semnificative în concluziile trase din cercetare. Acesta este motivul pentru care este important să calculați și să determinați valorile exacte dacă doriți să interpretați corect datele statistice.

pași

Imaginea intitulată Calculați performanții Pasul 1
1
Aflați cum puteți recunoaște eventualele valori negative. Înainte de a putea decide dacă trebuie să eliminăm valori abateri de la un anumit set de date, trebuie să recunoaștem mai întâi, întâi, eventualele valori de valori din setul de date. În general, valorile depășite reprezintă punctele de date care se abat puternic de la tendința ca celelalte valori în forma stabilită - cu alte cuvinte: ele trage afară a celorlalte valori. Este de obicei ușor să recunoști acest lucru în tabele și (mai ales) în grafice. Dacă setul de date este vizual exprimat într-un grafic, valorile externe vor fi "îndepărtate" de celelalte valori. De exemplu, dacă majoritatea punctelor dintr-un set de date formează o linie dreaptă, valorile exagerate nu vor putea să aranjeze această linie.
  • Să ne uităm la un set de date care arată temperaturile a 12 obiecte diferite dintr-o cameră. Dacă temperatura de 11 a obiectelor cu cel mult câteva grade fluctuează în jurul valorii de 21 ° C, în timp ce un singur obiect, un cuptor, având o temperatură de 150 ° C, se poate vedea dintr-o privire că cuptorul este probabil să fie un outlier.
  • Imaginea intitulată
    2
    Sortați toate punctele de date de la scăzut la înalt. Primul pas în calcularea valorilor externe constă în găsirea valorii mediane (sau a valorii medii) a setului de date. Această sarcină devine mult mai ușoară dacă valorile din set sunt comandate de la mic la mare. Deci, înainte de a continua, sortați valorile din setul de date în acest fel.
  • Să continuăm cu exemplul de mai sus. Iată datele noastre arată că temperatura în grade Fahrenheit de obiecte diferite într-o cameră {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Dacă vom sorta valorile setate în mic la mare, acest lucru este noul nostru set: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  • Imaginea intitulată
    3
    Calculați valoarea mediană a setului de date. Medianul unui set de date este punctul de date cu jumătate din datele de mai sus și jumătate din datele de dedesubt - este de fapt "mijlocul" setului de date. Dacă setul de date conține un număr impar de puncte, mediana este ușor de găsit - mediana este punctul cu cât mai multe puncte deasupra ei ca mai jos. Dacă există un număr par de puncte, deoarece nu există un punct central, trebuie să luați media celor două puncte medii pentru a găsi mediana. Atunci când se calculează valori extreme, mediana este de obicei menționată ca variabila Q2 - deoarece este între Q1 și Q3, primul și al treilea trimestru. Vom determina aceste variabile mai târziu.
  • Nu vă lăsați amăgiți de seturile de date cu un număr par de puncte - media celor două puncte medii este adesea un număr care nu apare în setul de date - acest lucru este bine. Cu toate acestea, dacă cele două puncte medii sunt aceleași, media va fi, desigur, și acest număr - și acest lucru bine.
  • În exemplul nostru avem 12 puncte. Cei doi intermediari sunt puncte 6 și 7 - 70 și respectiv 71. Medianul setului nostru de date este astfel media dintre aceste două puncte: ((70 + 71) / 2) =70,5.
  • Imaginea intitulată Calculați exponenții Pasul 4
    4
    Calculați prima quartilă. Acest punct, pe care îl indicăm cu variabila Q1, este punctul de date de sub care 25% (sau un sfert) din observații se află. Cu alte cuvinte, acesta este centrul tuturor punctelor din setul de date de mai jos mediana. Dacă există un număr par de valori sub valoarea mediană, trebuie să luați din nou media celor două valori medii pentru a găsi Q1, așa cum probabil ați făcut deja pentru a determina mediana în sine.
  • În exemplul nostru, șase puncte sunt mai mari decât media și șase sunt mai jos. Pentru a găsi prima quartilă trebuie să luăm media celor două puncte medii în cele șase puncte de jos. Punctele 3 și 4 ale ultimelor șase sunt ambele 70, deci media lor este ((70 + 70) / 2) =70. Valoarea noastră pentru Q1 este, prin urmare, 70.
  • Imaginea intitulată
    5
    Calculați a treia cartelă. Acest punct, pe care îl indicăm cu variabila Q3, este punctul de date deasupra căruia se află 25% din date. Găsirea lui Q3 este practic aceeași cu găsirea Q1, cu excepția faptului că în acest caz privim punctele mai sus mediana.
  • Dacă vom continua cu exemplul de mai sus, vedem că cele două puncte medii ale celor șase puncte sunt mai mari decât media 71 și 72. Media acestor două puncte este ((71 + 72) / 2) =71.5. Valoarea noastră pentru Q3 este, prin urmare, 71,5.
  • Imaginea intitulată
    6


    Găsiți distanța între secvențe. Acum, când am determinat Q1 și Q3, trebuie să calculam distanța dintre aceste două variabile. Puteți găsi distanța dintre Q1 și Q3 scăzând Q1 de la Q3. Valoarea pe care o obțineți pentru distanța între intervale este crucială pentru stabilirea limitelor pentru punctele care nu deviază în setul de date.
  • În exemplul nostru, valorile pentru Q1 și Q3 sunt 70 și respectiv 71,5. Pentru a găsi distanța între secvențe, calculăm Q3 - Q1: 71.5 - 70 =1.5.
  • Aceasta funcționează chiar dacă Q1, Q3 sau ambele numere sunt negative. De exemplu, dacă valoarea noastră pentru Q1 ar fi -70, distanța între secvențe ar fi de 71,5 - (-70) = 141,5, ceea ce este corect.
  • Imaginea intitulată Calculate valorile exacte Pasul 7
    7
    Găsiți "limitele interioare" ale setului de date. Puteți identifica valorile negative, determinând dacă acestea se încadrează într-un număr de limite numerice - așa-numitele "valori limită interioare" și "valori limită exterioare". Un punct care se încadrează în afara valorilor limită interioară a setului de date este clasificat ca a ușoară outlier, iar un punct care se încadrează în afara valorilor limită exterioare este clasificat ca a extreme outlier. Pentru a găsi valorile limită interioare ale setului de date, mai întâi multiplicați distanța între secvențe cu 1,5. Adăugați rezultatul la Q3 și scade-l de la Q1. Cele două rezultate sunt limitele cele mai intime ale setului de date.
  • În exemplul nostru, distanța intercuartilă (71,5 - 70), sau 1,5. Înmulțiți acest număr cu 1.5 și ajungeți la 2.25. Numărăm acest număr la Q3 și îl scădem din Q1, pentru a găsi limitele interne după cum urmează:
  • 71,5 + 2,25 = 73,75
  • 70-2,25 = 67,75
  • Prin urmare, frontierele interne sunt 67,75 și 73,75.
  • În setul nostru de date, numai temperatura cuptorului - 300 de grade Fahrenheit - este în afara acestui interval. Acesta este, prin urmare, posibil un extras blând. Cu toate acestea, trebuie să stabilim dacă această temperatură este o depășire extremă, deci nu trebuie să facem nici o concluzie prematură.
    Imaginea intitulată Calculați exponenții Step 7Bullet2
  • Imaginea intitulată
    8
    Găsiți "valorile limită exterioare" ale setului de date. Faceți acest lucru la fel ca în cazul valorilor limită interioare, singura diferență fiind aceea că înmulțiți distanța între secvențe cu 3 în loc de 1,5. Apoi calculați rezultatul la Q3 și scădeți din Q1 pentru a găsi valorile limită exterioare.
  • În exemplul nostru, multiplicăm intervalul interquartilului cu 3 și ajungem la (1,5 * 3) sau 4,5. Acum putem găsi valorile limită exterioare în același mod ca valorile limită interioară:
  • 71,5 + 4,5 = 76
  • 70 - 4,5 = 65,5
  • Prin urmare, valorile limită exterioare sunt 65,5 și 76.
  • Punctele de date care se află în afara granițelor externe sunt considerate ca fiind extreme extreme. În exemplul nostru, temperatura cuptorului, la 300 de grade Fahrenheit, este cu mult peste granițele externe. Temperatura cuptorului este prin urmare cu siguranță o depășire extremă.
    Imaginea intitulată Calculați exponenții Step 8Bullet2
  • Imaginea intitulată Calculați apendicele Pasul 9
    9
    Utilizați o evaluare calitativă pentru a determina dacă ar trebui să "aruncați" aceste valori. Cu ajutorul metodei de mai sus puteți stabili dacă anumite puncte sunt valori extreme, extreme extreme sau fără valori excepționale. Dar nu faceți nici o greșeală - recunoscând un punct în care un extractor o face candidat pentru a fi eliminate din setul de date, și nu imediat un punct care a fost șters must fie. motiv de ce o diferență de diferență față de restul punctelor din set este esențială pentru a determina dacă ar trebui să fie îndepărtat. În general, se elimină valorile excesive cauzate de una sau altă eroare - o eroare în măsurători, în înregistrări sau în proiectarea experimentală, de exemplu. Dimpotrivă, valoroasele care nu sunt cauzate de erori și care dezvăluie informații sau tendințe noi, neprevăzute, de obicei nu eliminat.
  • Un alt criteriu care trebuie luat în considerare este dacă diapazoanele influențează media unui set de date într-un mod care este înclinat sau înșelător. Acest lucru este foarte important dacă intenționați să trageți concluzii din media setului dvs. de date.
  • Să examinăm exemplul nostru. Din moment ce cea mai mare puțin probabil ca temperatura cuptorului a ajuns la 300 ° F de o forță a naturii neprevăzute, putem în exemplul nostru cu aproape 100% certitudine concluzia ca cuptorul a fost lăsat accidental, provocând o măsurare a temperaturii anormal de ridicată. Mai mult decât atât, dacă nu îndepărtați outlier este media datelor noastre pe (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89.67 ° F în timp ce media fără (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 ° F
  • Din moment ce extrapolarea a fost cauzată de o eroare umană și pentru că este incorect să spunem că temperatura medie a camerei era de aproape 32 ° C, trebuie să alegem să includem extrasul. elimina.
  • Imaginea intitulată
    10
    Înțelegeți importanța (uneori) menținerii unor valori excepționale. Deși unele valori extreme trebuie să fie eliminate dintr-un set de date deoarece sunt rezultatul unor erori sau pentru că distorsionează rezultatele într-un mod înșelător, trebuie să fie păstrate alte valori excepționale. De exemplu, dacă un extractor este obținut corect (și, prin urmare, nu este rezultatul unei erori) și / sau dacă extrapolamentul oferă o nouă perspectivă asupra fenomenului care trebuie măsurat, acesta nu ar trebui să fie eliminat imediat. Experimentele științifice sunt situații deosebit de sensibile atunci când vine vorba de rezolvarea unor valori excepționale - eliminarea eronată a unui exces poate însemna că veți arunca informații importante despre o nouă tendință sau descoperire.
  • De exemplu: imaginați-vă că proiectăm un nou medicament pentru creșterea peștilor într-o fermă de pește. Să folosim vechiul set de date ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), cu diferența că fiecare punct reprezintă masa unui pește grame) după tratamentul cu un alt medicament experimental de la naștere. Cu alte cuvinte, primul medicament a dat un pește o masă de 71 de grame, al doilea a dat un alt pește o masă de 70 de grame și așa mai departe. În această situație este de 300 încă un excedent uriaș, dar nu ar trebui să îl eliminăm acum. Pentru că, dacă presupunem că outlier nu este rezultatul unei erori, acest lucru este un mare succes în experimentul nostru. Medicamentul care a făcut un pește de 300 de grame a funcționat mai bine decât orice alt medicament, și așa este exact acest lucru cele mai multe un punct important de date în setul nostru, în loc de acesta cel mai puțin un punct important de date.
  • sfaturi

    • Dacă găsiți valori aberante, încercarea de a explica înainte de a șterge-le din gegevensset- pot indica erori de măsurare sau discrepanțe în distribuție.

    accesorii

    • calculator
    Distribuiți pe rețelele sociale:

    înrudit
    Ștergeți o bază de date MySQLȘtergeți o bază de date MySQL
    Creați o analiză a tendințelor în ExcelCreați o analiză a tendințelor în Excel
    Creați graficeCreați grafice
    Calculați varianțaCalculați varianța
    Calculați densitatea populațieiCalculați densitatea populației
    Calculați CovarianceCalculați Covariance
    Calcularea zonei unui triunghiCalcularea zonei unui triunghi
    Calculați lățimea de aplicareCalculați lățimea de aplicare
    Calculați eroarea standardCalculați eroarea standard
    Calculați o rată de eroareCalculați o rată de eroare
    » » Calculați valorile negative

    © 2011—2021 sedhesrebsit.ru