Calculați valorile negative
o outlier
sau outlier în statistici este un punct de date care diferă semnificativ de celelalte puncte de date dintr-un eșantion. Adesea, statisticienii indică abaterile sau erorile măsurătorilor, după care pot elimina extrapolarea din setul de date. Dacă într-adevăr aleg să elimine valorile depășite din setul de date, acest lucru poate duce la schimbări semnificative în concluziile trase din cercetare. Acesta este motivul pentru care este important să calculați și să determinați valorile exacte dacă doriți să interpretați corect datele statistice.pași
1
Aflați cum puteți recunoaște eventualele valori negative. Înainte de a putea decide dacă trebuie să eliminăm valori abateri de la un anumit set de date, trebuie să recunoaștem mai întâi, întâi, eventualele valori de valori din setul de date. În general, valorile depășite reprezintă punctele de date care se abat puternic de la tendința ca celelalte valori în forma stabilită - cu alte cuvinte: ele trage afară a celorlalte valori. Este de obicei ușor să recunoști acest lucru în tabele și (mai ales) în grafice. Dacă setul de date este vizual exprimat într-un grafic, valorile externe vor fi "îndepărtate" de celelalte valori. De exemplu, dacă majoritatea punctelor dintr-un set de date formează o linie dreaptă, valorile exagerate nu vor putea să aranjeze această linie.
- Să ne uităm la un set de date care arată temperaturile a 12 obiecte diferite dintr-o cameră. Dacă temperatura de 11 a obiectelor cu cel mult câteva grade fluctuează în jurul valorii de 21 ° C, în timp ce un singur obiect, un cuptor, având o temperatură de 150 ° C, se poate vedea dintr-o privire că cuptorul este probabil să fie un outlier.
2
Sortați toate punctele de date de la scăzut la înalt. Primul pas în calcularea valorilor externe constă în găsirea valorii mediane (sau a valorii medii) a setului de date. Această sarcină devine mult mai ușoară dacă valorile din set sunt comandate de la mic la mare. Deci, înainte de a continua, sortați valorile din setul de date în acest fel.
3
Calculați valoarea mediană a setului de date. Medianul unui set de date este punctul de date cu jumătate din datele de mai sus și jumătate din datele de dedesubt - este de fapt "mijlocul" setului de date. Dacă setul de date conține un număr impar de puncte, mediana este ușor de găsit - mediana este punctul cu cât mai multe puncte deasupra ei ca mai jos. Dacă există un număr par de puncte, deoarece nu există un punct central, trebuie să luați media celor două puncte medii pentru a găsi mediana. Atunci când se calculează valori extreme, mediana este de obicei menționată ca variabila Q2 - deoarece este între Q1 și Q3, primul și al treilea trimestru. Vom determina aceste variabile mai târziu.
4
Calculați prima quartilă. Acest punct, pe care îl indicăm cu variabila Q1, este punctul de date de sub care 25% (sau un sfert) din observații se află. Cu alte cuvinte, acesta este centrul tuturor punctelor din setul de date de mai jos mediana. Dacă există un număr par de valori sub valoarea mediană, trebuie să luați din nou media celor două valori medii pentru a găsi Q1, așa cum probabil ați făcut deja pentru a determina mediana în sine.
5
Calculați a treia cartelă. Acest punct, pe care îl indicăm cu variabila Q3, este punctul de date deasupra căruia se află 25% din date. Găsirea lui Q3 este practic aceeași cu găsirea Q1, cu excepția faptului că în acest caz privim punctele mai sus mediana.
6
Găsiți distanța între secvențe. Acum, când am determinat Q1 și Q3, trebuie să calculam distanța dintre aceste două variabile. Puteți găsi distanța dintre Q1 și Q3 scăzând Q1 de la Q3. Valoarea pe care o obțineți pentru distanța între intervale este crucială pentru stabilirea limitelor pentru punctele care nu deviază în setul de date.
7
Găsiți "limitele interioare" ale setului de date. Puteți identifica valorile negative, determinând dacă acestea se încadrează într-un număr de limite numerice - așa-numitele "valori limită interioare" și "valori limită exterioare". Un punct care se încadrează în afara valorilor limită interioară a setului de date este clasificat ca a ușoară outlier, iar un punct care se încadrează în afara valorilor limită exterioare este clasificat ca a extreme outlier. Pentru a găsi valorile limită interioare ale setului de date, mai întâi multiplicați distanța între secvențe cu 1,5. Adăugați rezultatul la Q3 și scade-l de la Q1. Cele două rezultate sunt limitele cele mai intime ale setului de date.
8
Găsiți "valorile limită exterioare" ale setului de date. Faceți acest lucru la fel ca în cazul valorilor limită interioare, singura diferență fiind aceea că înmulțiți distanța între secvențe cu 3 în loc de 1,5. Apoi calculați rezultatul la Q3 și scădeți din Q1 pentru a găsi valorile limită exterioare.
9
Utilizați o evaluare calitativă pentru a determina dacă ar trebui să "aruncați" aceste valori. Cu ajutorul metodei de mai sus puteți stabili dacă anumite puncte sunt valori extreme, extreme extreme sau fără valori excepționale. Dar nu faceți nici o greșeală - recunoscând un punct în care un extractor o face candidat pentru a fi eliminate din setul de date, și nu imediat un punct care a fost șters must fie. motiv de ce o diferență de diferență față de restul punctelor din set este esențială pentru a determina dacă ar trebui să fie îndepărtat. În general, se elimină valorile excesive cauzate de una sau altă eroare - o eroare în măsurători, în înregistrări sau în proiectarea experimentală, de exemplu. Dimpotrivă, valoroasele care nu sunt cauzate de erori și care dezvăluie informații sau tendințe noi, neprevăzute, de obicei nu eliminat.
10
Înțelegeți importanța (uneori) menținerii unor valori excepționale. Deși unele valori extreme trebuie să fie eliminate dintr-un set de date deoarece sunt rezultatul unor erori sau pentru că distorsionează rezultatele într-un mod înșelător, trebuie să fie păstrate alte valori excepționale. De exemplu, dacă un extractor este obținut corect (și, prin urmare, nu este rezultatul unei erori) și / sau dacă extrapolamentul oferă o nouă perspectivă asupra fenomenului care trebuie măsurat, acesta nu ar trebui să fie eliminat imediat. Experimentele științifice sunt situații deosebit de sensibile atunci când vine vorba de rezolvarea unor valori excepționale - eliminarea eronată a unui exces poate însemna că veți arunca informații importante despre o nouă tendință sau descoperire.
sfaturi
- Dacă găsiți valori aberante, încercarea de a explica înainte de a șterge-le din gegevensset- pot indica erori de măsurare sau discrepanțe în distribuție.
accesorii
- calculator
Distribuiți pe rețelele sociale:
înrudit
- Eliminați duplicate în Excel
- Ștergeți o bază de date MySQL
- Creați o analiză a tendințelor în Excel
- Creați grafice
- Calculați varianța
- Calculați densitatea populației
- Calculați Covariance
- Calcularea zonei unui triunghi
- Calculați lățimea de aplicare
- Calculați eroarea standard
- Calculați o rată de eroare
- Calculați un factor de creștere
- Calculați o valoare P
- Calculați media
- Calculați media ponderată
- Calculați absorbanța moleculară
- Calculați coeficientul de corelație a rangului lui Spearman
- Calculați deviația standard
- Calculați deviația standard în Excel
- Evaluați semnificația statistică
- Determinați intervalul unui set de date