Hvad er skævhed i maskinlæring?



Denne artikel dækker begrebet bias og varians i maskinindlæring med et forhold mellem dem, der bestemmer modelens forudsigelige nøjagtighed.

I , er en models præstation baseret på dens forudsigelser, og hvor godt den generaliserer til usete, uafhængige data. En måde at måle en models nøjagtighed på er ved at holde rede for bias og varians i modellen. I denne artikel lærer vi, hvordan bias-varians spiller en vigtig rolle i bestemmelsen af ​​modelens ægthed. Følgende emner diskuteres i denne artikel:

Ureducerbar fejl

Enhver model i vurderes ud fra forudsigelsesfejlen på et nyt uafhængigt, uset datasæt. Fejl er intet andet end forskellen mellem den faktiske output og den forudsagte output. For at beregne fejlen foretager vi en sammenfatning af reducerbar og irreducerbar fejl a.k.a bias-variansnedbrydning.





brug af charat i java

Irreversibel fejl er intet andet end de fejl, der ikke kan reduceres uanset nogen som du bruger i modellen. Det skyldes usædvanlige variabler, der har direkte indflydelse på outputvariablen. Så for at gøre din model effektiv, står vi tilbage med den reducerbare fejl, som vi har brug for at optimere for enhver pris.

En reducerbar fejl har to komponenter - Bias og variation , tilstedeværelse af bias og varians påvirker modelens nøjagtighed på flere måder som overfitting, underfitting , etc.Lad os se på bias og varians for at forstå, hvordan vi skal håndtere den reducerbare fejl i .



Hvad er bias i maskinlæring?

Bias er dybest set hvor langt vi har forudsagt værdien fra den faktiske værdi. Vi siger, at bias er for høj, hvis de gennemsnitlige forudsigelser er langt væk fra de faktiske værdier.

En høj bias vil få algoritmen til at gå glip af et dominerende mønster eller forhold mellem input- og outputvariablerne. Når skævheden er for høj, antages det, at modellen er ret enkel og ikke fatter kompleksiteten af ​​datasættet til at bestemme forholdet og dermedforårsager underudstyr.

Variation i en maskinlæringsmodel?

På et uafhængigt uset datasæt eller et valideringssæt. Når en model ikke fungerer så godt som den med det uddannede datasæt, er der en mulighed for, at modellen har en varians. Det fortæller grundlæggende, hvor spredt de forudsagte værdier er fra de faktiske værdier.



En høj varians i et datasæt betyder, at modellen har trænet med meget støj og irrelevante data. Dermed forårsager overmontering i modellen. Når en model har stor variation, bliver den meget fleksibel og giver forkerte forudsigelser for nye datapunkter. Fordi den har indstillet sig på datapunkterne i træningssættet.

Lad os også prøve at forstå begrebet bias-varians matematisk. Lad variablen, som vi forudsiger at være Y, og de andre uafhængige variabler være X. Lad os antage, at der er et forhold mellem de to variabler, således at:

Y = f (X) + e

I ovenstående ligning, Her er er den estimerede fejl med en middelværdi 0. Når vi laver en klassifikator ved hjælp af algoritmer som lineær regression , osv. vil den forventede kvadratiske fejl ved punkt x være:

err (x) = Bias2+ Varians + irreducerbar fejl

Lad os også forstå, hvordan Bias-variationen vil påvirke a Maskinelæring modelens ydeevne.

Hvordan påvirker det maskinlæringsmodellen?

Vi kan placere forholdet mellem bias-varians i fire kategorier, der er anført nedenfor:

  1. High Variance-High Bias - Modellen er inkonsekvent og også unøjagtig i gennemsnit
  2. Lav varians-høj bias - Modellerne er ensartede, men lave i gennemsnit
  3. Høj varians-lav bias - Noget nøjagtigt, men inkonsekvent i gennemsnit
  4. Lav varians-lav bias - Det er det ideelle scenarie, modellen er ensartet og nøjagtig i gennemsnit.

bias-varians i maskinindlæring-edureka

Selvom det er ganske tydeligt at opdage bias og varians i en model. En model med høj varians har lav træningsfejl og høj valideringsfejl. Og i tilfælde af høj bias vil modellen have høj træningsfejl, og valideringsfejl er den samme som træningsfejl.

Mens detektering virker let, er den virkelige opgave at reducere den til et minimum. I så fald kan vi gøre følgende:

  • Tilføj flere inputfunktioner
  • Mere kompleksitet ved at introducere polynomiske funktioner
  • Sænk reguleringsperioden
  • Få flere træningsdata

Nu hvor vi ved, hvad der er bias og varians, og hvordan det påvirker vores model, lad os se på en bias-varians afvejning.

Bias-variation afvejning

At finde den rette balance mellem bias og varians i modellen kaldes Bias-Variance kompromis. Det er dybest set en måde at sikre, at modellen hverken er overmonteret eller underudstyret.

Hvis modellen er for enkel og har meget få parametre, vil den lide af høj bias og lav varians. På den anden side, hvis modellen har et stort antal parametre, vil den have stor varians og lav bias. Denne kompromis bør resultere i et perfekt afbalanceret forhold mellem de to. Ideelt set er lav bias og lav varians målet for enhver Machine Learning-model.

hvad der udskrives i python

Total fejl

I enhver Machine Learning-model fungerer en god balance mellem bias og varians som et perfekt scenarie med hensyn til forudsigelig nøjagtighed og undgåelse af overmontering, underfitting helt. En optimal balance mellem bias og varians med hensyn til algoritmekompleksitet vil sikre, at modellen aldrig over- eller undermonteres.

Den gennemsnitlige kvadrerede fejl i en statistisk model betragtes som summen af ​​kvadratisk bias og varians og varians af fejl. Alt dette kan sættes i en total fejl, hvor vi har en bias, varians og irreducerbar fejl i en model.

Lad os forstå, hvordan vi kan reducere den samlede fejl ved hjælp af en praktisk implementering.

Vi har oprettet en lineær regression klassifikator i Lineær regression i maskinindlæring artikel om Edureka ved hjælp af datasættet til diabetes i datasættmodulet til scikit lære bibliotek.

Da vi vurderede klassifikatorens gennemsnitlige kvadratiske fejl, fik vi en total fejl omkring 2500.

For at reducere den samlede fejl tilførte vi flere data til klassifikatoren, og til gengæld blev den gennemsnitlige kvadrerede fejl reduceret til 2000.

Det er en simpel implementering af at reducere den samlede fejl ved at føje flere træningsdata til modellen. På samme måde kan vi anvende andre teknikker til at reducere fejlen og opretholde en balance mellem bias og varians for en effektiv Machine Learning-model.

Dette bringer os til slutningen af ​​denne artikel, hvor vi har lært Bias-variation i Machine Learning med dens implementering og brugssag. Jeg håber, du er klar med alt, hvad der er delt med dig i denne vejledning.

Hvis du fandt denne artikel om “Bias-Variance In Machine Learning” relevant, skal du tjekke et betroet online læringsfirma med et netværk på mere end 250.000 tilfredse elever spredt over hele kloden.

Vi er her for at hjælpe dig med hvert trin på din rejse og komme med en læseplan, der er designet til studerende og fagfolk, der ønsker at være en . Kurset er designet til at give dig et forspring i Python-programmering og træne dig til både kerne- og avancerede Python-koncepter sammen med forskellige synes godt om , , etc.

Hvis du støder på spørgsmål, er du velkommen til at stille alle dine spørgsmål i kommentarfeltet i “Bias-Variance In Machine Learning”, og vores team vil med glæde svare.