Statistik for maskinindlæring: En begyndervejledning



Denne artikel om statistik til maskinindlæring er en omfattende guide til de forskellige begreber os statistik med eksempler.

At forstå data og være i stand til at skabe værdi ud fra det er årtis færdigheder. Machine Learning er en sådan kernefærdighed, der hjælper virksomheder med at opfylde den. For at komme i gang skal du dog bygge dit fundament rigtigt. Så i denne artikel vil jeg dække et par grundlæggende begreber og give dig retningslinjer for at starte din rejse inden for maskinlæring. Så i denne artikel om statistik til maskinindlæring diskuteres følgende emner:

  1. Sandsynlighed
  2. Statistikker
  3. Lineær algebra

Sandsynlighed og statistik for maskinindlæring:





Hvad er sandsynlighed?

Sandsynligheden kvantificerer sandsynligheden for, at en begivenhed finder sted. For eksempel, hvis du ruller en retfærdig, upartisk die, så sandsynligheden for en at dukke op er 1/6 . Hvis du undrer dig over why? Så er svaret ret simpelt!

Dette skyldes, at der er seks muligheder, og at alle er lige sandsynlige (fair die). Derfor kan vi tilføje 1 + 1 + 1 + 1 + 1 + 1 = 6. Men da vi er interesseret i begivenhed, hvor 1 dukker op . Der er kun en måde begivenheden kan forekomme på. Derfor,



Sandsynligheden for at 1 vender op = 1/6

Lignende er tilfældet med alle andre numre, da alle begivenhederne er lige sandsynlige. Simpelt, ikke?

Nå, en hyppig definition af sandsynlighed for dette eksempel lyder som - sandsynligheden for, at 1 vender op er forholdet mellem antallet af gange 1, der er vendt op til det samlede antal gange, formen blev rullet, hvis formen blev rullet et uendeligt antal af gange.Hvordan giver dette mening?



Lad os gøre det mere interessant. Overvej de to sager - du rullede en fair dyse 5 gange. I et tilfælde er rækkefølgen af ​​tal, der dukker op - [1,4,2,6,4,3]. I det andet tilfælde får vi - [2,2,2,2,2,2]. Hvilken tror du er mere sandsynlig?

Begge er lige sandsynlige. Virker underligt, ikke?

Overvej nu et andet tilfælde, hvor alle de 5 ruller i hvert tilfælde er uafhængig . Det betyder, at den ene rulle ikke påvirker den anden. I det første tilfælde, da 6 dukkede op, havde det ingen idé om, at 2 dukkede op før det. Derfor er alle 5 ruller lige så sandsynlige.

Tilsvarende kan de lige 2'er i det andet tilfælde forstås som en sekvens af uafhængige begivenheder. Og alle disse begivenheder er lige så sandsynlige. Samlet set, da vi har de samme terninger, sandsynligheden for, at et bestemt nummer dukker op, hvis et er det samme som tilfældet to. Lad os i denne artikel om statistik til maskinindlæring forstå begrebet Uafhængighed.

Uafhængighed

To begivenheder A og B siges at være uafhængige, hvis forekomsten af ​​A ikke påvirker begivenhed B . For eksempel, hvis du kaster en mønt og ruller en matrix, har resultatet af matricen ingen indflydelse på, om mønten viser hoveder eller haler. Også til to uafhængige begivenheder A og B , det sandsynligheden for, at A og B kan forekomme sammen . Så for eksempel, hvis du vil have sandsynligheden for, at mønten viser hoveder og dør viser 3.

P (A og B) = P (A) * P (B)

Derfor er P = & frac12 (sandsynligheden for, at hovederne vender op) * ⅙ (sandsynligheden for, at 3 vender op) = 1/12

I det foregående eksempel er P = ⅙ * ⅙ * ⅙ * ⅙ * ⅙ * for for begge tilfælde.

java-kommando for at afslutte programmet

Lad os nu tale om begivenheder, der ikke er uafhængige. Overvej følgende tabel:

Overvægtige Ikke overvægtig
HjerteproblemerFire. Femfemten
Ingen hjerteproblemer1030

En undersøgelse af 100 mennesker blev taget. 60 havde hjerteproblemer og 40 havde ikke. Af de 60 med hjerteproblemer var 45 overvægtige. Af de 40 uden hjerteproblemer var 10 overvægtige. Hvis nogen spørger dig -

  1. Hvad er sandsynligheden for at have et hjerteproblem?
  2. Hvad er sandsynligheden for at have et hjerteproblem og ikke blive overvægtig?

Svaret på de første spørgsmål er let - 60/100. For den anden ville det være 15/100. Overvej nu det tredje spørgsmål - En person blev valgt tilfældigt. Han blev fundet at have hjertesygdomme. Hvad er sandsynligheden for, at han er overvægtig?

Tænk nu på de oplysninger, du har fået - Det vides, at han har hjertesygdomme. Derfor kan han ikke være fra de 40, der ikke har hjertesygdomme. Der er kun 60 mulige muligheder (den øverste række i tabellen). Nu er sandsynligheden for, at han er overvægtig, blandt disse reducerede muligheder 45/60. Nu, når du har vidst, hvad der er uafhængige begivenheder, lad os forstå næste i denne artikel om statistik til maskinindlæring betingede sandsynligheder.

Betingede sandsynligheder

For at forstå betingede sandsynligheder, lad os fortsætte vores diskussion med ovenstående eksempel. Status for at være overvægtig og status for at have lidt af hjerteproblemer er ikke uafhængig. Hvis overvægt ikke påvirkede hjerteproblemer, ville antallet af overvægtige og ikke-overvægtige tilfælde for mennesker med hjerteproblemer have været det samme.

Vi fik også, at personen har hjerteproblemer, og vi var nødt til at finde ud af sandsynligheden for, at han er overvægtig. Så sandsynligheden, i dette tilfælde, siges at være betinget af, at han har et hjerteproblem. Hvis sandsynligheden for, at begivenhed A finder sted, er betinget af begivenhed B, repræsenterer vi den som

P (A | B)

Nu er der en sætning, der hjælper os med at beregne denne betingede sandsynlighed. Det kaldes Bayes-regel .

P (A | B) = P (A og B) / P (B)

Du kan kontrollere denne sætning ved at tilslutte det eksempel, vi lige har diskuteret. Hvis du hidtil har forstået det, kan du komme i gang med følgende - Naive Bayes . Det bruger betingede sandsynligheder til at klassificere, om en e-mail er spam eller ej. Det kan udføre mange andre klassificeringsopgaver. Men i det væsentlige er betinget sandsynlighed kernen i .

Statistikker:

Statistikker er bruges til at opsummere og udlede konklusioner om et stort antal datapunkter. I datalogi og maskinindlæring støder du ofte på følgende terminologi

  • Centralitetsforanstaltninger
  • Distributioner (især normal)

Centralitetsmål og målinger af spredning

Betyde:

Betyde er bare en gennemsnit af tal . For at finde ud af middelværdien skal du summe tallene og dele det med antallet af tal. For eksempel er gennemsnittet af [1,2,3,4,5] 15/5 = 3.

mean-statistics-for-machine-learning

Median:

Median er midterste element i et sæt tal når de er arrangeret i stigende rækkefølge. For eksempel er tal [1,2,4,3,5] arrangeret i stigende rækkefølge [1,2,3,4,5]. Den midterste af disse er 3. Derfor er medianen 3. Men hvad hvis antallet af tal er lige og derfor ikke har noget mellemnummer? I så fald tager du gennemsnittet af de to mellemste tal. For en sekvens på 2n tal i stigende rækkefølge, gennemsnit nth og (n + 1)thnummer for at få medianen. Eksempel - [1,2,3,4,5,6] har medianen (3 + 4) / 2 = 3,5

Mode:

Mode er simpelthen hyppigste nummer i et sæt tal . For eksempel er tilstanden på [1,2,3,3,4,5,5,5] 5.

Variant:

Variation er ikke et centralt mål. Det måler hvordan dine data spredes rundt om gennemsnittet . Det kvantificeres som

xer gennemsnittet af N-tal. Du tager et punkt, trækker middelværdien, tager kvadratet af denne forskel. Gør dette for alle N-tal og gennemsnit dem. Kvadratroden af ​​variansen kaldes standardafvigelsen. Lad os i denne artikel om statistik til maskinindlæring forstå Normalfordeling.

Normal fordeling

Distribution hjælper os forstå hvordan vores data spredes . For eksempel kan vi i en aldersprøve have unge mennesker mere end ældre voksne og dermed mindre aldersværdier mere end større værdier. Men hvordan definerer vi en distribution? Overvej eksemplet nedenfor

Y-aksen repræsenterer densiteten. Denne distribution er 30, da det er toppen og dermed hyppigst. Vi kan også finde medianen. Median ligger på det punkt på x-aksen, hvor halvdelen af ​​arealet under kurven er dækket. Området under enhver normalfordeling er 1, fordi summen af ​​sandsynligheder for alle begivenheder er 1. F.eks.

find største element i array java

Medianen i ovenstående tilfælde er omkring 4. Dette betyder, at arealet under kurven før 4 er det samme som det efter 4. Overvej et andet eksempel

Vi ser tre normale fordelinger. De blå og røde har samme gennemsnit. Den røde har større varians. Derfor er den mere spredt end den blå. Men da området skal være 1, er toppen af ​​den røde kurve kortere end den blå kurve for at holde området konstant.

Håber du har forstået de grundlæggende statistikker og normale distributioner. Nu, næste i denne artikel om statistik til maskinindlæring, lad os lære om lineær algebra.

Lineær algebra

Moderne AI ville ikke være mulig uden lineær algebra. Det danner kernen i Dyb læring og er blevet brugt selv i enkle algoritmer som . Lad os komme i gang uden yderligere forsinkelse.

Du skal være bekendt med vektorer. De er en slags geometriske repræsentationer i rummet. For eksempel har en vektor [3,4] 3 enheder langs x-aksen og 4 enheder langs y-aksen. Overvej følgende billede -

Vektor d1 har 0,707 enheder langs x-aksen og 0,707 enheder langs y-aksen. En vektor har 1 dimension. Det har nødvendigvis en størrelse og en retning. For eksempel,

Ovenstående billede har en vektor (4,3). Dens størrelse er 5, og den gør 36,9 grader med x-aksen.

Hvad er en matrix nu? Matrix er en flerdimensionel række af tal. Hvad bruges det til? Vi ser fremad. Men lad os først se på, hvordan det bruges.

Matrix

En matrix kan have mange dimensioner. Lad os overveje en 2-dimensionel matrix. Den har rækker (m) og kolonner (n). Derfor har den m * n-elementer.

hæve noget til en magt i java

For eksempel,

Denne matrix har 5 rækker og 5 kolonner. Lad os kalde det A. Derfor er A (2,3) posten i anden række og tredje kolonne, som er 8.

Nu hvor du ved, hvad der er en matrix, kan vi se på matrixens forskellige operationer.

Matrixoperationer

Tilføjelse af matricer

To matricer af samme dimensioner kan tilføjes. Tilføjelsen sker elementmæssigt.

Scalar Multiplikation

En matrix kan ganges med en skalar mængde. En sådan multiplikation fører til, at hver indgang i matrixen ganges med skalæren. En skalar er bare et tal

Matrix Transponere

Matrix transponere er enkel. For en matrix A (m, n), lad A 'være dens transponering. Derefter

A '(i, j) = A (j, i)

For eksempel,

Matrixmultiplikation

Dette er sandsynligvis lidt vanskelig end andre operationer. Før vi dykker ned i det, lad os definere prikprodukt mellem to vektorer.

Overvej vektor X = [1,4,6,0] og vektor Y = [2,3,4,5]. Derefter defineres punktprodukt mellem X og Y som

X.Y = 1 * 2 + 4 * 3 + 6 * 4 + 0 * 5 = 38

Så det er elementvis multiplikation og tilføjelse. Nu,lad os overveje to matricer A (m, n) og B (n, k), hvor m, n, k er dimensioner og dermed heltal. Vi definerer matrixmultiplikation som

I ovenstående eksempel opnås det første element i produktet (44) ved prikproduktet i den første række i den venstre matrix med den første kolonne i den højre matrix. Tilsvarende opnås 72 ved prikproduktet fra den første række i den venstre matrix med den anden kolonne i den højre matrix.

Bemærk, at for den venstre matrix skal antallet af kolonner være lig med antallet af rækker i den højre kolonne. I vores tilfælde eksisterer produktet AB, men ikke BA, da m ikke er lig med k. For to matricer A (m, n) og B (n, k) defineres produktet AB, og produktets dimension er (m, k) (de yderste dimensioner af (m, n), (n, k )). Men BA er ikke defineret, medmindre m = k.

Med dette kommer vi til en ende på denne artikel om statistik til maskinindlæring. Jeg håber, du har forstået noget af maskinlæringsjargonen. Det slutter dog ikke her. For at sikre, at du er brancheklar, kan du tjekke Edurekas kurser om datavidenskab og AI. De kan findes