R-tutorial - En begyndervejledning til at lære R-programmering



Denne blog på R Tutorial introducerer dig til R-værktøjet og hjælper dig med at forstå de forskellige grundlæggende elementer i R-programmering i detaljer med eksempler.

R er det mest populære dataanalyseværktøj, da det er open source, fleksibelt, tilbyder flere pakker og har et stort samfund. Det er designet til softwareprogrammerere, statistikere og databearbejdere både og derfor givet anledning til populariteten af .I denne R Tutorial-blog vil jeg give dig et komplet indblik i R med eksempler.

Nedenfor er emnerne i denne R Tutorial-blog, som jeg vil diskutere i følgende rækkefølge:





  1. Hvorfor har vi brug for Analytics ?
  2. Hvad er Business Analytics ?
  3. Hvorfor R og hvem bruger R ?
  4. Installation af R
  5. Dataoperatører
  6. Datatyper
  7. Flow Control

R Tutorial: Hvorfor har vi brug for analyse?

Før jeg besvarer spørgsmålet, vil jeg informere dig om nogle af problemerne og deres løsninger i R på flere domæner.



bank - R Tutorial - Edureka

Bankvirksomhed :

En stor mængde kundedata genereres hver dag i banker. WNår vi regelmæssigt beskæftiger os med millioner af kunder, bliver det svært at spore deres pant.



Løsning :

R bygger en brugerdefineret model, der opretholder de lån, der ydes til hver enkelt kunde, hvilket hjælper os med at beslutte det beløb, der skal betales af kunden over tid.

Forsikring :

Forsikring afhænger i vid udstrækning af prognoser. Det er svært atbeslutte, hvilken politik der skal accepteres eller afvises.

Løsning:

Ved at bruge den kontinuerlige kreditrapport som input kan vi oprette en model i R, der ikke kun vurderer risikovillighed, men også også giver en forudsigende prognose.

Sundhedspleje:

Hvert år indlægges millioner af mennesker på hospitalet, og milliarder bruges årligt bare i indlæggelsesprocessen.

Løsning :

I betragtning af patienthistorie og sygehistorie kan der bygges en forudsigende model til at identificere, hvem der er i fare for indlæggelse, og i hvilket omfang det medicinske udstyr skaleres.

Nu ved vi, hvordan dataanalyse hjælper organisationer med at udnytte deres data og bruge dem til at identificere nye muligheder. Hvis vi taler om behovet for analyse i en organisation, skal du støde på disse 4 aspekter:

Lad os derefter gå videre i R tutorial blog, hvor vi først vil forstå, hvad der er forretningsanalyse.

R Tutorial: Hvad er Business Analytics?

Forretningsanalyse er en proces til at undersøge store datasæt og opnå skjulte mønstre, korrelationer og anden indsigt. Det hjælper dig grundlæggende med at forstå alle de data, du har samlet, hvad enten det er organisationsdata, markeds- eller produktforskningsdata eller enhver anden form for data. Det bliver let for dig at træffe bedre beslutninger, bedre produkter, bedre markedsføringsstrategier osv. Se nedenstående billede for bedre forståelse:

Hvis du ser på ovenstående figur, er dine data i det første billede spredt. Nu, hvis du vil have noget specifikt som en bestemt post i en database, bliver det besværligt. For at forenkle dette skal du analysere. Med analyse bliver det let at finde en sammenhæng mellem dataene. Når du først har fundet ud af, hvad du skal gøre, bliver det ret nemt for dig at træffe beslutninger som hvilken vej du vil følge eller med hensyn til forretningsanalyse, hvilken vej vil føre til forbedring af din organisation.

Men du kan ikke forvente, at folk i kæden ovenfor altid forstår de rådata, du leverer dem efter analyse. Så for at overvinde dette hul har vi et koncept for datavisualisering .

Datavisualisering : Datavisualisering er en visuel adgang til enorme mængder data, som du har genereret efter analyse. Det menneskelige sind behandler visuelle billeder og visuel grafik er mere bedre end at sammenligne med rådata. Det er altid let for os at forstå et cirkeldiagram eller et søjlediagram sammenlignet med rå tal. Nu spekulerer du måske på, hvordan kan du opnå denne datavisualisering ud fra de data, du allerede har analyseret?
Der findes forskellige værktøjer på markedet for datavisualisering:

I alle må undre sig over, at der allerede er så mange værktøjer, der hjælper dig med at opnå datavisualisering og en vis mængde analyser, hvorfor gå med R?

Så mit næste emne i R-tutorial blog beskæftiger sig med 'hvorfor R' og 'hvem bruger R'.

R Tutorial: Hvorfor R og hvem bruger R?

Hvorfor R?

R er et programmerings- og statistisk sprog.

R bruges til dataanalyse og visualisering.

R er enkel og nem at lære, læse og skrive.

R er et eksempel på en FLOSS (Free Libre og Open Source Software), hvor man frit kan distribuere kopier af denne software, læse kildekoden, ændre den osv.

Hvem bruger R?

  • Forbrugerbeskyttelsesbureauet bruger R til dataanalyse
  • Statistikere hos John Deere bruger R til modellering af tidsserier og geospatial analyse på en pålidelig og reproducerbar måde.
  • Bank of America bruger R til rapportering.
  • R er en del af teknologibakken bag Foursquares berømte anbefalingsmotor.
  • ANZ, den fjerde største bank i Australien, der bruger R til kreditrisikoanalyse.
  • Google bruger R til at forudsige økonomisk aktivitet.
  • Mozilla, fundamentet, der er ansvarlig for Firefox-browseren, bruger R til at visualisere webaktivitet.

Nedenfor er nogle af de domæner, hvor R bruges:

Lad os nu gå videre i R tutorial blog og installere R.

R Tutorial: Installation af R

Lad mig guide dig gennem processen med at installere R på dit system. Følg nedenstående trin:

Trin 1 : Gå til linket- https://cran.r-project.org/

Trin 2 : Download og installer R 3.3.3 på dit system.

Se nedenstående skærmbillede for at få en bedre forståelse.

Ved at følge ovenstående trin er du færdig med R-installationsdelen. Nu kan du direkte starte kodning i R ved at downloade RStudio IDE. Følg nedenstående trin for at downloade dette:

Trin 1 : Gå til linket- https://www.rstudio.com/

Trin 2 : Download og installer Rstudio på dit system.

Efter installation af alt er du klar til kode!

hvad er et stik i java

R-tutorial til begyndere | R Programmeringsvejledning | Edureka

Lad os derefter gå videre i R Tutorial-blog og forstå, hvad der er dataoperatører i R.

R Tutorial: Dataoperatører i R

Der er hovedsageligt 5 forskellige typer operatører, som er anført nedenfor:

  1. Aritmetiske operatører : Udfør aritmetiske operationer som addition, subtraktion, multiplikation, division osv.
  2. Opgaveoperatører :Opgaveoperatører bruges til at tildele værdier. For eksempel:
  • Opdragsoperatør =
    Syntaks:
    variabelnavn = værdi
> x = 5 >x 
Output: [1] 5
  • Opdragsoperatør<-
    Syntaks:
    variabelnavn<- value

    > x<- 15 > x
    Output: [1] 15
  • Opdragsoperatør<<-
    Syntaks:
    variabelnavn<<- value
> x<<- 2 > x
Output: [1] 2
  • Opdragsoperatør ->
    Syntaks:
    værdi -> variabelnavn

    > 25 -> x > x 
    Output: [1] 25

3. Relationsoperatør : Det definerer en relation mellem to enheder. For eksempel: ,<=,!= etc.

> xx! = 2
Produktion:[1] SAND

4. Logiske operatører : Disse operatører sammenligner de to enheder og bruges typisk med boolske (logiske) værdier som &, | og!.

> x2 & 3
Produktion:[1] SAND

5. Særlige operatører : Disse operatører bruges til et bestemt formål, ikke til logisk beregning. For eksempel:

  • Det opretter række numre i rækkefølge for en vektor.

    > xx
    Output: [1] 2 3 4 5 6 7 8
  • % i% Denne operator bruges til at identificere, om et element tilhører en vektor.
    Eksempel

    > xyy% i% x
    Output: [1] SAND

R Tutorial: Datatyper

Datatyper bruges til at gemme information. I R behøver vi ikke at erklære en variabel som en datatype. Variablerne tildeles R-objekter, og datatypen for R-objektet bliver datatypen for variablen.Der er hovedsagelig seks datatyper til stede i R:

Lad os gå nærmere ind på hver enkelt af dem:

Vektor : En vektor er en sekvens af dataelementer af samme grundlæggende type. Eksempel:

vtr = (1, 3, 5, 7 9)

eller

vtr<- (1, 3, 5 ,7 9)

Der er 5 atomiske vektorer, også betegnet som fem klasser af vektorer.

Liste : Lister er R-objekter, der indeholder elementer af forskellige typer som & minus tal, strenge, vektorer og en anden liste inde i den.

> n = c (2, 3, 5) > s = c ('aa', 'bb', 'cc', 'dd', 'ee') > x = liste (n, s, SAND) > x

Produktion -

[[1]] [1] 2 3 5 [[2]] [1] 'aa' 'bb' 'cc' 'dd' 'ee' [[3]] [1] SAND

Arrays : Arrays er R-dataobjekter, som kan gemme data i mere end to dimensioner. Det tager vektorer som input og bruger værdierne i dim-parameteren til at oprette en matrix.

vektor1<- c(5,9,3) vektor2<- c(10,11,12,13,14,15) resultat<- array(c(vector1,vector2),dim = c(3,3,2))

Produktion -

,, 1 [, 1] [, 2] [, 3] [1,] 5 10 13 [2,] 9 11 14 [3,] 3 12 15 ,, 2 [, 1] [, 2] [, 3 ] [1,] 5 10 13 [2,] 9 11 14 [3,] 3 12 15

Arrays : Matricer er de R-objekter, hvor elementerne er arrangeret i et todimensionalt rektangulært layout. En matrix oprettes ved hjælp af funktionen matrix (). Eksempel: matrix (data, nrow, ncol, byrow, dimnames) hvor,

data er inputvektoren, der bliver matrixens dataelementer.

nu er antallet af rækker, der skal oprettes.

ncol er antallet af kolonner, der skal oprettes.

byrå er en logisk anelse. Hvis SAND, er inputvektorelementerne arrangeret efter række.

dimname er de navne, der er tildelt rækkerne og kolonnerne.

> Mat<- matrix(c(1:16), nrow = 4, ncol = 4 ) > Mat
Produktion :
[, 1] [, 2] [, 3] [, 4] [1,] 1 5 9 13 [2,] 2 6 10 14 [3,] 3 7 11 15 [4,] 4 8 12 16

Faktorer : Faktorer er dataobjekterne, der bruges til at kategorisere dataene og gemme dem som niveauer. De kan gemme både strenge og heltal. De er nyttige i dataanalyse til statistisk modellering.

> data<- c('East','West','East','North','North','East','West','West“,'East“) > faktor_data<- factor(data) > faktor_data

Produktion :

[1] Øst vest øst nord nord øst vest vest øst Niveauer: East North West

Datarammer : En dataramme er en tabel eller en todimensionel matrixlignende struktur, hvor hver kolonne indeholder værdier på en variabel, og hver række indeholder et sæt værdier fra hver kolonne.

> std_id = c (1: 5) > std_name = c ('Rick', 'Dan', 'Michelle', 'Ryan', 'Gary') > mærker = c (623,3,515,2,611,0,729,0,843,25) > std.data<- data.frame(std_id, std_name, marks) > std.data

Produktion :

std_id std_name-mærker 1 1 Rick 623.30 2 2 Og 515,20 3 3 Michelle 611,00 4 4 Ryan 729,00 5 5 Gary 843,25

Ved dette kommer vi til slutningen af ​​forskellige datatyper i R. Lad os derefter gå videre i R Tutorial-blog og forstå et andet nøglekoncept - flowkontrolerklæringer.

R Tutorial: Flow Control Statements

Flowkontrolerklæringer spiller en meget vigtig rolle, da de giver dig mulighed for at kontrollere strømmen af ​​udførelse af et script i en funktion. De mest almindeligt anvendte flowkontrolerklæringer er repræsenteret i nedenstående billede:

Lad os nu diskutere hver enkelt af dem med eksempler.

R Tutorial: Selector Statements

  • Hvis kontrolerklæring : Denne kontrolerklæring evaluerer en enkelt tilstand. Det er ret let, da det bare har et enkelt nøgleord 'hvis' efterfulgt af betingelsen og derefter visse sæt udsagn, der skal udføres, hvis det er sandt. Se nedenstående rutediagram for at få en bedre forståelse:

I dette rutediagram reagerer koden på følgende måde:

  1. Først og fremmest kommer den ind i sløjfen, hvor den kontrollerer tilstanden.
  2. Hvis betingelsen er sand, vil den betingede kode eller de skriftlige udsagn blive udført.
  3. Hvis betingelsen er falsk, ignoreres udsagnene.

Nedenfor er et eksempel på hvis kontrolerklæring i R. Prøv at køre dette eksempel i R Studio.

x = 2 gentag {x = x ^ 2 print (x) hvis (x> 100) {break}

Output:

[1] 4 [1] 16 [1] 256
  • Hvis ellers kontrolerklæring :Eksamens type kontrolerklæringevaluerer en gruppe betingelser og vælger udsagnene. Se nedenstående rutediagram for at få en bedre forståelse:

I dette rutediagram reagerer koden på følgende måde:

  1. Først og fremmest kommer den ind i sløjfen, hvor den kontrollerer tilstanden.
  2. Hvis betingelsen er sand, bliver de første 'if' udsagn eksekveret.
  3. Hvis betingelsen er falsk, går den til 'ellers hvis' -tilstand, og hvis den er sand, vil 'andet hvis' -koden blive udført.
  4. Endelig, hvis 'ellers hvis' koden også er falsk, så går den til 'ellers' kode, og den bliver udført. Dette betyder, at hvis ingen af ​​disse betingelser er sande, bliver erklæringen om 'andet' udført.

Nedenfor er et eksempel på hvis ellers kontrolerklæring i R. Prøv at køre dette eksempel i R Studio.

x5) {print ('x er større end 5')} elseif (x == 5) {print ('x er lig med 5')} ellers {print ('x er ikke større end 5')}

Produktion:

[1] 'x er lig med 5'
  • Skift udsagn : Disse kontroludtalelser bruges grundlæggende til at sammenligne et bestemt udtryk med en kendt værdi. Se nedenstående rutediagram for at få en bedre forståelse:

I dette switch case flowchart svarer koden i følgende trin:

  1. Først og fremmest kommer det ind i switch-sagen, der har et udtryk.
  2. Derefter går det til sag 1-tilstand, kontrollerer den værdi, der er sendt til tilstanden. Hvis det er sandt, udføres erklæringsblok. Derefter bryder det fra den switch-sag.
  3. Hvis det er falsk, skifter det til næste sag. Hvis sag 2-betingelse er sand, vil den udføre erklæringen og bryde fra den sag, ellers springer den igen til den næste sag.
  4. Lad os sige, at du ikke har angivet nogen sag, eller at der er noget forkert input fra brugeren, så går det til standardsagen, hvor den udskriver din standarderklæring.

Nedenfor er et eksempel på switch-erklæring i R. Prøv at køre dette eksempel i R Studio.

vtr<- c(150,200,250,300,350,400) option <-'mean' switch(option, 'mean' = print(mean(vtr)), 'mode' = print(mode((vtr))), 'median' = print(median((vtr))) ) 

Output:

[1] 275

R Tutorial: Loop Statements

Sløjfer hjælper dig med at gentage visse sæt handlinger, så du ikke behøver at udføre dem gentagne gange. Forestil dig, at du skal udføre en operation ti gange, hvis du begynder at skrive koden for hver gang, øges programmets længde, og det ville være svært for dig at forstå det senere. Men på samme tid ved at bruge en sløjfe, hvis jeg skriver den samme erklæring inde i en sløjfe, sparer det tid og gør det lettere for kodelæsbarhed. Det bliver også mere optimeret med hensyn til kodeeffektivitet.

I ovenstående billede, ' gentage' og ' mens 'Udsagn hjælper dig med at udføre et bestemt sæt regler, indtil betingelsen er sand, men' til' er en loop-sætning, der bruges, når du ved, hvor mange gange du vil gentage en sætningsblok. Hvis du ved, at du vil gentage det 10 gange, går du med 'for' udsagn, men hvis du ikke er sikker på, hvor mange gange du vil have koden gentaget, går du med 'gentag' eller 'mens' løkke.

Lad os diskutere hver enkelt af dem med eksempler.

  • Gentage : Gentagelsessløjfen hjælper med at udføre det samme sæt kode igen og igen, indtil en stopbetingelse er opfyldt. Se nedenstående rutediagram for at få en bedre forståelse:

I ovenstående flowchart svarer koden i følgende trin:

  1. Først og fremmest vil det indtaste og udføre et sæt kode.
  2. Dernæst vil det kontrollere tilstanden, hvis det er sandt, vil det gå tilbage og udføre det samme sæt kode igen, indtil det er meningen, at det er falsk.
  3. Hvis det viser sig at være falsk, går det direkte ud af sløjfen.
  • Mens : While-erklæringen hjælper også med at udføre det samme sæt kode igen og igen, indtil en stopbetingelse er opfyldt. Se nedenstående rutediagram for at få en bedre forståelse:

I ovenstående flowchart svarer koden i følgende trin:

  1. Først og fremmest vil det kontrollere tilstanden.
  2. Hvis det viser sig at være sandt, udfører det kodesættet.
  3. Dernæst kontrollerer den igen betingelsen, hvis den er sand, udfører den den samme kode igen. Så snart tilstanden viser sig at være falsk, går den straks ud af sløjfen.

Nedenfor er et eksempel på mens udsagn i R. Prøv at køre dette eksempel i R Studio.

x = 2 mens (x<1000) { x=x^2 print(x) } 

Produktion:

4 16 256 65 536

Så du må undre dig over, hvordan disse to udsagn adskiller sig? Lad mig fjerne din tvivl!
Her er den største forskel mellem gentagelsen og mens udsagnet er, at det ændrer sig i forhold til din tilstand. Mens loop definerer grundlæggende, hvornår du skal gå ind i loop for at udføre udsagnene og gentage loop definerer, hvornår du forlader loop efter udførelsen af ​​erklæringerne. Så disse to udsagn er kendt som entry control loop og exit control loop. Det er sådan, mens mens og gentagne udsagn er forskellige.

  • Til løkke: For sløjfer bruges, når du har brug for at udføre en blok kode flere gange. Se nedenstående rutediagram for at få en bedre forståelse:

I ovenstående flowchart svarer koden i følgende trin:

  1. Først og fremmest er der initialisering, hvor du angiver, hvor mange gange du vil have, at sløjfen skal gentages.
  2. Dernæst kontrollerer den tilstanden. Hvis betingelsen er sand, udfører den kodesættet for det angivne antal gange.
  3. Så snart tilstanden viser sig at være falsk, går den straks ud af sløjfen.

Nedenfor er et eksempel på udsagn i R. Prøv at køre dette eksempel i R Studio.

vtr<- c(7,19,25,65, 45) for( i in vtr) { print(i) } 

Output:

7 19 25 65 45

Lad os derefter gå til vores sidste sæt udsagn i R Tutorial-blog, dvs. jump-udsagn.

R Tutorial: Jump Statements

Break Erklæring : Break-erklæringer hjælper med at afslutte programmet og genoptager kontrollen til den næste erklæring efter sløjfen. Disse udsagn bruges også i switch-tilfælde. Se nedenstående rutediagram for at få en bedre forståelse:

I ovenstående flowchart svarer koden i følgende trin:

  1. Først og fremmest kommer den ind i sløjfen, hvor den kontrollerer tilstanden.
  2. Hvis sløjfebetingelsen er falsk, forlader den sløjfen direkte.
  3. Hvis betingelsen er sand, kontrollerer den brudtilstanden.
  4. Hvis brudtilstand er sand, eksisterer den fra sløjfen.
  5. Hvis brudtilstanden er falsk, udfører den de udsagn, der er tilbage i sløjfen, og gentager derefter de samme trin.

Nedenfor er et eksempel på springopgørelse i R. Prøv at køre dette eksempel i R Studio.

x<- 1:5 for (val in x) { if (val == 3){ break } print(val) } 

Produktion:

[1] 1 [1] 2

Næste erklæring : En næste sætning bruges, når du vil springe den aktuelle iteration af sløjfen over uden at afslutte den. Næste udsagn ligner meget 'fortsæt' på et andet programmeringssprog. Se nedenstående rutediagram for at få en bedre forståelse:

I ovenstående flowchart svarer koden i følgende trin:

  1. Først og fremmest kommer den ind i sløjfen, hvor den kontrollerer tilstanden.

  2. Hvis sløjfebetingelsen er falsk, forlader den sløjfen direkte.

  3. Hvis loop-betingelsen er sand, udfører den blok 1-udsagn.

    værktøjer, der bruges i stor dataanalyse
  4. Derefter kontrollerer den for 'næste' udsagn. Hvis den er til stede, udføres udsagnene derefter ikke i samme iteration af sløjfen.

  5. Hvis 'næste' erklæring ikke er til stede, vil alle udsagnene derefter blive udført.

Nedenfor er et eksempel på næste udsagn i R. Prøv at køre dette eksempel i R Studio.

til (i i 1:15) {if ((i %% 2) == 0) {næste} print (i)}

Output:

1 3 5 7 9 11 13 15

Dette er slutningen af ​​R tutorial blog. Jeg håber, at I er klare over hvert eneste koncept, som jeg har diskuteret ovenfor. Hold øje med, min næste blog vil være på R-træning, hvor jeg vil forklare nogle flere koncepter for R detaljeret med exrigelig.

Nu hvor du har forstået det grundlæggende i R, skal du tjekke af Edureka, et pålideligt online læringsfirma med et netværk på mere end 250.000 tilfredse elever spredt over hele kloden. Edurekas dataanalyse med R-træning hjælper dig med at få ekspertise inden for R-programmering, datamanipulation, sonderende dataanalyse, datavisualisering, datamining, regression, sentimentanalyse og brug af R Studio til virkelige casestudier på detailhandel, sociale medier.

Har du et spørgsmål til os? Nævn det i kommentarfeltet på denne “R Tutorial” -blog, og vi vender tilbage til dig hurtigst muligt.