Big Data Tutorial: Alt hvad du behøver at vide om Big Data!

Denne blog på Big Data Tutorial giver dig et komplet overblik over Big Data, dets egenskaber, applikationer samt udfordringer med Big Data.

Big Data Tutorial

Big Data, har du ikke hørt dette udtryk før? Det er jeg sikker på, du har. I de sidste 4 til 5 år taler alle om Big Data. Men ved du virkelig, hvad nøjagtigt er disse Big Data, hvordan har det indflydelse på vores liv, og hvorfor organisationer jager efter fagfolk med ? I denne Big Data Tutorial vil jeg give dig et komplet indblik i Big Data.

Nedenfor er de emner, som jeg vil dække i denne Big Data Tutorial:





  • Historien om store data
  • Big Data drivende faktorer
  • Hvad er Big Data?
  • Big Data-egenskaber
  • Typer af store data
  • Eksempler på Big Data
  • Anvendelser af Big Data
  • Udfordringer med Big Data

Big Data Tutorial - Edureka

Lad mig starte denne Big Data Tutorial med en novelle.



Historien om store data

I gamle dage rejste folk fra en landsby til en anden landsby på en hestevogn, men efterhånden som tiden gik, blev landsbyer byer og folk spredte sig. Afstanden til at rejse fra den ene by til den anden by steg også. Så det blev et problem at rejse mellem byer sammen med bagagen. Ud af det blå foreslog en smart fyr, at vi skulle pleje og fodre en hest mere for at løse dette problem. Når jeg ser på denne løsning, er den ikke så dårlig, men tror du, at en hest kan blive en elefant? Jeg tror ikke det. En anden smart fyr sagde, i stedet for at 1 hest trækker vognen, lad os have 4 heste til at trække den samme vogn. Hvad synes I om denne løsning? Jeg synes, det er en fantastisk løsning. Nu kan folk rejse store afstande på kortere tid og endda bære mere bagage.

Det samme koncept gælder for Big Data. Big Data siger, indtil vi i dag var okay med at gemme dataene på vores servere, fordi datamængden var ret begrænset, og hvor lang tid det var at behandle disse data var også okay. Men nu i denne nuværende teknologiske verden vokser dataene for hurtigt, og folk stoler på dataene mange gange. Også den hastighed, hvormed dataene vokser, bliver det umuligt at gemme dataene på nogen server.

Lad os gennem denne blog på Big Data Tutorial udforske kilderne til Big Data, som de traditionelle systemer ikke gemmer og behandler.



Big Data drivende faktorer

Mængden af ​​data på planeten jord vokser eksponentielt af mange grunde. Forskellige kilder og vores daglige aktiviteter genererer masser af data. Med opfindelsen af ​​internettet er hele verden gået online, hver eneste ting, vi gør, efterlader et digitalt spor. Med de smarte objekter, der går online, er datavæksthastigheden steget hurtigt. De største kilder til Big Data er sociale mediesider, sensornetværk, digitale billeder / videoer, mobiltelefoner, købstransaktionsregistreringer, weblogfiler, medicinske poster, arkiver, militær overvågning, e-handel, kompleks videnskabelig forskning og så videre. Alle disse oplysninger beløber sig til omkring nogle Quintillion bytes data. I 2020 vil datamængderne være omkring 40 zettabyte, hvilket svarer til tilføjelse af hvert eneste sandkorn på planeten ganget med femoghalvfjerds.

Hvad er Big Data?

Big Data er et udtryk, der bruges til en samling af datasæt, der er store og komplekse, hvilket er vanskeligt at gemme og behandle ved hjælp af tilgængelige databasestyringsværktøjer eller traditionelle databehandlingsapplikationer. Udfordringen inkluderer indfangning, kuratering, lagring, søgning, deling, overførsel, analyse og visualisering af disse data.

Big Data-egenskaber

De fem egenskaber, der definerer Big Data, er: Volume, Velocity, Variety, Veracity og Value.

  1. BIND

    Volumen refererer til 'mængden af ​​data', der vokser dag for dag i et meget hurtigt tempo. Størrelsen på data genereret af mennesker, maskiner og deres interaktioner på selve sociale medier er massiv. Forskere har forudsagt, at 40 Zettabyte (40.000 Exabyte) vil blive genereret inden 2020, hvilket er en stigning på 300 gange fra 2005.

  2. VELOCITY

    Hastighed defineres som det tempo, hvormed forskellige kilder genererer data hver dag. Denne datastrøm er massiv og kontinuerlig. Der er 1,03 milliarder daglige aktive brugere (Facebook DAU) på mobil pr. Nu, hvilket er en stigning på 22% året over. Dette viser, hvor hurtigt antallet af brugere vokser på sociale medier, og hvor hurtigt dataene genereres dagligt. Hvis du er i stand til at håndtere hastigheden, vil du være i stand til at generere indsigt og tage beslutninger baseret på realtidsdata.

  3. BRED VIFTE

    Da der er mange kilder, der bidrager til Big Data, er typen af ​​data, de genererer, forskellig. Det kan være struktureret, semi-struktureret eller ustruktureret. Derfor er der en række data, der genereres hver dag. Tidligere brugte vi data fra Excel og databaser, nu kommer dataene i form af billeder, lydbånd, videoer, sensordata osv. Som vist i billedet nedenfor. Derfor skaber denne række ustrukturerede data problemer med at fange, opbevare, udvinde og analysere dataene.

  4. VERACITY

    Ægthed henviser til de data, der er i tvivl eller usikkerhed om tilgængelige data på grund af data inkonsekvens og ufuldstændighed. På billedet nedenfor kan du se, at få værdier mangler i tabellen. Et par værdier er også svære at acceptere, for eksempel - 15000 minimumsværdi i 3. række, det er ikke muligt. Denne inkonsekvens og ufuldstændighed er sandhed.
    Tilgængelige data kan undertiden blive rodet og måske vanskelige at stole på. Med mange former for big data er kvalitet og nøjagtighed vanskeligt at kontrollere som Twitter-indlæg med hashtags, forkortelser, typografier og daglig tale. Lydstyrken er ofte årsagen til manglen på kvalitet og nøjagtighed i dataene.

    • På grund af usikkerhed om data stoler 1 ud af 3 virksomhedsledere ikke på de oplysninger, de bruger til at træffe beslutninger.
    • Det blev fundet i en undersøgelse, at 27% af respondenterne var usikre på, hvor meget af deres data der var unøjagtige.
    • Dårlig datakvalitet koster den amerikanske økonomi omkring 3,1 billioner dollars om året.
  5. VÆRDI

    Efter at have diskuteret Volume, Velocity, Variety og Veracity, er der en anden V, der skal tages i betragtning, når man ser på Big Data, dvs. værdi. Det er godt og godt at have adgang til stortdatamenmedmindre vi kan gøre det til værdi, er det ubrugeligt. Ved at omdanne det til værdi mener jeg, tilføjer det fordelene ved de organisationer, der analyserer big data? Arbejder organisationen med Big Data med høj ROI (Return On Investment)? Medmindre det føjer til deres overskud ved at arbejde på Big Data, er det ubrugeligt.

Gå gennem vores Big Data-video nedenfor for at vide mere om Big Data:

Big Data Tutorial for begyndere | Hvad er store data | Edureka

Som diskuteret i Variety er der forskellige typer data, der genereres hver dag. Så lad os nu forstå typerne af data:

Typer af store data

Big Data kan være af tre typer:

  • Struktureret
  • Halvstruktureret
  • Ustruktureret

  1. Struktureret

    De data, der kan lagres og behandles i et fast format kaldes Structured Data. Data gemt i et relationsdatabasehåndteringssystem (RDBMS) er et eksempel på 'strukturerede' data. Det er let at behandle strukturerede data, da de har et fast skema. Structured Query Language (SQL) bruges ofte til at styre en sådan type data.

  2. Halvstruktureret

    Semistrukturerede data er en type data, der ikke har en formel struktur for en datamodel, dvs. en tabeldefinition i en relationel DBMS, men alligevel har den nogle organisatoriske egenskaber som tags og andre markører for at adskille semantiske elementer, der gør det lettere at analysere. XML-filer eller JSON-dokumenter er eksempler på semistrukturerede data.

  3. Ustruktureret

    De data, der har ukendt form og ikke kan gemmes i RDBMS og kun kan analyseres, medmindre de omdannes til et struktureret format kaldes ustrukturerede data. Tekstfiler og multimedieindhold som billeder, lydbånd, videoer er eksempler på ustrukturerede data. De ustrukturerede data vokser hurtigere end andre, eksperter siger, at 80 procent af dataene i en organisation er ustrukturerede.

Indtil nu har jeg netop dækket introduktionen af ​​Big Data. Desuden taler denne Big Data-tutorial om eksempler, applikationer og udfordringer i Big Data.

Eksempler på Big Data

Dagligt uploader vi millioner af bytes data. 90% af verdens data er oprettet i de sidste to år.

  • Walmart håndterer mere end 1 million kundetransaktioner hver time.
  • Facebook gemmer, åbner og analyserer 30+ petabyte af brugergenererede data.
  • 230+ millioner af tweets oprettes hver dag.
  • Mere end 5 mia folk ringer, sender en sms, twitter og browser på mobiltelefoner over hele verden.
  • YouTube-brugere uploader 48 timer af ny video hvert minut af dagen.
  • Amazon håndtag 15 millioner kundestrøm af brugerdata om dagen for at anbefale produkter.
  • 294 mia e-mails sendes hver dag. Services analyserer disse data for at finde spams.
  • Moderne biler har tæt på 100 sensorer der overvåger brændstofniveau, dæktryk osv., genererer hvert køretøj mange sensordata.

Anvendelser af Big Data

Vi kan ikke tale om data uden at tale om folket, folk der får gavn af Big Data-applikationer. Næsten alle brancher i dag udnytter Big Data-applikationer på den ene eller den anden måde.

  • Smartere sundhedsydelser : Ved at gøre brug af petabytes af patientens data kan organisationen udtrække meningsfuld information og derefter opbygge applikationer, der på forhånd kan forudsige patientens forværrede tilstand.
  • Telekom : Telesektorer indsamler information, analyserer dem og leverer løsninger på forskellige problemer. Ved at bruge Big Data-applikationer har teleselskaber været i stand til at reducere tab af datapakker markant, hvilket opstår, når netværk er overbelastet, og dermed give en problemfri forbindelse til deres kunder.
  • Detailhandel : Detailhandel har nogle af de strengeste margener og er en af ​​de største modtagere af big data. Det skønne ved at bruge big data i detailhandlen er at forstå forbrugeradfærd. Amazons anbefalingsmotor giver forslag baseret på forbrugerens browserhistorik.
  • Trafikstyring : Trafikbelastning er en stor udfordring for mange byer globalt. Effektiv brug af data og sensorer vil være nøglen til bedre styring af trafikken, efterhånden som byerne bliver stadig tættere befolket.
  • Fremstilling : Analyse af big data i fremstillingsindustrien kan reducere komponentfejl, forbedre produktkvaliteten, øge effektiviteten og spare tid og penge.
  • Søgekvalitet : Hver gang vi udtrækker information fra google, genererer vi samtidig data til den. Google gemmer disse data og bruger dem til at forbedre søgekvaliteten.

Nogen har med rette sagt: “Ikke alt i haven er rosenrødt!” . Indtil nu i denne Big Data-tutorial har jeg lige vist dig det rosenrøde billede af Big Data. Men hvis det var så let at udnytte Big data, tror du ikke alle organisationer ville investere i det? Lad mig fortælle dig på forhånd, det er ikke tilfældet. Der er flere udfordringer, der kommer sammen, når du arbejder med Big Data.

Nu hvor du er fortrolig med Big Data og dens forskellige funktioner, vil det næste afsnit af denne blog om Big Data Tutorial kaste lys over nogle af de store udfordringer, som Big Data står over for.

Udfordringer med Big Data

Lad mig fortælle dig nogle få udfordringer, der følger med Big Data:

  1. Datakvalitet - Problemet her er 4thV dvs. sandhed. Dataene her er meget rodet, inkonsekvent og ufuldstændige. Beskidte data koster 600 milliarder dollars for virksomhederne hvert år i USA.
  1. Opdagelse - At finde indsigt i Big Data er som at finde en nål i en høstak. Det er meget vanskeligt at analysere petabytes af data ved hjælp af ekstremt effektive algoritmer for at finde mønstre og indsigt.
  1. Opbevaring - Jo flere data en organisation har, desto mere komplekse kan problemer med at styre den blive. Spørgsmålet, der opstår her, er 'Hvor skal det opbevares?'. Vi har brug for et lagersystem, der let kan skalere op eller ned efter behov.
  1. Analytics - I tilfælde af Big Data er vi det meste af tiden uvidende om, hvilken type data vi har at gøre med, så det er endnu sværere at analysere disse data.
  1. Sikkerhed - Da dataene er enorme i størrelse, er det en anden udfordring at holde dem sikre. Det inkluderer brugergodkendelse, begrænsning af adgang baseret på en bruger, registrering af dataadgangshistorik, korrekt brug af datakryptering osv.
  1. Manglende talent - Der er mange Big Data-projekter i større organisationer, men et sofistikeret team af udviklere, dataforskere og analytikere, der også har tilstrækkelig mængde domæne viden, er stadig en udfordring.

Hadoop til undsætning

Vi har en frelser til at tackle Big Data-udfordringer - dens Hadoop . Hadoop er en open source, Java-baseret programmeringsramme, der understøtter lagring og behandling af ekstremt store datasæt i et distribueret computermiljø. Det er en del af Apache-projektet sponsoreret af Apache Software Foundation.

hvordan man gør beføjelser i java

Hadoop håndterer med sin distribuerede behandling store mængder strukturerede og ustrukturerede data mere effektivt end det traditionelle virksomhedsdatalager. Hadoop gør det muligt at køre applikationer på systemer med tusindvis af hardware hardware noder og håndtere tusindvis af terabyte data. Organisationer vedtager Hadoop, fordi det er en open source-software og kan køre på råvarehardware (din personlige computer).De oprindelige omkostningsbesparelser er dramatiske, da råvarehardware er meget billig. Efterhånden som organisationsdataene stiger, skal du tilføje mere og mere råvarehardware til at gemme dem, og derfor viser Hadoop sig at være økonomisk.Derudover har Hadoop et robust Apache-samfund bag sig, der fortsat bidrager til dets fremskridt.

Som lovet tidligere har jeg gennem denne blog på Big Data Tutorial givet dig den maksimale indsigt i Big Data. Dette er slutningen af ​​Big Data Tutorial. Nu er det næste skridt fremad at kende og lære Hadoop. Vi har en serie af Hadoop tutorial blogs, der giver detaljeret viden om det komplette Hadoop-økosystem.

Alt det bedste, Happy Hadooping!

Nu hvor du har forstået, hvad der er Big Data, skal du tjekke af Edureka, et pålideligt online læringsfirma med et netværk på mere end 250.000 tilfredse elever spredt over hele kloden. Edureka Big Data Hadoop-certificeringskursus hjælper elever med at blive eksperter i HDFS, Garn, MapReduce, Pig, Hive, HBase, Oozie, Flume og Sqoop ved hjælp af realtidsanvendelsessager på Retail, Social Media, Aviation, Tourism, Finance domæne.

Har du et spørgsmål til os? Nævn det i kommentarfeltet, og vi vender tilbage til dig.

Relaterede indlæg: