Big Data og ETL er familie



I denne blog vil vi se forholdet mellem Big Data og ETL. Talend er det værktøj, der er meget brugt til at forbinde Big Data og ETL.

forskel mellem kast og kast

Big Data er virkelig hypet nok i nyere tid, så som de dygtige fagfolk, der kommer med viden om det. Ikke at bruge dine primære færdigheder og starte fra grunden er ikke altid et let job. Brug af dine firkantede snit og tilpasning til bouncers vil dog gøre underværker for dig. Bingo, vi taler om at lære Big Data ved hjælp af ETL-teknologi.





ETL-udviklere, der designer datatransformationsarbejdsprocesser, kan meget vel bruge værktøjer og oversætte arbejdsgange til Hadoop-job. Hadoop er en open source-ramme, der i vid udstrækning bruges til at behandle BigData ved hjælp af MapReduce-programmet (som er en anden open source-teknologi, der hjælper med at behandle store mængder data på Hadoop). For det meste kan det være en udfordring at finde dygtige ressourcer i Big Data.

Hvis en ETL-udvikler skal finde de IP-adresser, der har fremsat mere end en million anmodninger på bankens websted, skal han skrive et MapReduce-job, der behandler de weblogdata, der er gemt i Hadoop . Men med fremskridt inden for ETL-teknologi kan en jobudvikler bruge standard ETL-designværktøjerne til at skabe et ETL-flow, der kan læse data fra flere kilder i Hadoop (Files, Hive, HBase), deltage, samle, filtrere og transformere dataene. for at finde et svar på forespørgslen på IP-adresser.



Talend er det eneste grafiske brugergrænsefladesværktøj, der er i stand til at 'oversætte' et ETL-job til et MapReduce-job. Således bliver Talend ETL-job udført som et MapReduce-job på Hadoop og få big data-arbejdet udført på få minutter. Dette er en nøgleinnovation, der hjælper med at reducere adgangsbarrierer inden for Big Data-teknologi og giver ETL-jobudviklere (begyndere og avancerede) mulighed for i større grad at udføre Data Warehouse-aflæsning.

Livet i Big Data City er meget lettere med Talend rundt

Et grafisk abstraktionslag oven på Hadoop-applikationer - dette gør livet så meget lettere i Big Data-verdenen.



Hvad Talend har at sige: ”I overensstemmelse med vores historie som innovatør og førende inden for open source-dataintegration er Talend den første udbyder, der tilbyder en ren open source-løsning, der muliggør integration af big data . Talend Open Studio for Big Data ved at lægge et brugervenligt grafisk udviklingsmiljø oven på kraftfulde Hadoop-applikationer big data management tilgængelig for flere virksomheder og flere udviklere end nogensinde før.

Med sit formørkelsesbaserede grafiske arbejdsområde gør Talend Open Studio for Big Data udvikleren og dataforskeren i stand til at udnytte Hadoop-indlæsnings- og behandlingsteknologier som HDFS, HBase, Hive og Pig uden at skulle skrive Hadoop ansøgning kode. Ved blot at vælge grafiske komponenter fra en palet, arrangere og konfigurere dem, kan du oprette Hadoop-job. For eksempel:

  1. Indlæs data i HDFS (Hadoop Distributed File System)
  2. Brug Hadoop Pig at transformere data i HDFS
  3. Indlæs data i en Hadoop Hive baseret datalager
  4. Udfør ELT (udtræk, indlæs, transformer) aggregeringer i Hive
  5. Løftestang Sqoop at integrere relationsdatabaser og Hadoop

Hadoop-applikationer, problemfrit integreret inden for få minutter ved hjælp af Talend.

For at Hadoop-applikationer skal være virkelig tilgængelige for din organisation, skal de integreres problemfrit i dine overordnede datastrømme. Talend Open Studio til Big Data er det ideelle værktøj til at integrere Hadoop-applikationer i din bredere dataarkitektur. Talend leverer flere indbyggede stikkomponenter end nogen anden tilgængelig dataintegrationsløsning med mere end 800 stik der gør det let at læse fra eller skrive til ethvert større filformat, database eller pakket virksomhedsapplikation. For eksempel kan du i Talend Open Studio til store data bruge drag 'n drop-konfigurerbare komponenter til at oprette dataintegrationsstrømme, der flytter data fra afgrænsede logfiler til Hadoop Hive, udfører operationer i Hive og udtrækker data fra Hive til en MySQL-database (eller Oracle, Sybase, SQL Server osv.).

Vil du se, hvor let det kan være at arbejde med banebrydende Hadoop-applikationer?

Ingen grund til at vente - Talend Open Studio til Big Data er en open source-software, der er gratis at downloade og bruges under en Apache-licens.

Tal i byen

Talend har været enVisionær i Magic Quadrant til dataintegrationsværktøjersiden 2009. For nylig er de også opstået som pionerer inden for datakvalitet og MDM-området samt alle ingredienser til at tilberede en fantastisk Big Data-skål.

De hævder, at: 'Big Data Integration øger ydeevnen og skalerbarheden med 45 procent i din organisation'.

Kun Talend 5.5 (og højere) tillader udviklere at generere Hadoop-kode med høj ydeevne uden at være ekspert i MapReduce eller Pig.

For et par måneder tilbage sagde en af ​​artiklen fra Talend: ”Adoption af Hadoop skyder i luften, og store og små virksomheder kæmper for at finde nok kyndige Hadoop-udviklere til at imødekomme denne voksende efterspørgsel”. Kun Talend 5.5 tillader enhver dataintegrationsudvikler at bruge et visuelt udviklingsmiljø til at generere native, høj ydeevne og meget skalerbar Hadoop-kode. Dette låser op for en stor pulje af udviklingsressourcer, der nu kan bidrage til big data-projekter. Derudover forbliver Talend på forkant med den nye udvikling i Hadoop, der giver store dataanalyseprojekter mulighed for at skabe kundeinteraktioner i realtid.

Talend for Big Data kan hjælpe med at forstå organisationer ved at indsamle datasæt fra heterogene kildesystemer - såsom tredjeparter, API'er og feeds til sociale netværk - og omdanne disse data til et visuelt billede af slut-til-slut-kunderejsen.

Det være sig bankindustri, lægemidler, e-handel, forsikring - Talend kan integrere data i enhver skala med en let blanding med Hadoop, der viser sig at være den mest banebrydende teknologi til at imødekomme behovet i nutid og fremtid.

Brug sager rundt om i verden

Startende fra markedsføringskampagne til kundeservice i banksektoren til afsløring af svig, store data er overalt.

At have mere end 800+ stik alene i deres open source-udgave, hævder at være de største mest understøttede platforme til at oprette forbindelse til noget og kan hente alt.

Med det skiftende mønster og tilpasset NoSQL, Open Source, Hadoop, ville valg af at lære Big Data og ETL-stil ved hjælp af Talend være den mest logiske beslutning for alle, der beskæftiger sig med data i enhver form og når som helst.

hvad er applet i java med eksempel

Sammenfattende er ETL-værktøjer langt fra at være passé. De er centrale i Big Data-økosystemet og spiller en afgørende rolle i at muliggøre dataanalyse.

Derfor skinner Talend med angivelse af 'Zero to Big Data without Coding, in under 10 minutes'.

Har du et spørgsmål til os? Nævn dem i kommentarsektionen, så vender vi tilbage til dig.

Relaterede indlæg: