Informatica ETL: En begyndervejledning til forståelse af ETL ved hjælp af Informatica PowerCenter



Forstå begreberne Informatica ETL og de forskellige faser i ETL-processen og øve en brugssag, der involverer medarbejderdatabase.

Formålet med Informatica ETL er at give brugerne ikke kun en proces med at udtrække data fra kildesystemer og bringe dem ind i datalageret, men også give brugerne en fælles platform til at integrere deres data fra forskellige platforme og applikationer.Dette har ført til en stigning i efterspørgslen efter .Før vi taler om Informatica ETL, lad os først forstå, hvorfor vi har brug for ETL.

Hvorfor har vi brug for ETL?

Hvert firmadisse dage skal behandle store sæt data fra forskellige kilder. Disse data skal behandles for at give indsigtsfulde oplysninger til at træffe forretningsbeslutninger. Men ofte har sådanne data følgende udfordringer:





  • Store virksomheder genererer masser af data, og sådan en enorm del af data kan være i ethvert format. De ville være tilgængelige i flere databaser og mange ustrukturerede filer.
  • Disse data skal samles, kombineres, sammenlignes og få dem til at fungere som en problemfri helhed. Men de forskellige databaser kommunikerer ikke godt!
  • Mange organisationer har implementeret grænseflader mellem disse databaser, men de stod over for følgende udfordringer:
    • Hvert par databaser kræver en unik grænseflade.
    • Hvis du ændrer en database, skal mange grænseflader muligvis opgraderes.

Nedenfor kan du se de forskellige databaser i en organisation og deres interaktioner:

Forskellige datasæt for en organisation - Informatica - ETL - Edureka

Forskellige databaser, der bruges af forskellige afdelinger i en organisation



Forskellige interaktioner mellem databaser i en organisation

Som set ovenfor kan en organisation have forskellige databaser i sine forskellige afdelinger, og interaktionen mellem dem bliver svær at implementere, da forskellige interaktionsgrænseflader skal oprettes til dem. For at overvinde disse udfordringer er den bedst mulige løsning ved at bruge begreberne Dataintegration som gør det muligt for data fra forskellige databaser og formater at kommunikere med hinanden. Nedenstående figur hjælper os med at forstå, hvordan dataintegrationsværktøjet bliver en fælles grænseflade til kommunikation mellem de forskellige databaser.

Forskellige databaser forbundet via dataintegration



Men der er forskellige processer til rådighed til at udføre dataintegration. Blandt disse processer er ETL den mest optimale, effektive og pålidelige proces. Gennem ETL kan brugeren ikke kun indbringe data fra forskellige kilder, men de kan udføre de forskellige operationer på dataene, før de gemmer disse data til slutmålet.

Blandt de forskellige tilgængelige ETL-værktøjer på markedet er Informatica PowerCenter markedets førende dataintegrationsplatform. Efter at have testet på næsten 500.000 kombinationer af platforme og applikationer, fungerer Informatica PowerCenter inter med det bredest mulige udvalg af forskellige standarder, systemer og applikationer. Lad os nu forstå de trin, der er involveret i Informatica ETL-processen.

Informatik ETL | Informatica Arkitektur | Informatica PowerCenter-vejledning | Edureka

Denne Edureka Informatica-tutorial hjælper dig med at forstå de grundlæggende elementer i ETL ved hjælp af Informatica Powercenter i detaljer.

Trin i Informatica ETL-proces:

Før vi går til de forskellige trin involveret i Informatica ETL, Lad os få et overblik over ETL. I ETL er ekstraktion, hvor data ekstraheres fra homogene eller heterogene datakilder, transformation hvor dataene transformeres til lagring i det rigtige format eller den korrekte struktur med henblik på forespørgsel og analyse og indlæsning, hvor dataene indlæses i den endelige måldatabase, operativt datalager, datamarked eller datalager. Billedet nedenfor hjælper dig med at forstå, hvordan Informatica ETL-processen finder sted.

ETL-procesoversigt

Som set ovenfor kan Informatica PowerCenter indlæse data fra forskellige kilder og gemme dem i et enkelt datalager. Lad os nu se på de trin, der er involveret i Informatica ETL-processen.

hvad er kobling i java

Der er hovedsageligt 4 trin i Informatica ETL-processen, lad os nu forstå dem i dybden:

  1. Uddrag eller fangst
  2. Skrub eller rengør
  3. Transformer
  4. Belastning og indeksering

1. Uddrag eller fangst: Som det ses på billedet nedenfor, er Capture eller Extract det første trin i Informatica ETL-processen.Det er processen med at få et øjebliksbillede af den valgte delmængde af data fra kilden, som skal indlæses i datalageret. Et øjebliksbillede er en skrivebeskyttet statisk visning af dataene i databasen. Uddragsprocessen kan være af to typer:

  • Fuld ekstrakt: Dataene ekstraheres fuldstændigt fra kildesystemet, og der er ikke behov for at holde styr på ændringer i datakilden siden den sidste vellykkede udtrækning.
  • Inkrementel ekstrakt: Dette registrerer kun ændringer, der er sket siden sidste fulde uddrag.

Fase 1: Uddrag eller optagelse

2. Skrub eller rengør: Dette er processen med at rense data, der kommer fra kilden ved hjælp af forskellige mønstergenkendelses- og AI-teknikker til at opgradere kvaliteten af ​​de data, der er taget frem. Normalt er fejl som stavefejl, fejlagtige datoer, forkert feltbrug, uoverensstemmende adresser, manglende data, duplikatdata, uoverensstemmelserfremhævet og derefter rettet eller fjerneti dette trin. Også operationer som afkodning, omformatering, tidsstempling, konvertering, nøglegenerering, fletning, fejlregistrering / logning, lokalisering af manglende data udføres i dette trin. Som det ses på billedet nedenfor, er dette det andet trin i Informatica ETL-processen.

Fase 2: Skrubning eller rengøring af data

3. Transform: Som det ses på billedet nedenfor, er dette det tredje og mest vigtige trin i Informatica ETL-processen. Transformationer er operationen til at konvertere data fra kildesystemets format til skeletet til Data Warehouse. En transformation bruges grundlæggende til at repræsentere et sæt regler, der definerer datastrømmen, og hvordan dataene indlæses i målene. Hvis du vil vide mere om transformation, skal du tjekke ud Transformationer i Informatica Blog.

Fase 3: Transformation

4. Belastning og indeksering: Dette er det sidste trin i Informatica ETL-processen som vist på billedet nedenfor. I dette trin placerer vi de transformerede data i lageret og opretter indekser til dataene. Der er to hovedtyper af datalæsning til rådighed baseret på belastningsprocessen .:

  • Fuld belastning eller bulkbelastning :Dataindlæsningsprocessen, når vi gør det første gang. Jobbet udtrækker hele datamængden fra en kildetabel og indlæses i måldatalageret efter anvendelse af de krævede transformationer. Det vil være et engangsjob, der køres, efter at ændringer alene fanges som en del af et inkrementelt ekstrakt.
  • Inkrementel belastning eller Opdater belastning : De ændrede data alene opdateres i mål efterfulgt af fuld belastning. Ændringerne registreres ved at sammenligne oprettet eller ændret dato med den sidste kørselsdato for jobbet.De modificerede data alene ekstraheret fra kilden og opdateres i målet uden at påvirke de eksisterende data.

Fase 4: Indlæs og indeks

Hvis du har forstået Informatica ETL-processen, er vi nu i en bedre position til at forstå, hvorfor Informatica er den bedste løsning i sådanne tilfælde.

Funktioner ved Informatica ETL:

Til alle dataintegrations- og ETL-operationer har Informatica forsynet os med Informatica PowerCenter . Lad os nu se nogle nøglefunktioner i Informatica ETL:

  • Giver mulighed for at specificere et stort antal transformationsregler med en GUI.
  • Generer programmer til at transformere data.
  • Håndter flere datakilder.
  • Understøtter dataekstraktion, rensning, sammenlægning, reorganisering, transformation og belastning.
  • Genererer automatisk programmer til dataekstraktion.
  • Hurtig indlæsning af måldatalager.

Nedenfor er nogle af de typiske scenarier, hvor Informatica PowerCenter bruges:

  1. Datamigrering:

Et firma har købt en ny ansøgning til leverandør til sin regnskabsafdeling. PowerCenter kan flytte de eksisterende kontodata til den nye applikation. Figuren nedenfor hjælper dig med at forstå, hvordan du kan bruge Informatica PowerCenter til datamigrering. Informatica PowerCenter kan let bevare datastamme til skat, regnskab og andre lovligt obligatoriske formål under datamigrationsprocessen.

Datamigrering fra en ældre regnskabsapplikation til en ny applikation

  1. Applikationsintegration:

Lad os sige, at firma-A køber firma-B. For at opnå fordelene ved konsolidering skal Company-B's faktureringssystem integreres i Company-A's faktureringssystem, hvilket let kan gøres ved hjælp af Informatica PowerCenter. Figuren nedenfor hjælper dig med at forstå, hvordan du kan bruge Informatica PowerCenter til integration af applikationer mellem virksomhederne.

Integrering af applikation mellem virksomheder

  1. Datalagring

Typiske handlinger, der kræves i datalager er:

  • Kombination af information fra mange kilder til analyse.
  • Flytning af data fra mange databaser til datalageret.

Alle ovenstående typiske sager kan let udføres ved hjælp af Informatica PowerCenter. Nedenfor kan du se Informatica PowerCenter bruges til at kombinere data fra forskellige slags databaser som Oracle, SalesForce osv. Og bringe dem til et fælles datalager oprettet af Informatica PowerCenter.

Data Fra forskellige databaser integreret til et fælles datalager

  1. Middleware

Lad os sige, at en detailorganisation bruger SAP R3 til sine detailapplikationer og SAP BW som datalager. En direkte kommunikation mellem disse to applikationer er ikke mulig på grund af manglen på en kommunikationsgrænseflade. Informatica PowerCenter kan dog bruges som Middleware mellem disse to applikationer. På billedet nedenfor kan du se arkitekturen for, hvordan Informatica PowerCenter bruges som middleware mellem SAP R / 3 og SAP BW. Applikationerne fra SAP R / 3 overfører deres data til ABAP-rammen, som derefter overfører dem tilSAP salgssted (POS) og SAPBills of Services (BOS). Informatica PowerCenter hjælper med overførsel af data fra disse tjenester til SAP Business Warehouse (BW).

Informatica PowerCenter som Middleware i SAP Retail Architecture

Mens du har set et par nøglefunktioner og typiske scenarier for Informatica ETL, håber jeg, at du forstår, hvorfor Informatica PowerCenter er det bedste værktøj til ETL-proces. Lad os nu se et brugstilfælde af Informatica ETL.

Brugssag: Sammenføjning af to tabeller for at opnå en enkelt detaljeret tabel

Lad os sige, at du ønsker at levere afdelingsmæssig transport til dine medarbejdere, da afdelingerne er placeret forskellige steder. For at gøre dette skal du først vide, hvilken afdeling hver medarbejder hører til og afdelingens placering. Oplysningerne om medarbejderne er dog gemt i forskellige tabeller, og du skal sammenføje oplysningerne om afdelingen til en eksisterende database med oplysningerne om alle medarbejdere. For at gøre dette vil vi først indlæse begge tabeller i Informatica PowerCenter, udføre Source Qualifier Transformation på dataene og endelig indlæse detaljerne til Target Database.Lad os begynde:

Trin 1 : Åbn PowerCenter Designer.

Nedenfor er hjemmesiden for Informatica PowerCenter Designer.

Lad os nu oprette forbindelse til lageret. Hvis du ikke har konfigureret dine arkiver eller står over for problemer, kan du tjekke vores Blog.

Trin 2: Højreklik på dit lager, og vælg forbindelsesmulighed.

Når du klikker på forbindelsesindstillingen, bliver du bedt om det nedenstående skærmbillede og beder om dit brugernavn og din adgangskode til lageret.

Når du har oprettet forbindelse til dit arkiv, skal du åbne din arbejdsmappe som vist nedenfor:

Du bliver bedt om at spørge navnet på din kortlægning. Angiv navnet på din kortlægning, og klik på OK (jeg har navngivet det som m-MEDARBEJDER ).

Trin 3: Lad os nu indlæse tabellerne fra databasen. Start med at oprette forbindelse til databasen. For at gøre dette skal du vælge fanen Kilder og vælge Importer fra database som vist nedenfor:

Når du klikker på Importer fra database, bliver du bedt om skærmen som nedenfor, hvor du beder om detaljerne i din database og dens brugernavn og adgangskode til forbindelse (jeg bruger oracle-databasen og HR-brugeren).

Klik på Opret forbindelse for at oprette forbindelse til din database.

Trin 4: Som jeg ønsker at deltage i MEDARBEJDERE og AFDELING tabeller, vælger jeg dem og klikker på OK.
Kilderne vil være synlige på dit mapping designer-arbejdsområde som vist nedenfor.

Trin 5: Læg ligeledes måltabellen til kortlægningen.

Trin 6: Lad os nu forbinde kildekvalifikatoren og måltabellen. Højreklik på et tomt sted i arbejdsområdet, og vælg Autolink som vist nedenfor:

Nedenfor er kortlægningen linket af Autolink.

Fibonacci kode c ++

Trin 7: Da vi har brug for at linke begge tabeller til Source Qualifier, skal du vælge kolonnerne i Department-tabellen og slippe den i Source Qualifier som vist nedenfor:

Slip kolonneværdierne i Source Qualifier SQ_EMPLOYEES .

Nedenfor er den opdaterede Source Qualifier.

Trin 8: Dobbeltklik på Source Qualifier for at redigere transformationen.

Du får Edit Edit Transform pop op som vist nedenfor. Klik på fanen Egenskaber.

Trin 9: Under fanen Egenskaber skal du klikke på Værdi-feltet i UserDefined Join-rækken.

Du får følgende SQL Editor:

Trin 10: Gå ind MEDARBEJDERE.DEPARTMENT_ID = AFDELING.DEPARTMENT_ID som betingelse for at slutte sig til begge tabeller i SQL-feltet og klikke på OK.

Trin 11: Klik nu på SQL Query-rækken for at generere SQL til sammenføjning som vist nedenfor:

Du får følgende SQL Editor, klik på Generer SQL mulighed.

Følgende SQL genereres for den tilstand, vi havde angivet i det foregående trin. Klik på OK.

Trin 12: Klik på Anvend og OK.

Nedenfor er den afsluttede kortlægning.

Vi har afsluttet designet af, hvordan dataene skal overføres fra kilden til målet. Den faktiske overførsel af data skal dog stadig ske, og til det er vi nødt til at bruge PowerCenter Workflow Design. Udførelsen af ​​arbejdsgangen fører til overførsel af data fra kilden til målet. For at vide mere om workflow, se vores Informatica Tutorial: Workflow Blog

Trin 13: Let us lancerer nu Workflow Manager ved at klikke på W-ikonet som vist nedenfor:

Nedenfor er startsiden for workflowdesigneren.

Trin 14: Lad os nu oprette en ny arbejdsgang til vores kortlægning. Klik på fanen Workflow, og vælg Opret mulighed.

Du får nedenstående pop-up. Angiv navnet på din arbejdsgang, og klik på OK.

Trin 15 : Når en arbejdsgang er oprettet, får vi Start-ikonet i Workflow Manager-arbejdsområdet.

Lad os nu tilføje en ny session til arbejdsområdet som vist nedenfor ved at klikke på sessionikonet og klikke på arbejdsområdet:

Klik på arbejdsområdet for at placere sessionikonet.

Trin 16: Mens du tilføjer sessionen, skal du vælge den kortlægning, du havde oprettet og gemt i ovenstående trin. (Jeg havde gemt det som m-MEDARBEJDER).

Nedenfor er arbejdsområdet efter tilføjelse af sessionsikonet.

Trin 17 : Nu hvor du har oprettet en ny session, skal vi linke den til startopgaven. Vi kan gøre det ved at klikke på ikonet for linkopgave som vist nedenfor:

Klik på Start-ikonet først og derefter på Session-ikonet for at oprette et link.

Nedenfor er en tilsluttet arbejdsgang.

Trin 18: Nu hvor vi har afsluttet designet, lad os starte arbejdsgangen. Klik på fanen Workflow, og vælg Start Workflow-indstillingen.

Workflow manager starter Workflow Monitor.

Trin 19 : Når vi starter workflowet, starter Workflow Manager automatiskoggiver dig mulighed for at overvåge udførelsen af ​​din arbejdsgang. Nedenfor kan du se Workflow Monitor viser status for din workflow.

Trin 20: For at kontrollere status for workflowet skal du højreklikke på workflowet og vælge Get Run Properties som vist nedenfor:

Vælg fanen Kilde / målstatistik.

Nedenfor kan du se antallet af rækker, der er overført mellem kilden og målet efter transformation.

Du kan også kontrollere dit resultat ved at kontrollere din måltabel som vist nedenfor.

hvad er datastruktur i java

Jeg håber, at denne Informatica ETL-blog var nyttig til at opbygge din forståelse af begreberne ETL ved hjælp af Informatica og har skabt tilstrækkelig interesse til, at du kan lære mere om Informatica.

Hvis du fandt denne blog hjælpsom, kan du også tjekke vores Informatica Tutorial-blogserie , Informatica Tutorial: Forståelse af Informatica 'Inside Out' og Informatica Transformations: Hjertet og sjælen i Informatica PowerCenter . Hvis du leder efter oplysninger om Informatica-certificering, kan du tjekke vores blog Informatica-certificering: Alt hvad der er at vide .

Hvis du allerede har besluttet at tage Informatica som en karriere, vil jeg anbefale dig at se på vores kursus side. Informatica-certificeringstræningen på Edureka vil gøre dig til en ekspert inden for Informatica gennem live instruktørledede sessioner og praktisk træning i brug af virkelige livssager.