Betydningen af ​​datalogi med Cassandra



Cassandra er en open source-database til håndtering af store mængder data på tværs af mange servere, så efterspørgslen fra dataforskere med cassandra knowlege er stor.

'

Den hurtige udvidelse af digitale data gennem computere, mobil, video, sociale medier, digitale sensorer osv. Kombineret med store gennembrud inden for billigere processorkraft, open source-databaseapplikationer og bredere båndbredde har skabt massiv interesse i hele erhvervslivet i nye felt inden for Big Data-videnskab og analyse.





Big data i store ustrukturerede mængder er for enorme til at kunne administreres og analyseres ved hjælp af traditionelle metoder. Den store mængde og hastighed af nutidens data gør det muligt at fange, filtrere, lagre og analysere en reel udfordring. Nye produkter udvikles regelmæssigt for at håndtere dette, hvilket kræver nye færdigheder og ekspertise. Der er voksende behov for enkeltpersoner, der kan integrere ny infrastruktur, platforme og processer i organisationen såvel som dem, der kan opbygge nye analyser og algoritmer, der er i stand til at skabe enorm intelligens med stor forretningsværdi. For mere information, læs vores blogindlæg på

Relevans af datalogi i forskellige brancher:

Data Science & Analytics har anvendelse i alle brancher:



  • e-handel - Tilpasnings- og anbefalingsmotorer, der øger salget.
  • Annoncering - Højt målrettet, realtidslevering af annoncer til forbrugere.
  • Medier og underholdning - Tilpasset indholdsudvikling, der maksimerer brugerengagement.
  • Sociale medier - Øget 'klæbrighed' på webstedet, brugervækst, evne til at spore hurtige tendenser baseret på forbrugernes følelser.
  • Finansielle tjenesteydelser –Optimeret udlånspraksis, der minimerer risiko og svig.
  • Pharma / Bioinformatics - Forbedret stofopdagelse, mere effektive behandlinger af truende sygdomme, forbedringer af genteknologi.
  • Sundhedspleje - Bedre score for medicinske patienter for sundhedsrisici såvel som forventning og tidlig forebyggelse af sygdomme.
  • Kraft / energi - Smart grid intelligens, brugseffektivitet, energibesparelser og reduktion af nedetid.
  • Informationssikkerhed - Meget forbedret afsløring og overvågning af tyveri af værdifuld virksomhedsinformation og aktiver.

Nøglefærdigheder hos datavidenskabspersoner:

Datavidenskabsdomæne kræver fagfolk, der:

  • Forstår dataanalyse og beslutningsvidenskab
  • Er velbevandret i IT
  • Har stærk forretningsindsigt
  • Besidder evnen til at kommunikere effektivt med beslutningstagere

Læs mere: Grundlæggende færdigheder, der kræves for at være dataforsker.

Almindelige teknologier tilknyttet praksis inden for datavidenskab:

Teknologier tilknyttet datalogi



  • Databaser

Oracle, SQL Server, Teradata

Cassandra, Hadoop, MapReduce, HBase

Aster, Greenplum, Netezza

  • Sprog

Ajax, C ++, CSS, HTML5, Java, JavaScript, Perl, Python, Scala

Hive, Pig, Lucene, Mahout, Solr

  • Statistik & prognoser

Angoss, MATLAB, R, SAS, SPSS

ARCH, GARCH, SVAR, VAR, VEC, GAUSS

  • Datavisualisering

QlikView, Spotfire, Tableau, yWorks, R

  • BI & Rapportering

BusinessObjects, Cognos, MicroStrategy

Hvad er Cassandra?

  • Apache Cassandra er et open source-distribueret databasestyringssystem designet til at håndtere store mængder data på tværs af mange handelsservere.
  • Cassandra giver høj tilgængelighed uden et enkelt fejlpunkt.
  • Cassandra tilbyder robust understøttelse af klynger, der spænder over flere datacentre, med asynkron masterfri replikering, der muliggør lav latenstidsoperationer for alle klienter.

For mere information, læs vores blogindlæg på .

Hvordan bruger Data Science Cassandra?

Cassandra er & genert & genert en distribueret database til tjenester med lav latenstid, høj kapacitet, der håndterer arbejdsbelastninger i realtid bestående af hundredvis af opdateringer pr. Sekund og titusinder af læsninger pr. Sekund.

Cassandra Brugssag - PROS:

PROS er et Big Data-softwarefirma med receptpligtig analyse i deres software, der letter deres kunder til at analysere deres data og få indsigt og vejledning til at optimere deres prisfastsættelse, salg og indtægtsstyring.

De har en realtidstjeneste, der beregner flyselskabstilgængelighed, dynamisk under hensyntagen til indtægtskontroldata og lagerniveauer, der kan ændre sig mange hundrede gange i sekundet.

Denne service er forespurgt flere tusinder af gange i sekundet, hvilket oversættes til titusinder af dataforskning. Deres baglagerlag til denne service er Cassandra.

For deres realtidsløsning realiserede PROS et behov for:

  • En distribueret cache, der er meget tilgængelig.
  • Let skalerbar.
  • Med en masterfri arkitektur.
  • Med næsten realtids datareplikering, selv på tværs af datacentre.
  • Det kan håndtere læsning og skrivning i realtid.

PROS evaluerede Cassandra mod Oracle Berkeley DB, Oracle Coherence, Terracotta, Voldemort og Redis. Apache Cassandra toppede ganske let listen.

PROS og Cassandra

  • PROS bruger Cassandra som en distribueret database til tjenester med lav latenstid og høj kapacitet, der håndterer arbejdsbelastninger i realtid bestående af hundredvis af opdateringer pr. Sekund og titusinder af læsninger pr. Sekund.
  • For eksempel har de en realtidstjeneste, der beregner flyselskabets tilgængelighed dynamisk under hensyntagen til indtægtskontroldata og lagerniveauer, der kan ændre sig mange hundrede gange i sekundet. Denne service er forespurgt flere tusinder gange i sekundet, hvilket oversættes til titusinder af dataopslag. Deres baglagerlag til denne service er Cassandra. Nogle af deres SaaS-tilbud bruger Cassandra som backend-butik til at håndtere en kombination af realtids- og Hadoop-baserede batch-arbejdsbelastninger.
  • Når vi taler om Hadoop og Cassandra, tager de dataene ud af Cassandra og lægger dem i Hadoop og kører batch og analyse på det, og så går det tilbage i Cassandra. Dette opnås gennem Cassandras Hadoop-integration.
  • Hadoop-job trækker data ud af Cassandra, anvender jobspecifikke transformationer eller analyser og skubber data tilbage i Cassandra. De bruger ikke Datastax (officiel Cassandra Maintainer) Enterprise-udgave til denne integration, bare open source Hadoop-installationen med Cassandra.

Datamodellering med Cassandra:

Når man ønsker at erstatte en nøgleværdilager med noget mere i stand til realtidsreplikering og datadistribution, viser forskning om Dynamo, CAP-sætningen og den endelige konsistensmodel, at Cassandra passer godt til denne model. Når man lærer mere om datamodelleringsfunktioner, bevæger vi os gradvist mod nedbrydning af data.

Hvis man kommer fra en relationsdatabasebaggrund med stærk ACID-semantik, skal man tage sig tid til at forstå den eventuelle konsistensmodel.

Forstå Cassandras arkitektur meget godt, og hvad den gør under emhætten. Med Cassandra 2.0 får du lette transaktioner og udløsere, men de er ikke de samme som de traditionelle databasetransaktioner, man måske er bekendt med. For eksempel er der ingen udenlandske nøglebegrænsninger tilgængelige - det skal håndteres af ens egen applikation. Det er nødvendigt at forstå en brugssag og dataadgangsmønstre, før man modellerer data med Cassandra, og at læse al tilgængelig dokumentation.

sql serverintegrationstjenester ssis trin for trin tutorial

Konklusion:

Apache Cassandra udvikler sig hurtigt, og vi lærer og forstår dens evner - især på datamodelleringssiden. Vi ser det som en distribueret NoSQL-database efter eget valg til vores Big Data-tjenester og -løsninger.

Edureka giver en omfattende for dem, der ønsker at blive dataforsker. Kurset dækker en række Hadoop-, R- og maskinindlæringsteknikker, der omfatter den komplette datalogistudie. Edureka leverer også det hjælper dig med at mestre NoSQL-databaser. Dette kursus er designet til at give viden og færdigheder til at blive en succesrig Cassandra-ekspert.