Hadoop er en forstyrrende Java-baseret programmeringsramme, der understøtter behandling af store datasæt i et distribueret computermiljø, mens R er et programmeringssprog og softwaremiljø til statistisk computing og grafik. R-sproget bruges meget blandt statistikere og databearbejdere til udvikling af statistisk software og udførelse af dataanalyse. Inden for interaktiv dataanalyse, statistik til generelle formål og forudsigelig modellering har R vundet massiv popularitet på grund af dets klassificerings-, klyngedannelses- og rangfunktioner.
Hadoop og R supplerer hinanden ret godt med hensyn til visualisering og analyse af big data.
Brug af R og Hadoop
Der er fire forskellige måder at bruge Hadoop og R sammen på:
1. RHadoop
RHadoop er en samling af tre R-pakker: rmr, rhdfs og rhbase. rmr-pakke giver Hadoop MapReduce-funktionalitet i R, rhdfs giver HDFS-filhåndtering i R og rhbase giver HBase-databasestyring indenfra R. Hver af disse primære pakker kan bruges til at analysere og administrere Hadoop-rammedata bedre.
2. ORK
ORCH står for Oracle R Connector til Hadoop. Det er en samling af R-pakker, der giver de relevante grænseflader til at arbejde med Hive-tabeller, Apache Hadoop-beregningsinfrastruktur, det lokale R-miljø og Oracle-databasetabeller. Derudover leverer ORCH også forudsigende analytiske teknikker, der kan anvendes på data i HDFS-filer.
3. RIP
RHIPE er en R-pakke, der giver en API til brug af Hadoop. RHIPE står for R og Hadoop Integrated Programming Environment og er i det væsentlige RHadoop med en anden API.
Fire. Hadoop-streaming
Hadoop Streaming er et hjælpeprogram, der giver brugerne mulighed for at oprette og køre job med alle eksekverbare filer som kortlæggeren og / eller reduceringsenheden. Ved hjælp af streaming-systemet kan man udvikle fungerende Hadoop-job med lige nok viden om Java til at skrive to shell-scripts, der fungerer sammen.
Kombinationen af R og Hadoop fremstår som et must-have værktøjssæt til folk, der arbejder med statistik og store datasæt. Visse Hadoop-entusiaster har dog rejst et rødt flag, mens de beskæftiger sig med ekstremt store Big Data-fragmenter. De hævder, at fordelen ved R ikke er dens syntaks, men det udtømmende bibliotek af primitiver til visualisering og statistik. Disse biblioteker er grundlæggende ikke-distribuerede, hvilket gør datahentning til en tidskrævende affære. Dette er en iboende fejl med R, og hvis du vælger at overse den, kan R og Hadoop i tandem stadig gøre underværker.
Lad os nu se en demo:
scanner klasse i java eksempler
Har du et spørgsmål til os? Nævn dem i kommentarfeltet, så vender vi tilbage til dig.
Relaterede indlæg: