Hive er et datalagersystem til Hadoop, der letter let datasammendrag, ad-hoc-forespørgsler og analyse af store datasæt, der er gemt i Hadoop-kompatible filsystemer. Hive strukturer data i velkendte databasekoncepter såsom tabeller, rækker, kolonner og partitioner. Det understøtter primitive typer som heltal, flyder, dobbelt og strenge. Hive understøtter også Associative Arrays, Lists, Structs og Serialize og Deserialized API bruges til at flytte data ind og ud af tabeller.
Lad os se nærmere på Hive-datamodeller
Hive-datamodeller:
Hive-datamodellerne indeholder følgende komponenter:
hvad er hashmap i java
- Databaser
- Tabeller
- Skillevægge
- Spande eller klynger
Skillevægge:
Partition betyder opdeling af en tabel i en grovkornet del baseret på værdien af en partitionssøjle, såsom 'data'. Dette gør det hurtigere at foretage forespørgsler på udsnit af data
sql og pl sql tutorial
Så hvad er funktionen af partition? Partitionstasterne bestemmer, hvordan data lagres. Her definerer hver unikke værdi af Partition-nøglen en Partition af tabellen. Skillevægge er opkaldt efter datoer for nemheds skyld. Det svarer til 'Block Splitting' i HDFS.
Skovle:
Skovle giver ekstra struktur til de data, der kan bruges til effektive forespørgsler. En sammenføjning af to tabeller, der er anbragt i de samme kolonner, herunder sammenføjningskolonnen, kan implementeres som en Map-Side-sammenføjning. Bucketing efter brugt ID betyder, at vi hurtigt kan evaluere en brugerbaseret forespørgsel ved at køre den på en randomiseret prøve af det samlede antal brugere.
hvornår du skal bruge dette. i java
Har du et spørgsmål til os? Nævn dem i kommentarfeltet, så vender vi tilbage til dig.
Relaterede indlæg: