Wanneer ons gaan vir afskorting en emmer in die korf?

INHOUDSOPGAWE:

Wanneer ons gaan vir afskorting en emmer in die korf?
Wanneer ons gaan vir afskorting en emmer in die korf?

Video: Wanneer ons gaan vir afskorting en emmer in die korf?

Video: Wanneer ons gaan vir afskorting en emmer in die korf?
Video: Ricus Nel - Boerepompie ft. Snotkop 2024, Maart
Anonim

Hive partisionering en bucketing is, wanneer ons partisionering doen, skep ons 'n partisie vir elke unieke waarde van die kolom Maar daar kan situasies wees waar ons baie klein moet skep afskortings. Maar as jy bucketing gebruik, kan jy dit beperk tot 'n getal wat jy kies en jou data in daardie emmers ontbind.

Wanneer ons partisionering en bucketing in Hive gebruik?

partisionering help met die uitskakeling van data, indien dit in WHERE-klousule gebruik word, terwyl bucketing help om data in elke partisie in veelvuldige lêers te organiseer, sodat dieselfde stel data altyd in dieselfde emmer geskryf. Help baie om kolomme aan te sluit.

Wanneer moet ek bucketing Hive gebruik?

Bucketing in korf is nuttig wanneer ons met groot datastelle hanteer wat dalk in groepe geskei moet word vir meer doeltreffende bestuur en om aansluitingsnavrae met ander groot datastelle te kan uitvoer. Die primêre gebruiksgeval is om twee groot datastelle saam te voeg wat hulpbronbeperkings soos geheuelimiete behels.

Kan ons partisionering en bucketing op dieselfde kolom doen?

Om af te sluit, jy kan partisieer en bucketing gebruik vir die stoor van resultate van dieselfde CTAS-navraag Hierdie tegnieke vir die skryf van data sluit mekaar nie uit nie. Tipies verskil die kolomme wat jy vir bucketing gebruik van dié wat jy vir partisionering gebruik. … Jy kan sy data in meer as een emmer in Amazon S3 stoor.

Kan ons bucketing gebruik sonder om in Hive te partisioneer?

Bucketing kan ook gedoen word, selfs sonder om op Hive-tafels te partisioneer. Emmertafels laat baie doeltreffender monsterneming toe as die nie-emmertafels. Laat navrae oor 'n gedeelte van data toe vir toets- en ontfoutingsdoeleindes wanneer die oorspronklike datastelle baie groot is.

Aanbeveel: