内容纲要
概要描述
客户反馈,集群中有一些textfile表文件过大,占用大量hdfs存储空间,本文主要介绍如何通过bzip2压缩方式减少hdfs占用。
标准的textfile是无压缩格式,存储占用空间比较大,而Bzip2格式压缩率较高,可以尝试通过这种方式减少空间占用。
为何不考虑gzip压缩格式?
基于gzip格式下不支持切分的特性,会导致读表stage报错(比如 bucket size is too large)。而bzip2的压缩格式,支持切分,能够正常读取。
详细说明
这里有一张120m大小的people表,hdfs占用120m.
> dfs -du -s -h hdfs://nameservice1/tmp/people/
120.1 M 360.2 M hdfs://nameservice1/tmp/people
我们创建一张新表
--创建新表
DROP TABLE IF EXISTS people_text_bzip2_N;
CREATE TABLE people_text_bzip2_N(
name string DEFAULT NULL,
sex string DEFAULT NULL,
nation string DEFAULT NULL,
id string DEFAULT NULL,
borndate string DEFAULT NULL,
phonenumber string DEFAULT NULL,
email string DEFAULT NULL,
homeaddress string DEFAULT NULL
)STORED AS TEXTFILE;
将未压缩的表,通过开启压缩参数,将数据写入到新表
--设置bzip2压缩方式,插入数据
--开启hive最终输出数据压缩功能
set hive.exec.compress.output=true;
--开启mapreduce最终输出数据压缩
set mapreduce.output.fileoutputformat.compress=true;
--允许用户指定要使用的压缩编解码器的类名
set mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.BZip2Codec;
INSERT INTO people_text_bzip2_N SELECT * FROM test.people_external_text;
SHOW CREATE TABLE people_text_bzip2_N;
dfs -du -s -h hdfs://nameservice1/quark1/user/hive/warehouse/default.db/hive/people_text_bzip2_n
29.1 M 87.4 M hdfs://nameservice1/quark1/user/hive/warehouse/default.db/hive/people_text_bzip2_n
可以看到压缩过后,29.1m,压缩比近4:1
FAQ:
1. 可以直接写出到一个hdfs路径下,实现压缩数目的目的:
--设置bzip2压缩方式,插入数据
set hive.exec.compress.output=true;
set mapreduce.output.fileoutputformat.compress=true;
set mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.BZip2Codec;
INSERT OVERWRITE DIRECTORY '/tmp/people_bzip2' SELECT * FROM test.people_external_text;
dfs -du -s -h /tmp/people_bzip2
2. linux自带的bzip2压缩/解压缩命令
可以对原始文件进行压缩,再上传到hdfs,通过textfile来读取。
#压缩:
bzip2 -zkv all_people
#解压:
bzip2 -d all_people.bz2