介绍
哈夫曼树-----即最优二叉树,带权路径长度(WPL)最小的二叉树,经常应用于数据压缩。 对于普通需要将字符串编码传输时,普通的编码需要将每个字符编程定长的二进制格式,但是每个字符在数据中通常出现的概率不同的,所以,需要使用不定长的二进制表示是编码的表示更短。
前缀编码:对于每个字符设计长度不等的编码,必须使任一字符的编码都不是另一个字符的前缀。这样才能让编码不出现二义性。 Huffman编码:是前缀编码,也是最短编码—>压缩率最高。且是无损压缩!!!
连续存储方式建立Huffman树
struct Node
{
double weight;
int parent,lson,rson;
};
void init(vector<double>& nums,Node* huff)
{
int n=nums.size();
for(int i=1;i<=n;i++){
huff[i].parent=0;
huff[i].lson=0;
huff[i].rson=0;
huff[i].weight=nums[i-1];
}
}
vector<int> select(Node* huff,int len)
{
int pA=0,pB=0;
double MinA=INT32_MAX,MinB=INT32_MAX;
for(int i=1;i<len;i++){
if(!huff[i].parent && huff[i].weight){
if(MinA>huff[i].weight){
pB=pA;pA=i;
MinB=MinA;MinA=huff[i].weight;
}
else if(MinB>huff[i].weight){
pB=i;MinB=huff[i].weight;
}
}
}
return {pA,pB};
}
Node* build(vector<double>& nums)
{
int n=nums.size();
Node* huffTr=new Node[2*n];
init(nums,huffTr);
for(int i=n+1;i<=2*n-1;i++){
vector<int> ans=select(huffTr,2*n);
int j=ans[0],k=ans[1];
huffTr[i].weight=huffTr[j].weight+huffTr[k].weight;
huffTr[i].parent=0;
huffTr[i].lson=j;
huffTr[i].rson=k;
huffTr[j].parent=i;
huffTr[k].parent=i;
}
return huffTr;
}
建树与编码的测试代码
int main()
{
vector<double> nums={0.4,0.3,0.15,0.05,0.04,0.03,0.03};
int n=nums.size();
auto huff=build(nums);
for(int i=1;i<=2*n-1;i++){
cout<<huff[i].weight<<" "<<huff[i].parent<<" "<<huff[i].lson<<" "<<huff[i].rson<<endl;
}
cout<<endl;
vector<string> res;
for(int i=1;i<=7;i++){
string a;
int cur=i;
while(huff[cur].parent!=0){
int par=huff[cur].parent;
if(huff[par].lson==cur){
a='0'+a;
}else{
a='1'+a;
}
cur=par;
}
res.emplace_back(a);
}
for(int i=1;i<=7;i++){
char c=i-1+'a';
cout<<c<<" :"<<res[i-1]<<endl;
}
return 0;
}
|