C语言实现哈夫曼编码

Sun, 14 Jun 2026 11:40:00 +0800

前言

哈夫曼编码（Huffman Coding）是一种经典的无损数据压缩算法，由 David Huffman 于 1952 年提出。它的核心思想非常朴素——高频字符用短编码，低频字符用长编码，从而达到整体压缩的效果。

这篇文章将基于我课程设计的实际代码，从数据结构选型开始，逐步讲解哈夫曼树的构建、编码的生成、文件的压缩与解压，以及这个算法固有的局限性。

在设计一个压缩系统之前，首先要回答一个问题：用什么来存储数据？

哈夫曼树的节点数是确定的——如果有 n 个不同的字符，那么树中总共有 2n - 1 个节点（因为每两个节点合并产生一个新节点）。既然总数确定，用数组来实现顺序存储就比链表更高效：随机访问是 O(1)，而链表每次选取最小权值节点时需要遍历。

频率数组 freq[256]：ASCII 字符共 256 个（如果只考虑单字节），用一个 int 类型的数组记录每个字符出现的次数。数组下标就是字符的 ASCII 码，值是它出现的次数。

int freq[256] = {0}; // 全局变量，所有源文件共享

哈夫曼树节点数组 HuffNode ht[]：用双亲表示法存储树结构。每个节点记录自己的权值、双亲节点下标、左右孩子下标。0 表示不存在。

typedef struct {
 int weight; // 权值
 int parent, lch, rch; // 双亲、左孩子、右孩子下标，0 表示无
} HuffNode;

编码表 HuffCode hc[]：为每个叶子节点（字符）存储对应的哈夫曼编码，编码用字符串形式存放。

typedef struct {
 char code[256]; // 存放编码字符串，如 "0110"
} HuffCode;

一切压缩的前提是知道文件中每个字符出现了多少次。这一步由 ReadFileAndCount() 完成：

Sun, 14 Jun 2026 10:15:27 +0800