一、汉字点阵字库原理
汉字编码
1. 区位码
1980年,为了使每个汉字有一个全国统一的代码,我国颁布了汉字编码的国家标准:GB2312-80《信息交换用汉字编码字符集》基本集,这个字符集是我国中文信息处理技术的发展基础,也是国内所有汉字系统的统一标准。国标码是一个四位十六进制数,区位码是一个四位的十进制数,每个国标码或区位码都对应着一个唯一的汉字或符号,但因为十六进制数我们很少用到,所以大家常用的是区位码,它的前两位叫做区码,后两位叫做位码。
区位码编码规则如下
- 01-09区为特殊符号
- 10-15区为用户自定义符号区(未编码)
- 16-55区为一级汉字,按拼音排序
- 56-87区为二级汉字,按部首/笔画排序
- 88-94区为用户自定义汉字区(未编码)
参考:百度百科——区位码
2. 机内码
汉字机内码,又称“汉字ASCII码”,简称“内码”,指计算机内部存储,处理加工和传输汉字时所用的由0和1符号组成的代码。
汉字的机内码是指在计算机中表示一个汉字的编码。机内码与区位码稍有区别。如上所述,汉字区位码的区码和位码的取值均在 1~ 94 之间,如直接用区位码作为机内码,就会与基本 ASCII 码混淆。为了避免机内码与基本 ASCII 码的冲突,需要避开基本 ASCII 码中的控制码(00H~1FH),还需与基本 ASCII 码中的字符相区别。为了实现这两点,可以先在区码和位码分别加上 20H,在此基础上再加 80H(此处“H”表示前两位数字为十六进制数)。经过这些处理,用机内码表示一个汉字需要占两个字节,分别 称为高位字节和低位字节,这两位字节的机内码按如下规则表示: 高位字节 = 区码 + 20H + 80H(或区码 + A0H) 低位字节 = 位码 + 20H + 80H(或位码 + A0H)
由于汉字的区码与位码的取值范围的十六进制数均为 01H~ 5EH(即十进制的 01~ 94),所以汉字的高位字节与低位字节的取值范围则为 A1H~ FEH(即十进制的 161~254)。
二、点阵字库结构
点阵字体是把每一个字符都分成16×16或24×24个点,然后用每个点的虚实来表示字符的轮廓。点阵字体也叫位图字体,其中每个字形都以一组二维像素信息表示。
1. 点阵字库存储
在汉字的点阵字库中,每个字节的每个位都代表一个汉字的一个点,每个汉字都是由一个矩形的点阵组成,0 代表没有,1 代表有点,将 0 和1分别用不同颜色画出,就形成了一个汉字,常用的点阵矩阵有 12×12, 14×14, 16×16 三种字库。 字库根据字节所表示点的不同有分为横向矩阵和纵向矩阵,目前多数的字库都是横向矩阵的存储方式(用得最多的应该是早期 UCDOS 字库),纵向矩阵一 般是因为有某些液晶是采用纵向扫描显示法,为了提高显示速度,于是便把字库矩阵做成纵向,省得在显示时还要做矩阵转换。
下图是一个16×16的点阵 “汉” 字,可用于帮助理解点阵字库结构
2. 点阵字体特点
点阵字体优点是显示速度快,不像矢量字体需要计算;其最大的缺点是不能放大,一旦放大后就会发现文字边缘的锯齿。
3. 字体结构
点阵字体也叫位图字体,其中每个字形都以一组二维像素信息表示。这种文字显示方式于较早前的电脑系统(例如未有图形接口时的 DOS 操作系统)被普遍采用。由于位图的缘故,点阵字体很难进行缩放,特定的点阵字体只能清晰地显示在相应的字号下,否则文字只被强行放大而失真字形,产生成马赛克式的锯齿边缘。但对于字号 8-14px 的尺寸较小的汉字字体(即现今操作系统大多采用的默认字号)现今亦仍然被使用于荧幕显示上,能够提供更高的显示效果;不过现今该种点阵字体主要只作为“辅助”的部分,当使用者设定的字体尺寸并没有拥有位图像时,字体便会以向量图象方式显示;而当打印时,印有字体无论大小亦会使用向量字型打印。
三、汉字点阵的获取
1. 利用区位码获取汉字
汉字点阵字库是根据区位码的顺序进行存储的,因此,我们可以根据区位来 获取一个字库的点阵,它的计算公式如下:
- 点阵起始位置 = ((区码- 1)×94 + (位码 – 1)) × 汉字点阵字节数
获取点阵起始位置后,我们就可以从这个位置开始,读取出一个汉字的点阵。
2. 利用汉字机内码获取汉字
前面我们己经讲过,汉字的区位码和机内码的关系如下:
- 机内码高位字节 = 区码 + 20H + 80H(或区码 + A0H)
- 机内码低位字节 = 位码 + 20H + 80H(或位码 + A0H)
反过来说,我们也可以根据机内码来获得区位码:
- 区码 = 机内码高位字节 - A0H
- 位码 = 机内码低位字节 - A0H
将这个公式与获取汉字点阵的公式进行合并计就可以得到汉字的点阵位置。
四、利用C++语言在图上书写汉字
本次实验的环境是在ubantu18.04下,利用C++调用openCV库编程显示一张图片,并打开一个名为"logo.txt"的文本文件,按照文本文件去读取汉字24*24点阵字形字库(压缩包中的文件HZKf2424.hz)中对应字符的字形数据。
1. 创建文件与源码
- 打开ubuntu系统,在某个文件夹下输入命令
touch HZ.cpp 创建文件HZ.cpp - 随后输入命令
gedit HZ.cpp 编辑HZ.cpp - 在cpp文件中输入以下源码
#include<iostream>
#include<opencv/cv.h>
#include"opencv2/opencv.hpp"
#include<opencv/cxcore.h>
#include<opencv/highgui.h>
#include<math.h>
using namespace cv;
void PaintSChinese(Mat& image, int x_offset, int y_offset, unsigned long offset);
void PaintSAscii(Mat& image,int x_offset, int y_offset, unsigned long offset);
void putTextToImage(int x_offset,int y_offset,String imagePath ,char* txtPath);
int main(){
String image_path="1.jpg";
char* logo_path=(char*)"logo.txt";
putTextToImage(900,600,image_path,logo_path);
return 0;
}
void putTextToImage(int x_offset,int y_offset,String imagePath ,char* txtPath)
{
Mat img = imread(imagePath);
unsigned char qh, wh;
unsigned long offset;
char hexcode[30];
FILE* filetxt;
if ((filetxt = fopen(txtPath, "rb")) == NULL){
printf("Can't open txtfile,Please check the path!");
exit(0);
}
fseek(filetxt, 0, SEEK_SET);
fread(hexcode, 17, 1, filetxt);
int x = x_offset, y = y_offset;
for (int m = 0; m < 17; )
if (hexcode[m] == 0x23)
break;
else if (hexcode[m] > 0xffffffaf)
{
qh = hexcode[m] - 0xaf;
wh = hexcode[m+1] - 0xa0;
offset = (94 * (qh - 1) + (wh - 1)) * 72L;
PaintSChinese(img, x , y , offset);
m = m + 2;
x += 24;
}
else
{
wh = hexcode[m];
offset = wh * 16L;
PaintSAscii(img, x, y, offset);
m++;
x += 16;
}
cv::imshow("image", img);
cv::waitKey();
}
void PaintSChinese(Mat& image, int x_offset, int y_offset, unsigned long offset){
Point p;
p.x = x_offset;
p.y = y_offset;
FILE *HZK;
char buff[72];
if ((HZK = fopen("HZKf2424.hz", "rb")) == NULL){
printf("Can't openHZKf2424.hz,Please check the path!");
exit(0);
}
fseek(HZK, offset, SEEK_SET);
fread(buff, 72, 1, HZK);
bool mat[24][24];
int i, j, k;
for (i = 0; i<24; i++)
{
for (j = 0; j<3; j++)
for (k = 0; k<8; k++)
if (buff[i * 3 + j] & (0x80 >> k))
{
mat[j * 8 + k][i] = true;
}
else {
mat[j * 8 + k][i] = false;
}
}
for (i = 0; i < 24; i++)
{
p.x = x_offset;
for (j = 0; j < 24; j++)
{
if (mat[i][j])
circle(image, p, 1, Scalar(255, 0, 0), -1);
p.x++;
}
p.y++;
}
}
void PaintSAscii(Mat& image, int x_offset, int y_offset, unsigned long offset){
Point p;
p.x = x_offset;
p.y = y_offset;
char buff[16];
FILE *ASCII;
if ((ASCII = fopen("Asci0816.zf", "rb")) == NULL){
printf("Can't open Asci0816.zf,Please check the path!");
exit(0);
}
fseek(ASCII, offset, SEEK_SET);
fread(buff, 16, 1, ASCII);
int i, j;
Point p1 = p;
for (i = 0; i<16; i++)
{
p.x = x_offset;
for (j = 0; j < 8; j++)
{
p1 = p;
if (buff[i] & (0x80 >> j))
{
circle(image, p1, 0, Scalar(0, 0, 255), -1);
p1.x++;
circle(image, p1, 0, Scalar(0, 0, 255), -1);
p1.y++;
circle(image, p1, 0, Scalar(0, 0, 255), -1);
p1.x--;
circle(image, p1, 0, Scalar(0, 0, 255), -1);
}
p.x+=2;
}
p.y+=2;
}
}
2. 其他文件准备
2.1 创建文本文件
创建文本文件时,需要把文本文件保存为ANSI格式,最初在我的ubuntu中,将格式默认保存为了utf-8,导致中文产生了乱码。在ubuntu中改格式貌似比较麻烦,所以我这里推荐另外一个方法——在windows创建后,复制进入ubuntu
- 首先在windows创建一个文本文件logo,写入你需要的内容
- 将文件按照以下操作,另存为ANSI格式
再次打开logo.txt文件后,就可以发现文件已经是ANSI格式了,此时就可以复制进ubuntu中了,放到HZ.cpp同一文件夹下。
2.2 准备字体文件
根据代码,将Asci0816.zf、HZKF2424.hz放进文件夹
2.3 运行程序,演示效果
输入./HZ 运行程序
五、总结
这次实验利用通过C++,调用OpenCV库在图片上进行汉字的显示,我在这个实验最大的收获是帮助了我了解了什么是点阵汉字,以及点阵汉字的结构、如何通过编程调用点阵汉字。 实验的过程大体上是比较顺利的,但是其中也遇到了一些小困难,比如说txt文件的格式保存最初在ubuntu系统下,默认保存了为utf-8格式,这导致我后来的文字显示出现乱码,但是在发现了错误之后,文本格式改为了ANSI格式,就很快地解决了问题,姓名与学号都正确地显示了出来。
参考文献
opencv g++编译问题解决 点阵汉字的字模读取与显示:图片上显示汉字(Ubuntu+OpenCV+C++) 百度百科——区位码 百度百科——汉字机内码 百度百科——点阵字体
|