1、为什么学习中文信息处理
(1)汉语成为一种新的强势语言而被世人瞩目,汉语里解所涉及的科学问题让国际计算语言学界无法回避。
(2)汉语使用者拥有的巨大市场令国际企业界不敢轻视。
(3)中文信息处理所面临的困难时其他任何--种自然语言处理都会遇到的共性问题,但也有其个性问题,因此中文信息处理更具挑战性。
2、什么是“中文信息处理 中文信息处理是用计算机对汉语的音、形、义等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。 中文 广义:中国境内使用的文字和语言,包括各种少数民族文字及语言 狭义:汉字,汉语文 3、中文信息处理的学科地位 4、中文信息处理研究什么? 5、我们将学到什么?
了解中文信息处理的概念、发展历史、研究内容。
了解中文信息处理的基础知识。
掌握操作系统实现中文信息处理的基本原理。
熟悉计算机汉字编码字符集标准。
熟悉常用的汉字输入法编码方法。
掌握Linux操作系统下中文输入法的安装和使用方法。
掌握Linux操作系统下输入法开发的基本方法。
熟悉汉字字形存储与压缩技术。
熟悉汉语分词、信息检索等自然语言理解的基础知识。
6、信息 ●控制论创始人(维纳Norbert Wiener) 信息既不是物质也不是能量,是人类 在适应外部世界时以及在感知外部世界时而作出协调时与外部环境交换内容 的总和。 ●信息论奠基者(香农Clause Shannon ) 信息就是能够用来消除不确定性 的东西,是一个事件发生概率的对数的负值 ●Robert M. Losee 信息可以被定义为一个处理过程的特征,这些特征就是输入和处理过程 中产生的信息。 7、信息处理 信息处理 就是对信息的接收、存储、转化、传送和发布 (1)信息的接收 :包括信息的感知、信息的测量、信息的识别、信息的获取以及信息的输入等; (2)信息的存储 :把接收到的信息或转换、传送或发布中间的信息通过存储设备进行缓冲、保存、备份等处理; (3)信息的转化 :把信息根据人们的特定需要进行分类、计算、分析、检索、管理和综合等处理; (4)信息的传送 :把信息通过计算机内部的指令或者计算机之间构成的网络从一地传送到另外一地; (5)信息的发布 :把信息通过各种表示形式展示出来。 8、文字信息的特点 (1)文字信息处理的实质:建立传统的真实世界的文字(古今中外)与计算机世界(虛拟世界)的联系,即,文字信息数字化 用一个固定的数码代表一个字母或文字,统称为代码(code) 英文以26个字 母作为文字信息处理的单位,要对26个字母逐个地确定代替它的数码一汉字以“字”作为语义的最小单元,也是文字信息处理的基本单位,因此要对每个“汉字”唯一地确定代表它的数码 (2)文字数字化必须采用大家通用 的编码方式,否则,计算机里的文字信息就不能交流和共享 (3)这种被大家广泛接受和采用的文字编码方法也就是文字编码标准 9、汉字的特点 10、汉语的词汇 (1)能独立运用的特有的音、形、义的最小语法单位 (2)是语言中所有的词和短语的总和,绝大多数汉字可以独立构词。“我”一 英语中的单- -字母构成的词汇, “I”。现代汉语大多数词语都是由两个以上的汉字构成。 (3)汉字的高效率体现在几百个基本象形字可以合成表示天上地下的各种事物的上万汉字几千个常用字又可以轻松组合出数十万词语 11、汉语词汇的特点 汉语句子 ●句子: 能够表达一个相对完整意思的并且有一个特定语调的语言单位 ●汉语句子是 “以意为本”的,生成的第一要素是语义 无论是否是主谓结构的,只要完成表意功能,就是一个句子 字频 字频:就是一个汉字的相对使用频率,也就是一个汉字使用次数与所统计的材料的总字数的比例 如果在一篇2000字的文章中,“的” 使用了78次,则“的”的频率就是78/2000* 100%=3.9% 词频 ●词频:就是一个词的相对使用频率 ●对于词典的编撰、中文信息处理有着重要的作用. (1)新词的出现: ●[不明觉厉]虽然不明白你在说什么,但是听起来感觉很厉害的样子。表面词义用于表达菜鸟对专业型技术型高手的崇拜,引申词义用于吐槽对方过于深奥不知所云,或作为伪装自己深藏不露的托辞。 (2)信息检索 输入设备 输出设备 存储设备 输出软件 激光照排/字处理软件技术 激光照排,即电子排版系统 (1)1946年, 美国人发明了手动光学照相排版机 (2)20世纪60年代,德国人制造了阴极射线管式照排1975年,英国人开始了激光照排的研究 (3)1974年8月, 国家设立了748工程 字处理 软件 在个人电脑/桌面系统上进行文字编辑、排版处理。 典型的产品 ●Word(微软, 1995) ●WordPerfect(Satellite Software International, 1980)●OpenOffice/LibreOffce(StarDivision/Sun, 1998) 第一个中文字处理软件产品 金山WPS(1993年) 12、汉字键盘输入技术 汉字键盘输入技术是一种通过键盘使汉字进入计算机的技术 ●汉字编码 把汉字用“0”- 9”*十个数字按照次序进行编码 四角码(字形码) ●用“0”–”9”十个数字键对汉字的四个角的形状进行编码 机内码 ●用2字节、3字节、4字节来表示一个汉字的机器内部码 国际标准化组织(ISO)、Unicode联 盟以及IEEE下属的专门委员会研究制订的字符编码标准 输入软件:输入法 存储 各种信息在计算机中以“文件 ”的形式存在 文字在文件中以“内码 ”表示 “内码”本质上就是数字 : 0~XXXXXXX 13、汉字输出技术 把存储在计算机内的汉字字形信息转换成符合显现(显示或打印)需要的形式,并送输出设备输出 ●汉字字库 点阵字库. ●GB5199.1-2001和GB5007-2001是典型的16点阵和24点阵字库矢量字库 ●采用矢量的方法,对每个汉字信息用一组矢量进行描述 曲线字库 ●采用二次曲线和三次曲线逼近字型轮廓对汉字字型进行描述- TrueType字库 OpenType字库 PostScript字库 Graphite字库 输出软件:文字是怎么输出的 ? 14、汉字字形识别技术 (1)利用计算机技术对汉字静态图形和动态汉字书写信息进行特征提取,与预先存储在计算机内的标准汉字特征信息进行匹配,并选择符合特征的汉字作为所需识别的汉字内码
联机识别
脱机识别
●汉字字形识别过程
汉字识别前处理
汉字分类和判别
汉字识别后处理.
15、汉语语音识别技术 ●自然语言处理的一个重要组成部分,包括语音的识别、处理等 ●语音识别的过程
语音识别单元的选取
特征参数提取技术
模式匹配及模型训练技术
16、汉语语音合成技术 (1)让计算机将文字“读”出来 ●将文本信息用计算机合成为人类的语音数据,并播放出来的技术,即文本转语音TTS(text to speech)技术
“读”的声音清晰、可懂、自然、具有表现力
涉及声学、语言学、数字信号处理、中文信息处理等多个学科技术
(2)语音合成(Speech Synthesis) 根据韵律建模的结果,从原始语音库中取出相应的语音基元,利用特定的语音合成技术对语音基元进行韵律特性的调整和修改,最终合成出符合要求的语音。 可以主要由硬件实现,也可以主要由软件实现。 (3)发展方向
提高合成语音的自然度
丰富合成语音的表现力
降低语音合成技术的复杂度
多语种文语合成
|