第八章 拓展与应用
8.1 Python与KNN分类
1.无监督学习需要标注大量的数据才能用以训练得到模型。
解:错误
2.欠拟合通常是因为模型太复杂,参数过多导致。
解:错误
3.KNN方法只支持二分类问题,不能解决多分类问题。
解:错误
4.KNN分类中K的取值会影响分类结果,并且该KNN对噪声数据敏感。
解:正确
5.sklearn实现了常见的机器学习方法,但它并不是Python内置的模块,可以通过pip install sklearn进行安装
解:正确
6.回归和分类问题都有可能发生过拟合
解:正确
7.回归和分类都是有监督学习问题
解:正确
8.机器学习只能从有标注的数据中进行学习
解:错误
9.训练模型时,常根据测试集的性能调节模型的参数
解:错误
10.训练模型时,开发集的性能有助于判断过拟合
解:正确
11.交叉验证可以在一定程度上减轻过拟合现象
解:正确
12.KNN只需要极小量的内存
解:错误
8.2 汉语分词实例
1.为了便于处理各个领域的文本,结巴分词提供了用户添加自定义词的功能。
解:正确
2.汉语分词的歧义还可以分成真歧义和伪歧义,所谓有多种切分可能,就是虽然有歧义,但是在真实的语境中中仅有一种可接受 。
解:正确
3.使用jieba分词工具,不仅可以获取分词结果,还能标注出每个词的词性
解:正确
4.jieba工具内部有一个词典,可用来辅助分词
解:正确
5.基于词典的分词方法常用字符串匹配的方式实现
解:正确
6.jieba工具可支持繁体字分词
解:正确
7.分词规范、歧义切分和未登陆词的识别是中文分词常遇到的难题
解:正确
8.中文分词的歧义识别和新词识别可以通过基于深度学习的方法彻底解决
解:错误
9.结巴分词无法添加自定义词典
解:错误
10.中文自动分词的一个障碍是歧义,歧义可以分为交集型歧义和____歧义
解:组合型
11.可以通过__命令,安装结巴分词。
解:pip install jieba
12.结巴分词提供了三种切分模式,分别是精确切分、全切分和__切分
解:搜索引擎
8.3 骆驼祥子用字分析
1.停用词是指一些在文档中广泛存在的,对文档的内容和意义直接关系不大词,在一些分析文本的应用中,通常将这种词去掉
解:正确
2.中文和英文中都存在停用词
解:正确
3.NLTK工具可以方便地统计出文本中的词频信息
解:正确
4.NLTK可以用于句法分析
解:正确
5.词云可以通过可视化界面展示文字的频度信息
解:正确
6.NLTK可以实现单词搜索、相似词搜索、相似关键词识别、词汇分布图、生成文本任务
解:正确
7.在所有的NLP任务中,停用词都需要过滤掉
解:错误
8.4 Numpy简介
1.相比于列表,使用ndarray进行一些数组计算的运行效率更高
解:正确
2.在ndarray中,各元素的数据类型可以不同
解:错误
3.numpy中只有一种整数类型
解:错误
4.ndarray支持负数索引进行访问数据
解:正确
5.由于numpy具有强大的数据计算功能,很多机器学习库都是基于numpy建立的
解:正确
6.numpy仅支持生成或处理三维及三维以下的数组
解:错误
7.numpy数组无法和list列表直接计算
解:正确
8.5 Pandas简介
1.Pandas中的Series与Numpy中的ndarray完全相同
解:错误
2.Series可以是一维的,也可以是多维的
解:错误
3.Series既可以通过下标访问数据,也可以通过索引访问数据
解:正确
4.Series中的每个元素,类型必须相同
解:错误
5.DataFrame是二维数据类型
解:正确
6.Series能保存不同类型的数据,包括字符串和数字等
解:正确
7.Panel4D是像Panel一样的4维数据容器
解:正确
8.6 Python与数据可视化
1.Matplotlib可制作直方图、折线图等多种数据信息统计图
解:正确
2.相比于表格数据,图形数据有时可更直观地体现数据分布情况
解:正确
3.Matplotlib支持在笛卡尔坐标系、极坐标系等多种坐标系中画图
解:正确
4.Matplotlib可根据需要绘制不同颜色的图
解:正确
5.Matplotlib既可以绘制2D图像,也可以绘制3D图像
解:正确
6.Matplotlib是独立的模块儿,无法和numpy搭配使用
解:错误
7.安装完后,使用python的什么命令可以检查Matplotlib模块是否安好
解:python -m pip list
|