1. 对于回归分析,下列说法错误的是( )。
A. 在回归分析中,变量间的关系若是非确定关系,那么因变量不能由自变量唯一确定
B. 线性相关系数可以是正的,也可以是负的
C. 回归分析中,如果r^2 = 1,说明x与y之间完全相关
D. 样本相关系数r在区间(-1,1)
答案是:D. 样本相关系数r在区间(-1,1)
2. 回归分析中按照自变量和因变量的关系类型可以分为线性回归分析和()
A. 线性回归分析
B. 非线性回归分析
C. 一元回归分析
D. 多元回归分析
答案是:B. 非线性回归分析
3. 关于ROC曲线,下列说法中不正确的是()。
A. ROC曲线可表示灵敏度与特异度的关系
B. ROC曲线常被用来直观地确定诊断试验的最佳分界值
C. ROC曲线是以灵敏度为纵坐标,特异度为横坐标
D. 用ROC曲线确定的最佳分界值处,其灵敏度和特异度均较好
E. ROC曲线可以对同一种疾病的不同诊断方法的真实性进行比较
答案是:C. ROC曲线是以灵敏度为纵坐标,特异度为横坐标
4. 期望预测误差是指( )。
A. 真实值与预测值在某种损失函数下的平均值
B. 真实值与预测值之差
C.
真实
真实
值与预测值在某种损失函数下的值
真实
值与预测值在某种损失函数下的值
真实
值与预测值在某种损失函数下的值
真实值与预测值在某种损失函数下的值
D. 真实值与预测值之比
答案是:A. 真实值与预测值在某种损失函数下的平均值
5.
线性回归模型的
拟合优度的判定系数越大,说明( )
数据抽样后( )。
A. 数据量会增加
B. 数据量会减少
C. 数据的波动性增加
D.
数据波动性不变
答案是:
6. 关于精准率与召回率,以下说法正确的是( )
A. 精准率反映第I类错误,召回率反映第II类错误
B. 精准率就是真阳性率
C. ROC 曲线的画法是精准率为横轴,召回率为纵轴
D. 精准率越高越好,召回率越低越好
答案是:
7. Apriori算法的加速过程依赖于以下()策略
A. 抽样
B. 剪枝
C.
缓冲
D. 并行
答案是:
8. 发现关联规则的算法通常要经过以下三个步骤:连接数据,作数据准备;给定最小支持度和(),利用数据挖掘工具提供的算法发现关联规则;可视化显示、理解、评估关联规则
A. 最小兴趣度
B. 最小置信度
C. 最大支持度
D. 最小可信度
答案是:
9.
在关联分析中,下面哪个有可能是频繁
某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据
挖掘的哪类问题?
( )
某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?( )
A.
{
关联规则发现
B.
{
面包,牛奶,啤酒
}
聚类
C. 分类
D. 自然语言处理
答案是:
10. Apriori算法是一种常见的()。
A. 关联规则发现算法
B. 聚类分析算法
C. 分类算法
D. 序列模式发现算法
答案是:
11. 线性回归模型显著性检验的P值越小,说明( )
A. 对应的自变量对因变量影响越大
B. 对应的自变量对因变量影响越小
C. 变量之间的非线性关系明显
D. 变量之间的非线性关系不明显
答案是:
12. 规则I->j,“有可能”,等于所有包含I的购物篮中同时包含J的购物篮的比例,为( )。
A. 置信度
B. 可信度
C. 兴趣度
D. 支持度
答案是:
13. 复杂的模型相较于简单模型( )。
A. 训练误差更大
B. 偏差更大
C. 方差更大
D. 期望误差更小
答案是:
14. 以下哪个是回归模型评判的指标()
A. mean_squared_error(MSE)
B. 准确率
C. 召回率
D. 轮廓系数
答案是:
15.
典型相关分析的应用前提是()。
A. 要求任意两个变量之间为非线性关系
B. 要求两组变量之间为非线性关系
C. 要求任意两个变量之间为线性关系
D. 要求两组变量之间为线性关系
答案是:
16. ()可以分为简单相关分析与偏相关分析。
A. 聚类分析法
B. 相关分析法
C. t检验分析法
D. 因子分析法
答案是:
1. 评价分类问题的常用指标有以下哪些?()
A. F1度量
B. 召回率(recall)
C. 精确度(precision)
D. 准确率(accuracy)
答案是:
1. 在多元线性回归中,t检验和F检验缺一不可。()
A. 错误
B. 正确
答案是:
2. 回归方程总体线性显著性检验的原假设是模型中所有的回归参数同时为零。
A. 错误
B. 正确
答案是:
3. 回归分析法即将具有相关关系的两个变量之间的数量关系进行测定,通过建立一个数学表达式进行统计估计和预测的研究。()
A. 错误
B. 正确
答案是:
1. 简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作()
A. 层次聚类
B. 划分聚类
C. 非互斥聚类
D. 模糊聚类
答案是:
2. 可用作数据挖掘分析中的关联规则算法有()。
A. 决策树、对数回归、关联模式
B. K均值法、SOM神经网络
C. Apriori算法、FP-Tree算法
D. RBF神经网络、K均值法、决策树
答案是:
3. 下面关于线性判别与Bayes判别说法错误的是:( )
A. 距离判别没有考虑到每个分类的观察值不同时,每类出现的机会是不同的
B. 距离判别没有考虑到误判所造成的损失差异
C. Bayes判别依据每个被判入某个类别的后验概率进行归类。
D. 后验概率越小的类就是被判别的类
答案是:
4. 数据整合后( )。
A. 数据量会增加
B.
数据量会不变
数据量会不变国开形考答案open5.net或联系QQ/微信:18866732
C. 数据的波动性增加
D. 数据波动性减小
答案是:
5. ()是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。
A. 边界点
B. 质心
C. 离群点
D. 核心点
答案是:
6. 关联规则的评价指标是:( )。
A. 均方误差、均方根误差
B. Kappa统计、显著性检验
C. 支持度、置信度
D. 平均绝对误差、相对误差
答案是:
7. 关于抽样后的数据的大小说法正确的是( )。
A.
抽样比
例
越
低
,抽样数据越大
抽样比
例
越
低
,抽样数据越大
抽样比
例
越
低
,抽样数据越大
抽样比
例
越
低
抽样比例越低,抽样数据越大
B.
抽样样
本
量越小,抽样数据越大
例
越
低
,抽样数据越大
抽样比
例
越
低
,抽样数据越大
抽样比
例
越
低
,抽样数据越大
抽样比
例
越
低
抽样样本量越小,抽样数据越大
C.
例
越
低
,抽样数据越大
抽样比
例
越
低
,抽样数据越大
抽样比
例
越
低
,抽样数据越大
抽样比
例
越
低
抽样比例越高,抽样数据越大
D.
例
本
量越小,抽样数据越大
例
越
低
,抽样数据越大
抽样比
例
越
低
,抽样数据越大
抽样比
例
越
低
,抽样数据越大
抽样比
例
越
低
抽样样本量越大,抽样数据越小
答案是:
8. 通过聚集多个分类器的预测来提高分类准确率的技术称为 ()
A. 组合(ensemble)
B. 聚集(aggregate)
C. 合并(combination)
D. 投票(voting)
答案是:
9. 下面关于Pearson相关系数的理解不正确的是( )。
A. 是两个变量之间线性关系的度量指标
B.
反映
两变量之间的因
果
关系
反映
两变量之间的因
果
关
反映两个变量之间的因果关系
C.
两变量之间的因
果
关系
反映
两变量之间的因
果
关
不具有传递性
D.
是
由
数据
计算得
到的
果
关系
反映
两变量之间的因
果
关
是由数据计算得到的
答案是:
10. 关于随关于随机森林算法的说法错误的是:()
A.
随
机森林由
很
多
的决
策树
组
成
随
机森林由
很
多
的决
策树
组
成
随
机森林由
很
多
的决
策树
组
成
随
机森林由
很
多
的决
策树
组
成
随机森林由很多的决策树组成
B. 随机森林对输入的数据要进行行、列的采样
C.
机森林由
很
多
的决
策树
组
成
随
机森林由
很
多
的决
策树
组
成
随
机森林由
很
多
的决
策树
组
成
随
机森林由
很
多
的决
策树
组
成
随机森林的决策树越多,随机森林的预测精度越高
D. 随机森林能够处理很高维度(特征很多)的数据
答案是:
11. 决策树中不包含一下哪种结点 ( )
A. 根结点(root node)
B. 内部结点(internal node)
C. 外部结点(external node)
D. 叶结点(leaf node)
答案是:
12. 以下哪些算法是基于规则的分类器 ()
A. C4.5
B. KNN
C. Naive Bayes
D. ANN
答案是:
1. 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。
A. 错误
B. 正确
答案是:
2. 决策树方法通常用于关联规则挖掘。
A. 错误
B. 正确
答案是:
3. 在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。
A. 错误
B. 正确
答案是:
4. 分类规则的挖掘方法通常有:决策树法、贝叶斯法、人工神经网络法、粗糙集法和遗传算法。
A. 错误
B. 正确
答案是:
5. 聚类(clustering)是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。
A. 错误
B. 正确
答案是:
6. 聚类是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。
A. 错误
B. 正确
答案是:
7. 分类是预测数据对象的离散类别,预测是用于数据对象的连续取值。
A. 错误
B. 正确
答案是:
8. 时序预测回归预测一样,也是用已知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。
A. 错误
B. 正确
答案是:
1. 一监狱人脸识别准入系统用来识别待进入人员的身份,此系统一共包括识别4种不同的人员:狱警,小偷,送餐员,其他。下面哪种学习方法最适合此种应用需求:()
A. 二分类问题
B. 多分类问题
C. 层次聚类问题
D. k-中心点聚类问题
E. 回归问题
答案是:
2. 以下几种模型方法属于判别式模型(Discriminative Model)的有()1.混合高斯模型2.条件随机场模型3.区分度训练4.隐马尔科夫模型
A.
2,3
B.
3,4
C.
1,4
D.
1,2
答案是:
3.
为研究电商注册用户数量与 其销售收入之间的关系,收集数据得到下面的散点图。请问这样的散点图适用建立下面哪种回归模型( )。
A. 线性回归模型
B. 非线性回归模型
C. 对数线性模型
D. Logistic回归模型
答案是:
4. 我们想在大数据集上训练决策树, 为了使用较少时间, 我们可以()
A. 增加树的深度
B. 增加学习率 (learning rate)
C. 减少树的深度
D. 减少树的数量
答案是:
5. 如果我使用数据集的全部特征并且能够达到100%的准确率,但在测试集上仅能达到70%左右,这说明:()
A. 欠拟合
B. 模型很棒
C. 过拟合
答案是:
6. 训练SVM 的最小时间复杂度为 O(n2),那么一下哪种数据集不适合用 SVM?()
A. 大数据集
B. 小数据集
C. 中等大小数据集
D. 和数据集大小无关
答案是:
7. 逻辑回归与多元回归分析有哪些不同?(D)
A. 逻辑回归预测某事件发生的概率
B. 逻辑回归有较高的拟合效果
C. 逻辑回归回归系数的评估
D. 以上全选
答案是:
8. 数据离散化可以采用( )方式。
A. 等宽或者等频
B. 插补
C. 抽样
D. 查询
答案是:
9.
关于下面的决策树说法不正确的是( )
A. 此决策树的构建基于样本量为100的样本
B. 此样本是三分类