《大数据导论》20春期末考核-00001
试卷总分:100 得分:70
一、单选题 (共 10 道试题,共 20 分)
1.大数据的特点不包含
A.数据体量大
B.价值密度高
C.处理速度快
D.数据不统一
2.PaaS是()的简称
A.软件即服务
B.平台即服务
C.基础设施即服务
D.硬件即服务
3.IaaS是()的简称
A.软件即服务
B.平台即服务
C.基础设施即服务
D.硬件即服务
4.购物篮问题是##的典型案例
A.数据变换
B.关联规则挖掘
C.数据分类
5.基础设施即服务的英文简称是
A.IaaS
B.PaaS
C.SaaS
6.数据清洗的方法不包括
A.缺失值处理
B.噪声数据清除
C.一致性检查
D.重复数据记录处理
7.以下哪项不是数据可视化工具的特性()
A.实时性
B.简单操作
C.更丰富的展现
D.仅需一种数据支持方式即可
8.下列哪个工具常用来开发移动友好地交互地图()
A.Leaflet
B.Visual.ly
C.BPizza Pie Charts
D.Gephi
9.SAN是一种()
A.存储设备
B.专为数据存储而设计构建的网络
C.光纤交换机
D.HBA
10.GFS中的文件切分成()的块进行存储
A.32MB
B.64MB
C.128MB
D.1G
二、多选题 (共 10 道试题,共 20 分)
11.数据预处理的过程主要是
A.数据清洗
B.数据集成
C.数据变换
D.数据规约
12.大数据时代预测人类移动行为的数据特点是
A.多样化
B.数据量大
C.维数高
D.变化快
13.下列属于传统统计学展示方法的是()
A.柱状图
B.饼状图
C.曲线图
D.网络图
14.百度大数据引擎主要包含三大组件()
A.开放云
B.数据工厂
C.百度大脑。
15.去除噪声使得数据光滑的技术主要有:
A.分箱
B.回归
C.离群点分析
16.大数据存储的特点与挑战有()
A.容量问题
B.延迟问题
C.安全问题
D.成本问题
17.大数据在医疗中的应用有()
A.流行性疾病预防
B.慢性病健康管理
C.临床决策支持
D.医疗器械研发
18.医疗大数据的来源主要包括()
A.制药企业/生命科学
B.临床医疗/实验室数据
C.费用报销/利用率
D.健康管理/社交网络
19.数据分析的类型根据数据分析深度可以分为()
A.描述性分析
B.预测性分析s
C.规则性分析
20.数据处理的两种方法是##,##
A.批处理
B.流处理
C.单个处理
D.交叉处理
三、判断题 (共 15 道试题,共 30 分)
21.所有关系型数据中的数据全部为结构化数据。半结构化数据就是介于完全结构化数据和完全无结构化的数据之间的数据。
22.关联分析是从有噪声的、模糊的、随机的海量数据中,挖掘出隐藏的、事先不知道、但是有潜在关联的信息或知识的过程。
23.数据的大量聚集,使得黑客一次成功的攻击能够获得更多的数据,无形中降低了黑客的进攻成本,增加了“收益率“。
24.数据隐私和安全是大数据发展面临的挑战
25.用户可以感知不同属性之间的相关性,过滤掉噪声和不相关的轨迹,用于进一步调查有趣的案例。分析人员可以交互式地逐步优化设置以改进结果。
26.在未来掘金社交数据的道路上,一方面要为用户提供更加精准便捷的良好服务,另一方面也要注重对用户隐私的保护。只有符合用户需求和用户安全的商业利益,才能成为可持续的商业利益。
27.频繁项集的子集是频繁项集,非频繁项集的超集是非频繁项集。
28.Twitter作为主流社交网络平台,不仅仅是一个海量公共数据集,它还是一个带有时间刻度的海量公共数据集——用于捕捉特定时间中(在一些情况下,也是在特定空间中)数百万人关于所有主题事项的想法。
29.Spark的亮点是充分利用内存承载工作集,而且能保证容错。
30.Apriori算法扫描数据库的次数等于最大频繁项集的项数。
31.高质量的数据是能够满足应用需求的数据。
32.离群点检测的任务是识别特征显著不同于其他数据的观测值
33.数据分析是大数据发展面临的挑战
34.百度地图春节人口迂徙大数据.在业界首次实现了全程、动态、即时直观地展现中国春节前后人口大迁徙的轨迹与特征。
35.用一个函数拟合数据来光滑数据称为回归。
四、简答题 (共 2 道试题,共 12 分)
36.简述云计算的体系架构分层及每层的含义。
37.简述数据可视化的流程和步骤。
五、名词解释 (共 3 道试题,共 18 分)
38.聚类分析
39.云存储
40.NoSQL
转载请注明:奥鹏作业之家 » 南开《大数据导论》20春期末考核【标准答案】