23春学期(高起本:1709-2103、专升本/高起专:1903-2103)《大数据导论》在线作业-00002
试卷总分:100 得分:100
一、单选题 (共 15 道试题,共 30 分)
1.DAS代表的意思是()
A.两个异步存储
B.数据归档软件
C.连接一个可选的存储
D.直连存储
2.下列不属于Google云计算平台技术架构的是()
A.并行数据处理MapReduce
B.分布式锁Chubby
C.结构化数据表BigTable
D.弹性云计算EC2
3.大数据的特点不包含
A.数据体量大
B.价值密度高
C.处理速度快
D.数据不统一
4.购物篮问题是##的典型案例
A.数据变换
B.关联规则挖掘
C.数据分类
5.GFS中的文件切分成()的块进行存储
A.32MB
B.64MB
C.128MB
D.1G
6.数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段( )。
A.运营式系统阶段
B.用户原创内容阶段
C.感知式系统阶段
7.下列不属于商业大数据类型的是
A.传统企业数据
B.机器和传感器数据
C.社交数据
D.电子商务数据
8.数据仓库是随着时间变化的,下列不正确的是()
A.数据仓库随时间变化不断增加新内容
B.捕捉到的新数据会覆盖原来的快照
C.数据仓库随事件变化不断删去旧的数据内容
D.数据仓库中包含大量的综合数据,这些综合数据会随时间的变化不断进行重新综合
9.用于描述数据分散情况的是()
A.分布图
B.箱式图
C.饼图
D.折线图
10.哪个选项不属于大数据4V特点?
A.Volume
B.Valid
C.Variety
D.Value
11.MapReduce中的Map和Reduce函数使用()进行输入输出
A.key/value对
B.随机数值
C.其他计算结果
12.数据产生方式变革中数据产生方式是被动的主要是来自哪个阶段( )。
A.运营式系统阶段
B.用户原创内容阶段
C.感知式系统阶段
13.下列哪个工具常用来开发移动友好地交互地图()
A.Leaflet
B.Visual.ly
C.BPizza Pie Charts
D.Gephi
14.下列哪个R语言扩展包可以创建带有点和边的网络图()
A.ggplot2
B.network
C.ggmaps
D.animation
15.SAN是一种()
A.存储设备
B.专为数据存储而设计构建的网络
C.光纤交换机
D.HBA
二、多选题 (共 15 道试题,共 30 分)
16.开放云()
A.价值呈现:大数据应用价值呈现和创新不足
B.应用建设:周期长、门槛高、多冗余、体验差
C.组织流程:应用跨部门,缺乏流程贯串和使能业务生产
D.生态建设:无法有效构建和融入新的数字生态圈
17.互连网上出现的海量信息可以划分为三种,分别为( )
A.结构化信息
B.非结构化信息奥鹏作业答案请进open5.net或请联系QQ/微信:18866732
C.半结构化信息
D.特殊化信息
18.下列正确的是()
A.D3是数据驱动文件的缩写,是最流行的可视化库之一,它被很多其他的表格插件所使用
B.D3也可以通过一些自定义模块来根据需求增添需要的(非DOM)特性,并在WebWorker上运行
C.D3采用的是Selectors API的第一级标准
D.基础R已经包含支撑包括协同图(Coplot)、拼接图(Mosaic Plot)和双标图等多类图形的功能。
19.大数据在教育中的应用
A.网上公开课
B.慕课
C.智慧校园
D.翻转课堂
20.大数据时代预测人类移动行为的数据来源有
A.志愿者定位数据
B.装有导航设备的出租车轨迹数据
C.手机终端定位于通讯记录
D.社会网络签到数据
21.下列属于传统统计学展示方法的是()
A.柱状图
B.饼状图
C.曲线图
D.网络图
22.##和##,它们把原数据变换或投影到较小的空间。
A.小波变换
B.中心化变换
C.主成分分析
D.对数变换
23.大数据四大特征包括( )
A.数据量大
B.数据类型繁多
C.数据价值密度相对较低
D.处理速度快,时效性要求高
24.按照数据量的大小,可将数据分析分为()
A.内存级数据分析
B.Bl级数据分析
C.海量级数据分析
D.巨量级数据分析
25.主流分布式计算平台有()
A.google
B.IBM
C.baidu
D.Amazon
26.KNIME(Konstanz Information Miner)是一个对用户友好的、智能、开源的平台。该平台包括了##、##、##、##。
A.数据集成
B.数据处理
C.数据分析
D.数据挖掘
27.离群点检测的应用包括()等。
A.欺诈检测
B.入侵检测
C.故障检测
D.疾病的不寻常模式
28.数据变换的常用方法有##,##,##,##
A.中心化变换
B.极差规格化变换
C.标准化变换
D.对数变换
29.大数据时代预测人类移动行为的数据特点是
A.多样化
B.数据量大
C.维数高
D.变化快
30.大数据带来的挑战有哪些( )。
A.会导致数据盲点
B.危及个人隐私
C.造成群体歧视
D.产生庞大能耗
三、判断题 (共 20 道试题,共 40 分)
31.箱式图用于描述数据的分散情况,主要数据节点包括:均值、中值、等中心值的度 量,标准偏差、方差等可变性度量。
32.交通数据涉及到交通车辆或者道路两旁安装的传感器生成和手机的数据集。
33.关联分析是从有噪声的、模糊的、随机的海量数据中,挖掘出隐藏的、事先不知道、但是有潜在关联的信息或知识的过程。
34.NAS代表的意思是网络附加存储
35.数据仓库是一个面向主题的(subject oriented)、集成的(integrate),相对稳定的(non-volatile)、反映历史变化(time variant)的数据集合,以用于支持管理决策过程。
36.Spark的亮点是充分利用内存承载工作集,而且能保证容错。
37.宁家骏委员指出,大数据要与“互联网+”医疗健康紧密结合起来,国家明确支持“互联网+”医疗、“互联网+”健康。
38.利用虚拟化方法减少物理存储空间的分配,最大限度提升存储空间利用率。
39.内存分析数据量比BI分析数据量大
40.数据可视化。将大型数据集中的数据通过图形图像方式表示,并利用数据分析和开发工具发现其中未知信息。
41.交通数据的来源包括车辆GPS数据,人类移动的GPS位置信息或者单位站点记录,和监视设备的视频图像技术记录。
42.线性回归涉及找出拟合两个属性(或变量)的“最佳”直线,使一个属性可以用来预测另一个。
43.聚类分析(Cluster analysis)简称聚类(Clustering),是把数据对象划分成子集(类)的过程,每个子集称为一个簇(Cluster)
44.用户可以感知不同属性之间的相关性,过滤掉噪声和不相关的轨迹,用于进一步调查有趣的案例。分析人员可以交互式地逐步优化设置以改进结果。
45.大数据技术也能帮助政府进行支出管理,透明合理的财政支出将有利于提高公信力和监督财政支出。
46.累加器只有驱动程序才能读取
47.数据挖掘方法侧重于从数据驱动的角度出发获取模式或规律。因此,针对海量人类移动数据,数据挖掘方法可以发挥其挖掘模式或规律的长处。
48.基于QQ用户位置变化轨迹,建立模型测算迁徙规模,分析人口迁徙方向及其影响因素。
49.利用云存储中的多租户技术,满足了海量信息爆炸式增长趋势,一定程度上节约企业存储成本,提高效率。
50.不同类型的大数据可以揭示一个区域或城市的活动以及人口分布状态( )
转载请注明:奥鹏作业之家 » 南开23春学期《大数据导论》在线作业【参考答案】