21春学期(1709、1803、1809、1903、1909、2003、2009、2103)《大数据导论》在线作业
试卷总分:100 得分:100
一、单选题 (共 15 道试题,共 30 分)
1.以下不是数据仓库基本特征的是()
A.数据仓库是面向主题的
B.数据仓库是面向事务的
C.数据仓库的数据是相对稳定的
D.数据仓库的数据是反映历史变化的
2.第一个提出大数据概念的公司是( )。
A.麦肯锡公司
B.谷歌公司
C.微软公司
D.脸谱公司
3.基础设施即服务的英文简称是
A.IaaS
B.PaaS
C.SaaS
4.()是Microsoft Office的核心组件
A.SQL
B.WORD
C.PPT
D.EXCEL
5.MapReduce中的Map和Reduce函数使用()进行输入输出
A.key/value对
B.随机数值
C.其他计算结果
6.下列哪个R语言扩展包可以制作一系列的图像并将它们串联起来做成动画()
A.ggplot2
B.network
C.ggmaps
D.animation
7.GFS中的文件切分成()的块进行存储
A.32MB
B.64MB
C.128MB
D.1G
8.大数据的最显著特征是() 。
A.数据规模大
B.数据类型多样
C.数据处理速度快
D.数据价值密度高
9.下列哪个R语言扩展包可以创建带有点和边的网络图()
A.ggplot2
B.network
C.ggmaps
D.animation
10.大数据的特点不包含
A.数据体量大
B.价值密度高
C.处理速度快
D.数据不统一
11.下面哪一项不是中国发展大数据产业的基础()。
A.信息化积累了丰富的数据资源
B.大数据技术创新取得明显突破
C.大数据应用推动势头良好
D.大数据产业支撑薄弱
12.数据仓库是随着时间变化的,下列不正确的是()
A.数据仓库随时间变化不断增加新内容
B.捕捉到的新数据会覆盖原来的快照
C.数据仓库随事件变化不断删去旧的数据内容
D.数据仓库中包含大量的综合数据,这些综合数据会随时间的变化不断进行重新综合
13.数据产生方式变革中数据产生方式是被动的主要是来自哪个阶段( )。
A.运营式系统阶段
B.用户原创内容阶段
C.感知式系统阶段
14.购物篮问题是##的典型案例
A.数据变换
B.关联规则挖掘
C.数据分类
15.数据清洗的方法不包括
A.缺失值处理
B.噪声数据清除
奥鹏作业答案请进open5.net或请联系QQ/微信:18866732
C.一致性检查
D.重复数据记录处理
二、多选题 (共 15 道试题,共 30 分)
16.统计图表的可视化方法主要包括()
A.散点图
B.折线图
C.条形图
D.饼图
17.##和##,它们把原数据变换或投影到较小的空间。
A.小波变换
B.中心化变换
C.主成分分析
D.对数变换
18.常见的分类方法有
A.决策树
B.贝叶斯网络
C.遗传算法
D.FP算法
19.传感器工作模式类别包括()
A.基于位置
B.基于活动
C.基于设备
20.大数据智能感知层:主要包括()及软硬件资源接入系统
A.数据传感体系
B.网络通信体系
C.传感适配体系
D.智能识别体系
21.数据归约(Data Reduction)主要有有()
A.维度规约
B.样本规约
C.数据聚集
D.离散化概念分层
22.可视化工具包括()
A.Excel
B.Google Chart
C.Gephi
D.ppt
23.可使用##,##,##进行光滑。
A.最大值
B.箱中位数
C.箱边界
D.箱均值
24.借助于大数据提供的##和##,政府可为农业生产进行合理引导,依据需求进行生产,避免产能过剩造成不必要的资源和社会财富浪费。
A.消费能力
B.趋势报告
C.购物结果
25.离群点检测的应用包括()等。
A.欺诈检测
B.入侵检测
C.故障检测
D.疾病的不寻常模式
26.下列属于传统统计学展示方法的是()
A.柱状图
B.饼状图
C.曲线图
D.网络图
27.大数据存储的特点与挑战有()
A.容量问题
B.延迟问题
C.安全问题
D.成本问题
28.大数据时代预测人类移动行为的数据来源有
A.志愿者定位数据
B.装有导航设备的出租车轨迹数据
C.手机终端定位于通讯记录
D.社会网络签到数据
29.医疗大数据特点:除了包含了大数据4个“V” 的特点之外还有()
A.多态性
B.时效性
C.不完整性
D.冗余性
30.基于大数据的临床决策支持系统的架构包括
A.支撑层
B.大数据分析层
C.网络层
D.应用层
三、判断题 (共 20 道试题,共 40 分)
31.NAS是一种采用直接与网络介质相连的特殊设备实现数据存储的模式。
32.在集成期间,当一个数据库的属性与另一个数据库的属性匹配时,必须特别注意数据的结构。这旨在确保源系统中的函数依赖和参照约束与目标系统中的匹配。
33.Gartner研究机构给出的大数据定义是大数据一般会涉及两种或两种以上的数据形式,它需要收集超过100TB的数据,并且是高速实时数据流;或者是从小数据开始,但数据每年增长速率至少为60%。
34.Python是一种面向对象的解释型计算机程序设计语言
35.数据集成(Data Integration)是将多个数据源中的数据合并存放到一个一致的数据存储中,数据源可以包含多个数据库、数据立方体或一般文件。
36.内存级分析适用于总数据量在集群内存的最大级别以内的情况,使用内部数据库技术,适合实时业务分析需求。
37.按照数据量的大小,可将数据分析分为内存级数据分析、Bl级数据分析和海量级数据分析。
38.美国奥巴马政府宣布投资2亿美元启动“大数据研发计划”
39.在现有大数据的存储中,结构化数据仅有20%,其余80%则在存在于物联网、电子商务、社交网络等 领域的半结构化数据和非结构化数据
40.聚类分析(Cluster analysis)简称聚类(Clustering),是把数据对象划分成子集(类)的过程,每个子集称为一个簇(Cluster)
41.大数据处理的关键技术主要包括:数据采集和预处理、数据存储、数据计算架构、数据分析和挖掘、数据可视化展示等。
42.居民通过健康云平台中的数据,了解健康情况,防患于未然;医疗机构通过对远程监控系统中的数据分析,缩短住院时间,提高家庭护理比例和门诊医生预约量。
43.交通数据的来源包括车辆GPS数据,人类移动的GPS位置信息或者单位站点记录,和监视设备的视频图像技术记录。
44.大数据技术也能帮助政府进行支出管理,透明合理的财政支出将有利于提高公信力和监督财政支出。
45.非结构化数据是指非纯文本类数据,没有标准格式,无法直接解析出相应的值
46.关联分析又称为关联规则学习
47.Pentaho是最流行的开源商业智能软件之一
48.我们既要通过政府主导,又要发挥社会的力量,来共同推进医疗大数据的应用
49.每个变量的最大值和最小值之差称为极差
50.数据采集,又称数据获取,是大数据生命周期的第一个环节,通过RFID射频识别技术,传感器,交互型社交网络,移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。
转载请注明:奥鹏作业之家 » 【奥鹏】南开21春学期(1709、1803、1809、1903、1909、2003、2009、2103)《大数据导论》在线作业