22春学期(高起本1709-1803、全层次1809-2103)《大数据开发技术(二)》在线作业-00003
试卷总分:100 得分:100
一、单选题 (共 25 道试题,共 50 分)
1.Scala函数组合器可以把一个二维的列表展开成一个一维的列表的方法是()
A.filter
B.flatten
C.grouby
D.flatmap
2.GraphX中()方法可以查询边信息
A.numVertices
B.numEdges
C.vertices
D.edges
3.PairRDD中()函数可以合并具有相同键的值
A.mapValues
B.groupBy
C.groupByKey
D.reduceByKey
4.Scala列表方法中将函数应用到列表的所有元素的方法是()
A.filter
B.foreach
C.map
D.mkString
5.Spark Streming中()函数当被调用类型分别为(K,V)和(K,W)键值对的2个DStream 时,返回类型为(K,(V,W))键值对的一个新 DStream。
A.union
B.reduce
C.join
D.cogroup
6.Scala中如果函数中的每个参数在函数中最多只出现一次,则可以使用占位符()代替参数。
A.井号
B.下划线
C.斜杠
D.逗号
7.GraphX中graph.edges可以得到()
A.顶点视图
B.边视图
C.顶点与边的三元组整体视图
D.有向图
8.Scala中合并两个数组的方法是()
A.line
B.add
C.append
D.concat
9.Dstream输出操作中()方法将DStream中的内容以文本的形式保存为文本文件
A.print
B.saveAsTextFiles
C.saveAsObjectFiles
D.saveAsHadoopFiles
10.var a=10; for(a<-1 until 20){ println(a); } 共循环了()次
A.10
B.11
C.20
D.19
11.GraphX中()方法可以查询顶点信息
A.numVertices奥鹏作业答案请进open5.net或请联系QQ/微信:18866732
B.numEdges
C.vertices
D.edges
12.以下哪个函数可以求两个RDD交集 ()
A.union
B.substract
C.intersection
D.cartesian
13.一般情况下,对于迭代次数较多的应用程序,Spark程序在内存中的运行速度是Hadoop MapReduce运行速度的()多倍
A.2
B.10
C.100
D.1000
14.Mllib中metrics.fMeasureByThreshold 表示()指标
A.准确度
B.召回率
C.F值
D.ROC曲线
15.Graph类中如果根据边数据创建图,数据需要转换成RDD[Edge[ED]类型,应该用()方法
A.Graph(vertices,edges, defaultVertexAttr)
B.Graph.fromEdges(RDD[Edge[ED]], defaultValue)
C.Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)
D.GraphLoader.edgeListFile(sc,filename)
16.Scala中()方法返回一个列表,包含除了最后一个元素之外的其他元素
A.head
B.init
C.tail
D.last
17.以下算法中属于无监督学习算法的是()
A.KNN算法
B.逻辑回归
C.随机森林
D.Kmeans
18.Dstream输出操作中()方法将DStream中的内容按对象序列化并且以SequenceFile的格式保存
A.print
B.saveAsTextFiles
C.saveAsObjectFiles
D.saveAsHadoopFiles
19.Scala函数组合器可以对集合中的元素进行分组操作,结果得到的是一个Map的方法是()
A.filter
B.flatten
C.grouby
D.flatmap
20.MLlib 中可以调用mllib.tree.DecisionTree 类中的静态方法()训练回归树
A.trainClassifier
B.trainRegressor
C.LogisticRegressionModel
D.LabeledPoint
21.Graph类中如果要直接通过边数据文件创建图,要求数据按空格分隔,应该用()方法
A.Graph(vertices,edges, defaultVertexAttr)
B.Graph.fromEdges(RDD[Edge[ED]], defaultValue)
C.Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)
D.GraphLoader.edgeListFile(sc,filename)
22.GraphX中()是存放着存放顶点的RDD
A.RDD[Edge]
B.EdgeRDD
C.RDD[(VertexId,VD)]
D.VertexRDD
23.Scala元组的值是通过将单个的值包含在()中构成的
A.小括号
B.中括号
C.大括号
D.尖括号
24.GraphX中()方法可以释放边缓存
A.cache
B.presist
C.unpersistVertices
D.edges.unpersist
25.PairRDD的()方法,可以把两个RDD中键相同的元素组合在一起,合并为一个RDD。
A.join
B.union
C.substract
D.intersection
二、多选题 (共 10 道试题,共 20 分)
26.Spark SQL读取的数据源支持()
A.Hive表
B.Parquent文件
C.JSON数据
D.关系数据库
27.GraphX中Edge边对象存有()字段
A.srcId
B.dstId
C.attr
D.val
28.以下哪种方法可以让Spark不自定义分区也能对任何类型RDD 简单重分区()
A.resetpartition
B.repartiton
C.Partition
D.coalesce
29.Scala函数支持()
A.递归函数
B.高阶函数
C.柯里化
D.匿名函数
30.Scala中使用() 方法来连接两个集合
A.append
B.++
C.concat
D.Set.++()
31.Spark支持使用()语言编写应用
A.Scala
B.Python
C.Java
D.R
32.Scala支持()
A.显式参数
B.隐式参数
C.转换
D.多态方法
33.Spark DataFrame中()方法可以获取若干行数据
A.first
B.head
C.take
D.collect
34.Spark是一个()计算框架
A.快速
B.分布式
C.可扩展
D.容错
35.Spark DataFrame中()方法可以返回一个List
A.collect
B.take
C.takeAsList
D.collectAsList
三、判断题 (共 15 道试题,共 30 分)
36.Scala中Map的isEmpty函数在Map为空时返回false
37.Scala 集合分为可变的和不可变的集合
38.RDD的flatMap操作是将函数应用于RDD 之中的每一个元素,将返回的迭代器(数组、列表等)中的所有元素构成新的RDD 。
39.Scala函数组合器中foreach和map类似,有返回值
40.Scala中列表是可变的
41.Scala中默认情况下使用的是可变的Map
42.RDD的filter过滤会将返回值为true的过滤掉
43.Scala函数组合器中groupBy是对集合中的元素进行分组操作,结果得到的是一个Map
44.val如同Java里面的非final变量,可以在它的声明周期中被多次赋值。
45.用户可以在Hadoop YARN上运行Spark
46.RDD的sortBy函数包含参数numPartitions,该参数决定排序后的RDD的分区个数,默认排序后的分区个数和排序之前的个数相等,即为this.partitions.size。
47.Spark GraphX课通过mapVertices[VD2: ClassTag](map: (VertexId, VD) => VD2)实现对顶点属性经过变换生成新的图
48.Spark Streming中对DStream的任何操作都会转化成对底层RDDs的操作
49.Spark对只有未曾设置存储级别的RDD才能设置存储级别,设置了存储级别的RDD不能修改其存储级别
50.Scala中++i和i++表示变量i自增1
转载请注明:奥鹏作业之家 » 【奥鹏】南开22春学期《大数据开发技术(二)》在线作业