南开23春学期《大数据开发技术（二）》在线作业【参考答案】-奥鹏作业之家

23春学期（高起本：1709-2103、专升本/高起专：1903-2103）《大数据开发技术（二）》在线作业-00002
试卷总分:100 得分:100
一、单选题 (共 25 道试题,共 50 分)
1.以下哪个函数可以求两个RDD的笛卡尔积（）
A.union
B.substract
C.intersection
D.cartesian

2.（）是AMPLab发布的一个R开发包，使得R摆脱单机运行的命运，可以作为Spark的Job运行在集群上
A.SparkR
B.BlinkDB
C.GraphX
D.Mllib

3.RDD的（）操作通常用来划分单词
A.filter
B.union
C.flatmap
D.mapPartitions

4.以下哪个不是Scala的数据类型（）
A.AnyRef
B.Anything
C.NULL
D.Nothing

5.Spark GraphX中类Graph的reverse方法可以（）
A.反转图中所有边的方向
B.按照设定条件取出子图
C.取两个图的公共顶点和边作为新图，并保持前一个图顶点与边的属性
D.合并边相同的属性

6.图结构中如果任意两个顶点之间都存在边，那么称之为（）
A.完全图
B.有向完全图
C.无向图
D.简单图

7.Spark中DataFrame的（）方法是进行条件查询
A.where
B.join
C.limit
D.apply

8.Scala中（）方法返回一个列表，包含除了最后一个元素之外的其他元素
A.head
B.init
C.tail
D.last

9.var a=10; for(a<-1 until 20){ println(a); } 共循环了（）次
A.10
B.11
C.20
D.19

10.以下哪个函数可以求两个RDD差集（）
A.union
B.substract
C.intersection
D.cartesian

11.以下哪个函数可以对两个RDD进行合并（）
A.union
B.substract
C.intersection
D.cartesian

12.Graph类中如果要根据边数据创建图，边数据需要加载为二元组，可以选择是否对边分区，应该用（）方法
A.Graph(vertices,edges, defaultVertexAttr)
B.Graph.fromEdges(RDD[Edge[ED]], defaultValue)
C.Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)
D.GraphLoader.edgeListFile(sc,filename)

13.Scala中（）方法返回Map所有的value
A.key
B.keys
C.value
D.values

14.GraphX中graph.vertices可以得到（）
A.顶点视图
B.边视图
C.顶点与边的三元组整体视图
D.有向图

15.GraphX中（）是完整提供边的各种操作类
A.RDD[Edge]
B.EdgeRDD
C.RDD[(VertexId,VD)]
D.VertexRDD

16.GraphX中（）是存放着存放顶点的RDD
A.RDD[Edge]
B.EdgeRDD
C.RDD[(VertexId,VD)]
D.VertexRDD

17.Spark GraphX中类Graph的collectNeighbors(edgeDirection: EdgeDirection)方法可以（）
A.收集邻居顶点的顶点Id和顶点属性
B.收集邻居顶点的顶点Id
C.向指定顶点发送信息并聚合信息
D.将顶点信息更新到图中

18.在MLlib中，逻辑回归算法的输入值为（）类型
A.Double
B.LabledPoint
C.Point
D.SGB

19.Graph类中如果根据边数据创建图，数据需要转换成RDD[Edge[ED]类型，应该用（）方法
A.Graph(vertices,edges, defaultVertexAttr)
B.Graph.fromEdges(RDD[Edge[ED]], defaultValue)
C.Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)
D.GraphLoader.edgeListFile(sc,filename)

20.（）是Spark的数据挖掘算法库
A.Spark Core
B.BlinkDB
C.GraphX
D.Mllib

21.Spark Streming中（）函数可以使用func将源DStream中的每个元素进行聚合操作，返回一个内部所包含的RDD只有一个元素的新DStream
A.union
B.reduce
C.join
D.cogroup

22.Scala函数组合器可以通过一个函数重新计算列表中所有元素，并且返回一个相同数目元素的新列表的方法是（）
A.map
B.foreach
C.flatten
D.flatmap

23.Mllib中线性会馆算法中的参数numIterations表示（）
A.要运行的迭代次数
B.梯度下降的步长
C.是否给数据加干扰特征或者偏差特征
D.Lasso 和ridge 的正规化参数

24.Scala列表方法中获取列表的第一个元素的方法是（）
A.drop
B.head
C.filter
D.init

25.Spark Streming中（）函数可以对源DStream的每个元素通过函数func返回一个新的DStream
A.map
B.flatMap
C.filter
D.union

二、多选题 (共 10 道试题,共 20 分)
26.以下是机器学习的常用算法的是（）
A.回归算法
B.聚类算法奥鹏作业答案请进open5.net或请联系QQ/微信：18866732
C.降维算法
D.分类算法

27.TF-IDF中IDF指的是（）
A.词频
B.词在文档中出现的次数
C.逆文档概率
D.词在文档集中出现的概率
E.词在文档集中出现的概率

28.Spark Streaming能够和（）无缝集成
A.Hadoop
B.Spark SQL
C.Mllib
D.GraphX

29.RDD是一个（）的数据结构
A.可读写
B.只读的
C.容错的
D.可进行并行操作的

30.Spark DataFrame中（）方法可以返回一个Array对象
A.collect
B.take
C.takeAsList
D.collectAsList

31.以下算法中属于监督学习算法的是（）
A.KNN算法
B.逻辑回归
C.随机森林
D.Kmeans

32.Scala函数支持（）
A.递归函数
B.高阶函数
C.柯里化
D.匿名函数

33.MLlib中进行数据标准化的方式有（）
A.Normalizer
B.Standard
C.StandardScaleer
D.MinMaxScaler

34.Spark Core包含的功能有（）
A.任务调度
B.内存管理
C.SQL查询
D.容错机制

35.Scala中使用（）方法来查看两个集合的交集元素
A.Set.concat
B.Set.&
C.Set.&&
D.Set.intersect

三、判断题 (共 15 道试题,共 30 分)
36.Scala是不可扩展的

37.Spark持久化RDD 后，在再一次需要计算该RDD 时将需要重新计算

38.聚类是一种无监督学习的方法，用于将高度相似的数据分到一类中

39.Scala可以通过“var” 来定义变量，通过“val” 关键字来定义常量

40.RDD中join操作最后只返回两个RDD 都存在的键的连接结果。

41.Scala中Map的isEmpty函数在Map为空时返回true

42.Scala中Map的isEmpty函数在Map为空时返回false

43.如果其中有一个节点因为某种原因出现故障时， Spark 需要用到缓存数据时不会重算丢失的分区，因此不需要计算所有的分区。

44.Scala 语言中提供的数组是用来存储动态大小的同类型元素

45.RDD的转换操作通过某种函数将一个RDD 转换为一个新的RDD ，但是转换操作是懒操作，不会立刻执行计算。

46.键值对RDD由一组组的键值对组成，这些RDD被称为PairRDD。

47.Spark可以通过反射机制推断RDD模式

48.Scala在子类中重写超类的抽象方法时，需要使用override关键字

49.Spark GraphX课通过mapEdges[ED2](map: Edge[ED] => ED2)实现对边属性经过变换生成新的图

50.Scala中默认情况下使用的是可变的Map

转载请注明：奥鹏作业之家 » 南开23春学期《大数据开发技术（二）》在线作业【参考答案】

南开23春学期《大数据开发技术（二）》在线作业【参考答案】

与本文相关的文章

Hi，您需要填写昵称和邮箱！