一、单选(3分*5)

1、单词计数中map阶段输入的是()

A单词 B文本文件 C中间结果

2、(Sqoop)用于在Hadoop与传统数据库间进行数据传递

3、抽象块默认大小(64MB)

4、Amazon RDS采用哪种数据库 (New SQL)

5、客户端和数据端交互的协议()

A.websocket B.RPC C.TCP/IP D.以上都是

二、判断(3分*5)

第二名称节点解决了单节点错误的问题()

考Fs Image的作用()

Map的数量一定比Reduce大()

Spark shell 的启动必须要启动Hadoop()

hadoop的伪分布中名称节点和数据节点可以在一个物理节点上()

三、填空(2分*5)

HBASE靠()处理错误数据

数据分为 结构化数据、半结构化数据和()

数据节点和名称节点通过()交互

HBase中()管理region的状态

宽依赖和窄依赖的区别是是否有()

四、简答(5分*8)

1 说出YARN的主要组件及功能

2 HDFS文件的写入过程

3 BASE的含义

4 HBase中时间戳的作用

5 HDFS的数据存放策略

6 Map任务的数量和reduce任务的数量由什么决定

7HDFS联邦的工作原理

8说出UserCF的定义以及优缺点

五、综合分析题(10分*2)

1.写出“whatever worth doing is worth doing well.”的map和reduce阶段的输入、输出,简述shuffle过程,以及说明如何确保相同单词进入一个reducer中。

2.说出关系数据库模型、No SQL和New SQL的优缺点。

感谢kx、jx、px、tl一起帮回忆~

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐