◾1、MapReduce 中排序发生在哪几个阶段?这些排序是否可以避免?为什么?
答:
1)一个 MapReduce 作业由 Map 阶段和 Reduce 阶段两部分组成,这两阶段会对数据排序,从这个意义上说,MapReduce 框架本质就是一个 Distributed Sort。
2)在 Map 阶段,Map Task 会在本地磁盘输出一个按照 key 排序(采用的是快速排序)的文件(中间可能产生多个文件,但最终会合并成一个),在 Reduce 阶段,每个 Reduce Task 会对收到的数据排序,这样,数据便按照 Key 分成了若干组,之后以组为单位交给 reduce()处理。
3)很多人的误解在 Map 阶段,如果不使用 Combiner便不会排序,这是错误的,不管你用不用 Combiner,Map Task 均会对产生的数据排序(如果没有 Reduce Task,则不会排序,实际上 Map 阶段的排序就是为了减轻 Reduce端排序负载)。
4)由于这些排序是 MapReduce 自动完成的,用户无法控制,因此,在hadoop 1.x 中无法避免,也不可以关闭,但 hadoop2.x 是可以关闭的。
◾2、生产环境中为什么建议使用外部表?
答:因为外部表不会加载数据到hive,减少数据传输、数据还能共享。hive不会修改数据,所以无需担心数据的损坏;删除表时,只删除表结构、不删除数据。
◾3、下列关于数据重组的说法中,错误的是()
A.数据重组是数据的重新生产和重新采集
B.数据重组能够使数据焕发新的光芒
C.数据重组实现的关键在于多源数据融合和数据集成
D.数据重组有利于实现新颖的数据模式创新
答案:A。
◾4、美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的()
A.在数据基础上倾向于全体数据而不是抽样数据
B.在分析方法上更注重相关分析而不是因果分析
C.在分析效果上更追究效率而不是绝对精确
D.在数据规模上强调相对数据而不是绝对数据
答案:B。
◾5、下列关于数据交易市场的说法中,错误的是()
A.数据交易市场是大数据产业发展到一定程度的产物
B.商业化的数据交易活动催生了多方参与的第三方数据交易市场
C.数据交易市场通过生产数据、研发和分析数据,为数据交易提供帮助
D.数据交易市场是大数据资源化的必然产物
答案:C。