刚入职场的菜鸟,这些大数据知识点,你必须掌握了!_大数据菜鸟入门(2)[职场知识点分享简短文字]
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新
需要这份系统化资料的朋友,可以戳这里获取
一、Hadoop入门
1、常用端口号
hadoop3.x
HDFS NameNode 内部通常端口:8020/9000/9820HDFS NameNode 对用户的查询端口:9870Yarn查看任务运行情况的:8088历史服务器:19888
hadoop2.x
HDFS NameNode 内部通常端口:8020/9000HDFS NameNode 对用户的查询端口:50070Yarn查看任务运行情况的:8088历史服务器:19888
2、常用的配置文件
3.x core-site.xml ?hdfs-site.xml ?yarn-site.xml ?mapred-site.xml workers2.x core-site.xml ?hdfs-site.xml ?yarn-site.xml ?mapred-site.xml slaves
二、HDFS
1、HDFS文件块大小(面试重点)
硬盘读写速度在企业中 ?一般128m(中小公司) ??256m (大公司) 2、HDFS的Shell操作(开发重点)3、HDFS的读写流程(面试重点)
三、Map Reduce
1、InputFormat
1)默认的是TextInputformat ?kv ?key偏移量,v :一行内容2)处理小文件CombineTextInputFormat 把多个文件合并到一起统一切片
2、Mapper
setup()初始化; ?map()用户的业务逻辑; clearup() 关闭资源;
3、分区
默认分区HashPartitioner ,默认按照key的hash值%numreducetask个数自定义分区
4、排序
1)部分排序 ?每个输出的文件内部有序。2)全排序: ?一个reduce ,对所有数据大排序。3)二次排序: ?自定义排序范畴, 实现 writableCompare接口, 重写compareTo方法
5、Combiner
前提:不影响最终的业务逻辑(求和 没问题 ??求平均值)
提前聚合map ?=> 解决数据倾斜的一个方法
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新
需要这份系统化资料的朋友,可以戳这里获取
线、讲解视频,并且后续会持续更新**
需要这份系统化资料的朋友,可以戳这里获取