刚入职场的菜鸟,这些大数据知识点,你必须掌握了!_大数据菜鸟入门(2)[职场知识点分享简短文字]

趣味咨讯 2024-10-01 05:47:35

  

  

  

  既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

  由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

  需要这份系统化资料的朋友,可以戳这里获取

  

  一、Hadoop入门

  1、常用端口号

  hadoop3.x

  HDFS NameNode 内部通常端口:8020/9000/9820HDFS NameNode 对用户的查询端口:9870Yarn查看任务运行情况的:8088历史服务器:19888

  hadoop2.x

  HDFS NameNode 内部通常端口:8020/9000HDFS NameNode 对用户的查询端口:50070Yarn查看任务运行情况的:8088历史服务器:19888

  2、常用的配置文件

  3.x core-site.xml ?hdfs-site.xml ?yarn-site.xml ?mapred-site.xml workers2.x core-site.xml ?hdfs-site.xml ?yarn-site.xml ?mapred-site.xml slaves

  二、HDFS

  1、HDFS文件块大小(面试重点)

  硬盘读写速度在企业中 ?一般128m(中小公司) ??256m (大公司) 2、HDFS的Shell操作(开发重点)3、HDFS的读写流程(面试重点)

  三、Map Reduce

  1、InputFormat

  1)默认的是TextInputformat ?kv ?key偏移量,v :一行内容2)处理小文件CombineTextInputFormat 把多个文件合并到一起统一切片

  2、Mapper

  setup()初始化; ?map()用户的业务逻辑; clearup() 关闭资源;

  3、分区

  默认分区HashPartitioner ,默认按照key的hash值%numreducetask个数自定义分区

  4、排序

  1)部分排序 ?每个输出的文件内部有序。2)全排序: ?一个reduce ,对所有数据大排序。3)二次排序: ?自定义排序范畴, 实现 writableCompare接口, 重写compareTo方法

  5、Combiner

  前提:不影响最终的业务逻辑(求和 没问题 ??求平均值)

  提前聚合map ?=> 解决数据倾斜的一个方法

  

  

  

  既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

  由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

  需要这份系统化资料的朋友,可以戳这里获取

  线、讲解视频,并且后续会持续更新**

  需要这份系统化资料的朋友,可以戳这里获取


声明: 本文来源于新速知识网整理,如有侵权,请联系网站管理员处理!
标签:文件   排序   数据   学习   这里