小红书数据开发(数仓)面经 | 您所在的位置:网站首页 › 小红书软件开发待遇 › 小红书数据开发(数仓)面经 |
内推码:10GTYT6O3O,欢迎交流,互相学习! 之前一直在牛客找面经,对自己帮助也很大,意向了也写一篇,感谢! 一面: 1、介绍项目 2、ODS和DWD怎么区分,分别存什么样的数据 4、跨数据域问题,怎么做的 5、有哪些宽表,对应什么指标和业务过程 6、留存率、漏斗分析等,是怎样的开发过程,后续使用 7、任务性能优化或代码方面的优化 8、hive on spark和spark区别,计算时间上有差异吗 9、kylin为什么快 10、两道SQL 1. 表名order 字段 user_id, date, price_list 1, '2020-02-02', 10 1, '2020-02-03', 5,5 1, '2020-02-04', 15,30 2, '2020-02-08', 10,20,30 ...... 计算用户price平均值 结果: user_id price 1 13 2 20 2. 直播表 a room_id, start_time, end_time 1, 20201224, 20210102 ...... 求20210101这天有直播的房间数 二面: 1、数仓分哪些层,每层做什么,纵向分域/分主题 2、公共派生指标?相关相近的名词? 3、项目一共多少张表,哪张最重要 4、事实表类型 5、投资表:A投资了B和C (A, B, C) 各家公司财报:A盈利了100等等 (A, 100; B, -50) 能不能用数仓建模方式做一些好用的表,通过这个表,拿到每家公司直接收益情况以及整体收益情况? 字段:公司名称,直接投资收益情况,整体收益情况 6、日志表:date, user_id, city_id, ... 1. date, city_id, pv, uv 2. 出现数据倾斜了,你认为会有什么原因?如何优化? 7、考怎么思考和拆解问题 三面: 1、spark streaming和flink区别 2、spark streaming精准一次 3、数仓层与层之间做了什么操作,每层中的表有什么特征 4、建立什么样的总线矩阵,哪些放在DWD,哪些放在DIM 5、数仓建模与数据库建模区别,使用场景 6、维度建模的建模方式,之间的区别,使用场景 7、数据库三范式,讲明白 8、数仓中支持了哪些分析,一般分析业务,会用一些指标度量,统计维度去分析,支持了哪些分析?距离一个业务,通过哪些指标分析,出现问题后,可以从哪些维度细分下去? 9、spark streaming如何做日活 10、双流join怎么实现 11、spark语句执行过程 12、我有个算法的项目,也问了一些, 比如做了哪些优化,准确率指标口径,哪些优化对准确率提升最明显,哪个优化难度大,怎么解决,哪篇论文启发大等等 13、为什么选数据开发的职业不选算法
hr面: 1、毕业后想留的城市 2、项目属于什么样的,数据来源?因为没有实习所以想了解做这个项目是因为兴趣爱好吗? 3、项目可以落地吗?怎么知道这个项目做的好不好 4、职业规划 5、学术界或工业界特别佩服的人 6、最优成就感的事情,成就感来源 7、最挫败的事情 8、一些二战的事情 9、自己的优缺点 10、为什么读国外硕士 11、为什么不实习 12、为什么不找算法类工作 以上每个问题,都会细问为什么,举例子 #小红书##秋招##内推##大数据##数据开发工程师# |
CopyRight 2018-2019 实验室设备网 版权所有 |