小红书数据开发(数仓)面经 您所在的位置:网站首页 小红书软件开发待遇 小红书数据开发(数仓)面经

小红书数据开发(数仓)面经

2024-06-03 00:01| 来源: 网络整理| 查看: 265

内推码:10GTYT6O3O,欢迎交流,互相学习!

之前一直在牛客找面经,对自己帮助也很大,意向了也写一篇,感谢!

一面:

1、介绍项目

2、ODS和DWD怎么区分,分别存什么样的数据

4、跨数据域问题,怎么做的

5、有哪些宽表,对应什么指标和业务过程

6、留存率、漏斗分析等,是怎样的开发过程,后续使用

7、任务性能优化或代码方面的优化

8、hive on spark和spark区别,计算时间上有差异吗

9、kylin为什么快

10、两道SQL

    1. 表名order

        字段 user_id, date, price_list

                1,  '2020-02-02',  10

1,  '2020-02-03',  5,5

1,  '2020-02-04',  15,30

                2,  '2020-02-08',  10,20,30

                ......

        计算用户price平均值

        结果:

        user_id    price

        1                13

        2                20

    2. 直播表 a

        room_id, start_time, end_time

        1, 20201224, 20210102

        ......

        求20210101这天有直播的房间数

二面:

1、数仓分哪些层,每层做什么,纵向分域/分主题

2、公共派生指标?相关相近的名词?

3、项目一共多少张表,哪张最重要

4、事实表类型

5、投资表:A投资了B和C (A, B, C)

      各家公司财报:A盈利了100等等 (A, 100; B, -50)

      能不能用数仓建模方式做一些好用的表,通过这个表,拿到每家公司直接收益情况以及整体收益情况?

      字段:公司名称,直接投资收益情况,整体收益情况

6、日志表:date, user_id, city_id, ...

      1. date, city_id, pv, uv

      2. 出现数据倾斜了,你认为会有什么原因?如何优化?

7、考怎么思考和拆解问题

三面:

1、spark streaming和flink区别

2、spark streaming精准一次

3、数仓层与层之间做了什么操作,每层中的表有什么特征

4、建立什么样的总线矩阵,哪些放在DWD,哪些放在DIM

5、数仓建模与数据库建模区别,使用场景

6、维度建模的建模方式,之间的区别,使用场景

7、数据库三范式,讲明白

8、数仓中支持了哪些分析,一般分析业务,会用一些指标度量,统计维度去分析,支持了哪些分析?距离一个业务,通过哪些指标分析,出现问题后,可以从哪些维度细分下去?

9、spark streaming如何做日活

10、双流join怎么实现

11、spark语句执行过程

12、我有个算法的项目,也问了一些,

        比如做了哪些优化,准确率指标口径,哪些优化对准确率提升最明显,哪个优化难度大,怎么解决,哪篇论文启发大等等

13、为什么选数据开发的职业不选算法

hr面:

1、毕业后想留的城市

2、项目属于什么样的,数据来源?因为没有实习所以想了解做这个项目是因为兴趣爱好吗?

3、项目可以落地吗?怎么知道这个项目做的好不好

4、职业规划

5、学术界或工业界特别佩服的人

6、最优成就感的事情,成就感来源

7、最挫败的事情

8、一些二战的事情

9、自己的优缺点

10、为什么读国外硕士

11、为什么不实习

12、为什么不找算法类工作

以上每个问题,都会细问为什么,举例子

#小红书##秋招##内推##大数据##数据开发工程师#


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有