机器学习基础
- AUC/F1,能手写代码实现
- L1/L2正则化,区别
- lightgbm/catboost/xgboost区别
- 激活函数
- word2vec, Skip-Gram和BOW
- DNN能直接把所有权重初始化为0吗
- 各种Normalization
Transformer
Transformer结构问题:精读llama的paper和Kapthy的GPT代码对Transformer的结构就能很清晰,
- Transformer为什么不用BN,LN和BN的区别
- Transformer multi-attention为什么会更好,怎么计算
- Transformer的fc在个位置
- Transformer激活函数
- GPT和Bert对比
- Transformer和GPT的优化器
- 位置编码,RoPE
Transformer推理问题:
- KV Cache
搜广推算法
- 怎么判断学到的Embedding好不好?
- user_id可有用作特征吗?
- 哪个特征提点最多
- 召回路能作为特征加到精排中作为特征吗
召回和粗排
- 召回常见通路,多路召回怎样融合
- 召回评价指标。场景内HitRate,进一步可以优化全域的HitRate
- 新增召回链路遇到什么问题
- 双塔召回能使用交叉特征吗?
- TDM流程,怎么处理新的广告
介绍一下wide&deep?
- 哪些特征适合放在deep侧,哪些特征适合放在wide侧?
- wide&deep用的什么优化器?介绍一下FTRL?
多目标和多任务
- 介绍下ESSM,ESSM是为了解决什么问题,彻底解决了吗?
- 什么情况下适合用ESSM,或者说ESSM比每个目标独立建模效果要好?
- 在ESSM上,有哪些改进的地方?
- ESMM(注意是ESMM不是ESSM)相比ESSM的改进是什么,为什么要对部分样本stop-gradient?
- 介绍下MMoE模型
- MMoE为什么有效,解决什么问题?
- 实践中MMoE遇到什么问题?Gate坍缩问题(gate学到的权重极度不均衡,少数experts接近1,其他experts接近0)如何缓解?
- MMoE在实践中还有什么tricks吗,expert和gate的选取,expert权重的计算?
- MMoE缺点?PLE相比MMoE改进了什么?
- 在实践中会遇到增加targets的情况,如何热启动?哪种方法效果好?
- 为什么要共享Embedding
- 不同场景的数据联合训练更好还是拆分训练成多个模型更好?
- 怎么解决延迟转化问题?从模型角度和延迟转化数据的利用角度
序列模型
- 序列特征怎么做预处理
- DIN及相关模型介绍?DIEN相比DIN的改变?
- 使用了什么特征?
- DIN的target attention是怎么计算的?
- DIN和transformer对比