机器学习八股文 (一)

川川唔

注册一亩三分地论坛，查看更多干货！

您需要登录才可以下载或查看附件。没有帐号？注册账号

x

前段时间刷脉脉时发现很多技术八股文的帖子，什么Redis八股文..Java八股文..发现对于需要面试的人来说来说这些“八股文”帖子挺有帮助的，很利于面试前的查缺补漏。
刚好前段时间在积极面试，收集了四五家的Machine Learning Eng, DS/AS 的面经应该有超过三四十个帖子了。
所以准备梳理下收集的各种八股文，或许可以帮助到一些人..

这些问题基本都是面试真题，有些问题很general，有些很具体，有些考察广度有些考察深度，有些是没有唯一正确的答案更多的是在考察系统思考的能力。其中大部分题目，按照我自己的面试经历来说属于一定是需要扎实掌握的(需要熟背的八股文)，可能有几题比较冷门。

1. ML基础概念类
overfitting/underfiting是指的什么
bias/variance trade off 是指的什么
过拟合一般有哪些预防手段
Generative和Discrimitive的区别
Give a set of ground truths and 2 models, how do you be confident that one model is better than another?

1.1 Reguarlization:
L1 vs L2, which one is which and difference
Lasso/Ridge的解释 (prior分别是什么）
Lasso/Ridge的推导
为什么L1比L2稀疏
为什么regularization works
为什么regularization用L1 L2，而不是L3, L4..

1.2 Metric:
precision and recall, trade-off
label 不平衡时用什么metric
分类问题该选用什么metric，and why
confusion matrix
AUC的解释 (the probability of ranking a randomly selected positive sample higher blablabla....)
true positive rate, false positive rate, ROC
Log-loss是什么，什么时候用logloss
还有一些和场景比较相关的问题，比如ranking design的时候用什么metric，推荐的时候用什么.等.不在这个讨论范围内

1.3 Loss与优化
用MSE做loss的Logistic Rregression是convex problem吗
解释并写出MSE的公式, 什么时候用到MSE?
Linear Regression最小二乘法和MLE关系
什么是relative entropy/crossentropy, 以及K-L divergence 他们intuition
Logistic Regression的loss是什么
Logistic Regression的 Loss 推导
SVM的loss是什么
Multiclass Logistic Regression然后问了一个为什么用cross entropy做cost function
Decision Tree split node的时候优化目标是啥

================================
================================

2. DL基础概念类
DNN为什么要有bias term, bias term的intuition是什么
什么是Back Propagation
梯度消失和梯度爆炸是什么，怎么解决
神经网络初始化能不能把weights都initialize成0
DNN和Logistic Regression的区别
你为什么觉得DNN的拟合能力比Logistic Regression强
how to do hyperparameter tuning in DL/ random search, grid search
Deep Learning有哪些预防overfitting的办法
什么是Dropout，why it works，dropout的流程是什么 (训练和测试时的区别)
什么是Batch Norm, why it works, BN的流程是什么 (训练和测试时的区别)
common activation functions （sigmoid, tanh, relu, leaky relu）是什么以及每个的优缺点
为什么需要non-linear activation functions
Different optimizers (SGD, RMSprop, Momentum, Adagrad，Adam) 的区别
Batch 和 SGD的优缺点, Batch size的影响
learning rate过大过小对于模型的影响
Problem of Plateau, saddle point
When transfer learning makes sense.

整理不容易，求加米。也希望能有些回复鼓励下楼主慢慢把剩下的八股文整理完..(接下来可能还有ML模型类, CNN视觉类, RNN/NLP类, 数据处理类)..

欢迎大家把自己的答案在帖子下面回复..如果有什么问题的也欢迎回帖讨论....

如果有目前这两类的问题也欢迎补充

补充内容 (2021-2-9 12:40):
https://www.1point3acres.com/bbs/thread-714090-1-1.html 第二贴
https://www.1point3acres.com/bbs/thread-714558-1-1.html 第三贴

KKKCCC

总结了一个快问快答Notion版本, 有些问题回答不是很好, 欢迎大家直接在Notion各个问题里评论.
https://northern-dracopelta-98c. ... b54bc498579b3c7f1c5

补充内容 (2022-07-26 02:17 +8:00):
大家觉得有空可以加米吗，想看面经，感恩的心

咿呀咿呀哟

补充一个问题：为什么random forest里每棵树选择样本的概率是63%

补充内容 (2021-2-7 14:04):
hint：e的-1次方约等于0.37

sxc6988

欢迎回帖讨论

川川唔

咿呀咿呀哟发表于 2021-02-06 22:02:14
补充一个问题：为什么random forest里每棵树选择样本的概率是63%

Good one 我会在下个说ml模型的八股文里加上这个。

KGFan

咿呀咿呀哟发表于 2021-02-06 22:02:14
补充一个问题：为什么random forest里每棵树选择样本的概率是63%

这种太细节了，不会考吧……

snowmanlarry

哈哈哈楼主发的好快！

snowmanlarry

哈哈哈从旧帖来顶！楼主搜集的很全，的确是需要背的知识点😂

川川唔

KGFan 发表于 2021-2-7 14:04
这种太细节了，不会考吧……

这个我觉得不算细节，bootstrap是RF一个最核心的概念的之一。和这个对立的问题还有RF的36.8%的包外估计。

KGFan

川川唔发表于 2021-02-06 22:13:21
这个我觉得不算细节，bootstrap是RF一个最核心的概念的之一。和这个对立的问题还有RF的36.8%的包外估计。

但得到这个数需要求极限，这不是考ML，是考高数了

zycalice

ML概念推荐补充：
-哪些classifiers/models are still robust given outliers
-哪些classifiers/models are less influenced by missing values
-random forest和有boosting tree models有什么区别
-什么是boosting，什么是bagging

机器学习八股文 (一)

注册一亩三分地论坛，查看更多干货！

评分

相关帖子

本帖被以下淘专辑推荐:

评分

评分