查看: 166397| 回复: 88
跳转到指定楼层
上一主题 下一主题
收起左侧

机器学习八股文 (一)

   
👏 13
全局:

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看附件。没有帐号?注册账号

x
前段时间刷脉脉时发现很多技术八股文的帖子,什么Redis八股文..Java八股文..发现对于需要面试的人来说来说这些“八股文”帖子挺有帮助的,很利于面试前的查缺补漏。
刚好前段时间在积极面试,收集了四五家的Machine Learning Eng, DS/AS 的面经应该有超过三四十个帖子了。
所以准备梳理下收集的各种八股文,或许可以帮助到一些人..

这些问题基本都是面试真题,有些问题很general,有些很具体,有些考察广度有些考察深度,有些是没有唯一正确的答案更多的是在考察系统思考的能力。 其中大部分题目,按照我自己的面试经历来说属于一定是需要扎实掌握的(需要熟背的八股文),可能有几题比较冷门。


1. ML基础概念类
overfitting/underfiting是指的什么
bias/variance trade off 是指的什么
过拟合一般有哪些预防手段
Generative和Discrimitive的区别
Give a set of ground truths and 2 models, how do you be confident that one model is better than another?

1.1 Reguarlization:
L1 vs L2, which one is which and difference
Lasso/Ridge的解释 (prior分别是什么)
Lasso/Ridge的推导
为什么L1比L2稀疏
为什么regularization works
为什么regularization用L1 L2,而不是L3, L4..

1.2 Metric:
precision and recall, trade-off
label 不平衡时用什么metric
分类问题该选用什么metric,and why
confusion matrix
AUC的解释 (the probability of ranking a randomly selected positive sample higher blablabla....)
true positive rate, false positive rate, ROC
Log-loss是什么,什么时候用logloss
还有一些和场景比较相关的问题,比如ranking design的时候用什么metric,推荐的时候用什么.等.不在这个讨论范围内

1.3 Loss与优化
用MSE做loss的Logistic Rregression是convex problem吗
解释并写出MSE的公式, 什么时候用到MSE?
Linear Regression最小二乘法和MLE关系
什么是relative entropy/crossentropy,  以及K-L divergence 他们intuition
Logistic Regression的loss是什么
Logistic Regression的 Loss 推导
SVM的loss是什么
Multiclass Logistic Regression然后问了一个为什么用cross entropy做cost function
Decision Tree split node的时候优化目标是啥

================================
================================

2. DL基础概念类
DNN为什么要有bias term, bias term的intuition是什么
什么是Back Propagation
梯度消失和梯度爆炸是什么,怎么解决
神经网络初始化能不能把weights都initialize成0
DNN和Logistic Regression的区别
你为什么觉得DNN的拟合能力比Logistic Regression强
how to do hyperparameter tuning in DL/ random search, grid search
Deep Learning有哪些预防overfitting的办法
什么是Dropout,why it works,dropout的流程是什么 (训练和测试时的区别)
什么是Batch Norm, why it works, BN的流程是什么 (训练和测试时的区别)
common activation functions (sigmoid, tanh, relu, leaky relu) 是什么以及每个的优缺点
为什么需要non-linear activation functions
Different optimizers (SGD, RMSprop, Momentum, Adagrad,Adam) 的区别
Batch 和 SGD的优缺点, Batch size的影响
learning rate过大过小对于模型的影响
Problem of Plateau, saddle point
When transfer learning makes sense.


整理不容易,求加米。也希望能有些回复鼓励下楼主慢慢把剩下的八股文整理完..(接下来可能还有ML模型类, CNN视觉类, RNN/NLP类, 数据处理类)..

欢迎大家把自己的答案在帖子下面回复..如果有什么问题的也欢迎回帖讨论....

如果有目前这两类的问题也欢迎补充


补充内容 (2021-2-9 12:40):
https://www.1point3acres.com/bbs/thread-714090-1-1.html  第二贴
https://www.1point3acres.com/bbs/thread-714558-1-1.html 第三贴

评分

参与人数 175大米 +348 收起 理由
astrods + 2 很有用的信息!
jiangqueque + 1 给你点个赞!
Mr_HuA + 1 很有用的信息!
YQD + 1 给你点个赞!
Meghanism + 1 很有用的信息!

查看全部评分


上一篇:想了解一下大家都是如何在现有职位上提高自己和开发ML新技能
下一篇:机器学习八股文(二)[海量面经整理]

本帖被以下淘专辑推荐:

推荐
KKKCCC 2021-8-31 23:18:34 | 只看该作者
💯 3
10
🌺 2
全局:
总结了一个快问快答Notion版本, 有些问题回答不是很好, 欢迎大家直接在Notion各个问题里评论.
https://northern-dracopelta-98c. ... b54bc498579b3c7f1c5


补充内容 (2022-07-26 02:17 +8:00):
大家觉得有空可以加米吗,想看面经,感恩的心
回复

使用道具 举报

全局:
补充一个问题: 为什么random forest里每棵树选择样本的概率是63%

补充内容 (2021-2-7 14:04):
hint:e的-1次方约等于0.37

评分

参与人数 1大米 +1 收起 理由
zycalice + 1 赞一个

查看全部评分

回复

使用道具 举报

🔗
sxc6988 2021-2-7 14:00:13 | 只看该作者
全局:
欢迎回帖讨论
回复

使用道具 举报

🔗
 楼主| 川川唔 2021-2-7 14:03:02 来自APP | 只看该作者
全局:
咿呀咿呀哟 发表于 2021-02-06 22:02:14
补充一个问题: 为什么random forest里每棵树选择样本的概率是63%
Good one 我会在下个说ml模型的八股文里加上这个。
回复

使用道具 举报

全局:
咿呀咿呀哟 发表于 2021-02-06 22:02:14
补充一个问题: 为什么random forest里每棵树选择样本的概率是63%
这种太细节了,不会考吧……
回复

使用道具 举报

全局:
哈哈哈楼主发的好快!
回复

使用道具 举报

全局:
哈哈哈从旧帖来顶!楼主搜集的很全,的确是需要背的知识点😂
回复

使用道具 举报

🔗
 楼主| 川川唔 2021-2-7 14:13:21 | 只看该作者
全局:
KGFan 发表于 2021-2-7 14:04
这种太细节了,不会考吧……

这个我觉得不算细节,bootstrap是RF一个最核心的概念的之一。和这个对立的问题还有RF的36.8%的包外估计。
回复

使用道具 举报

全局:
川川唔 发表于 2021-02-06 22:13:21
这个我觉得不算细节,bootstrap是RF一个最核心的概念的之一。和这个对立的问题还有RF的36.8%的包外估计。
但得到这个数需要求极限,这不是考ML,是考高数了
回复

使用道具 举报

全局:
ML概念推荐补充:
-哪些classifiers/models are still robust given outliers
-哪些classifiers/models are less influenced by missing values
-random forest和有boosting tree models有什么区别
-什么是boosting,什么是bagging

评分

参与人数 1大米 +1 收起 理由
川川唔 + 1 赞一个

查看全部评分

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号
隐私提醒:
  • ☑ 禁止发布广告,拉群,贴个人联系方式:找人请去🔗同学同事飞友,拉群请去🔗拉群结伴,广告请去🔗跳蚤市场,和 🔗租房广告|找室友
  • ☑ 论坛内容在发帖 30 分钟内可以编辑,过后则不能删帖。为防止被骚扰甚至人肉,不要公开留微信等联系方式,如有需求请以论坛私信方式发送。
  • ☑ 干货版块可免费使用 🔗超级匿名:面经(美国面经、中国面经、数科面经、PM面经),抖包袱(美国、中国)和录取汇报、定位选校版
  • ☑ 查阅全站 🔗各种匿名方法

本版积分规则

>
快速回复 返回顶部 返回列表