1. ML基础概念类
overfitting/underfiting是指的什么
bias/variance trade off 是指的什么
过拟合一般有哪些预防手段
Generative和Discrimitive的区别
Give a set of ground truths and 2 models, how do you be confident that one model is better than another?
1.1 Reguarlization:
L1 vs L2, which one is which and difference
Lasso/Ridge的解释 (prior分别是什么)
Lasso/Ridge的推导
为什么L1比L2稀疏
为什么regularization works
为什么regularization用L1 L2,而不是L3, L4..
1.2 Metric:
precision and recall, trade-off
label 不平衡时用什么metric
分类问题该选用什么metric,and why
confusion matrix
AUC的解释 (the probability of ranking a randomly selected positive sample higher blablabla....)
true positive rate, false positive rate, ROC
Log-loss是什么,什么时候用logloss
还有一些和场景比较相关的问题,比如ranking design的时候用什么metric,推荐的时候用什么.等.不在这个讨论范围内
1.3 Loss与优化
用MSE做loss的Logistic Rregression是convex problem吗
解释并写出MSE的公式, 什么时候用到MSE?
Linear Regression最小二乘法和MLE关系
什么是relative entropy/crossentropy, 以及K-L divergence 他们intuition
Logistic Regression的loss是什么
Logistic Regression的 Loss 推导
SVM的loss是什么
Multiclass Logistic Regression然后问了一个为什么用cross entropy做cost function
Decision Tree split node的时候优化目标是啥
2. DL基础概念类
DNN为什么要有bias term, bias term的intuition是什么
什么是Back Propagation
梯度消失和梯度爆炸是什么,怎么解决
神经网络初始化能不能把weights都initialize成0
DNN和Logistic Regression的区别
你为什么觉得DNN的拟合能力比Logistic Regression强
how to do hyperparameter tuning in DL/ random search, grid search
Deep Learning有哪些预防overfitting的办法
什么是Dropout,why it works,dropout的流程是什么 (训练和测试时的区别)
什么是Batch Norm, why it works, BN的流程是什么 (训练和测试时的区别)
common activation functions (sigmoid, tanh, relu, leaky relu) 是什么以及每个的优缺点
为什么需要non-linear activation functions
Different optimizers (SGD, RMSprop, Momentum, Adagrad,Adam) 的区别
Batch 和 SGD的优缺点, Batch size的影响
learning rate过大过小对于模型的影响
Problem of Plateau, saddle point
When transfer learning makes sense.
ML概念推荐补充:
-哪些classifiers/models are still robust given outliers
-哪些classifiers/models are less influenced by missing values
-random forest和有boosting tree models有什么区别
-什么是boosting,什么是bagging