机器学习
- 为什么逻辑回归使用交叉熵损失函数?(字节跳动)
- 交叉熵(以二分类为例)相比于平方差在对错误分类进行惩罚时惩罚更加大,使模型更易于收敛;
- 相对熵?(为真实分布),是交叉熵,是真实熵为常数,因此交叉熵能衡量分布差异性;
- 交叉熵为凸函数(二阶导),平方差为非凸函数(s.t. 逻辑回归,非多层MLP),使用交叉熵更容易全局收敛。
- 针对数据分布不平衡,怎么进行评估?(字节跳动)
- 面试官和网上的答案都认为是采用(先将各个类别的、、、进行累加,再求总的值),认为这能缓解类别分布不平衡现象,我觉得他们可能想提的是当个别类别指标差距很大时,能防止某些类别影响结果总体表现;
- 但是我认为,?求的是伪指标,掩盖了真实分布,会导致辛普森悖论(
Simpson's paradox),采用(先对各个类别求,再做平均)能消除类别不平衡带来的影响,得到真实结果。?
- AUC的面积代表什么?(字节跳动)
- AUC曲线是选择不同的分类阈值得到一批精确率、召回率的点,绘制的曲线,曲线下方的面积即为AUC值,越大(曲线越往左上角靠近)表示模型性能越出色。
算法题
- 计算圆周率(字节跳动)
- 判断数组是否为二叉搜索树的后序遍历(字节跳动)
|