机器学习
- 为什么逻辑回归使用交叉熵损失函数?(字节跳动)
- 交叉熵
(以二分类为例)相比于平方差 在对错误分类进行惩罚时惩罚更加大,使模型更易于收敛; - 相对熵
?( 为真实分布), 是交叉熵, 是真实熵为常数,因此交叉熵能衡量分布差异性; - 交叉熵为凸函数(二阶导),平方差为非凸函数(s.t. 逻辑回归,非多层MLP),使用交叉熵更容易全局收敛。
- 针对数据分布不平衡,怎么进行评估?(字节跳动)
- 面试官和网上的答案都认为是采用
(先将各个类别的 、 、 、 进行累加,再求总的 值),认为这能缓解类别分布不平衡现象,我觉得他们可能想提的是当个别类别指标差距很大时, 能防止某些类别影响结果总体表现; - 但是我认为,?
求的是伪指标,掩盖了真实分布,会导致辛普森悖论( Simpson's paradox),采用 (先对各个类别求 ,再做平均)能消除类别不平衡带来的影响,得到真实结果。?
- AUC的面积代表什么?(字节跳动)
- AUC曲线是选择不同的分类阈值得到一批精确率、召回率的点,绘制的曲线,曲线下方的面积即为AUC值,越大(曲线越往左上角靠近)表示模型性能越出色。
算法题
- 计算圆周率
(字节跳动)
- 判断数组是否为二叉搜索树的后序遍历(字节跳动)
|