2021美赛C题亚洲大黄蜂思路
序言:
第一题的模型就用种群繁衍,然后用python做地图的可视化,这就是数学公式啦,把地球近似成一个球体然后用角度和勾股定理模拟三代的繁衍(一开始只有三个巢穴是官方给的文献能够找到)
1.图像识别
CNN卷积神经网络
2.TF-IDF
Term Frequency - Inverse Document Frequency = 词频-逆文本频率
把语言向量化,TF-IDF把每一个文档 够早晨一个相量 把这个相量放在一个空间中 计算机计算空间的效率是最高的,深度学习就是把一个向量计算出来然后放在一个空间中去计算位置与位置的距离,角度与角度之间的大小,通过对比,最终实现搜索和匹配,闲聊机器人、搜索,基于这种底层逻辑!
就是说 像在卖房的中介说了一大堆话,我怎么知道他说的话里面哪句话对我是最重要的
把正确发现大黄蜂的描述文本创建一个TF-IDF,把后面每一个需要判断的文本都输入进来计算TF*IDF最后计算两个的余弦相似度,作为一个评分。
不足:不同领域的IDF不同,(中文结巴分词)这里没有特定的分领域。
3. 地点
用图论
4.整合成一个模型
把上述三种不同的描述方面,整合成一个单独的能够判断下一次上报的信息的可能性的一个模型
这里我们用的是层次分析法,首先是去量纲,然后归一化,查阅相关的文献,然后给三个不同的判断方向的,
5.分类与模型灵敏度分析
我们的需求是通过概率来分类,我们这里用二分类,要么消息是真的,要么是假的,这个时候ROC曲线当仁不让,用的是stata
TPR是真阳性检出率(灵敏度)
FPR是假阳性率 = 1 - 真阴性检出率(特异度)
我们要让假阳性尽可能的小,真阳性尽可能的大,所以要越往左上角靠越好。我们要定义评分体系的最合理的“及格”分数是多少,就要用到ROC的约登指数来找出最佳阈值
约登指数 = 敏感度+特异度-1
ps:2021-10-01来看上榜了, 感谢大家支持啦~~~~
|