一、前言
相信关注我的很多小伙伴都是深度学习相关的方向,所以数据集也是必定不可少的一部分,但是数据集找起来难,特别是一些和国际前沿挂钩的计算机视觉和模式识别方向,很多时候需要下载多达几十个G的数据集,有时候是提供Google云盘的链接,有时候是去数据集作者官网下载、有时候甚至都没办法找到相关数据集的链接,所以我稍微整理了一下数据集常用的寻找方法,希望对研一入门的萌新提供一定的助力。
如果大家觉得本公众号的内容对大家有帮助,还请各位小伙伴多多分享给自己同学,让我更新更有动力!
二、常用方法
1.论文内提供
这也是最常见的方式,一般论文在Abstract部分就会提供一个Github仓库地址,当你打开之后会在Readme文件里面看到Training数据集的链接或者直接提供网盘链接,这也是最快最便捷的方式。

然后点开Github地址后可以迅速找到相关训练集和测试集信息:

直接跳转到相关页面下载即可,这里我就不多教了,不过大家可以下载一个IDM,能极大地提高下载速度。
2.去Kaggle数据集网址寻找
Kaggle是一个流行的数据科学竞赛平台,同一个问题可以有多个模型来解决,但是研究者不可能在一开始就了解哪些模型是最好的,Kaggle应运而生,大家可以在这个平台上集思广益。对于小白来说,诱惑力之一还是平台上众多的数据集。我们需要的99%的数据集都能在该平台找到答案,如果再找不到就只能依靠强大的Google了。
我们直接打开一下网址即可:
https://www.kaggle.com/datasets
进入到一下界面:

直接在搜索框内搜索你需要的数据集名字即可,目前Kaggle数据集网址包含接近102581个数据集,基本上能解决你大多数烦恼的数据集问题,我尝试搜索一个我常用的训练数据集Vimeo90K给大家举例:

能很快并且精确的找到我想要的数据集,然后我们直接点击该数据集即可进入相关数据集内部信息展示网页:

数据集相关信息展示在了左边栏目,明确可以看到数据集大小为32.28GB,和论文中大小一致,同时我们可以在中间栏目看到数据集内文件,点开即可直接查看数据集内图片信息,这样能帮助我们很快确定是否是我们所需数据集:

最后我们回到数据集主页,点击中间区域的下载按钮即可开始下载:

我们直接点击保存按钮即可开始下载数据集:

并且Kaggle数据集官网无需翻墙即可下载,并且下载速度为5Mb/S,以及很让人满意了,相比我们从google云盘下载会遇到下载中断的情况,该网址基本上从未断连过。

3.去Google数据集网页下载(科学上网)
如果说最后的压轴方法–还是得看Google行事,毕竟Google永远能解决你99%的问题,但这里很遗憾的是我们必须要有能科学上网的工具才能进行访问,官网如下所示:
https://datasetsearch.research.google.com/
大家记得收藏该网址,因为真的真的太好用了!!再也不会让数据集困扰你,只能说yyds!!

我们直接在搜索栏输入我们想要搜索的数据集相关信息即可!这里也是尝试搜索上方的数据集Vimeo90K作为对比实验:

可以很明显的看到第二项就是我们所需的数据集,并且相近的关键词数据集也会给你推荐,我们尝试点开数据集主页进行访问:

我们甚至还能从Google学术搜索里面看到有多少篇文献引用了该数据集,并且我们能直接访问,简直真的太便捷了!真的,Google永远是你最佳科研小助手!
三、结论
到这里就基本上能帮助大家找到所需的数据集了,如果再找不到你就只能问师兄师姐是否能提供相应帮助了。在这里我也希望大家能多加我微信入群,积极讨论各类研究生必备软件以及科研经验贴,我将持续给大家分享各类科研经验以及神级软件和网站,助大家早日发SCI!

最后,这里是你我的灿烂人生,希望大家点赞、关注、转发三连支持!我会持续为大家更新更多科研神器和黑科技软件!
|