通过研究代码的运行,发现pytorch_transformers和之前使用的tensorflow版的有很大不同。
所以这里总结一下。
这篇文章的目的是说明如何使用pytorch_transformers中的bert(1024)来编码词向量。
第一步?安装transformers
pip install pytorch_transformers
第二步?下载必要的预训练文件
链接:https://pan.baidu.com/s/1JYqzX1dPum9YwcgBTzpX9g? 提取码:w0md?
感谢https://blog.csdn.net/weixin_41519463/article/details/100863313提供的详细说明和资料。 上面是768位pytorch_transformers的提前下载的预训练文件。
可是我的代码用的是1024位的,根据bug提示,应该是在这里下载。
https://s3.amazonaws.com/models.huggingface.co/bert/bert-large-uncased-pytorch_model.bin
结果下载了一个小时,才下载了一点点。试了很多方法都没有用,比如:https://blog.csdn.net/caokang1314/article/details/103107391/
最后采用下面方法
https://blog.csdn.net/HaoKing9420/article/details/95663819?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-3.base&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-3.base
这网页的作者提出用流量下载,有一说一是真的快,平均6m/s
一下子就下好了
|