自然语言处理NLP系列:StarSpace: Embed All The Things
《StarSpace: Embed All The Things》论文提出了一种通用的神经嵌入系统StarSpace,可以解决多种问题的模型:标签任务(如文本分类)、排名任务(如信息检索/web搜索)、基于协作的过滤或基于内容的推荐,嵌入多关系图,学习单词、句子或文档水平嵌入。在每种情况下,该模型都通过嵌入由离散特征组成的实体并相互比较来工作——学习依赖于任务的相似性。一些任务的实证结果显示与现有方法相比,星际空间具有很强的竞争力。
好消息
基于Facebook的Star Space论文思想,继英语版本后,我们的核心产品星空智能对话机器人支持汉语版本啦!
成功测试通过,支持汉语版本啦!
StarSpace 论文
https://arxiv.org/pdf/1709.03856.pdf
StarSpace Github
https://github.com/facebookresearch/StarSpace
StarSpace是一种通用神经模型,用于有效学习实体嵌入,以解决各种问题:
-
学习单词、句子或文档级嵌入。 -
信息检索:对实体/文档或对象集进行排序,例如对web文档进行排序。 -
文本分类或任何其他标签任务。 -
度量/相似性学习,例如学习句子或文档相似性。 -
基于内容或基于协同过滤的推荐,例如推荐音乐或视频。 -
嵌入图,例如多关系图,如Freebase。 -
图像分类、排序或检索(例如,使用现有的ResNet特征)。 -
在一般情况下,它学习将不同类型的对象表示到一个公共向量嵌入空间中,从而在名称中使用星号(’*’,通配符)和空格,并在该空间中相互比较。它学习对给定查询实体/文档或对象的一组实体/文档或对象进行排序,查询实体/文档或对象的类型不一定与集合中的项目相同。 -
星际空间在Python中可用:有关详细信息,请查看Building StarSpace部分。 -
支持从压缩文件读取:有关更多详细信息,请查看压缩文件部分。 -
新的许可证和专利:现在星际空间在麻省理工学院的许可,签出许可证以获取详细信息。 -
使用小批量训练(通过“-batchSize”参数设置批量大小),星际空间训练速度要快得多。详情见#190。 -
增加了对实值输入和标签权重的支持:查看文件格式和ImageSpace部分,了解如何在输入和标签中使用权重的更多详细信息。
|