1. 研究问题与背景

1.1 目标检测任务

目标检测（Object Detection）的目的是“识别目标并给出其在图中的确切位置”[1]，其内容可解构为三部分：识别某个目标（Classification）；给出目标在图中的位置（Localization）；识别图中所有的目标及其位置（Detection）。从这三点可以看出目标检测的难度要比图像分类大很多，后者只需要确定输入的图像属于哪一类即可，而前者需要从图像中自动抠出（crop）合适大小的patch，并确定它的类别。目标检测的基本思路：同时解决定位（localization） + 检测（detection）。

1.2 组合式图像检索任务

组合式图像检索即从大型语料库中找到最匹配用户查询提供的图像-语言对的图像。传统的基于内容的[2]或基于文本的[3]图像检索使用单一模态来描述目标图像，而组合图像检索则涉及视觉和文本模态来指定用户的意图。

1.3 预训练模型

利用深度学习自动学习特征已经逐步取代了人工构建特征和统计方法。但其中一个关键问题是需要大量的数据，否则会因为参数过多过拟合。但是这个成本非常高昂，那么如何在有限数据下训练高效的深度学习模型变得至关重要。一个重要的里程碑是转移学习，不是从大量数据中从头开始学习，而是利用少量样例来解决问题。转移学习有两个阶段：预训练+微调，微调阶段就是转移预训练阶段学到的知识到特定任务上。这一方法首先在计算机视觉（CV）领域取得成功，这是对预训练模型（PTMs）的第一波探索浪潮。
自然语言处理（NLP）领域采用了自监督学习进行预训练，其动机是利用文本内在关联作为监督信号取代人工标注。最初的探索聚焦在浅层预训练模型获取词的语义，比如 Word2Vec 和 Glove，但它们的局限是无法很好地表征一词多义。自然而然地，就想到了利用 RNN 来提供上下文表征，但彼时的模型表现仍受限于模型大小和深度。2018 年 GPT 和 BERT 横空出世，将 NLP 的 PTM 带入了新时代。
这些新模型都很大，大量的参数可以从文本中捕捉到一词多义、词法、句法结构、现实知识等信息，通过对模型微调，只要很少的样例就可以在下游任务上取得惊人的表现。到了现在，在大规模 PTMs 上对特定任务进行微调已经成为业界共识。

2. 困难与挑战

对于一些计算机视觉问题，如目标检测、图像分割和图像分类，在大规模数据集上进行预训练是常见的[4]。这是因为它可以得到更好的结果和更快的收敛速度[5]。然而，在计算机视觉中，预训练的效果通常是通过图像分类任务的训练网络来评估的，数据集如ImageNet [6] ，但很少用于目标检测。
对于组合式图像检索，面临的挑战是，不清楚哪些信息是重要的(通常是场景中的一个感兴趣的对象)，哪些信息是可以忽略的(比如背景和其他不相关的对象)。现实生活中的图像通常包含各种尺度上丰富的物体交互作用。在每种情况下，为了容易地识别需要保持或改变的相关方面，并较少关注其他方面(例如，狗毛的颜色和背景对象)，模型必须发展深入的视觉推理能力，并在视觉和语言环境中推断出隐含的人类共识。然而，现有的数据集仅限于时尚产品[7]或图像内容相对简单的合成对象[8]等领域。
尽管已经取得了很大的成功，但还有一些基本的问题：我们仍然不清楚隐藏在大量模型参数中的本质，训练这些庞然大物的巨大计算成本也阻碍了进一步探索。PTMs 已经将 AI 研究者推到了一个十字路口。

3. 研究进展

大规模的预训练深度学习在计算机视觉领域的初步成功可以在很大程度上归功于迁移学习。在各种各样的识别任务中，如对象检测，语义分割，场景分类，动作/事件识别等，ImageNet的预训练对于提高最先进的结果是至关重要的。由于预训练的重要性，为了获得更好的性能，趋势是继续收集越来越大的分类数据集，如JFT， Places和Instagram。虽然大规模分类的效果得到了广泛的研究[9]，但关于预训练对目标检测的影响的研究却很少。[10]在对小型检测数据集进行微调时表明，当需要更高程度的本地化时，对大型检测数据集进行预训练是非常有益的。通常，检测预训练对于空间信息很重要的任务（如检测和分割）是有益的，但当需要空间不变性（如分类）时，可能会影响性能。
关于Vision-and-language训练。预训练BERT[11]的成功激发了对VLP模型的无数尝试，包括[12]。其目标是开发基于transformer的模型，在大规模图像-文本三元组上训练，以产生适用于各种任务的V&L表示。其优势是显而易见的，不同的V&L任务可以从(通常)相当大的图像-文本语料库中学习表示开始，而不是从零开始在任务特定的数据集上训练整体模型，并对特定的任务进行调优。基于其他检索任务的成功，[13]在组合图像检索中采用VLP模型。关键的障碍是设计架构以鼓励对图像特征进行控制修改，这与此类模型的传统用例有很大的不同。

4. 未来展望

更大的模型以及改进的模型架构将促进预训练模型在目标检测任务和组合式图像检索任务上的应用。预训练模型（PTMs）成功的关键是自监督学习和 Transformer 的整合。此外，整合丰富的数据源也是一个重要的方向，例如利用多语言语料库、知识图谱和图像。由于模型规模是 PTMs 的关键成功因素，研究人员还探索建立更大的模型以达到超过数百亿的参数，并同时对训练 PTM 进行计算效率优化。

参考文献

[1]Liu, Yang, et al. “A survey and performance evaluation of deep learning methods for small object detection.” Expert Systems with Applications (2021): 114602.
[2] S. Tong and E. Chang. Support V ector Machine active learning for image retrieval. InProceedings of the Ninth ACM International Conference on Multimedia, 2001.
[3] C. Zhang, J. Y . Chai, and R. Jin. User term feedback in in-teractive text-based image retrieval.Proceedings of the 28th Annual International ACM SIGIR Conference on Research
and Development in Information Retrieval, 2005.
[4] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. InProceedings of the IEEE conference on computer vision and pattern recogni-
tion, pages 3431–3440, 2015.
[5] D. Mahajan, R. Girshick, V . Ramanathan, K. He, M. Paluri, Y . Li, A. Bharambe, and L. van der Maaten. Exploring the limits of weakly supervised pretraining. InProceedings of the European Conference on Computer Vision (ECCV), pages 181–196, 2018.
[6] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. Imagenet: A large-scale hierarchical image database. In2009 IEEE conference on computer vision and pattern recognition, pages 248–255. Ieee, 2009.
[7] X. Guo, H. Wu, Y . Gao, S. J. Rennie, and R. Feris. The Fashion IQ Dataset: Retrieving images by combining side information and relative natural language feedback.ArXiv,
abs/1905.12794, 2019.
[8] N. V o, L. Jiang, C. Sun, K. Murphy, L.-J. Li, L. Fei-Fei, and J. Hays. Composing text and image for image retrieval - an empirical odyssey. InIEEE Conference on Computer Vision
and Pattern Recognition, 2019.
[9]A. Sharif Razavian, H. Azizpour, J. Sullivan, and S. Carls- son. Cnn features off-the-shelf: an astounding baseline for recognition. InProceedings of the IEEE conference on computer vision and pattern recognition workshops, pages 806–813, 2014.
[10] Li, Hengduo, et al. “An analysis of pre-training on object detection.” arXiv preprint arXiv:1904.05871 (2019).
[11]J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova. BERT: Pre-training of deep bidirectional transformers for language understanding. InConference of the North American Chap-
ter of the Association for Computational Linguistics, 2019.
[12]Y .-C. Chen, L. Li, L. Y u, A. E. Kholy, F. Ahmed, Z. Gan, Y . Cheng, and J. Liu. Uniter: Universal image-text repre-sentation learning. InEuropean Conference on Computer Vision, 2020.2.
[13] Liu, Zheyuan, et al. “Image retrieval on real-life images with pre-trained vision-and-language models.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021.