Few-shot Object Detection via Feature Reweighting代码复现
说明
????上篇文章记录了我配置环境的过程,现在看来感觉有点啰嗦,所以打算写一篇简洁的配置环境的流程,这篇文章是few-shot learning运用于目标检测的比较早的文章,最近貌似few-shot learning比较火,估计很多人都会以这篇文章作为切入点。
配置环境
很多人可能会用pycharm创建环境,但是在租用服务器的时候有时候没有图形界面,比较麻烦,所以我写一个黑框(终端)的比较通用(在pycharm的终端里也可以使用)的版本,步骤如下: (1)基础电脑操作系统为ubantu(为了更好的操作,可以装个ubantu,变为双系统,如果条件允许,多分点内存给ubantu吧,不然后面内存不足太难受了),我目前只在ubantu上配通。另外还需要装个Anocaonda(去官网找对应ubantu的安装包),常用的版本就行。租用服务器的话一般都自带有Anocaonda。我常租用的服务器是 MistGPU,其他的没怎么用过。关于MistGPU的使用,我写了一个教程: MistGPU云服务器的使用. (2)下载代码: 代码,并解压。 (3)cd进入到主目录下,或者在主目录下打开终端。 (4)创建虚拟环境:
conda create -n xxx python=2.7 # xxx为你设定的虚拟环境的名字,假设为few
会提示下载一些东西,输入y,摁Enter。 (5)激活虚拟环境
conda activate few
(6)执行requirements.txt
pip install -r requirements.txt
????requirements.txt为代码运行需要的一些包。 ????如果显示requirements.txt中opencv版本不匹配,没有3.4.2,我修改equirements.txt中opencv版本为3.4.2.16后,再执行pip install -r requirements.txt,没有报错,就是看你的报错里显示支持哪个版本,选一个改一下再执行requirements.txt即可。 (7)执行requirements.txt成功后,配置pytorch和cuda,执行
pip install torch==1.4.0+cu92 torchvision==0.5.0+cu92 -f https://download.pytorch.org/whl/torch_stable.html
????记得验证下cuda是否能用:import torch … 具体语句记不清了,网上都能查到的。 以上都没有报错的话,环境是没多大问题了。接下来就是准备数据集,具体可以看上一篇文章链接: Few-shot Object Detection via Feature Reweighting论文学习以及复现,可能遇到的问题啥的基本都记录了。后面有时间再写下如何准备数据集吧,特别是对于新的数据集怎么处理、怎们改使其符合代码需要的格式。 (8)数据集格式 将整个代码工程放在一个名为fewshot的文件夹下,在里面创建一个名为voc的文件夹存放数据集。整个框架如下: 关于数据集类别的问题: ????代码里有关于voc、coco数据集的代码,如果训练这些数据集的话,可以直接选对应的参数既可,数据集的准备过程按照作者给的步骤操作就行,假如训练新的数据集的话就可以用我的数据准备的方法,我也是模仿作者所给的步骤所得出的框架。 ????训练新的数据集,如果直接改类别,就要改一些代码,而且还可能报错,我尝试了一下,报错了,改起来貌似挺麻烦。其实可以这样,把自己的类别与代码里的类别对应即可,就是用代码里的类别代替自己数据的类别,自己注意对应关系即可,训练过程中使用的是class_id。
__C.voc_classes = ["aeroplane", "bicycle", "bird", "boat", "bottle",
"bus", "car", "cat", "chair", "cow", "diningtable",
"dog", "horse", "motorbike", "person", "pottedplant",
"sheep", "sofa", "train", "tvmonitor"]
修改示例: 假如我有6个类,plane1、tank1、ship1、plane2、tank2、ship2,用voc class中的 [“aeroplane”, “bicycle”, “bird”, “boat”, “bottle”, “bus”]来表示即可(记得修改xml文件对应),并修改标签类别id分别为0、1、2、3、4、5、6(修改txt). 具体步骤: a.先把新的数据集标签格式转为yolo格式:class_id x,y,w,h (网上代码很多) b.把数据集按类分出来,得到label_1c对应的数据,代码如下:
txtpath = r"path/labels"
txtnames = os.listdir(txtpath)
# 分类
for i in txtnames:
with open(txtpath + '/' + i, "r") as f:
l = []
file = f.readlines()
print(i)
# flag = 0
for line in file:
line = line.strip("\n")
dd = line.split()
if dd[0] == '2':
# flag = flag + 1
l.append(dd)
if len(l)>0:
with open(r"xxx\labels_1c/xx/" + i, 'w') as q:
for j in l:
tem =j[0]+" "+j[1]+" "+j[2]+" "+j[3]+" "+j[4]
q.write(tem+'\n')
(2)制作xml文件(如果自带xml文件,记得修改对应的类别,详见修改示例),txt文件转xml,代码如下:
from xml.dom.minidom import Document
import os
import cv2
# def makexml(txtPath, xmlPath, picPath): # txt所在文件夹路径,xml文件保存路径,图片所在文件夹路径
def makexml(picPath, txtPath, xmlPath): # txt所在文件夹路径,xml文件保存路径,图片所在文件夹路径
"""此函数用于将yolo格式txt标注文件转换为voc格式xml标注文件
"""
dic = {'0': "aeroplane", # 创建字典用来对类型进行转换
'1': "bicycle", # 此处的字典要与自己的classes.txt文件中的类对应,且顺序要一致
'2': "bird",
'3': "boat",
'4': "cow",
'5': "bus",
}
files = os.listdir(txtPath)
for i, name in enumerate(files):
xmlBuilder = Document()
annotation = xmlBuilder.createElement("annotation") # 创建annotation标签
xmlBuilder.appendChild(annotation)
txtFile = open(txtPath + name)
txtList = txtFile.readlines()
img = cv2.imread(picPath + name[0:-4] + ".tif")
Pheight, Pwidth, Pdepth = img.shape
folder = xmlBuilder.createElement("folder") # folder标签
foldercontent = xmlBuilder.createTextNode("driving_annotation_dataset")
folder.appendChild(foldercontent)
annotation.appendChild(folder) # folder标签结束
filename = xmlBuilder.createElement("filename") # filename标签
filenamecontent = xmlBuilder.createTextNode(name[0:-4] + ".tif")
filename.appendChild(filenamecontent)
annotation.appendChild(filename) # filename标签结束
size = xmlBuilder.createElement("size") # size标签
width = xmlBuilder.createElement("width") # size子标签width
widthcontent = xmlBuilder.createTextNode(str(Pwidth))
width.appendChild(widthcontent)
size.appendChild(width) # size子标签width结束
height = xmlBuilder.createElement("height") # size子标签height
heightcontent = xmlBuilder.createTextNode(str(Pheight))
height.appendChild(heightcontent)
size.appendChild(height) # size子标签height结束
depth = xmlBuilder.createElement("depth") # size子标签depth
depthcontent = xmlBuilder.createTextNode(str(Pdepth))
depth.appendChild(depthcontent)
size.appendChild(depth) # size子标签depth结束
annotation.appendChild(size) # size标签结束
for j in txtList:
oneline = j.strip().split(" ")
object = xmlBuilder.createElement("object") # object 标签
picname = xmlBuilder.createElement("name") # name标签
namecontent = xmlBuilder.createTextNode(dic[oneline[0]])
picname.appendChild(namecontent)
object.appendChild(picname) # name标签结束
pose = xmlBuilder.createElement("pose") # pose标签
posecontent = xmlBuilder.createTextNode("Unspecified")
pose.appendChild(posecontent)
object.appendChild(pose) # pose标签结束
truncated = xmlBuilder.createElement("truncated") # truncated标签
truncatedContent = xmlBuilder.createTextNode("0")
truncated.appendChild(truncatedContent)
object.appendChild(truncated) # truncated标签结束
difficult = xmlBuilder.createElement("difficult") # difficult标签
difficultcontent = xmlBuilder.createTextNode("0")
difficult.appendChild(difficultcontent)
object.appendChild(difficult) # difficult标签结束
bndbox = xmlBuilder.createElement("bndbox") # bndbox标签
xmin = xmlBuilder.createElement("xmin") # xmin标签
mathData = int(((float(oneline[1])) * Pwidth + 1) - (float(oneline[3])) * 0.5 * Pwidth)
xminContent = xmlBuilder.createTextNode(str(mathData))
xmin.appendChild(xminContent)
bndbox.appendChild(xmin) # xmin标签结束
ymin = xmlBuilder.createElement("ymin") # ymin标签
mathData = int(((float(oneline[2])) * Pheight + 1) - (float(oneline[4])) * 0.5 * Pheight)
yminContent = xmlBuilder.createTextNode(str(mathData))
ymin.appendChild(yminContent)
bndbox.appendChild(ymin) # ymin标签结束
xmax = xmlBuilder.createElement("xmax") # xmax标签
mathData = int(((float(oneline[1])) * Pwidth + 1) + (float(oneline[3])) * 0.5 * Pwidth)
xmaxContent = xmlBuilder.createTextNode(str(mathData))
xmax.appendChild(xmaxContent)
bndbox.appendChild(xmax) # xmax标签结束
ymax = xmlBuilder.createElement("ymax") # ymax标签
mathData = int(((float(oneline[2])) * Pheight + 1) + (float(oneline[4])) * 0.5 * Pheight)
ymaxContent = xmlBuilder.createTextNode(str(mathData))
ymax.appendChild(ymaxContent)
bndbox.appendChild(ymax) # ymax标签结束
object.appendChild(bndbox) # bndbox标签结束
annotation.appendChild(object) # object标签结束
f = open(xmlPath + name[0:-4] + ".xml", 'w')
xmlBuilder.writexml(f, indent='\t', newl='\n', addindent='\t', encoding='utf-8')
f.close()
if __name__ == "__main__":
picPath = r"D:\BaiduNetdiskDownload\fewshot\xView_split_clearE1\train\test_image/" # 图片所在文件夹路径,后面的/一定要带上
txtPath = r"D:\BaiduNetdiskDownload\fewshot\xView_split_clearE1\train\test_txt/" # txt所在文件夹路径,后面的/一定要带上
xmlPath = r"D:\BaiduNetdiskDownload\fewshot\xView_split_clearE1\train\1/" # xml文件保存路径,后面的/一定要带上
makexml(picPath, txtPath, xmlPath)
自己修改对应的路径即可。 (3)分训练数据和测试数据,分好后,获取训练数据图片的路径,制作train.txt,获取测试图片的路径,制作test.txt
|