毕设

Linux运行python文件
python3 script.py

Hugging Face
"NLP 界的 GitHub"
Hugging Face 系列视频(一):Hugging Face 及 Transformer/Datasets/Tokenizers库
Huggingface的介绍,使用(CSDN最强Huggingface入门手册)

Fine tuning 微调
将模型迁移学习,影响因素:新数据集的大小、新数据和原数据集的相似程度
CNN入门讲解:什么是微调(Fine Tune)?
什么是fine-tuning?
预训练大语言模型的三种微调技术总结:fine-tuning、parameter-efficient fine-tuning和prompt-tuning的介绍和对比

使用 COCO 数据集进行预训练的 VIT-GPT2 模型
COCO:起源于微软的、大型的、丰富的物体检测数据集
Dataset之COCO数据集:COCO数据集的简介、下载、使用方法之详细攻略
vit-gpt2-image-captioning

CLIP
详解CLIP (一) | 打通文本-图像预训练实现ImageNet的zero-shot分类,比肩全监督训练的ResNet50/101
openai多模态大模型:clip详解及实战
神器CLIP:连接文本和图像,打造可迁移的视觉模型

VIT
embedding:通过矩阵乘法,将token升降维,从而让计算机理解。将一个东西映射为向量

linear层:1. 将每个patch变成一维 2. 使一维向量的维度和 transformer 输入维度相符

位置编码和embedding相加

是一个特征提取器
先将图像分割为不同的patch
然后将每个patch拉成一个向量,加入位置信息

transformer必须在大量数据

Vision Transformer(ViT)PyTorch代码全解析(附图解)
用🤗 Transformers微调ViT图像分类

deepfashion
图片:750x1101,共44096个

赞赏