毕设 | Jerome

Linux运行python文件
python3 script.py

Hugging Face
"NLP 界的 GitHub"
Hugging Face 系列视频（一）：Hugging Face 及 Transformer/Datasets/Tokenizers库
 Huggingface的介绍，使用（CSDN最强Huggingface入门手册）

Fine tuning 微调
将模型迁移学习，影响因素：新数据集的大小、新数据和原数据集的相似程度
CNN入门讲解：什么是微调（Fine Tune）？
什么是fine-tuning？
预训练大语言模型的三种微调技术总结：fine-tuning、parameter-efficient fine-tuning和prompt-tuning的介绍和对比

使用 COCO 数据集进行预训练的 VIT-GPT2 模型
COCO：起源于微软的、大型的、丰富的物体检测数据集
Dataset之COCO数据集：COCO数据集的简介、下载、使用方法之详细攻略
 vit-gpt2-image-captioning

CLIP
详解CLIP (一) | 打通文本-图像预训练实现ImageNet的zero-shot分类，比肩全监督训练的ResNet50/101
openai多模态大模型：clip详解及实战
 神器CLIP：连接文本和图像，打造可迁移的视觉模型

VIT
embedding：通过矩阵乘法，将token升降维，从而让计算机理解。将一个东西映射为向量

linear层：1. 将每个patch变成一维 2. 使一维向量的维度和 transformer 输入维度相符

位置编码和embedding相加

是一个特征提取器
先将图像分割为不同的patch
然后将每个patch拉成一个向量，加入位置信息

transformer必须在大量数据

deepfashion
图片：750x1101，共44096个

毕设