机器视觉算法是计算机视觉领域的关键组成部分,它使计算机能够通过图像和视频数据理解世界。这些算法可以根据它们的功能和用途进行分类。以下是一些常见的分类方式:
1. 图像处理算法
- 预处理:包括去噪、对比度增强、颜色空间转换等。
- 滤波和锐化:用于改善图像质量或提取特定特征。
- 边缘检测:如Sobel、Canny算法,用于检测图像中的边缘。
2. 特征提取算法
- 角点检测:如Harris角点检测、Shi-Tomasi算法。
- 兴趣点检测:如SIFT(尺度不变特征变换)、SURF(加速稳健特征)。
- 特征描述子:如ORB(Oriented FAST and Rotated BRIEF)。
3. 图像分类 (Image Classification)
- 任务说明:将整个图像分配给一个或多个类别。
- 常用算法:
- AlexNet
- VGGNet
- ResNet
- Inception
- DenseNet
- EfficientNet
- 转移学习:使用预训练的CNN模型进行微调以适应特定的图像分类任务。
4. 目标检测与识别 (Object Detection)
- 任务说明:在图像中识别物体的位置,并将每个物体分类。
- 常用算法:
- R-CNN及其变体(Fast R-CNN, Faster R-CNN)
- YOLO系列(YOLOv1至YOLOv5)
- SSD (Single Shot MultiBox Detector)
- RetinaNet
- 目标识别:CNN 变体
5. 图像分割 (Image Segmentation)
- 任务说明:将图像分割成多个区域或对象,可以进一步细分为语义分割和实例分割。
- 常用算法:
- FCN (Fully Convolutional Networks)
- U-Net
- Mask R-CNN(实例分割)
- DeepLab系列
- PSPNet (Pyramid Scene Parsing Network)
6. 姿态估计 (Pose Estimation)
- 任务说明:估计图像中人或对象的姿态或关节位置。
- 常用算法:
- OpenPose
- AlphaPose
- DensePose
- PoseNet
7. 物体跟踪 (Object Tracking)
- 任务说明:在视频序列中跟踪一个或多个对象的运动。
- 常用算法:
- SiamFC (Siamese Fully Convolutional Network)
- SORT/Simple Online and Realtime Tracking
8. 图像生成 (Image Generation)
- 任务说明:从现有的图像或随机噪声生成新图像。
- 常用算法:
- GANs (Generative Adversarial Networks) 及其变体(CGAN, DCGAN, StyleGAN)
- VAEs (Variational Autoencoders)
- PixelRNN/PixelCNN
- 扩散模型
9. 图像恢复 (Image Restoration)
- 任务说明:从损坏或降质的图像中恢复出清晰图像。
- 常用算法:
- SRCNN (Super-Resolution Convolutional Neural Network)
- VDSR (Very Deep Super-Resolution)
- GANs在图像超分辨率方面的应用
- Denoising Autoencoders
10. 3D重建 (3D Reconstruction)
- 任务说明:从一系列图像中重建出三维场景或对象的结构。
- 常用算法:
- Multi-View Stereo (MVS)
- COLMAP
11. 行为分析 (Action Analysis)
- 任务说明:分析视频中的人或物体的行为,比如行人的行走路线、人群的动态等。
- 常用算法:
- C3D (Convolutional 3D Networks)
- I3D (Inflated 3D ConvNet)
12. 视觉问答 (Visual Question Answering)
- 任务说明:根据给定图像和自然语言问题提供答案。
- 常用算法:
- 基于注意力机制的模型
- LSTM (Long Short-Term Memory) 网络
- End-to-End模型
- Transformer模型及其在视觉问答中的应用
13. 优化和机器学习算法
- 用于提高识别准确率和效率的算法,如支持向量机(SVM)、随机森林、梯度提升决策树(GBDT)等。
-
这些任务和算法展示了机器视觉领域的广泛性和深度,随着研究的进展,还会不断有新
的任务和算法被提出。
数据增强
对图片进行翻转、裁剪、变色(颜色、亮度、饱和度)等操作
36 数据增广【动手学深度学习v2】