【CV】概述

发布于 2024-03-15 | 4分钟 | 867字数

机器视觉算法是计算机视觉领域的关键组成部分，它使计算机能够通过图像和视频数据理解世界。这些算法可以根据它们的功能和用途进行分类。以下是一些常见的分类方式：

1. 图像处理算法

预处理：包括去噪、对比度增强、颜色空间转换等。
滤波和锐化：用于改善图像质量或提取特定特征。
边缘检测：如Sobel、Canny算法，用于检测图像中的边缘。

2. 特征提取算法

角点检测：如Harris角点检测、Shi-Tomasi算法。
兴趣点检测：如SIFT（尺度不变特征变换）、SURF（加速稳健特征）。
特征描述子：如ORB（Oriented FAST and Rotated BRIEF）。

3. 图像分类 (Image Classification)

任务说明：将整个图像分配给一个或多个类别。
常用算法：
- AlexNet
- VGGNet
- ResNet
- Inception
- DenseNet
- EfficientNet
- 转移学习：使用预训练的CNN模型进行微调以适应特定的图像分类任务。

4. 目标检测与识别 (Object Detection)

任务说明：在图像中识别物体的位置，并将每个物体分类。
常用算法：
- R-CNN及其变体（Fast R-CNN, Faster R-CNN）
- YOLO系列（YOLOv1至YOLOv5）
- SSD (Single Shot MultiBox Detector)
- RetinaNet
目标识别：CNN 变体

5. 图像分割 (Image Segmentation)

任务说明：将图像分割成多个区域或对象，可以进一步细分为语义分割和实例分割。
常用算法：
- FCN (Fully Convolutional Networks)
- U-Net
- Mask R-CNN（实例分割）
- DeepLab系列
- PSPNet (Pyramid Scene Parsing Network)

6. 姿态估计 (Pose Estimation)

任务说明：估计图像中人或对象的姿态或关节位置。
常用算法：
- OpenPose
- AlphaPose
- DensePose
- PoseNet

7. 物体跟踪 (Object Tracking)

任务说明：在视频序列中跟踪一个或多个对象的运动。
常用算法：
- SiamFC (Siamese Fully Convolutional Network)
- SORT/Simple Online and Realtime Tracking

8. 图像生成 (Image Generation)

任务说明：从现有的图像或随机噪声生成新图像。
常用算法：
- GANs (Generative Adversarial Networks) 及其变体（CGAN, DCGAN, StyleGAN）
- VAEs (Variational Autoencoders)
- PixelRNN/PixelCNN
- 扩散模型

9. 图像恢复 (Image Restoration)

任务说明：从损坏或降质的图像中恢复出清晰图像。
常用算法：
- SRCNN (Super-Resolution Convolutional Neural Network)
- VDSR (Very Deep Super-Resolution)
- GANs在图像超分辨率方面的应用
- Denoising Autoencoders

10. 3D重建 (3D Reconstruction)

任务说明：从一系列图像中重建出三维场景或对象的结构。
常用算法：
- Multi-View Stereo (MVS)
- COLMAP

11. 行为分析 (Action Analysis)

任务说明：分析视频中的人或物体的行为，比如行人的行走路线、人群的动态等。
常用算法：
- C3D (Convolutional 3D Networks)
- I3D (Inflated 3D ConvNet)

12. 视觉问答 (Visual Question Answering)

任务说明：根据给定图像和自然语言问题提供答案。
常用算法：
- 基于注意力机制的模型
- LSTM (Long Short-Term Memory) 网络
- End-to-End模型
- Transformer模型及其在视觉问答中的应用

13. 优化和机器学习算法

- 用于提高识别准确率和效率的算法，如支持向量机（SVM）、随机森林、梯度提升决策树（GBDT）等。
-

这些任务和算法展示了机器视觉领域的广泛性和深度，随着研究的进展，还会不断有新

的任务和算法被提出。

数据增强

对图片进行翻转、裁剪、变色（颜色、亮度、饱和度）等操作
36 数据增广【动手学深度学习v2】

赞赏