蚌埠住了捏

快乐，健康，自由，强大

累计撰写 62 篇文章
累计创建 12 个标签
累计收到 27 条评论

标签搜索

目录CONTENT

首页
/
人工智能
/
正文

人工智能

AI热门任务概览 - 计算机视觉

蚌埠住了捏

2024-12-01 / 1 评论 / 0 点赞 / 1,168 阅读 / 2,092 字

12/01

兴趣使然，一直想找一本书或者一系列博客科普一下AI研究领域的热门任务集合。尝试了搜博客平台、GPT生成、搜论文、搜大厂站点、专业AI站点都没有现成的。于是主动总结到自己的网站上，作为目录参考，在需要AI工具解决问题的时候快速查看。

任务	描述	应用	例子
Semantic Segmentation 语义分割 (compare Instance Segmentation 精确区分并为每个实例生成独立的分割边界 Video Semantic Segmentation 处理视频中的时间信息，使得同一物体在不同帧中保持一致的标签)	用于将图像中的每个像素分类到一个特定类别（如道路、汽车、树木），实现对图像内容的精细分割和理解	自动驾驶（识别道路和障碍物）、医疗影像分析（定位病灶区域）以及视频编辑（背景替换或特效处理）	DeepLab（由Google推出）和 Runway ML 提供了在线或可视化的工具和模型
Object Detection	能在图片或视频中识别并定位特定类别的物体，比如框出人、车、或动物的位置。	常用于自动驾驶（识别行人和车辆）、智能监控（检测入侵者）和增强现实（识别环境中的物体以叠加虚拟内容）。	YOLO，Google Colab 上也有许多预训练的物体检测模型供快速试用
Image Classification	将图像分配到不同的类别中来识别图像内容	常见于社交媒体（自动标记照片中的人物或物品）	微软的 Azure Cognitive Services 也提供图像分类的在线 API 和试用工具
pose estimation	检测和追踪图像中人体或物体的关键点（如关节或部件位置），进而推测出姿势或动作	常用于运动分析、增强现实（AR）中的交互、虚拟试衣间、健康监测（如监控运动姿势）以及安全监控（如人体行为分析）。	Google的MediaPipe
Autonomous Driving	结合多种传感器、计算机视觉、深度学习和决策算法，使车辆能够在没有人工干预的情况下自主感知环境、规划路径并执行驾驶任务。	无人驾驶汽车、无人配送车、物流运输等，目标是提高道路安全、减少交通事故、提升运输效率以及实现更智能化的交通管理。	Tesla 提供了高级驾驶辅助系统（Autopilot）作为试用功能
视频理解	从视频中提取、分析和理解信息，主要包括动作识别、场景理解、事件检测	安全监控（例如异常行为检测）、视频内容分析（例如广告推荐、自动标签生成）、体育赛事分析	Facebook AI Research
Depth Estimation	旨在从2D图像或视频中预测每个像素到摄像机的距离，生成对应的3D深度信息。这是将平面图像转换为具有空间感知能力的关键步骤。	自动驾驶（如障碍物距离测量）、AR/VR（如场景重建）、机器人导航，以及医学成像（如3D扫描）等领域。	MiDaS NVIDIA 和 Google AI 提供的深度估计工具和演示
面部识别与建模	用于检测、识别和分析人脸特征，并基于此构建三维或特征化的模型。	它涉及从图像或视频中提取面部信息，实现身份验证、表情捕捉或3D重建。安全系统（如人脸解锁、身份验证）、娱乐（如面部动画和特效制作）、零售（如个性化广告推荐），以及医疗领域（如面部异常检测）。	Face++ 提供面部识别的演示和API支持；DeepFaceLab 是一个流行的开源工具，用于面部建模和深度伪造 DeepFake
Optical Character Recognition (OCR)	将图像或扫描件中的文字内容转换为可编辑的数字文本。它通过分析图像中的字符形状来识别和提取文字，实现图像到文本的转换。	常见于文档数字化（如将纸质书籍扫描为可搜索的电子文件）、票据处理（如发票数据提取）、车牌识别、以及翻译应用（如实时翻译路标和菜单）。	Google Vision API 提供强大的OCR功能，可以从图片中提取文字；Tesseract 是一个开源OCR引擎，适合开发者集成到应用中；ABBYY FineReader 是一款常用的商用OCR工具
Object Tracking（Compare Person Re-Identification）	用于在视频或连续帧中实时跟踪特定目标的位置和运动轨迹。它通过检测目标并预测其在后续帧中的位置，提供动态的目标跟踪能力。	视频监控（如跟踪可疑行为）、自动驾驶（如跟踪车辆和行人）、体育赛事分析（如运动员轨迹跟踪），以及增强现实（如在动态场景中绑定虚拟对象）	NVIDIA DeepStream MediaPipe
Image Retrieval	从大型图像数据库中查找与查询图像相似的图像。它通过分析图像的视觉特征，如颜色、纹理、形状等，进行匹配和检索。	电子商务（通过图像搜索找到相似产品）、社交媒体（按图片内容进行搜索）、医学影像（查找相似病例的图像以辅助诊断）以及安防领域（通过监控视频查找特定目标）。	Google Images &几乎所有大型电商
Active Learning	它通过选择最具信息量的样本进行标注，从而最有效地提升模型的性能。在这种方法中，模型会主动挑选那些最不确定或最具挑战性的样本来请求人工标注，而不是随机选择数据集中的样本进行训练。	Active Learning广泛应用于需要大量标注数据但人工标注成本高的场景，如医学影像诊断（需要专家标注）、自动驾驶（需要标注复杂的交通场景）以及自然语言处理（如情感分析中标注复杂的情绪文本）。	TensorFlow和PyTorch都提供了支持主动学习的框架和工具
3D Object Detection	从3D空间中识别并定位物体。与传统的2D物体检测不同，它利用深度信息，帮助系统理解物体的三维位置、方向和形状，通常依赖于深度相机、LiDAR或多视角数据。	3D物体检测广泛应用于自动驾驶（如从LiDAR点云中识别和定位道路上的车辆、行人等）、机器人导航（帮助机器人避障和规划路径）、以及增强现实（为虚拟对象提供精准的空间定位）。	Detectron2 Isaac SDK OpenPCDet
Visual Reasoning	机器理解图像或视频中的内容，并基于视觉信息进行推理。这涉及到图像的理解、场景分析和基于图像内容的推断，例如理解物体之间的关系、动作或情境。	自动驾驶（如理解道路上的物体和交通状况）、机器人导航（根据视觉信息进行环境推理）、智能问答系统（基于图像回答问题）	OpenAI的CLIP模型通过图片和文本进行跨模态推理；Google的Vision AI也提供了基于视觉信息的推理和分析功能

BTW, 博客数据来源：paperwithcode & GPT (with prompt)

0

版权归属：蚌埠住了捏

本文链接： https://www.heysifei.com/archives/ai-re-men-ren-wu-gai-lan---ji-suan-ji-shi-jue

许可协议：本文使用《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》协议授权

评论区