侧边栏壁纸
博主头像
蚌埠住了捏博主等级

快乐,健康,自由,强大

  • 累计撰写 56 篇文章
  • 累计创建 12 个标签
  • 累计收到 21 条评论

目 录CONTENT

文章目录

AI热门任务概览 - 计算机视觉

蚌埠住了捏
2024-12-01 / 1 评论 / 0 点赞 / 223 阅读 / 2,092 字

兴趣使然,一直想找一本书或者一系列博客科普一下AI研究领域的热门任务集合。尝试了搜博客平台、GPT生成、搜论文、搜大厂站点、专业AI站点都没有现成的。于是主动总结到自己的网站上,作为目录参考,在需要AI工具解决问题的时候快速查看。

任务 描述 应用 例子
Semantic Segmentation 语义分割 (compare Instance Segmentation 精确区分并为每个实例生成独立的分割边界 Video Semantic Segmentation 处理视频中的时间信息,使得同一物体在不同帧中保持一致的标签) 用于将图像中的每个像素分类到一个特定类别(如道路、汽车、树木),实现对图像内容的精细分割和理解 自动驾驶(识别道路和障碍物)、医疗影像分析(定位病灶区域)以及视频编辑(背景替换或特效处理) DeepLab(由Google推出)和 Runway ML 提供了在线或可视化的工具和模型
Object Detection 能在图片或视频中识别并定位特定类别的物体,比如框出人、车、或动物的位置。 常用于自动驾驶(识别行人和车辆)、智能监控(检测入侵者)和增强现实(识别环境中的物体以叠加虚拟内容)。 YOLO,Google Colab 上也有许多预训练的物体检测模型供快速试用
Image Classification 将图像分配到不同的类别中来识别图像内容 常见于社交媒体(自动标记照片中的人物或物品) 微软的 Azure Cognitive Services 也提供图像分类的在线 API 和试用工具
pose estimation 检测和追踪图像中人体或物体的关键点(如关节或部件位置),进而推测出姿势或动作 常用于运动分析、增强现实(AR)中的交互、虚拟试衣间、健康监测(如监控运动姿势)以及安全监控(如人体行为分析)。 Google的MediaPipe
Autonomous Driving 结合多种传感器、计算机视觉、深度学习和决策算法,使车辆能够在没有人工干预的情况下自主感知环境、规划路径并执行驾驶任务。 无人驾驶汽车、无人配送车、物流运输等,目标是提高道路安全、减少交通事故、提升运输效率以及实现更智能化的交通管理。 Tesla 提供了高级驾驶辅助系统(Autopilot)作为试用功能
视频理解 从视频中提取、分析和理解信息,主要包括动作识别、场景理解、事件检测 安全监控(例如异常行为检测)、视频内容分析(例如广告推荐、自动标签生成)、体育赛事分析 Facebook AI Research
Depth Estimation 旨在从2D图像或视频中预测每个像素到摄像机的距离,生成对应的3D深度信息。这是将平面图像转换为具有空间感知能力的关键步骤。 自动驾驶(如障碍物距离测量)、AR/VR(如场景重建)、机器人导航,以及医学成像(如3D扫描)等领域。 MiDaS NVIDIA 和 Google AI 提供的深度估计工具和演示
面部识别与建模 用于检测、识别和分析人脸特征,并基于此构建三维或特征化的模型。 它涉及从图像或视频中提取面部信息,实现身份验证、表情捕捉或3D重建。 安全系统(如人脸解锁、身份验证)、娱乐(如面部动画和特效制作)、零售(如个性化广告推荐),以及医疗领域(如面部异常检测)。 Face++ 提供面部识别的演示和API支持;DeepFaceLab 是一个流行的开源工具,用于面部建模和深度伪造 DeepFake
Optical Character Recognition (OCR) 将图像或扫描件中的文字内容转换为可编辑的数字文本。它通过分析图像中的字符形状来识别和提取文字,实现图像到文本的转换。 常见于文档数字化(如将纸质书籍扫描为可搜索的电子文件)、票据处理(如发票数据提取)、车牌识别、以及翻译应用(如实时翻译路标和菜单)。 Google Vision API 提供强大的OCR功能,可以从图片中提取文字;Tesseract 是一个开源OCR引擎,适合开发者集成到应用中;ABBYY FineReader 是一款常用的商用OCR工具
Object Tracking(Compare Person Re-Identification) 用于在视频或连续帧中实时跟踪特定目标的位置和运动轨迹。它通过检测目标并预测其在后续帧中的位置,提供动态的目标跟踪能力。 视频监控(如跟踪可疑行为)、自动驾驶(如跟踪车辆和行人)、体育赛事分析(如运动员轨迹跟踪),以及增强现实(如在动态场景中绑定虚拟对象) NVIDIA DeepStream MediaPipe
Image Retrieval 从大型图像数据库中查找与查询图像相似的图像。它通过分析图像的视觉特征,如颜色、纹理、形状等,进行匹配和检索。 电子商务(通过图像搜索找到相似产品)、社交媒体(按图片内容进行搜索)、医学影像(查找相似病例的图像以辅助诊断)以及安防领域(通过监控视频查找特定目标)。 Google Images &几乎所有大型电商
Active Learning 它通过选择最具信息量的样本进行标注,从而最有效地提升模型的性能。在这种方法中,模型会主动挑选那些最不确定或最具挑战性的样本来请求人工标注,而不是随机选择数据集中的样本进行训练。 Active Learning广泛应用于需要大量标注数据但人工标注成本高的场景,如医学影像诊断(需要专家标注)、自动驾驶(需要标注复杂的交通场景)以及自然语言处理(如情感分析中标注复杂的情绪文本)。 TensorFlow和PyTorch都提供了支持主动学习的框架和工具
3D Object Detection 从3D空间中识别并定位物体。与传统的2D物体检测不同,它利用深度信息,帮助系统理解物体的三维位置、方向和形状,通常依赖于深度相机、LiDAR或多视角数据。 3D物体检测广泛应用于自动驾驶(如从LiDAR点云中识别和定位道路上的车辆、行人等)、机器人导航(帮助机器人避障和规划路径)、以及增强现实(为虚拟对象提供精准的空间定位)。 Detectron2 Isaac SDK OpenPCDet
Visual Reasoning 机器理解图像或视频中的内容,并基于视觉信息进行推理。这涉及到图像的理解、场景分析和基于图像内容的推断,例如理解物体之间的关系、动作或情境。 自动驾驶(如理解道路上的物体和交通状况)、机器人导航(根据视觉信息进行环境推理)、智能问答系统(基于图像回答问题) OpenAI的CLIP模型通过图片和文本进行跨模态推理;Google的Vision AI也提供了基于视觉信息的推理和分析功能

BTW, 博客数据来源:paperwithcode & GPT (with prompt)

0

评论区