兴趣使然,一直想找一本书或者一系列博客科普一下AI研究领域的热门任务集合。尝试了搜博客平台、GPT生成、搜论文、搜大厂站点、专业AI站点都没有现成的。于是主动总结到自己的网站上,作为目录参考,在需要AI工具解决问题的时候快速查看。
任务 | 描述 | 应用 | 例子 |
---|---|---|---|
Semantic Segmentation 语义分割 (compare Instance Segmentation 精确区分并为每个实例生成独立的分割边界 Video Semantic Segmentation 处理视频中的时间信息,使得同一物体在不同帧中保持一致的标签) | 用于将图像中的每个像素分类到一个特定类别(如道路、汽车、树木),实现对图像内容的精细分割和理解 | 自动驾驶(识别道路和障碍物)、医疗影像分析(定位病灶区域)以及视频编辑(背景替换或特效处理) | DeepLab(由Google推出)和 Runway ML 提供了在线或可视化的工具和模型 |
Object Detection | 能在图片或视频中识别并定位特定类别的物体,比如框出人、车、或动物的位置。 | 常用于自动驾驶(识别行人和车辆)、智能监控(检测入侵者)和增强现实(识别环境中的物体以叠加虚拟内容)。 | YOLO,Google Colab 上也有许多预训练的物体检测模型供快速试用 |
Image Classification | 将图像分配到不同的类别中来识别图像内容 | 常见于社交媒体(自动标记照片中的人物或物品) | 微软的 Azure Cognitive Services 也提供图像分类的在线 API 和试用工具 |
pose estimation | 检测和追踪图像中人体或物体的关键点(如关节或部件位置),进而推测出姿势或动作 | 常用于运动分析、增强现实(AR)中的交互、虚拟试衣间、健康监测(如监控运动姿势)以及安全监控(如人体行为分析)。 | Google的MediaPipe |
Autonomous Driving | 结合多种传感器、计算机视觉、深度学习和决策算法,使车辆能够在没有人工干预的情况下自主感知环境、规划路径并执行驾驶任务。 | 无人驾驶汽车、无人配送车、物流运输等,目标是提高道路安全、减少交通事故、提升运输效率以及实现更智能化的交通管理。 | Tesla 提供了高级驾驶辅助系统(Autopilot)作为试用功能 |
视频理解 | 从视频中提取、分析和理解信息,主要包括动作识别、场景理解、事件检测 | 安全监控(例如异常行为检测)、视频内容分析(例如广告推荐、自动标签生成)、体育赛事分析 | Facebook AI Research |
Depth Estimation | 旨在从2D图像或视频中预测每个像素到摄像机的距离,生成对应的3D深度信息。这是将平面图像转换为具有空间感知能力的关键步骤。 | 自动驾驶(如障碍物距离测量)、AR/VR(如场景重建)、机器人导航,以及医学成像(如3D扫描)等领域。 | MiDaS NVIDIA 和 Google AI 提供的深度估计工具和演示 |
面部识别与建模 | 用于检测、识别和分析人脸特征,并基于此构建三维或特征化的模型。 | 它涉及从图像或视频中提取面部信息,实现身份验证、表情捕捉或3D重建。 安全系统(如人脸解锁、身份验证)、娱乐(如面部动画和特效制作)、零售(如个性化广告推荐),以及医疗领域(如面部异常检测)。 | Face++ 提供面部识别的演示和API支持;DeepFaceLab 是一个流行的开源工具,用于面部建模和深度伪造 DeepFake |
Optical Character Recognition (OCR) | 将图像或扫描件中的文字内容转换为可编辑的数字文本。它通过分析图像中的字符形状来识别和提取文字,实现图像到文本的转换。 | 常见于文档数字化(如将纸质书籍扫描为可搜索的电子文件)、票据处理(如发票数据提取)、车牌识别、以及翻译应用(如实时翻译路标和菜单)。 | Google Vision API 提供强大的OCR功能,可以从图片中提取文字;Tesseract 是一个开源OCR引擎,适合开发者集成到应用中;ABBYY FineReader 是一款常用的商用OCR工具 |
Object Tracking(Compare Person Re-Identification) | 用于在视频或连续帧中实时跟踪特定目标的位置和运动轨迹。它通过检测目标并预测其在后续帧中的位置,提供动态的目标跟踪能力。 | 视频监控(如跟踪可疑行为)、自动驾驶(如跟踪车辆和行人)、体育赛事分析(如运动员轨迹跟踪),以及增强现实(如在动态场景中绑定虚拟对象) | NVIDIA DeepStream MediaPipe |
Image Retrieval | 从大型图像数据库中查找与查询图像相似的图像。它通过分析图像的视觉特征,如颜色、纹理、形状等,进行匹配和检索。 | 电子商务(通过图像搜索找到相似产品)、社交媒体(按图片内容进行搜索)、医学影像(查找相似病例的图像以辅助诊断)以及安防领域(通过监控视频查找特定目标)。 | Google Images &几乎所有大型电商 |
Active Learning | 它通过选择最具信息量的样本进行标注,从而最有效地提升模型的性能。在这种方法中,模型会主动挑选那些最不确定或最具挑战性的样本来请求人工标注,而不是随机选择数据集中的样本进行训练。 | Active Learning广泛应用于需要大量标注数据但人工标注成本高的场景,如医学影像诊断(需要专家标注)、自动驾驶(需要标注复杂的交通场景)以及自然语言处理(如情感分析中标注复杂的情绪文本)。 | TensorFlow和PyTorch都提供了支持主动学习的框架和工具 |
3D Object Detection | 从3D空间中识别并定位物体。与传统的2D物体检测不同,它利用深度信息,帮助系统理解物体的三维位置、方向和形状,通常依赖于深度相机、LiDAR或多视角数据。 | 3D物体检测广泛应用于自动驾驶(如从LiDAR点云中识别和定位道路上的车辆、行人等)、机器人导航(帮助机器人避障和规划路径)、以及增强现实(为虚拟对象提供精准的空间定位)。 | Detectron2 Isaac SDK OpenPCDet |
Visual Reasoning | 机器理解图像或视频中的内容,并基于视觉信息进行推理。这涉及到图像的理解、场景分析和基于图像内容的推断,例如理解物体之间的关系、动作或情境。 | 自动驾驶(如理解道路上的物体和交通状况)、机器人导航(根据视觉信息进行环境推理)、智能问答系统(基于图像回答问题) | OpenAI的CLIP模型通过图片和文本进行跨模态推理;Google的Vision AI也提供了基于视觉信息的推理和分析功能 |
BTW, 博客数据来源:paperwithcode & GPT (with prompt)
评论区