wangerxian

  • 2025-06-30
  • 回复了主题帖: 【STM32H73BI-DK评测】开箱体验

    这个开发板就适合做GUI,主频和内存都够用。

  • 回复了主题帖: BOM 成本降了,但集成芯片真比分立式方案划算吗?

    你可以对比呀,多找几个方案,对比一下价格就好了。而且小批量对成本也不会太苛刻。

  • 回复了主题帖: UWB 和毫米波雷达选哪个??

    okhxyyo 发表于 2025-6-30 16:47   这里说的只要一个设备就可以呀??不用双设备呀 他描述的是UWB雷达呀,我以为是UWB呢,UWB雷达还真没玩过,感觉可以玩一下试试。

  • 回复了主题帖: 拆个海外版的显示器

    屏幕有竖线大概率是屏幕坏了吧,感觉和驱动没关系,不过一闪而过又像是驱动的问题。

  • 回复了主题帖: UWB 和毫米波雷达选哪个??

    UWB需要人员携带从机UWB设备,毫米波则不需要

  • 发表了主题帖: AUTOSAR的核心概念

    AUTOSAR的文档类型 先看看文档的名字,是不是好像有分类的,SRS、SWS、TR……     这些各代表什么意思呢? 缩写 全称 相关解释 CP CLASSIC PLATFORMAUTOSAR 经典平台,相对于ADAPTIVE PLATFORM而言 EXP EXPLANATORY DOCUMENTS 更详细的介绍论题MODMODEL介绍建模的原理 RS REQUIREMENTS SPECIFICATION 详细描述需求 SRS SOFTWARE REQUIREMENT SPECIFICATION 所有软件模块的规格描述 SWS SOFTWARE SPECIFICATION 软件模块设计和实现的规格 TPS TEMPLATE SPECIFICATION 模板详细介绍 TR TECHNICAL REPORT 技术规格详细介绍 我们可能需要关注或者是用到比较多的是上面的 SWS 文档 AUTOSAR文档之间的联系 不同的人群关注的文档可能不一样,类如: 关注架构设计的读者应该阅读AUTOSAR Template Specification(TPSs). 比如说,如果读者关注逻辑系统/ECU设计,他们应该关注Software Component template,以理解怎么去定义应用软件组件(Application Software components)以及数据交互点。 对于一些在各个Template都用的通用概念可以在Generic Structure Template中获取,但是最好通过索引参考的方式去Generic Structure Template里找,因为一下理解整个文档挑战太大。 使用UML定义的AUTOSAR Meta-model没有太大必要单独去看,因为所有相关信息和图表都会在AUTOSAR Template Specification里有。 关注AUTOSAR基础软件的读者应该去读相关基础软件模块的软件规范-Software Specification(SWS)。 比如说,如果读者对ECU诊断功能感兴趣,他们应该去都AUTOSAR Diagnostic Event Manager和Diagnostic Configuration Manager规范。 对所有的基础软件模块都适用的需求可在Basic Software Modules Specification里的General Requirements里获取到。 更高颗粒度层面,TPS规范里的设计需求可以追溯到需求规范文档(RS)的描述的更详细需求。 同样地,SWS Specification里定义的基础软件需求也从software requirements specifications(SRS)里追溯的到。 RS和SRS需求可以从更高层面的规范里追溯的到,描述General AUTOSAR features和AUTOSAR Objectives的规范就是High-level的一个例子。 然后,还是建议初学者要集中关注TPS和SWS Specification,至少在一开始,TPS和SWS包含很多解释和图形以助于更好的理解AUTOSAR Features。 AUTOSAR分类: Classic Platform vs. Adaptive Platform 进入AUTOSAR官网,会发现AUTOSAR分为Classic Platform和Adaptive Platform   这两者有什么区别呢? 在对比这两个平台之前,还要补充E/E架构(Electrical/Electronic)即电子电气架构相关知识。 传统E/E架构,多条CAN总线连接整个汽车的各个ECU,随着汽车功能和传感器的增加,ECU不断增加,传输的数据大小也在增加,我们会把功能类似的ECU集成到一起,形成域。 即使这样,传统E/E架构难以满足ECU的大量增加和联网的需求(CAN通信被网络读取所有信息,行车不安全),于是便提出了新型E/E架构。 现在最新的架构是中央+区域集成。 回归到AUTOSAR,软件架构便逐渐由 Classic AutoSAR 向 Classic AutoSAR+Adaptive AutoSAR 混合式方向发展。Classic AutoSAR 基础软件分为四层,分别为:服务层ASW、 ECU 抽象层BSW、微控制器抽象层MCALL和运行时环境RTE 运行时环境使应用软件从底层软件和硬件平台相互独立。 除此之外还包括复杂驱动程序,由于对复杂传感器和执行器进行操作的模块涉及严格的时序问题,这部分暂时未被标准化。 Adaptive AutoSAR 相较于 Classic AutoSAR 具有软实时、可在线升级、操作系统可移植等优势。 Classic AutoSAR 是基于强实时性(微秒级) 的嵌入式操作系统上开发出来的软件架构, 可满足传统汽车定制化的功能需求,但受网络的延迟、干扰影响较大,无法满足强实时性。 随着自动驾驶、车联网等应用的复杂化, 软实时性的软件架构系统 Adaptive AutoSAR 诞生,其主要用于域控制器/中央计算平台,相对于 Classic AutoSAR的优点: 为软实时系统,偶尔超时也不会造成灾难性后果; 更适用于多核动态操作系统的高资源环境,如 QNX; 软件功能可灵活在线升级。 Classic platform(经典平台) Classic platform(经典平台) AUTOSAR 针对传统车辆控制嵌入式系统的解决方案,具有严格的实时性和安全性限制。 从架构来看如下图所示,软件自上而下分别为应用软件层(Application Software Layer,ASW)、运行时环境(Runtime Environment,RTE)、基础软件层(Basic Software Layer,BSW)和微控制器(硬件)(Microcontroller/Hardware)。 为保证上层与下层的无关性,在通常情况下,每一层只能使用下一层所提供的接口,并向上一层提供相应的接口。 Adaptive AUTOSAR(自适应平台) 是在异构多核(CPU/AI/GPU)高性能SOC处理器和更高带宽的以太通信技术驱动下,提出的一种新型汽车电子系统软件架构标准。 它除了继承大量经典平台CP标准内容外,还采用了面向对象高级编程C++语言、面向服务的SOA架构和基于 POSIX 标准的操作系统以适应异构处理的分布式并行处理需求; 同时在满足功能安全和信息安全的车规要求下,支持灵活的软件配置、动态部署以及持续的软件迭代更新。     Adaptive AUTOSAR(自适应平台) Adaptive AUTOSAR(自适应平台) 是在异构多核(CPU/AI/GPU)高性能SOC处理器和更高带宽的以太通信技术驱动下,提出的一种新型汽车电子系统软件架构标准。 它除了继承大量经典平台CP标准内容外,还采用了面向对象高级编程C++语言、面向服务的SOA架构和基于 POSIX 标准的操作系统以适应异构处理的分布式并行处理需求; 同时在满足功能安全和信息安全的车规要求下,支持灵活的软件配置、动态部署以及持续的软件迭代更新。     AUTOSAR架构有哪几层?分别有什么作用? 我们这里说的架构是classic autosar,也是现在普遍使用的架构。由ASW软件应用层(Application Layer,Appl)、RTE实时运行环境层(Runtime Environment)、BSW基础软件层(Basic Software)和微控制器层(Microcontroller)构成。   其中,应用层是执行用户代码的区域;实时运行环境层提供应用层所需要的资源,将应用层和底层分离管理同时调度SWC,将SWC与BSW之间做映射。 (SWC指应用层组件);基础软件层将对硬件的操作封装成统一AutoSAR标准的接口,供上层RTE调用。 硬件层便是基础硬件资源了。 此外,BSW是比较庞大的,还有横向与纵向描述,在BSW层再详细描述。

  • 回复了主题帖: 能不能一个人扛起整个研发部

    Nubility 发表于 2025-6-30 12:46 怀疑这公司根本不是在招人,只是挂着玩 这个薪资这个要求确实感觉是在闹着玩,不过还是建议把公司打码,要不他们发现了,估计会要求你删帖。

  • 回复了主题帖: 没有3C的充电宝不让上飞机了,你家充电宝怎么处理?

    okhxyyo 发表于 2025-6-30 10:06 不过还是要注意下安全啊 嗯嗯,话说充电宝怎么无害处理掉?

  • 回复了主题帖: 能不能一个人扛起整个研发部

    小公司要搞好机器人太难了,要经验还得要米,机器人的电机太贵了!

  • 回复了主题帖: 【T6793 CO2 传感器模块】开箱测评

    没丝印确实不好,看PCB也不是没有空间标注丝印,不知道为什么不标上引脚功能

  • 回复了主题帖: 图像识别模块哪个好?

    freebsder 发表于 2025-6-28 17:13 现在图像识别一般都是yolo吧? 占有越来越大。 嗯嗯,很多Linux开发板用的都是Yolo,确实市场占有率高

  • 回复了主题帖: 没有3C的充电宝不让上飞机了,你家充电宝怎么处理?

    okhxyyo 发表于 2025-6-27 18:03 你竟然还用着! 质量应该比现在生产出来的好,那会为了占领市场,应该不太敢偷工减料。

  • 回复了主题帖: 没有3C的充电宝不让上飞机了,你家充电宝怎么处理?

    okhxyyo 发表于 2025-6-27 18:03 你竟然还用着! 是啊,拆的时候没损坏到电芯,就拿个胶带缠上继续用了。

  • 2025-06-27
  • 回复了主题帖: 小米su7大定3分钟20万辆,太夸张了

    标题错啦,不是su7,是yu7

  • 回复了主题帖: 来盘一盘机器人身上有多少的传感器?

    市面上能见到的传感器类型,机器人占了有70~80%了吧。

  • 回复了主题帖: 无3C充电宝禁止登机!一文看懂到底什么是3C认证、如何分辨真伪

    3C认证需要进行的检测项目包括以下几个方面‌: ‌安全性能测试‌: ‌电气安全‌:测试产品的电气绝缘性能、漏电保护等,确保在使用过程中不会对用户产生电击等危害‌。 ‌防火阻燃‌:测试材料的阻燃性,确保产品在使用过程中不会引发火灾‌。 ‌机械安全‌:检查产品的物理结构,确保在正常使用过程中不会对用户造成物理伤害‌。 ‌辐射安全‌:测试产品的电磁辐射水平,确保符合人体安全限值‌。 ‌电磁兼容性(EMC)测试‌: ‌辐射骚扰(RE)与传导骚扰(CE)控制‌:测试产品在工作时是否会对其他设备产生干扰‌。 ‌抗干扰能力‌:测试产品对外界电磁干扰的抗扰能力,确保在复杂电磁环境下能稳定运行‌。 ‌化学与环保测试‌: ‌有害物质检测‌:测试产品中是否含有铅、汞、镉等有害物质,确保符合环保标准‌。 ‌包装材料合规性‌:测试包装材料的环保性和安全性‌3。 ‌环境可靠性测试‌: ‌温湿度循环、振动冲击、老化测试‌:测试产品在极端条件下的稳定性和耐久性‌。 ‌能效测试‌: 测试产品的能效,确保其在达到相同效果的情况下消耗的能量最少,符合节能要求‌。 ‌其他相关测试‌: ‌材料测试‌:测试产品所使用的材料是否符合环保、卫生等要求,以及是否有害物质超出限制‌。 ‌可靠性测试‌:包括产品的耐久性、稳定性、寿命等方面的测试,以确保产品在长期使用中的性能‌。

  • 回复了主题帖: 没有3C的充电宝不让上飞机了,你家充电宝怎么处理?

    如果是单次程的话,充电宝只能扔了。

  • 回复了主题帖: 没有3C的充电宝不让上飞机了,你家充电宝怎么处理?

    这个罗马仕还用着呢,几年前的电芯应该没问题吧0.0

  • 2025-06-26
  • 发表了主题帖: 图像分类基础

    本帖最后由 wangerxian 于 2025-6-26 17:26 编辑 一张图片胜过千言万语。我们不断地攫取视觉内容,解释它的含义,并且存储它们以备后用。        但是,对于计算机要解释一张图片的内容是很难的,因为计算机看到的图片是一个大的数字矩阵,它对图像传递的思想、知识和意义一无所知。          为了理解图像的内容,我们必须应用图像分类(image classification),这是使用计算机视觉和机器学习算法从图像中抽取意义的任务。这个操作可以简单的为一张图像分配一个标签,如猫、狗还是大象,或者也可以高级到解释图像的内容并且返回一个人类可读的句子。        图像分类是一个非常大的研究领域,包括各种各样的技术,随着深度学习的普及,它还在继续发展。          现在,是时候来驾驭深度学习与图像分类的浪潮了!          图像分类和图像理解是目前(并将继续是)未来十年最受欢迎的计算机视觉子领域。        在本章中,我将提供图像分类的高级概述,以及图像分类算法必须克服的许多挑战。我们还会复习与图像分类和机器学习相关的三种不同学习类型。最后,我们将通过讨论四个步骤来总结本章,这四个步骤是如何训练一个用于图像分类的深度学习网络,以及这四个步骤是如何与传统的手工设计的特征提取管道进行比较的。   1 图像分类是什么?   图像分类,核心是从给定的分类集合中给图像分配一个标签的任务。实际上,这意味着我们的任务是分析一个输入图像并返回一个将图像分类的标签。标签总是来自预定义的可能类别集。   示例:我们假定一个可能的类别集categories = {dog, cat, panda},之后我们提供一张图片(图1)给分类系统:       图1 图像分类目标是根据输入图片且根据预定义类别分配标签   这里的目标是根据输入图像,从类别集中分配一个类别,这里为dog。   我们的分类系统也可以根据概率给图像分配多个标签,如dog:95%,cat:4%,panda:1%。   更一般的,给定三个通道的W*H像素,我们的目标是取W*H*3=N个像素且找出正确分类图像内容的方法。   1.1  关于术语的说明   当执行机器学习和深度学习时,数据集(dataset)是我们尝试提取知识的地方。在数据集中的每个例子/条目(可能使图像数据、文本数据、语音数据)称为数据点(data point)。       图2 数据集是数据点的集合   我们的目标是应用机器学习和深度学习算法来发现在数据集中的潜在模式,使我们能够正确的分类我们的算法还没有遇到的数据点(即泛化性能)。现在考虑下面的术语:   (1)    在图像分类方面,我们的数据集就是图像的集合;   (2)    因此,每个图像就是一个数据点。   注意:在后续过程中,我们将图像和数据点交替使用,可认为是同一个意义。 1.2  语义上的差异   看图3上部的左右图像,我们能够很容易的分辨出猫和狗,但是对于所有计算机来说看到的则是对应于图3下部左右的大的像素矩阵。       图3 上:人类认知图片的方式 下:计算机看到图片以矩阵方式   考虑到计算机看到的是大的像素矩阵,我们引入语义差异(semantic gap)问题。语义差距是人对图像内容的感知方式与计算机能够理解图像过程的表现方式之间的差异。   再次,人类可以快速揭示出图3上部两幅图的差异,但是计算机却不知道图中有动物存在。为了更清晰解释,看图4:       图4 当描述图片内容时,我们可能关注空间层次、颜色、质地传递的内容——计算机视觉算法也是同样关注这些   我们可能描述图像如下:   (1)    空间:天空在图像上部,沙滩和海洋在底部;   (2)    颜色:天空是深蓝色,海水颜色比天空浅,而沙子是黄色的;   (3)    质地:天空比较均匀,沙子较粗糙     那么,我们怎么编码这些信息使得计算机能够理解?答案就是应用特征提取(feature extraction)来量化图像的内容。特征提取是输入一副图像、实施一个算法、且获得量化我们图像的一个特征向量(feature vector)(例如,一系列数字)的过程。 为了完成这个过程,我们可以考虑使用手工设计的功能,如HOG、LBPs或其它传统方法来度量图像。而本书中采用的是另一种方法,即应用深度学习来自动学习一系列特征,这些特征可以用来度量且最终标记图像本身的内容。   但是,一旦我们开始检查真实世界的图像,我们将面临很多很多的挑战。   1.3  挑战   如果语义差异还不是一个大问题,那么我们还要处理图像或对象的变化因素(factors of variation)。图5显示了不同的变化因素:       图5 我们需要认识到物体是如何在不同的视点、光照条件、遮挡和尺度等等下出现的。   首先,我们看视点变化(viewpoint variation),即物体对应于是如何被拍照或获取的造成是原始还是多维度旋转的图像,但不管怎么视点变化,树莓派还是树莓派如图5左上所示。   我们还将面对缩放变化(scale variation),如图5的scale variation所示,无论如何缩放除了大小size不同,它们是同样的东西。图像分类方法必须适应这种变化。   最困难的则是变形(deformation),如图5的deformation所示,所有这些图像都包含了图像的特性,但是它们之间都是弹性、扭曲、动态变化的。   图像分类还应当处理闭合变化(occlusions variation),即如图5的occlusion variation所示,两幅图中都是狗,但是右图被隐藏在其它图像之下,图像分类应当能够处理这种情况。   就像变形和闭合的挑战一样,我们还要面临光照变化(illumination variation),如图5所示,我们应当能够分类出同样得到咖啡杯,但是由于光照使得他们看起来很不同。   我们还要处理背景杂乱(background clutter),如图5所示,当我们需要在杂乱背景下要分类出图像的特定物体时,对于我们都是困难的,何况是电脑了。   最后,我们还要处理类内变化(intra-class variation),如图5所示,同样的椅子确有不同的种类,而我们的图像分类算法必须能够识别出所有正确的种类。     有没有感到一点困难?更困难的是,图像分类器不仅仅是面对上述单个的变化,往往面临着多个变化的联合。   那么,我们该如何处理如此多的变化呢?一般来说,尽最大努力去做。我们对图像的内容和希望容忍的变化做出假定,我们也考虑项目的最终目的是什么?以及我们尝试去构建什么样的系统?   部署到现实世界中的成功的计算机视觉、图像分类和深度学习系统,在编写一行代码之前,要做出谨慎的假设和考虑。如果你的方法过于宽泛,如我想对厨房里的每一件物品进行分类,那么你的分类系统很可能不是很好。但是如果你把问题缩小,如我想对火炉和冰箱进行分类,那么你的分类系统更容易获得较高的准确率。   这里的关键是要始终考虑图像分类器的范围。尽管深度学习和CNNs在不同的挑战下具有极大的鲁棒性和分类能力,但是你仍然要关注项目的范围尽可能紧致且定义明确。     深度学习不是魔法,它有时是很有力的工具但是如果使用不当也是很危险的。在这本书的其余部分,我将指导你的深度学习之旅,并帮助你指出什么时候你应该使用这些强力的工具,什么时候你应该使用更简单的方法(或者提到是否一个问题用图像分类来解决是不合理的)。   2 学习的类型   在深度学习和机器学习领域主要有三种学习类型:监督学习、非监督学习和半监督学习。本书主要关注深度学习背景下的监督学习。这里将简要描述三种类型。 2.1  监督学习   监督学习是机器学习中研究最广泛的一类。给定训练数据,创建一个训练过程的模型(分类器),这个模型对输入数据做出预测且预测不准确时将进行纠正。持续这个训练过程直到达到一些期望的停止准则,如较低的错误率或达到最大的训练次数等。   常见的监督学习算法包括Logistic Regression、Support Vector Machines(SVMs)、Random Forests和ANN。   在图像分类的背景下,我们假定图像数据集包括图像本身和对应的分类标签(class labels),分类标签用于训练机器学习分类器将每个种类看起来像什么。如果分类器做出了错误预测,则可以运用一些方法来纠正错误。   即监督学习中,每个数据点都由标签、特征向量构成。   2.2  非监督学习   与监督学习对应,非监督学习(也称为自学)没有标签数据,只有特征向量。   非监督学习是机器学习和深度学习的“圣杯”。因为现实世界中很容易获得大量无标签数据,如果我们能够从无标签数据中学的模式,那么可以不必花费大量时间和金钱来标记标签数据用于监督学习。   经典的非监督学习机器算法包括PCA和K均值。应用到神经网络,有Autoencoders、Self Organizing Maps (SOMs)和Adaptive Resonance Theory可用于非监督学习。非监督学习是一个极其活跃的、还没有解决的领域,本书将不关注非监督学习。   2.3  半监督学习   如果一部分数据有标签,另一部分没有标签,则称之为半监督学习。   半监督式学习在计算机视觉中尤其有用,因为在训练集中,给每一张图片都贴上标签通常是费时、乏味和昂贵的(至少在工时方面)。我们可以对数据中的一小部分标签,然后利用半监督学习给剩余的数据进行标签和分类。   半监督学习算法常工作在较小的数据集上在可以容忍的精确度下。即半监督学习考虑了精确度与数据大小的关系,在可容忍的限度下保持分类精确度,可以极大的降低训练的数据量大小。半监督学习常见的选择包括label spreading、label propagation、ladder networks和co-learning/co-training。     再次,我们在本书中主要研究监督学习,因为非监督和半监督学习在计算机视觉的深度学习背景下的研究仍然是非常新的领域且还没有清晰的方法可以使用。(该书是2017年出版的,那么可能写作是在2015-2016?那么现在为2018年,是否还没有清晰的方法???)   3 深度学习分类步骤   通过前两节的学习,你可能会开始觉得在构建一个图像分类器时,新的术语、考虑和看起来不可逾越的变化会给你带来一些压力,但事实是,一旦你理解了这个过程,构建一个图像分类器是相当简单的。   在本节中,我们将回顾当在深度学习工作中需要考虑的在心态方面的一个重要转变。我们将回顾在构建一个深度、基于学习的图像分类器的4个步骤,并且对比传统的基于特征的机器学习和端到端的深度学习。 3.1  心态的转变   我们可能写过成百上千的基于过程的或基于对象的函数,这些函数都有很好的定义,且很容易的验证其结果。   不幸的是,在深度学习和图像分类中不是这样的过程。   对于猫、狗的图片,我们不能简单的编写确定的语句来识别它们,因此,与其试图构建一个基于规则的系统来描述每个类别的“外观”,我们可以采用基于数据驱动的方法,提供每个类别的示例,然后教我们的算法使用这些示例识别类别之间的差异。   我们输入这些打上标签的训练数据集,在训练集中的每个数据点包括:   (1)    一张图像;   (2)    这张图像的标签或分类。 3.2  步骤一:收集数据集   构建深度学习网络的第一个部件是收集最初的数据集。我们需要图像本身和与图像相关的标签。标签应当是一个有限的类别集合。   此外,每个种类中的图像数据应当是均匀的(例如,每个类别的图像数目相同)。如果数目不同则造成类别失衡,类别失衡是机器学习的常见问题,我们在后续中来介绍不同的方法,但是注意避免类别失衡产生的学习问题的最佳方法是避免类别失衡。 3.3  步骤二:划分数据集   既然我们有了数据集,我们需要划分成两部分:   (1)训练集(training set)   (2)测试集(testing set)   我们的分类器使用训练集通过在输入数据上做出预测来“学习”每个类别看起来像什么,且当预测错误的时候分类器做出纠正。分类器完成训练之后,我们可以在测试集上评估性能。   训练集和测试集是互相独立且互不重叠,是极其重要的!!!常见的训练集和测试集划分为66.7%/33/3%,75%/25%,90%/10%,如图6所示:       图6 常见训练集和测试集划分        这些划分是合理的,那么我们需要调整的参数是什么呢?神经网络中有一些控制参数(如学习率、衰减因子、正则化因子等)需要调整以达到网络最佳性能,这些参数我们称之为超参数(hyperparameters),它们设定的合理是极其重要的。        实际上,我们需要一堆超参数且需要识别出最佳的超参数集合。你可能想使用测试集来调整这些超参数值,再次注意:测试集仅仅用作评估网络性能!        而是,我们需要第三个划分的数据集称为验证集(validation set),这个数据集合通常来自训练集且用作“假测试数据”,用于调整超参数。仅在我们使用验证集确定了超参数值之后,我们才会在测试集上收集最终的精确度结果。        我们通常分配训练集的10%—20%用于验证。        划分数据集听起来很复杂,实际上,将在下一章将要讲到的,归功于python的scikit-learn库,我们可以使用一行代码即可划分。 3.4  步骤三:训练网络   给定图像的训练集,我们现在可以训练网络了。我们网络的目标是学习怎样识别标签数据中的每个类别。当网络做出错误预测时,它将从错误中学习且提高自己的预测能力。   那么,真实的“学习”是怎样工作的?一般来说,我们使用一种梯度下降的形式(a form of gradient descent),将在第9章中介绍。本书的剩余部分将从头来例证怎样训练神经网络,因此这里我们推迟它,直到需要时再进行详细的训练过程讨论。 3.5  步骤四:评估   最后,我们需要评估我们训练的网络。对于测试集中的每个图像,送入网络中且网络预测它认为这张图像的标签是什么。之后,我们的网络模型将测试集中对图像的预测结果列表化。   最后,这些模型预测将与测试集的真实标签结果进行比对。我们将能够计算出模型预测的正确的数目,且获得一些聚合报告,如精确度(precision)、召回率(recall)、f-度量(f-measure)等,这些参数通常用来度量整个网络性能。 3.6  图像分类:基于特征的学习VS深度学习   传统上,对于图像分类的基于特征的学习,实际上是在步骤二和步骤三中间插入一个步骤:特征提取(feature extraction)。在这一阶段,我们采用手动设计的算法如HOG、LBPs等,基于我们想编码(例如形状、颜色、质地等)的图像的特定部分来度量图像的内容。给定这些特征,我们之后执行训练网络和评估网络。   当构建CNNs网络的时候,我们实际上跳过了特征提取的步骤。原因是CNNs是一个端到端的模型。我们将原始输入数据(像素)输入网络。然后网络学习隐藏层内的过滤器,这些过滤器可以用来区分对象类。网络的输出是类别标签上的概率分布。   其中一个激动的方面是,我们可以让CNNs自动的学习特征而不需要手动设计特征。但是这种权衡是有代价的。训练CNNs是一个不平凡的过程,所以要准备好花大量的时间让自己熟悉这些经验,并做很多实验来确定什么是有效的,什么是无效的。 3.7  当预测不正确时,发生了什么?   我们训练好了网络,也在测试集上获得了良好的性能,但是当我们的网络对不在训练集也不在测试集中的其它外部未见到的图像进行预测时,获得了较差的性能,这个问题称之为泛化(generalization)。泛化是网络泛化的能力,即正确的预测即不存在训练集也不存在与测试集中的图像的类别标签的能力。   网络的泛化将在本书多次讨论,这里仅是大概介绍。当不能正确的预测图像分类时,不要沮丧,要考虑第2章中提到的变化因素。你的训练集正确的反映了这些变化因素吗?如果没有,那么你需要收集更多的训练数据(且需要读本书的剩余部分,来学习其它技术来克服泛化)。

  • 发表了主题帖: 21个深度学习开源数据集分类汇总

    本文收集整理了21个国内外经典的开源数据,包含了目标检测、图像分割、图像分类、人脸、自动驾驶、姿态估计、目标跟踪等方向。 深度学习的三大要素:数据、算法、算力。 数据在深度学习中占据着非常重要的地位,一个高质量的数据集往往能够提高模型训练的质量和预测的准确率。极市平台收集整理了21个国内外经典的开源数据,包含了目标检测、图像分割、图像分类、人脸、自动驾驶、姿态估计、目标跟踪等方向。 一、目标检测 1.COCO2017数据集 COCO2017是2017年发布的COCO数据集的一个版本,主要用于COCO在2017年后持有的物体检测任务、关键点检测任务和全景分割任务。     二、图像分割 1.LVIS数据集 LVIS是一个大规模细粒度词汇集标记数据集,该数据集针对超过 1000 类物体进行了约 200 万个高质量的实例分割标注,包含 164k 张图像。     2.高密度人群及移动物体视频数据集 Crowd Segmentation Dataset 是一个高密度人群和移动物体视频数据,视频来自BBC Motion Gallery 和 Getty Images 网站。     3.DAVIS 视频分割数据集 Densely Annotated Video Segmentation 是一个高清视频中的物体分割数据集,包括 50个 视频序列,3455个 帧标注,视频采集自高清 1080p 格式。     三、图像分类 1.MNIST 手写数字图像数据集 MNIST数据集是一个手写阿拉伯数字图像识别数据集,图片分辨率为 20x20 灰度图图片,包含‘0 - 9’ 十组手写手写阿拉伯数字的图片。其中,训练样本 60000 ,测试样本 10000,数据为图片的像素点值,作者已经对数据集进行了压缩。     2.Kaggle 垃圾分类图片数据集 该数据集是图片数据,分为训练集85%(Train)和测试集15%(Test)。其中O代表Organic(有机垃圾),R代表Recycle(可回收)     四、人脸 1.IMDB-WIKI人脸数据集 IMDB-WIKI 500k+ 是一个包含名人人脸图像、年龄、性别的数据集,图像和年龄、性别信息从 IMDB 和 WiKi 网站抓取,总计 524230 张名人人脸图像及对应的年龄和性别。其中,获取自 IMDB 的 460723 张,获取自 WiKi 的 62328 张。     2.WiderFace人脸检测数据集 WIDER FACE数据集是人脸检测的一个benchmark数据集,包含32203图像,以及393,703个标注人脸,其中,158,989个标注人脸位于训练集,39,,496个位于验证集。每一个子集都包含3个级别的检测难度:Easy,Medium,Hard。这些人脸在尺度,姿态,光照、表情、遮挡方面都有很大的变化范围。WIDER FACE选择的图像主要来源于公开数据集WIDER。制作者来自于香港中文大学,他们选择了WIDER的61个事件类别,对于每个类别,随机选择40%10%50%作为训练、验证、测试集。     3.LFW 人像图像数据集 该数据集是用于研究无约束面部识别问题的面部照片数据库。数据集包含从网络收集的13000多张图像。每张脸都贴上了所画的人的名字,图片中的1680人在数据集中有两个或更多不同的照片。     4.GENKI 人脸图像数据集 GENKI数据集是由加利福尼亚大学的机器概念实验室收集。该数据集包含GENKI-R2009a,GENKI-4K,GENKI-SZSL三个部分。GENKI-R2009a包含11159个图像,GENKI-4K包含4000个图像,分为“笑”和“不笑”两种,每个图片的人脸的尺度大小,姿势,光照变化,头的转动等都不一样,专门用于做笑脸识别。GENKI-SZSL包含3500个图像,这些图像包括广泛的背景,光照条件,地理位置,个人身份和种族等。 五、姿态估计 1.MPII人体模型数据集 MPII Human Shape 人体模型数据是一系列人体轮廓和形状的3D模型及工具。模型是从平面扫描数据库 CAESAR 学习得到。     2.MPII人类姿态数据集 MPII 人体姿态数据集是用于评估人体关节姿势估计的最先进基准。该数据集包括大约 25,000 张图像,其中包含超过 40,000 个带有注释身体关节的人。这些图像是使用已建立的人类日常活动分类法系统收集的。总的来说,数据集涵盖了 410 项人类活动,每个图像都提供了一个活动标签。每张图像都是从 YouTube 视频中提取的,并提供前后未注释的帧。此外,测试集有更丰富的注释,包括身体部位遮挡和 3D 躯干和头部方向。     六、自动驾驶 1.KITTI 道路数据集 道路和车道估计基准包括289次培训和290幅测试图像。我们在鸟瞰空间中评估道路和车道的估计性能。它包含不同类别的道路场景:城市无标记、城市标记、 城市多条标记车道以及以上三者的结合。     2.CrackForest数据集 CrackForest数据集是一个带注释的道路裂缝图像数据库,可以大致反映城市路面状况。     3.KITTI-2015立体声数据集 stero 2015 基准测试包含 200 个训练场景和 200 个测试场景(每个场景 4 幅彩色图像,以无损 png 格式保存)。与stereo 2012 和flow 2012 基准测试相比,它包含动态场景,在半自动过程中为其建立了真值。该数据集是通过在卡尔斯鲁厄中等规模城市、农村地区和高速公路上行驶而捕获的。每张图像最多可以看到 15 辆汽车和 30 名行人。     4.KITTI-2015光流数据集 Flow 2015 基准测试包含 200 个训练场景和 200 个测试场景(每个场景 4 幅彩色图像,以无损 png 格式保存)。与stereo 2012 和flow 2012 基准测试相比,它包含动态场景,在半自动过程中为其建立了真值。该数据集是通过在卡尔斯鲁厄中等规模城市、农村地区和高速公路上行驶而捕获的。每张图像最多可以看到 15 辆汽车和 30 名行人。 5.KITTI-2015场景流数据集 Sceneflow 2015 基准测试包含 200 个训练场景和 200 个测试场景(每个场景 4 幅彩色图像,以无损 png 格式保存)。与stereo 2012 和flow 2012 基准测试相比,它包含动态场景,在半自动过程中为其建立了真值。该数据集是通过在卡尔斯鲁厄中等规模城市、农村地区和高速公路上行驶而捕获的。每张图像最多可以看到 15 辆汽车和 30 名行人。 6.KITTI深度数据集 KITTI-depth 包含超过 93,000 个深度图以及相应的原始 LiDaR 扫描和 RGB 图像。鉴于大量的训练数据,该数据集应允许训练复杂的深度学习模型,以完成深度补全和单幅图像深度预测的任务。此外,该数据集提供了带有未发布深度图的手动选择图像,作为这两个具有挑战性的任务的基准。     七、目标跟踪 1.ALOV300++跟踪数据集 ALOV++,Amsterdam Library of Ordinary Videos for tracking 是一个物体追踪视频数据,旨在对不同的光线、通透度、泛着条件、背景杂乱程度、焦距下的相似物体的追踪。     八、动作识别 1.HMDB人类动作视频数据集 由布朗大学发布的人类动作视频数据集,该数据集视频多数来源于电影,还有一部分来自公共数据库以及YouTube等网络视频库。数据库包含有6849段样本,分为51类,每类至少包含有101段样本。     2.UCF50动作识别数据集 UCF50 是一个由中佛罗里达大学发布的动作识别数据集,由来自 youtube 的真实视频组成,包含 50 个动作类别,如棒球投球、篮球投篮、卧推、骑自行车、骑自行车、台球、蛙泳、挺举、跳水、击鼓等。对于所有 50 个类别,视频分为 25 组,其中每组由超过 4 个动作剪辑。同一组中的视频片段可能具有一些共同的特征,例如同一个人、相似背景、相似视点等。     3.SBU Kinect 交互数据集 SBU Kinect Interaction是一个复杂的人类活动数据集,描述了两个人的交互,包括同步视频、深度和运动捕捉数据。    

统计信息

已有391人来访过

  • 芯积分:7958
  • 好友:8
  • 主题:375
  • 回复:7525

留言

你需要登录后才可以留言 登录 | 注册


现在还没有留言