ljg2np

  • 2024-11-09
  • 回复了主题帖: 深度学习框架的相关讨论

    本帖最后由 ljg2np 于 2024-11-9 05:38 编辑 hellokitty_bean 发表于 2024-11-8 18:10 总体感觉,总结得非常好。。。。。。。。。。。。。。。。。。。。 还在不断摸索、探讨和学习中,感谢你的认可和支持:handshake

  • 2024-11-08
  • 回复了主题帖: 动手学深度学习(PyTorch版)- 【读书活动-心得分享】pytorch 线形代数相关操作

    Jacktang 发表于 2024-10-20 09:12 点积为矩阵相同元素的相乘的和,这个是不一般的不好理解 “点积为矩阵相同元素的相乘的和,这个是不一般的不好理解”,应该是指对相同位置元素的相乘的和,如果是相同元素,确实不太好理解。

  • 回复了主题帖: 关于GPU编程的讨论

    GPU的出现和提出,很大程度上促进和推动了一些领域和行业的发展,尤其是对于人工智能领域的参与,使其受到了普遍的关注,促进了计算机领域的改革和发展。

  • 回复了主题帖: 关于GPU编程的讨论

    zpw0316 发表于 2024-11-7 17:11 能不能描述清楚一点?485通信速率难道不是波特率决定的吗? 波特率的概念更为普遍适用,不止RS485,对RS422、RS232都可以采用的;对于GPU来说,它本身是作为显卡的芯片,侧重于图形处理和显示器适配的,随着芯片技术的发展,增强了性能,引入了并行计算功能,而且借助于显示器是电脑的标配的缘故,很方便的得到了应用和推广;实际上,它并不是专门从事并行、分布、集群的超大规模计算的。

  • 回复了主题帖: 采用pyTorch训练CNN的讨论

    pyTorch通过提供torch.library来进行pyTorch 核心运算符库的扩展、测试和创建,几个方法及其作用: 1、torch.library.custom_op  用于创建新的自定义运算符。此装饰器将函数包装为自定义运算符,使其能够与PyTorch的各个子系统交互。 2、torch.library.opcheck  用于测试自定义运算符是否正确注册,并检查运算符在不同设备上的行为是否一致。 3、torch.library.register_kernel  为自定义运算符注册特定设备类型的实现(如CPU或CUDA)。 4、torch.library.register_autograd  注册自定义运算符的后向传递公式,使其能够在自动求导过程中正确计算梯度。 5、torch.library.register_fake  为自定义运算符注册 FakeTensor 实现,以支持 PyTorch 编译 API。

  • 回复了主题帖: 关于GPU编程的讨论

    在pyTorch中调用GPU的两种方法: 1、调用model.cuda(),将模型加载到GPU; 2、调用model.to(device),这种方式应用较多。

  • 2024-11-07
  • 回复了主题帖: 让AI来帮你绘制一个电源PCB,靠谱吗?

    凡是可以规范化的操作,应该都是可以通过AI来实现的,至少可以辅助性的参与进来。

  • 回复了主题帖: 关于GPU编程的讨论

    本帖最后由 ljg2np 于 2024-11-8 09:31 编辑 在CUDA中通过函数类型限定词区分host和device上的函数,kernel(核函数)是在device上线程中并行执行的函数,用_global__符号声明;在device上执行时启动很多线程,一个kernel启动的所有线程称为一个网格(grid),同一个网格上的线程共享相同的全局内存空间,网格分为很多线程块(block),每个块包含了若干线程。主要的三个函数类型限定词如下:     1、__global__在device上执行,从host中调用,返回类型是void,不能成为类成员函数;     2、__device__在device上执行,仅在device中调用,不和_global__同时用;     3、__host__在host上执行,仅在host上调用,可省略不写,不和_global__同时用,可和__device__一起使用,函数在device和host都被编译。

  • 回复了主题帖: 关于GPU编程的讨论

    wangerxian 发表于 2024-11-7 13:09 CUDA是英伟达非常伟大的设计。 分布式并行计算技术一直在发展,英伟达通过CUDA将显卡芯片发展为GPU,极大降低了普通用户参与AI实现的门槛。

  • 回复了主题帖: 关于GPU编程的讨论

    GPU与CPU通过PCIe总线连接,CPU一侧称为主机端(host),GPU一侧称为设备端(device);CUDA是NVIDIA公司开发的GPU编程模型,它提供了GPU编程的简易接口,基于CUDA编程可以构建基于GPU计算的应用程序。CUDA程序的执行流程如下: 1、分配host内存,并进行数据初始化; 2、分配device内存,并从host将数据拷贝到device上; 3、调用CUDA的核函数在device上完成指定的运算; 4、将device上的运算结果拷贝到host上; 5、释放device和host上分配的内存。

  • 回复了主题帖: 关于GPU编程的讨论

    本帖最后由 ljg2np 于 2024-11-7 14:22 编辑   GPU硬件的一个核心组件是SM(Streaming Multiprocessor,流式多处理器),SM采用的是SIMT(Single-Instruction, Multiple-Thread,单指令多线程)架构,CUDA Warp(线程束)是CUDA中的最小执行单元,由 32 个线程或更少组成,运行在精确的32个GPU核心上,就像网格由块组成一样,块由Warps组成,Warp的多少取决于块使用的线程数。

  • 回复了主题帖: 关于GPU编程的讨论

    cuDNN是NVIDIA提供的针对深度神经网络基元的一个优化 GPU 库,这些基元包括前向传播、卷积、反向传播、激活函数(如 sigmoid、ReLU 和 tanh)和梯度下降,cuDNN 是大多数主流深度神经网络框架(如 Tensorflow)在 NVIDIA GPU 上的底层支撑。

  • 回复了主题帖: 关于GPU编程的讨论

    在CUDA平台下,CPU和GPU是如何分工协作的? 1. CPU负责任务调度和管理。 2. GPU负责并行计算:使用大量CUDA核心执行任务,完成大规模向量计算。 3. 数据交换:CPU和GPU之间存在数据交换,GPU显存决定并行处理规模和计算速度。

  • 发表了主题帖: 关于GPU编程的讨论

    图形处理器(Graphics Processing Unit, GPU)和中央处理器(Central Processing Unit, CPU)相对,是显卡的核心芯片;统一计算设备架构(Compute Unified Device Architecture, CUDA),是由英伟达(NVIDIA)推出的通用并行计算架构,作为开发GPU的编程接口,CUDA通过CPU任务分发和GPU并行处理来提升计算效率。    

  • 回复了主题帖: 【求助】小学六年级的题目,我硬是不会做

    ljg2np 发表于 2024-11-6 18:13 我算的结果是:7pi/2-8。 步骤: 1、求出2个扇形面积; 2、求出四边形的面积; 3、求面积差,得到结果 ... 更正补充:这里的计算结果有误,正确的结果应该是≈3.77pi-8。

  • 2024-11-06
  • 回复了主题帖: 【求助】小学六年级的题目,我硬是不会做

    小窍门:扇形求交的计算方法,可以转化为两个扇形的面积减去四边形的面积,再加上特殊的附加条件。

  • 回复了主题帖: 【求助】小学六年级的题目,我硬是不会做

    我算的结果是:7pi/2-8。 步骤: 1、求出2个扇形面积; 2、求出四边形的面积; 3、求面积差,得到结果。

  • 回复了主题帖: 【求助】小学六年级的题目,我硬是不会做

    再给出一种思路: 1、求交点; 2、作弦; 3、求面积,得到结果。

  • 回复了主题帖: 【求助】小学六年级的题目,我硬是不会做

    给出步骤: 1、写出2条曲线的方程; 2、求交点; 3、求积分,得到结果。

  • 回复了主题帖: 动手学深度学习(五):深度学习计算

    整理为类的方式,比较符合python的语言风格(代码整洁),而且使用起来也比较方便。

最近访客

< 1/1 >

统计信息

已有7人来访过

  • 芯积分:53
  • 好友:--
  • 主题:5
  • 回复:117

留言

你需要登录后才可以留言 登录 | 注册


现在还没有留言