rtyu789

  • 2024-09-27
  • 发表了主题帖: 《大语言模型:原理与工程实践》-有监督微调和强化对齐

    本帖最后由 rtyu789 于 2024-9-27 00:21 编辑 # 一、有监督微调 在预训练中,通常使用大规模的无监督数据进行训练,但是这不能解决特定的任务,所以需要收集符合人类需求的有监督数据进一步微调模型 其中有监督微调的主要作用有: 1. 定制化任务适应能力 2. 提升泛化能力 3. 减少数据需求 4. 灵活性和可迁移性 对于使用有监督微调,主要的应用场景有以下类型: 1. 问答系统 2. 信息检索和推荐系统 3. 机器翻译 4. 文本生成和摘要 5. 文本分类和情感分析 # 二、指令微调方法 大语言模型中主要使用的微调方法有以下: ## 2.1 全参数微调(Full Fine-tuning,FFT) 描述:最直接的微调方法,模型中的所有参数都会被更新,会修改模型的权重 优点:充分适应新的任务 缺点:需要较多的计算资源 ## 2.2 适配器微调 描述:在前馈层和多头注意力层之间添加了适配器层,只对适配器层进行参数优化,减少计算资源需求 优点:是一种易于扩展的解决方案,通过适配器层解决全微调和灾难性遗忘的问题 ![1_适配器微调](/data/attachment/forum/202409/27/001701siz5szyys0bg77tw.jpg.thumb.jpg?rand=4697.321736604745) ## 2.3 前缀微调(Prefix Tuning) 描述:在输入序列中添加提示作为前缀来引导模型完成特定任务 优点:只需要存储大语言模型以及已知任务特定前缀的副本,降低了计算和存储的开销 ![2_前缀微调](/data/attachment/forum/202409/27/001702rfpbzn6wczuiizv8.jpg.thumb.jpg?rand=1501.2538140463082) ## 2.4 提示微调(Prompt Tuning) 描述:轻量级的微调技术,仅仅修改提示词信息来提高生成质量 优点:主需要修改模型的输入,无需对整个模型进行微调,节约了时间和成本 ## 2.5 低秩微调(LoRA) 描述:在原始大语言模型的权重旁添加一个旁路镜像降维和升维的操作,只需要要对降维和升维矩阵B进行训 优点:参数量小,对算力和存储的需求小;LoRA微调会生成单独的模块,可以和其他微调方法 ![3_低秩微调](/data/attachment/forum/202409/27/001703m80nkqpkta9oqlwk.jpg.thumb.jpg?rand=3798.066671405329) 接下来,文章还介绍了大模型的微调和推理策略,主要有以下几种: 1. 混合微调策略 2. 基于上下文学习的推理策略 3. 基于思维连的推理策略 ![4_混合微调策略](/data/attachment/forum/202409/27/001840abaegmzt4bztkeep.jpg.thumb.jpg?rand=4167.769168931867) 但在大模型的微调中,也存在一些问题,比如会产生的模型的幻觉,大模型微调的幻觉问题的解决方式主要有以下几种: 1. 数据多样性 2. 对抗训练 3. 多任务学习 4. 模型结构设计 # 三、大语言模型强化对齐 # 3.1 强化学习的基础 强化学习可以看做是智能体和环境交互学习的过程,指的是智能体在面对环境的不同状态时,能采集合理的动作进行回应,以获得最大的回报 强化学习一般分为两个阶段: 1)智能体按照策略和环境进行多次交互,形成经验,这个过程被称为**探索**,这个阶段形成的策略称为行为策略 2)智能体按照某些算法从经验中学习,优化自己的策略,这个过程称为**学习**,这个阶段形成的策略称为目标策略 强化学习中主要有两类方法: 1. DQN方法 2. 策略梯度方法 # 3.2 大语言中的强化模型 大语言中的强化模型主要有以下几类: 1. (词令级别)Token-level强化模型 2. (句子级别)Sentence-level强化建模 # 3.2 RLHF算法 主要分为以下三个步骤 1. 预训练一个语言模型 ![5_RLHF算法](/data/attachment/forum/202409/27/001837po0m15secomcg13d.jpg.thumb.jpg?rand=6203.436354484553) 2. 聚合问答数据并训练一个奖励模型 ![6_RLHF算法](/data/attachment/forum/202409/27/001847dnadynzbzzsfnfnf.jpg.thumb.jpg?rand=2610.305206283954) 3. 用强化学习方式微调语言模型 ![7_RLHF算法](/data/attachment/forum/202409/27/001847amnptpenthw9fshv.jpg.thumb.jpg?rand=8946.007756036504) # 四、总结 在学习这两章内容的同时,自己也在互联网上进行了搜索,发现互联网上的确有很多扩展的资料,可能对某一方面的论述更加的充分,但是无法展现整个内容的全貌,但是从书籍中可以更加全貌的了解 # 参考资料 [大模型LLM-微调 Adapter Tuning](https://blog.csdn.net/leah126/article/details/140877949) [大模型微调实战:基于 LLaMAFactory 通过 LoRA 微调修改模型自我认知](https://www.lixueduan.com/posts/ai/05-finetune-llamafactory) [LoRA: Low-Rank Adaptation of Large Language Models](https://arxiv.org/abs/2106.09685)

  • 2024-09-23
  • 发表了主题帖: ST NUCLEO-WB09KE-开箱

    # 开箱 十分感谢EEWorld和意法半导体公司对本次活动的赞助。板子非常的小巧精致,很漂亮,就是后面的引脚是暴露的,有点担心会误触导致板子出现问题。虽然只是一个小纸盒,但是也是在EEWorld论坛申请到的第一块板子,再次感谢论坛对本次活动的支持。 放上开发板的靓照:Onion-2: # NUCLEO验证平台介绍 由于是第一次使用NUCLEO开发平台,所以去对这个STM推出的开发板平台做了一些了解 这是STM32 为了帮助验证芯片功能专门推出的开发板系列,STM32 Nucleo开发板集成了STLINK调试器/编程器,无需额外的调试工具和探头,分为了NUCLE-32、NUCLE-64、NUCLE-144四个类型 可以看到本次测评的产品用红色的框框框出来了 这是本次测评板的硬件框图,可以看到测评平台支持了Arduino Uno Rev3和ST Morpho连接器,同时只要通过type-C接口连接,在供电的同时可以支持STLINK-V3的调试接口 这几张图介绍了小板和大板上的各个元器件的作用。上面的小板子和下面的大板子卡的太紧了,不敢用力掰,怕给WB09的天线掰断了,所以就只能通过这边看看反面的PCB布局了 介绍了LED灯的作用 这边提到了其他坛友提到的烧写程序时候需要将跳帽换到BOOT处,程序运行时候换到Flash处 # 开机例程示意图 参考慕容雪花坛友的教程,去官网了下载ST的蓝牙Android APP,连接开发板,运行心跳例程 下一篇测评介绍STM32CubeMX的使用以及Keil5的程序烧录[献花] # 参考资料 [STM32WB09KE](https://www.st.com.cn/zh/microcontrollers-microprocessors/stm32wb09ke.html) [STM32 Nucleo 板](https://www.st.com.cn/zh/evaluation-tools/stm32-nucleo-boards.html) [BLE sensor application for Android and iOS](https://www.st.com/en/embedded-software/stblesensor.html) [慕容雪花-【ST NUCLEO-WB09KE测评】-1-开箱](https://bbs.eeworld.com.cn/thread-1293287-1-1.html)

  • 2024-09-21
  • 发表了主题帖: 《RISC-V开放架构设计之道》-开箱以及介绍RISV

    本帖最后由 rtyu789 于 2024-9-22 23:53 编辑 十分感谢EEWorld和电子工业出版社提供了此次书籍阅读和分享的机会,并且十分感谢书籍上的这几位翻译者,将书籍翻译成了中文,方便了RISV-V在国内的传播。 # 一、书籍概览 最开始以为这种的十分权威,负有盛名的书籍会十分厚,会像是《深入理解计算机系统(CSAPP)》一样,是个大部头,没想到拿到手后十分的薄,翻到最后居然只有200页,十分的让我惊讶。 通过阅读前言得到,书籍这么薄是作者刻意为之,是想要比其他的优秀的指令集架构书籍 See MIPS Run 500页更加精巧,做到他的1/3。实际上据作者介绍,前10章的内容作为本书的核心部分,总共只用了136页,达到了作者想要的“书籍和RISV-V指令集一样简洁”的目的。 封面很多的坛友都已经发了,这个蒙娜丽莎象征RISV-V是一个优雅的指令集架构(Instruction Set Architecture, ISA) ![1_书籍封面](/data/attachment/forum/202409/22/235223t44162fr957f4f1e.jpg.thumb.jpg?rand=6659.834161368032) 书中用了大量的图片和注释来对正文内容进行补充说明,内容更加的充实和风趣了 ![2_书籍图示](/data/attachment/forum/202409/22/235224ppv9vxp59vwp5vi9.jpg.thumb.jpg?rand=4980.7843228323745) ![3_书籍图示](/data/attachment/forum/202409/22/235225mkazk0fvbw82kjbz.jpg.thumb.jpg?rand=8559.72866587955) 但是美中不足的一点是,由于是本书实在是过于优秀,从献词开始到前言,在如此精简的书籍中就占去了12页(笑)。恰恰说明了从作者到译者,到推荐者,都是领域内鼎鼎有名,资历深厚的大牛,但是对于读者来说,光光看开头就已经花去了许多精力了,可能等进入正文,就兴味索然了(笑)。 # 二、作者介绍 在阅读书籍之前就有了解到,作者David Patterson就是RISV-V的作者,但是打开书籍的作者介绍页,还是被他的履历深深的震感了,于是就去增加了一些对他的了解。 他的主要成就: 1. 领导了四代精简指令集计算机(RISC)项目 2. 他和Andrew Waterman(本书另一作者)均为四位 RISC-V 架构师中的一员 3. 他与Randy Katz一起领导对廉价磁盘冗余阵列(RAID)存储的研究 4. 领导了伯克利的工作站网络 (NOW) 项目,这是计算机集群领域的早期工作 5. 2017年 ACM图灵奖 他的主要头衔: 1. 加州大学伯克利分校担任计算机科学系的教授 2. RISC-V 国际基金会董事会副主席 3. RISC-V 国际开源实验室主任 4. 伯克利计算机科学部主席 5. 曾当选计算研究协会(CRA, Computing Research Association)主席 6. 曾当选计算机协会(ACM, Association for Computing Machinery)主席 主要著作: 1. Computer Architecture: A Quantitative Approach (计算机体系结构:量化研究方法) ![4_计算机体系结构](/data/attachment/forum/202409/22/235226pe2op927pzozk9kr.png.thumb.jpg?rand=6786.8030263098) 2. Computer Organization and Design The Hardware/Software Interface: RISC-V Edition (计算机组织与设计软硬件接口:RISC-V版) ![5_计算机组织与设计软硬件接口](/data/attachment/forum/202409/22/235227p4ma8m366k68maku.png.thumb.jpg?rand=3483.771307873169) 3. The RISC-V Reader: An Open Architecture Atlas (RISC-V开放架构之道,本书) 作者写的书籍基本都是计算机领域的经典著作,对计算机体系结构有着深入的剖析。他主要在伯利克里领导了RISC的开发,RAID阵列的存储系统也是他研究发明的,并且由于RISC方面的工作获得了2017年的图灵奖。之后有机会继续拜读大佬的另外的作品。 # 三、第一章 为什么要有RISC-V ## 3.1 增量型ISA和模块化ISA 本章介绍了,传统的ISA基本上都是增量型ISA,指的是新的处理器不仅需要对原有的ISA进行扩展,还需要对过去的二进制兼容,导致之前的错误设计,都依然需要保留下来 但是RISC-V在设计的时候就考虑到了这个问题,所以他是模块化的,他的合兴是一个名为RV32I的基础ISA,并且这是冻结的,永不改变。未来根据应用的需求,再对指令集进行标准化的扩展,扩展主要如下 | 指令集扩展名称 | 扩展作用     | | ------------ | ------------ | | RV32M          | 乘法、除法   | | RV32F          | 单精度浮点   | | RV32D          | 双精度浮点   | | RV32A          | 原子指令     | | RV32C          | 压缩指令     | | RV32V          | 向量         | | RV64           | 64位地址指令 | ## 3.2 ISA设计导论 ISA设计原则: 1. 成本 2. 简洁 3. 性能 4. 架构和实现分离 5. 提升空间 6. 代码大小 7. 易于编程/编译/链接 ![6_在代码大小方面RSIV-V对比其他指令集的优势](/data/attachment/forum/202409/22/235228yomn4dz1no4u0aom.jpg.thumb.jpg?rand=3328.597106245843) # 参考资料 [RISC-V开放架构设计之道,开源书籍页面](http://www.riscvbook.com/) [中国开放指令生态(RISC-V)联盟](https://crva.ict.ac.cn/) [一生一芯开源项目页面,包含视频资料,课件](https://ysyx.oscc.cc/books/riscv-reader.html)

  • 回复了主题帖: 《RISC-V 开放架构设计之道》- RISC-V开放架构设计简读

    freebsder 发表于 2024-6-26 14:43 这个和arm有啥区别?除了不要钱。 指令集更加精简了,代码的执行效率可以更高,书中有详细RISC-V和x86,arm指令集的性能对比

  • 2024-09-20
  • 回复了主题帖: 【ST NUCLEO-WB09KE测评】-1-开箱

    慕容雪花 发表于 2024-9-20 06:56 这么看到话,开机Demo是随机的。HEAR RATE在官方提供的固件库里面是有这个Demo的。不用担心。   ... 嗷嗷,原来如此,十分感谢啦

  • 回复了主题帖: 【ST NUCLEO-WB09KE测评】-1-开箱

    想问下我也是蓝牙连接了app,但是为什么我这边没有这个心跳选项,只有控制LED灯,需要哪里调整嘛

  • 2024-09-17
  • 回复了主题帖: 《大语言模型:原理与工程实践》-预训练数据构建

    Jacktang 发表于 2024-9-15 08:49 Common Crawl提取的比较粗糙,有的研究人员会自己使用WARC中提取,好吧 是的呀

  • 2024-09-12
  • 发表了主题帖: 《大语言模型:原理与工程实践》-预训练数据构建

    # 一、预训练数据主要来源 大模型的训练需要巨大和多样的数据量,下面的表格展示了大模型中主要使用的数据类型 | 数据类型 | 常用数据来源           | | -------- | ---------------------- | | 网页数据 | CommonCrawl、C4        | | 书籍数据 | BookCorpus             | | 百科数据 | 维基百科、百度百科     | | 代码数据 | Github、GitLab         | | 其他     | 学术论文、新闻、多语言 | 具体的数据集,在常用数据集中会介绍 # 二、数据的预处理方式 收集到的广泛的非结构化文本中,有很多低质量的数据,比如垃圾邮件、乱码文字和有害内容需要对数据进行预处理以后才可以使用 主要的预处理步骤如下: 1. 正文提取——**解决不同格式的问题**    1. HTML    2. PDF    3. EPUB、MOBI    4. DOCX    5. Markdown 2. 质量过滤——**筛去低质量文本**    1. 规则过滤       1. 格式转换——比如字符编码归一化,标点符号统一       2. 篇章级过滤——比如删除过长或过短的文本       3. 行级过滤——比如删除残留的HTML标签    2. 模型过滤       1. 机器学习分类预测文本质量       2. 毒害分类器 3. 文档去重——**防止过度记忆某些高频内容**    1. 文档内去重       1. 行内去重       2. 行间去重    2. 文档间去重       1. 文档相似度计算          1. 余弦相似度          2. Jaccard相似度       2. 大规模数据,近似哈希          1. SimHash算法          2. MinHashLSH算法 4. 数据集净化——**确保数据安全和可用性**    1. 数据脱敏       1. 确保隐私安全       2. 消除偏见       3. 开源工具数据过滤Perspective API    2. 测试集分离       1. 由于大模型的规模极大,所以需要特别注意测试和训练集的分离 # 三、常用数据集 ## 英文数据集 ### 1. Common Crawl 介绍 使用python的爬虫工具,从2008年开始爬取互联网上大量的网页数据,供研究人员、开发人员和公众使用 ![1_Common_Crawl官网图片1](/data/attachment/forum/202409/12/235503hgyzn8jgg2w8sfy6.png.thumb.jpg?rand=2903.490231354007) ![2_Common_Crawl官网图片2](/data/attachment/forum/202409/12/235504ojlqy516rryj66tz.png.thumb.jpg?rand=1150.024653647248) Common Crawl主要有以下几个部分组成 | 简称 | 数据类型              | 内容                               | | ---- | --------------------- | ---------------------------------- | | WARC | Web ARChive           | 完整内容、HTTP响应头、主体HTML内容 | | WAT  | Web ARChive Transform | 从WARC中提取了元数据和链接信息     | | WET  | Web  Extracted Text   | 只包含网页的正文文本内容           | ![3_Common_Crawl文件目录](/data/attachment/forum/202409/12/235505mn951mv5how10kw5.png.thumb.jpg?rand=6797.715393499222) 一般使用WET训使用的较多,满足纯文本需求,并空间占用最少,但是Common Crawl提取的比较粗糙,有的研究人员会自己使用WARC中提取 ### 2. C4 数据集介绍 Google公司基于Common Crawl在2019年4月构建的开源数据集,对所有非英文文本内容进行了过滤,并进行了质量过滤 ### 3. ROOTS 数据集介绍 ROOTS项目是一个由BigScience团队训练BLOOM模型时使用的数据集,包含46种自然语言,大约1.6TB,他们团队公开了数据处理代码 ## 中文数据集 ### 1. MNBVC 超大规模中文语料集,包括一切形式的纯文本中文数据。数据均来源于互联网收集,且至2024年9月持续更新中。 ![4_MNBVC页面](/data/attachment/forum/202409/12/235505gttfrhgfbytyvovq.png.thumb.jpg?rand=4272.186598594126) ### 2. WanJuan-1.0 书生·万卷1.0为书生·万卷多模态语料库的首个开源版本,包含文本数据集、图文数据集、视频数据集三部分,数据总量超过2TB。 ![5_万卷页面](/data/attachment/forum/202409/12/235506u62v8n8ufhh1uuyx.png.thumb.jpg?rand=9327.694389833825) # 参考资料 [Common Crawl](https://commoncrawl.org/) [C4 数据集](https://paperswithcode.com/dataset/c4) [MassiveText](https://paperswithcode.com/dataset/massivetext) [falcon-refinedweb](https://huggingface.co/datasets/tiiuae/falcon-refinedweb) [ROOTS](https://huggingface.co/bigscience-data) ## 中文数据集 [MOP里屋社区](https://mnbvc.253874.net/) [整理开源的中文大语言模型](https://github.com/HqWu-HITCS/Awesome-Chinese-LLM) [MNBVC](https://githb.com/esbatmop/MNBVC) [WanJuan-1.0](https://opendatalab.com/OpenDataLab/WanJuan1_dot_0)

  • 2024-09-05
  • 回复了主题帖: 【Follow me第二季第2期】+开发板硬件介绍和实现任务一 LED灯闪烁和串口打印

    分享的内容很棒,学习到了 视频内容从1:03左右开始,电脑使用obs录制的时候,声音就偏小了,基本上完全听不到,持续到后面也是这样,楼主可以注意一下哈

  • 加入了学习《【Follow me第二季第2期】+开发板硬件介绍和实现任务一 LED灯闪烁和串口打印》,观看 【Follow me第二季第2期】+开发板硬件介绍和实现任务一 LED灯闪烁和串口打印

  • 回复了主题帖: 测评入围:ST NUCLEO-WB09KE

    个人信息无误,确认可以完成测评分享计划,期待收到开发板

  • 2024-09-04
  • 回复了主题帖: 共读入围:《RISC-V开放架构设计之道》 第二轮

    个人信息无误,确认可以完成评测计划

  • 2024-08-29
  • 回复了主题帖: 《大语言模型:原理与工程实践》-大模型基础技术

    freebsder 发表于 2024-8-29 16:06 彩印价格应该要上大100了吧 书籍后面写的标价是119

  • 2024-08-28
  • 回复了主题帖: 《大语言模型:原理与工程实践》-大模型基础技术

    oceansky 发表于 2024-8-28 14:00 《大语言模型:原理与工程实践》-大模型基础技术  ,有没有免费下载的PDF?   这是EEWorld站内的测评活动哦,没有提供下载的电子版,这是活动页面 【《大语言模型:原理与工程实践》】测评|【《大语言模型:原理与工程实践》】免费试用_电子工程世界 (eeworld.com.cn) 需要的话可以自行购买哦

  • 发表了主题帖: 《大语言模型:原理与工程实践》-大模型基础技术

    十分感谢EEWorld和电子工业出版社提供了此次书籍阅读和分享的机会。 # 一、书籍概览 数据在对模型的展示中,用了丰富的图示,可以更方便读者进行理解 ![836522](/data/attachment/forum/202408/28/003002k9elo71414ae8rbq.jpg.thumb.jpg?rand=4268.273136761895) 每个章节后增加了参考文献,方便读者的阅读 # 二、大模型的基础技术 平时对大模型的推理了解的较多,但是对训练大模型背后的技术了解的比较少,本章主要从四个方面介绍了大模型的基础技术 1. 自然语言的基本表示方法    1. 词表示技术       1. 词的独热表示       2. 词的分布式表示       3. 基于预训练的词嵌入式表示    2. 分词技术       1. word粒度       2. character粒度       3. subword粒度 2. 经典结构Transformer 3. Transformer预训练语言模型    1. Encoder-Only预训练语言模型——BERT    2. Decoder-Only预训练语言模型——GPT    3. Encoder-Decoder预训练语言模型——T5、BART 4. 分别对开源和闭源大模型进行介绍    1. InstructGPT    2. LLaMA 本书对2.3.4.部分的章节描述的比较详细,所以主要补充一下第一部分的内容,笔者比较感兴趣 # 三、自然语言的基本表示方法 1. 词表示技术 词的独热表示是一种最简单最直接的词的向量化表示方式。主要步骤包含两步: 1) 对需要用到的文本中所有词进行编码(假设共用N个词),每个词有唯一的下标(0~N) 2) 根据词下标 i 生成一个长度为N的向量,除了第i位为1外,其他位都为0 下面举个简单的例子进行说明: ```shell I like deep learning I like NLP I enjoy flying ``` 忽略大小写,对不同的词进行编码: ```shell word_dict = {0: 'i', 1: 'like', 2: 'deep', 3: 'learning', 4: 'NLP', 5: 'enjoy', 6: 'flying'} ``` 显然,根据不同词个数(7),我们需要构建的One-Hot向量长度为7: | 词       | 编码 | One-hot表示   | | -------- | ---- | ------------- | | i        | 0    | [1,0,0,0,0,0,0] | | like     | 1    | [0,1,0,0,0,0,0] | | deep     | 2    | [0,0,1,0,0,0,0] | | learning | 3    | [0,0,0,1,0,0,0] | | NLP      | 4    | [0,0,0,0,1,0,0] | | enjoy    | 5    | [0,0,0,0,0,1,0] | | flying   | 6    | [0,0,0,0,0,0,1] | 2. 基于预训练的词嵌入式表示 静态词向量语言模型,Word2vec,GloVe 动态词向量语言模型,ELMo,GPT,BEERT 主要介绍Word2vec,可以称为词嵌入 上面介绍的词的独热向量虽然十分的简单,但是不能准确的表达各个词语之间的相似度,所以在2013年,谷歌的科学家提出了Word2vec的方法,在词嵌入模式下,主要有两个模型跳元模型Skip-Gram和连续词袋CBOW模型 1) 跳元模型Skip-Gram 主要思想:假设一个词可以用来在文本序列中生成其周围的单词 图示: 对于如下的文本序列,给定中心词NLP ```shell I like NLP and deep learning ``` 跳元模型考虑生成上下文词I,like,and,deep,learning的条件概率 ```shell P("I","like","and","deep","learning") ``` 假设上下文词是在给定中心词的情况下独立生成的(即条件独立性)。在这种情况下,上述条件概率可以重写为 ```shell P("NLP"|"I"),P("NLP"|"like"),P("NLP"|"and"),P("NLP"|"deep"),P("NLP"|"learning") ``` 后面的公式可以参考参考资料14.1. 词嵌入(word2vec) 1) 连续词袋CBOW 主要思想:假设中心词是基于其在文本序列中的周围上下文词生成的 图示: 写的这些内容也仅仅是抛转引玉,更多的NLP内容读者可以自己加以学习,对于语言处理也是一门很深的学问,需要不断的学习 # 参考资料 [词的独热(one-hot)表示](https://blog.csdn.net/weixin_38659482/article/details/123316173) [深入浅出 one-hot](https://zhuanlan.zhihu.com/p/634296763) [如何通俗理解Word2Vec (23年修订版)](https://blog.csdn.net/v_JULY_v/article/details/102708459) [14.1. 词嵌入(word2vec)](https://zh.d2l.ai/chapter_natural-language-processing-pretraining/word2vec.html) [Distributed Representations of Words and Phrases and their Compositionality](https://arxiv.org/abs/1310.4546) [Efficient Estimation of Word Representations in Vector Space](https://arxiv.org/abs/1301.3781)

  • 2024-08-26
  • 回复了主题帖: 【Follow me第二季第2期】+ 搭建环境并开启第一步Blink / 串口打印Hello EEWorld!

    这到货的也太快了吧,学习学习,不知道用vscode的PlatformIO开发是否方便呢

  • 2024-08-20
  • 加入了学习《全新树莓派4:它是否能替代你的pc》,观看 全新树莓派4:它是否能替代你的pc

  • 2024-08-13
  • 回复了主题帖: 共读入围名单:《大语言模型:原理与工程实践》

    个人信息无误,确认可以完成评测计划

  • 2024-08-05
  • 加入了学习《GD32嵌入式开发入门》,观看 透彻理解嵌入式系统的概念

  • 加入了学习《【Follow me第二季第1期】全部任务演示》,观看 全部任务演示2.0

最近访客

< 1/1 >

统计信息

已有23人来访过

  • 芯积分:108
  • 好友:--
  • 主题:5
  • 回复:11

留言

你需要登录后才可以留言 登录 | 注册


现在还没有留言