胡黎明

  • 2024-12-19
  • 发表了主题帖: 实操给桌面机器人加上超拟人音色

      前面我们讲了怎么用CSK6大模型开发板做一个桌面机器人充当AI语音助理,近期上线超拟人方案,不仅大模型语音最快可以1秒内回复,还可以让我们的桌面机器人使用超拟人音色、具备声纹识别等能力,本文以csk6大模型开发板为例实操怎么把超拟人音色用起来。    

  • 2024-12-18
  • 发表了主题帖: 实操给触摸一体机接入大模型语音交互

      本文以CSK6 大模型开发板+串口触摸屏为例,实操讲解触摸一体机怎样快速增加大模型语音交互功能,使用户能够通过语音在一体机上查询信息、获取智能回答及实现更多互动功能等。 在本文方案中通过CSK6大模型语音开发板采集用户语音,将语音数据传输到大模型进行处理,再将大模型生成的回答转换为语音输出和在触摸一体机屏幕上显示文字结果。    

  • 2024-11-08
  • 发表了主题帖: 用CSK6大模型开发板自定制一个能说会唱的桌面聊天机器人/AI智能语音助理

      桌面机器人,作为人工智能领域中一个充满潜力的分支,正逐渐成为我们日常生活中的伙伴。它们不仅能够提供信息查询、陪伴关怀等实用功能,还能以更加人性化的方式与我们互动,成为我们工作和娱乐的好帮手。   本文以聆思CSK6大模型开发板为例,讲解怎么定义人设、修改发音人音色、增加技能、挂载私有知识库、让您的桌面小伙伴更加智能、更加贴近用户的需求。     1、个性人设塑造 功能描述: 个性塑造功能支持设置设备的交互风格,包括对话风格、语调语速等,增加个性化体验。支持更改“大模型的自我认知”设定,让其展示特定的个性特征,适应不同用户的喜好。

  • 2024-10-16
  • 发表了主题帖: 大模型语音开发板外壳3D打印资源和重点结构讲解

    前言 聆思CSK6大模型语音视觉开发板联网就可以使用大模型语音对话,因此有些朋友就想加个外壳放在桌面像音箱一样使用。但由于开发板拾音和无线信号都容易被外壳屏蔽,导致开发板不能正常使用,本篇以3D印的外壳为例子讲下相关的外壳结构和相关注意事项。 下图外观的3D打印模型文件资源放在附件文档中,有需要的朋友可以自取。   关键结构注意事项   ● 麦克风拾音窗口:分为面板窗口和侧窗,开两个窗口的目的是尽量增加收音面,在办公室环境实测开窗的两个角度拾音效果和不加外壳时差不多,但从Type C接口这侧唤醒交互效果稍弱。 详细内容请参考附录文档

  • 2024-10-14
  • 发表了主题帖: 聆思CSK6大模型语音开发板改造:延长板载麦克风(外接驻极体麦克风)

      前言 近期有不少开发者想把CSK6大模型开发板接到自己的智能音响、机器人、机器狗等产品上使用,但把开发板放在外壳下时麦克风被遮挡会影响拾音效果,把开发板暴露在外面时又不美观,此时就有必要把麦克风进行延长。     材料准备 1.1k电阻 x2 驻极体麦克风 x1 (参考指标:灵敏度-35±3dB,性噪比 60dB ) 详情请查看附件

  • 2024-09-05
  • 发表了主题帖: 实操在聆思CSK6大模型开发板的英文评测SDK中自定义添加单词、短语、句子资源

      英文评测示例通过对用户语音输入的英文单词进行精准识别,提供 单词、短语、句子 三种类型,用户在选择好类型后,可根据屏幕上的提示进行语音输入,评测算法将对输入的英文语音进行精准识别,并对单词的发音、错读、漏读、多读等方面进行评估。 本文将详细介绍在聆思CSK6大模型语音视觉开发板上,如何替换英文评测示例中的单词、短语和句子,从而让您有更好的AI应用体验。 ​​​​​​​  

  • 2024-08-26
  • 发表了主题帖: 聆思CSK6大模型语音视觉开发板接入AIUI技能实操(语音控制风扇开关)

    本文以大模型语音控制灯的开关为例,讲解如何通过LSPlatform的云端编排功能在大模型语音交互流程中加入AIUI技能,实现更丰富的产品功能。 大模型语音模板加入AIUI技能节点后的数据流程如下图所示:  

  • 2024-08-16
  • 发表了主题帖: 智能硬件大模型语音交互流程自定义编排(进阶篇)

      前言 上一篇讲了基础节点和常规调试方法,在实际应用开发的过程中,除了大模型相关的基础节点外,链路编排实际上还需要包含了更多的通用节点。本篇将介绍几个在实际应用开发中常用的节点及其功能。

  • 2024-08-15
  • 发表了主题帖: 聆思CSK6大模型开发板语音唤醒加载GIF动画

      本篇文章主要介绍基于聆思CSK6大模型开发板的语音交互多模态实例进行二次开发,实现在语音唤醒后在屏幕展示GIF动画表情。 通过LGVL官网的工具将GIF转换为适合嵌入式系统使用的格式 基于SDK源代码进行修改 开发板编译与烧录  

  • 2024-08-09
  • 发表了主题帖: 聆思CSK6大模型语音控制风扇(上)

      本文介绍如何实现大模型+语音交互对风扇实现开关控制,示例使用的硬件是聆思CSK6大模型开发板,大模型接的是星火大模型。本文将先详细介绍大模型云端从获取交互语音到下发控制指令的全过程,包括整合上下文、配置提示词、语义意图分类、提取关键信息以及控制指令的执行等关键环节。

  • 2024-07-19
  • 发表了主题帖: 手把手教你用聆思CSK6大模型开发板接入文心一言/千帆大模型

      简介:   本贴介绍了如何使用聆思CSK6大模型开发板接入文心一言做一个可以语音交互的AI助手。   当前方案是把开发套件当做输入端,交互内容先上传到聆思的大模型平台(LSPlatform),然后平台再根据匹配的应用策略转给后端的大模型处理。基于聆思大模型平台提供的应用编排功能,我们如果要使用其他大模型,只需要从云端更改大模型接入节点,而无需去修改硬件端。   首先,需要在LSplatform上创建新应用并导入文心一言示例工程。(工程文件可以从附件文档中获得)   然后配置包括HOST、AK/SK、Model和Stream等参数,部署验证成功后,将云端服务与产品配置绑定。       在云测试页面交互返回如上图信息,就可以在CSK6开发板设备端写入云端产品服务配置,无需修改固件即可实现语音交互。 实操详情请参考附件。

  • 发表了主题帖: 手把手教你用聆思CSK6开发板接入ChatGPT

    本帖最后由 胡黎明 于 2024-7-19 18:42 编辑   简介: 本贴介绍了如何使用聆思CSK6大模型开发板接入ChatPT做一个可以语音交互的AI助手。 当前方案是把开发套件当做输入端,交互内容先上传到聆思的大模型平台(LSPlatform),然后平台再根据匹配的应用策略转给后端的大模型处理。基于聆思大模型平台提供的应用编排功能,我们如果要使用其他大模型,只需要从云端更改大模型接入节点,而无需去修改硬件端。     首先,需要在LSplatform上创建新应用并导入ChatGPT示例工程。(工程文件可以从附件文档中获得) 然后配置HOST、API、Model和Stream等参数,部署验证成功后,将云端服务与产品配置绑定。 在云测试页面交互返回如上图信息,就可以在CSK6开发板设备端写入云端产品服务配置,无需修改固件即可实现语音交互。 实操详情请参考附件。

  • 2024-06-20
  • 发表了主题帖: 聆思CSK6大模型+AI交互多模态开源SDK介绍

      视觉语音大模型 AI 开发套件( CSK6-MIX )是围绕 CSK6011A 芯片设计的具备丰富语音图像功能与硬件外设的开发板,采用具备丰富组件生态的 Zephyr RTOS作为操作系统,官方提供了十几种开源SDK,包含大模型语音交互、大模型拍照识图、文生图、人脸识别、头肩追踪、手势识别、坐姿提醒等。 聆思科技还提供了模型训练推理工具将自己的算法模型部署至芯片上,也可以配合这个工具构建自己的 AI 应用。 语音交互与识图 功能介绍 SDK主要包含以下功能: ●语音交互:支持按键录音或唤醒后通过语音与大模型进行对话 ●拍照识图:支持通过摄像头拍摄图像并上传给大模型进行识别,支持依据识图内容进行提问 ●图片生成:支持通过语音交互描述画面内容,令大模型生成图片并显示至套件屏幕上 语音交互模式 支持的语音交互模式 多模态SDK支持三种交互方式,其特点如下: 模式 唤醒方式 交互方式 按键交互 按下屏幕麦克风图标或开发板K3按键 按住按键说话,松开提交 语音唤醒(单轮) 唤醒词 “小美小美” 听到提示音 “在呢” 后进行提问,每次提问均需要唤醒 语音唤醒(多轮) 唤醒词 “小美小美” 听到提示音 “在呢” 后进行提问,可持续对话,当超过20秒无语音输入时自动结束本次交互 语音交互模式的切换 在待机页面,下滑可调出下滑菜单,点击下滑菜单中的 设置图标,可进行配置页面: 选中对应的模式后,点击左上角即可回到待机页面并生效。 按键交互模式 设置成按键交互(按键唤醒)模式下,按住屏幕上的麦克风按钮或开发板上的K3按键,即进入录音状态,松开按键则结束录音并提交。 语音唤醒模式 当设置为语音唤醒(单轮)或语音唤醒(多轮),可通过唤醒词 —— “小美小美” 对设备进行唤醒,当听到 “在呢” 的提示音后,即可正常进行语音输入。 退出对话 在使用过程中,点击左上角即可结束本轮对话回到待机页面,此操作会同步清除本次对话的上下文信息。 拍照识图 在待机页,点击拍照按钮即可进入取景页面,对准要拍照的物体,点击右侧中间的拍照键完成抓拍,确认画面抓拍正常后(无晃动模糊的情况),点击右侧的 √ 进行提交识别: 文生图 在设备进入语音交互状态后,可以通过带有绘画意图的提示词让大模型进行作画,比如: ●“画一只熊猫” ●“画一个人正在使用电脑” 图片生成与设备控制 功能介绍 本示例主要包含以下功能: 可通过“小聆小聆”对设备进行唤醒 可通过语音交互与大模型进行对话 可通过语音交互使用大模型绘制图片并显示在屏幕上 可通过语音交互通过大模型控制屏幕显示的颜色 支持通过LSPlatfrom接入自己的大模型应用 大模型语音对话功能 我们可以通过 “小聆小聆” 唤醒词对开发套件进行唤醒 套件被正常唤醒时,会播放应答语 —— "在呢" 此时我们可以接着对开发套件说出我们的问题,比如:“什么是大模型?” 稍等片刻后,开发套件将播放返回的答案 大模型作画 我们可以通过 “小聆小聆” 唤醒词对开发套件进行唤醒 套件被正常唤醒时,会播放应答语 —— "在呢" 此时我们可以接着对开发套件以 “画xx” 的句式说出我们希望它绘制的图像,比如:“画一只大熊猫” 稍等片刻后,开发套件将在显示屏上显示大模型根据我们需求生成的图片 大模型控制设备 我们可以通过 “小聆小聆” 唤醒词对开发套件进行唤醒 套件被正常唤醒时,会播放应答语 —— "在呢" 此时我们可以接着对开发套件件以 “把屏幕设置成xx” 的句式说出希望屏幕显示的颜色,比如:“把屏幕设置成大海一样的颜色” 稍等片刻后,开发套件将把屏幕设置成理解了我们描述后的颜色 智能问答与坐姿检测 功能介绍 本示例功能包含: 坐姿检测:通过摄像头检测人员坐姿,并在出现不良坐姿时进行提醒(红灯闪烁) 语音识别:支持离线识别指定唤醒词并进行录音 网络:通过 WIFI 芯片接入网络,对接聆思大模型平台,支持与大模型进行对话 屏显:通过显示屏展示应用相关动画界面 体验大模型语音对话功能 我们可以通过 “小聆小聆” 唤醒词对开发套件进行唤醒 套件被正常唤醒时,会播放应答语 —— "在呢" 此时我们可以接着对开发套件说出我们的问题,比如:“什么是大模型?” 稍等片刻后,开发套件将播放返回的答案 体验坐姿检测 本示例工程中默认启用了坐姿检测功能,当摄像头识别到不良坐姿时,开发板上也将闪烁红色 LED 进行提醒,同时,我们也可通过 PC 工具查看实时拍摄的图像与坐姿检测结果。 本示例运行时,摄像头将持续拍摄图像并并送入坐姿检测算法进行处理,当检测到画面中出现不良坐姿(如趴桌、手托脸等)时,将闪烁红色 LED 进行提醒,如下图。 借助串口连接即可看到预览图和识别结果; 相关资料 开发版硬件详情和资料下载:套件简介 | 聆思文档中心 大模型多模态应用开发培训视频:大模型时代下的智能硬件新玩法_哔哩哔哩_bilibili

  • 2024-06-18
  • 回复了主题帖: 聆思CSK6大模型开发板视觉识别类开源SDK介绍

    Jacktang 发表于 2024-6-18 07:27 为了提高安全性,大模型开发板还可以进行活体识别,判断当前交互对象是否为真实的人, 是的,可以结合上述第四个活体识别的功能

  • 发表了主题帖: 手把手教你做一个成本40元不到的人脸识别小相机

      前言 本文以UP主工科男孙老师近期发布的视频产品为例,按以下顺序讲解如何基于聆思官方提供的资料做一个成本40元不到的人脸识别小相机。 实例介绍 DIY使用的主要元器件介绍 程序和烧录 实例演示视频 实例介绍 下图是孙老师视频中分享的人脸识别相机的模块图片,可以看到PCBA相当简洁,PCBA正中间有一颗聆思 CSK6011A 型号的芯片作为主控,左侧是用于存储固件的 Flash,剩下的则是用于交互的按键与晶振、阻容、LED等器件。算上屏幕和摄像头,整个方案量产成本预估40元不到。 我们可以看到PCBA上方有两个按键,BOOT按键可以用来实现人脸录入,K1按键可以用来启动人脸识别,识别结果可以通过屏幕直接显示出来。 PCBA的侧面预留了一个可用于烧录与输出应用信息的串口,当检测到人脸之后,它就会不停的输出检测到的信息,除了有没有人脸,还有人脸在画面中的、xy坐标、大小三个方向的偏转角信息等等,这样就可以把相机当做一个传感器模块和其他硬件模块搭配,做一些更好玩的应用。 主要元器件和资源介绍 孙老师做的小相机模块主要元器件为这几种:主芯片、摄像头、屏幕、开关电源(DCDC)、电容电阻等,主要信息如下: 聆思 CSK6011A芯片 (三核异构AI处理器) ARM Star MCU:最高300MHz主频 HIFI4 DSP:最高300MHz主频 NPU:128GOPS算力 SRAM: 1MB PSRAM:8MB 内置最高支持 8MB Flash,可选最高 16MB 的外置 Flash 更详细芯片信息,如规格书、硬件设计参考等资料可以进入聆思文档中心下载:https://docs2.listenai.com/x/af7lMsf-Scg 摄像头 型号为 GC0328,官方已基于摄像头对算法做过优化,不建议更换其他摄像头,可以通过聆思官方文档或联系官方客服小助手了解摄像头更多的信息 接口:DPV 像素:30万 屏幕: 孙老师在这个小相机项目中选择了一个小尺寸的 TFT 屏,主控芯片 CSK6011A 本身具备 SPI 和 I2C 接口,支持接触摸屏,如官方的大模型开发板使用的是更大尺寸的触摸显示屏。 屏显接口:SPI 触摸接口:I2C 可根据实际需求更换或去掉屏幕 开关电源(DCDC) 开发板模块可以由串口的5V进行供电, 芯片供电需要通过开关电源芯片转换为3.3V 电容电阻 使用可以参考聆思官方提供的原理图根据实际情况搭配使用 原理图相关 人脸识别相机可以参考聆思CSK6大模型开发板原理图裁剪功能获得,有想尝试拓展模块玩法的朋友也可以很方便的进行改造,开发板资料的下载地址:聆思开发板原理图下载 程序和烧录 芯片支持串口烧录,模块预留串口,外接串口工具板即可进行烧录。 人脸识别SDK介绍 SDK下载地址:人脸识别SDK | 聆思文档中心 返回人脸边界框、人脸标定点、头部姿态角度、人脸识别特征 头部姿态角度如图,支持pitch、roll、yaw三个角度 将检测到的人脸特征值和本地存储的人脸特征值输入算法进行比对, 并返回比对结果 聆思官方提供有开源的SDK除了人脸识别,还提供有坐姿检测、头肩跟踪、手势识别、物体分类等AI能力SDK,需要哪个烧录哪个,详情可以参考SDK目录下的README文件。 烧录 cskburn desktop是聆思科技提供的一款桌面烧录工具,支持windwos、Liunx、macOS,一键安装,连接串口即可快速对 CSK6系芯片、开发套件快速进行固件烧录,进行下载地址: cskburn桌面烧录工具 | 聆思文档中心 进入烧录模式:芯片烧录可以用BOOT+RST组合进入烧录模式。 以下图为例,串口工具链接后,按住BOOT后再按RST即可进入烧录模式。 实例演示视频 UP主孙老师改造的视频:【十几块钱的单片机也可以做人脸识别?准确率很高!】 DIY资料汇总 孙老师开源的人脸识别小相机工程资料:人脸识别小相机 - 嘉立创EDA开源硬件平台 如果要基于现有SDK进行二次开发,可以参考一下文档一键部署开发环境。 环境搭建:https://docs2.listenai.com/x/ZgVUIzY6M 获取SDK:获取大模型SDK | 聆思文档中心 想给模块加上网络模块或其他AI能力,可以参考聆思CSK6大模型开发板资料进行调整改造,下载地址:套件简介 | 聆思文档中心

  • 2024-06-17
  • 发表了主题帖: 聆思CSK6大模型开发板视觉识别类开源SDK介绍

    大模型开发板除了语音交互之外,还配套有大模型拍照识图和坐姿检测、人脸识别、活体识别、头肩跟随、手势识别、物体分类等七个线视觉识别方面的交互示例等。 联网使用 大模型图片分析+拍照 离线识别 坐姿检测、人脸识别、活体识别、头肩跟随、手势识别、物体分类   SDK介绍 1、大模型语音交互+拍照识图SDK   SDK功能 语音交互:支持按键录音或唤醒后通过语音与大模型进行对话 拍照识图:支持通过摄像头拍摄图像并上传给大模型进行识别,支持依据识图内容进行提问 图片生成:支持通过语音交互描述画面内容,令大模型生成图片并显示至套件屏幕上 拍照识图 在待机页,点击拍照按钮即可进入取景页面,对准要拍照的物体,点击右侧中间的拍照键完成抓拍,确认画面抓拍正常后(无晃动模糊的情况),点击右侧的 √ 进行提交识别:   识别结果:   2、坐姿检测SDK   算法简介 CSK6 大模型开发套件可检测图像中人物的坐姿情况,并对各种不良的坐姿进行识别,当画面中有坐姿信息时,显示屏上将实时对人物的关键骨骼点进行标注并显示该人物的包含手、身体状态在内的坐姿检测结果,结果包含一下内容: 手状态:正常/下垂/撑脸 身体状态:正常/趴桌/倾斜/驼背/离席   CSK6 芯片支持运行 坐姿检测 AI算法,具备以下特性: 硬件上仅需配合 30W 像素镜头模组,性价比出色 纯离线运行算法,无需联网,保障隐私 检测准确率 > 97%,响应时间 < 18ms 识别距离:推荐 40cm ~ 60cm, 建议不超过 110cm 3、 人脸识别SDK 人脸识别算法简介 人脸识别 算法具备以下特性: 支持检测图像中人脸信息,选取画面中分值最高的人脸,返回人脸边界框、人脸标定点、头部姿态角度、人脸识别特征等 人脸标定点如图,支持68个关键点检测     头部姿态角度如图,支持pitch、roll、yaw三个角度   支持特征比较:将检测到的人脸特征值和本地存储的人脸特征值输入算法进行比对, 并返回比对结果 应用场景 离线人脸识别适用于网络条件不稳定、无网、数据安全性要求高、人脸库较小(20人以下)单台设备的人脸识别场景。常见于人脸门禁、小型企业考勤机、自助终端设备等。 算法效果指标数据 识别效果 在1m距离内,测试特征底库10个,人脸识别效果分别为: 识别能力 识别率 虚警率 人脸识别 95% 0.1%   人脸标定 平均误差(NME)约为0.04 头部姿态 模型预测平均偏差约为±3° 全流程耗时 100ms以内   使用介绍     人脸识别示例工程的使用 调用人脸识别算法,可以通过开发板上的按键操作进行人脸注册、脸识别,并通过图像预览工具查看摄像头的画面与输出结果。 固件功能说明 程序运行后,默认会在屏幕上显示实时的摄像头画面并在画面中使用方框实时标注出人脸,并通过方框的颜色指示不同的识别状态。 可以按照以下流程进行人脸识别功能的使用: Step1:检测到人脸 (屏幕显示黄色框 / 开发板LED亮黄色) Step2:按K1按键注册当前人脸特征 (屏幕 registered参数增加1 /开发板LED闪烁蓝色) Step3:按K2对当前人脸进行识别比对 识别通过:屏幕显示绿色框 / 开发板LED亮绿色 识别未通过:屏幕显示红色框 / 开发板LED亮红色 LED指示状态 黄色:检测到人脸 绿色:人脸特征比对通过 红色:人脸特征比对未通过 按键功能 K1:录入当前检测到的人脸特征 K2:将当然的人脸特征与之前录入的特征进行比较 K3:开关摄像头红外补光灯(安装红外摄像头时) 4、活体识别   功能说明 需要搭配带补光灯的红外摄像头,结合人脸识别算法,实现对活体的检测。   程序运行后,默认会在屏幕上显示实时的摄像头画面并在画面中使用方框实时标注出人脸,并通过方框的颜色指示不同的识别状态。 1.注册人脸 当LED为黄色时(检测到人脸),按动K1按键,此时将会录入当前检测到的人脸特征,录入成功后,可看到屏幕上显示的registered 数量增加1,说明本次录入已完成并加入人脸特征库:   2.比对人脸 当LED为黄色时(检测到人脸),按动K2按键,此时固件会将当前摄像头前检测到的人脸与已录入的人脸特征进行比对,若对比成功(命中已录入的人脸特征),屏幕中圈中人脸的框将变为绿色,同时开发板上的LED颜色将变为绿色,表示人脸特征比对通过,并在屏幕上显示匹配的人脸特征序号(id)与评分(score)。 若比对不通过,即当前人脸未在人脸特征库中录入过,屏幕中圈中人脸的框将变为红色,同时开发板上的LED颜色将变为红色,表示人脸特征比对通过。 3.串口日志的查看 本示例同样支持串口日志的打印,可通过连接开发板上的DAP_USB 并使用串口工具打开对应的串口设备进行日志查看,默认波特率 115200,伴随着 人脸录入、人脸比对等操作,可看到日志串口有对应的结果输出。   5、头肩跟随+手势识别SDK 头肩跟随 头肩算法介绍 检测图像中所有人体的头肩位置,返回每个头肩的唯一id、位置坐标、检测得分等; 通过摄像头实时获取图像并在屏幕上进行预览显示 在屏幕展示的画面中标注头肩检测和手势识别的结果与评分   头肩跟随算法效果演示   手势识别 通过头肩检测识别用户的手势,返回当前目标的手势、得分等; 支持5种手势,分别为LIKE(👍)、OK(👌)、STOP(🤚)、YES(✌️)、SIX(🤙); 应用场景 跟拍云台 在直播、视频通话场景,通过云台实现人体追踪,让手机一直正面朝向用户进行录像。并且可以通过手势开启、停止追踪。 算法参数 (1)识别效果 为了让用户在常用的交互距离取得比较好的识别效果,我们建议头肩跟踪跟手势识别最短交互距离为0.5m,最佳交互距分别为3.5m/3m,所对应的识别效果如下: 识别能力 最佳交互距离 识别率 虚警率 头肩跟踪 3.5m 95% 5% 手势识别 3m 91% 5% (2)帧率 以下是分别在单人和多人场景下的帧率: 场景 识别能力 帧率 单人 头肩追踪、手势识别 15FPS 多人 头肩追踪、手势识别 10FPS 6、物体分类 算法简介 CSK6 大模型开发套件可通过摄像头抓拍画面并对该画面进行物体分类识别,支持包括苹果、床、键盘等100+种物体的识别。通过触摸屏可进行取景与抓拍控制,完成拍照后将自动识别并在屏幕上显示识别结果。 本示例演示在开发套件上运行基于pytorch-cifar100训练的resnet18物体分类模型,支持通过摄像头拍照并完成对指定物品的分类识别。 本模型支持以下物体的分类识别:   "apple", "aquarium_fish", "baby", "bear", "beaver", "bed", "bee", "beetle", "bicycle", "bottle", "bowl", "boy", "bridge", "bus", "butterfly", "camel", "can", "castle", "caterpillar", "cattle", "chair", "chimpanzee", "clock", "cloud", "cockroach", "couch", "crab", "crocodile", "cup", "dinosaur", "dolphin", "elephant", "flatfish", "forest", "fox", "girl", "hamster", "house", "kangaroo", "keyboard", "lamp", "lawn_mower", "leopard", "lion", "lizard", "lobster", "man", "maple_tree", "motorcycle", "mountain", "mouse", "mushroom", "oak_tree", "orange", "orchid", "otter", "palm_tree", "pear", "pickup_truck", "pine_tree", "plain", "plate", "poppy", "porcupine", "possum", "rabbit", "raccoon", "ray", "road", "rocket", "rose", "sea", "seal", "shark", "shrew", "skunk", "skyscraper", "snail", "snake", "spider", "squirrel", "streetcar", "sunflower", "sweet_pepper", "table", "tank", "telephone", "television", "tiger", "tractor", "train", "trout", "tulip", "turtle", "wardrobe", "whale", "willow_tree", "wolf", "woman", "worm"     本示例基于开源项目进行移植适配,仅用于 CV 能力的验证与评估,不代表适用于商用项目。   功能展示     点击屏幕 翻转 按钮,可实现对摄像头的影像预览翻转,可根据摄像头是否安装在开发板背面进行切换 点击屏幕 TAKE 按钮,可对当面画面进行拍照并识别     SDK资源下载 大模型拍照识图 :https://cloud.listenai.com/CSKG962172/duomotai_ap/-/tree/feature/awe_open/apps/LLM_pic 其他功能SDK下载地址:https://cloud.listenai.com/CSKG962172/duomotai_ap/-/tree/master/ 坐姿检测: apps目录下,工程目录名称为 lcd_spd 人脸识别: apps目录下,工程目录名称为 fd 活体识别: apps目录下,工程目录名称为 fdh 头肩跟随+手势识别: apps目录下,工程目录名称为 hsd 物体分类: apps目录下,工程目录名称为 resnet18 已打包好的DEMO固件下载: 大模型拍照识图固件:https://docs2.listenai.com/x/UzjbjIAxw 坐姿检测: https://docs2.listenai.com/x/D3CV6m1w6 人脸识别: https://docs2.listenai.com/x/C176n3JaJ 活体识别: https://docs2.listenai.com/x/Pr51i42rn 头肩跟随+手势识别:https://docs2.listenai.com/x/UGGyPHCTL 物体分类: https://docs2.listenai.com/x/urrNYp4Ie     补充开发板信息   开发板具备丰富语音图像功能与硬件外设的开发板,采用有着丰富组件生态的 Zephyr RTOS 作为操作系统,默认配套开箱即玩的 AI 应用,也可以配合聆思的模型训练推理工具 LNN 将自己的算法模型部署至芯片上,构建自己的 AI 应用,开发板详情参考:https://docs2.listenai.com/x/nTn9kMMCU  

  • 2024-06-14
  • 发表了主题帖: 聆思CSK6语音视觉AI大模型开发板硬件详解(附硬件资料下载)

      简介 视觉语音大模型 AI 开发套件( CSK6-MIX )是围绕 CSK6011A 芯片设计的具备丰富语音图像功能与硬件外设的开发板,采用具备丰富组件生态的 Zephyr RTOS作为操作系统,官方提供了十几种开源SDK,包含大模型语音交互、大模型拍照识图、文生图、人脸识别、头肩追踪、手势识别、坐姿提醒等。 聆思提供还提供了模型训练推理工具将自己的算法模型部署至芯片上,也可以配合这个工具构建自己的 AI 应用。 功能特性 功能概述 使用聆思 CSK6011A 芯片作为主控,板载 16MB Flash 集成摄像头、麦克风、扬声器、屏幕等丰富外设配件 配套多模态应用示例,支持快速上手体验大模型语音交互、智能视觉等 AI 应用 板载 DAPLINK 调试器,外接一条USB 线即可实现烧录、调试、串口日志查看 板载网络模组,支持开发联网类应用 大模型示例SDK清单 SDK集成了星火大模型,可以二次开发改接其他大模型,示例清单见下表,可以直接通过链接进行固件烧录并下载: 序号 大模型功能 使用教程 功能说明 1 大模型多模态 大模型多模态快速体验 套件出厂默认应用。包含大模型语音问答、拍照识图、大模型绘图等丰富供能示例,支持语音唤醒、多轮语音交互。 2 智能对话 智能问答+坐姿检测快速体验 除了大模型语音对话,还集成了可离线运行的坐姿检测算法,是一个 大模型在线服务+离线AI能力 的示例。 3 智能对话 + 文生图 + 设备控制 大模型控制快速体验 该示例展示了如何通过大模型实现语音输入意图的理解,实现对话、绘图和控制开发板屏幕颜色进行切换,用户可参考代码与教程自行修改。 4 接入自定义应用 基于模板创建应用 通过编排新增意图落域 讲解如何在云端快速建立一个自定义大模型应用并接入到开发套件上实现语音交互,由浅入深地展示如何开发自己的大模型助手。 离线AI能力示例SDK清单 序号 AI 能力 使用教程 1 语音唤醒 + 坐姿检测 智能问答+坐姿检测快速体验 2 语音合成 语音合成快速上手 3 坐姿检测 坐姿检测快速上手 4 人脸识别 人脸识别快速上手 5 单词评测 单词测评快速上手 6 头肩检测 & 手势识别 头肩检测&手势识别快速上手 LNN AI示例SDK清单 LNN是用于移植适配算法至CSK6芯片的工具,提供了视觉、语音相关的示例SDK,如果想在CSK6上移植适配自己的算法,可以参照这些示例: 序号 能力 使用教程 1 拍照物体识别 物体分类快速上手 2 鼾声检测 鼾声快速上手 3 英译中 英译中快速体验 开发板硬件资源 编号 资源 说明 1 CSK USB 接口 CSK6 芯片的 USB 接口,可通过本接口使用 CSK6 的 USB 硬件功能,支持对开发板进行供电。 2 DAPLink 调试器接口 可通过本接口查看日志、烧录固件、调试仿真,支持对开发板进行供电。 3 电源开关 控制开发板总电源开关。 4 外扩排针 引出 CSK6 芯片的可用 IO 口,包括部分由扩展 IO 芯片 (19编号)外接的 IO口,开发者可按需进行使用。 5 摄像头模组 默认配套 30W 像素的摄像头模组,型号为 GC0328。 6 扬声器接口 用于连接扬声器进行播音。 7 RGB LED 支持编程控制的 LED。 8 触摸显示屏 分辨率 320*240 的触摸显示屏,屏显硬件接口为 SPI,触摸硬件接口为 I2C 。 9 麦克风 板载的两个麦克风,连接芯片的 Audio ADC,用于语音相关应用的录音。 10 硬回采开关 用于控制第二路录音链路用于麦克录音(默认)还是硬件回采。 11 SD卡槽 用于插入 SD 存储卡。 12 网络模组调试座 可用语烧录网络模组的固件与调试。 13 网络模组 使用 ESP32 C3 作为网络模组。 14 扩展按键区 通过扩展 IO 芯片 CH32 扩展引出的按键,支持轮询检测。 15 CSK6 功能按键区 包括 CSK6 芯片的复位、BOOT、自定义功能按键。 16 电源LED 指示开发板的供电状态,供电正常使,LED亮起。 开发板设计资料下载 文件 操作 大模型开发套件V2.0 硬件设计 聆思科技多模态开发板 - 嘉立创EDA开源硬件平台 CSK6系芯片引脚功能表 V1.0 下载 开发板尺寸 V2.0 开发板配件 摄像头模组 套件默认配套一个摄像头模组,参数如下: 属性 参数 Sensor 型号 GC0328 接口 DVP 像素 30W 摄像头安装 本摄像头可通过开发套件主板上的摄像头接口进行连接,安装摄像头时,请抬起摄像头接口座上的盖板,将摄像头软排线水平插入接口座后,盖紧盖板,安装完成后如下: 触摸屏模块 套件支持使用配套的触摸屏模块,触摸屏模块参数如下: 属性 参数 尺寸 2.4寸(显示区域尺寸) 分辨率 320*240 屏显驱动型号 ST7789V / 数据手册下载 屏显接口 SPI 触摸驱动型号 FT5336 / 数据手册下载 触摸接口 I2C 触摸屏安装 本摄像头可通过开发套件主板上的屏幕排针座直接进行连接,连接时,请通过屏幕模块和主板上的三角标识确认安装方向,如图: 网络模组 为了方便接入 WIFI 与 BLE 网络,配套无线网络模组型号是ESP32-C3。 网络模组以hosted的模式与开发套件的主控芯片CSK6进行通讯,完整协议栈完整地运行在CSK6上。 网络模组相关的源码信息如下: 项目 说明 源码路径 SDK目录\modules\lib\esp-hosted\esp-hosted\esp\esp_driver\network_adapter 编译指引 Get Started - ESP32-C3 - — ESP-IDF Programming Guide latest documentation 更多使用说明 供电 开发板支持通过 DC 座或任意 Type-C 接口进行供电,因部分电脑或 USB HUB 存在供电电流不足的问题,因此建议在条件允许的情况下优先使用 DC 供电座对开发套件进行供电。 DAPLink USB口的使用 开发板板载了DAPLink调试器芯片,DAPLink 芯片与 CSK6 芯片的 SWD 接口、烧录串口(A15/A18)、日志串口(A02/A03)进行了连接,从而实现可以使用DAP_USB接口查看CSK6 芯片的日志以及对 CSK6 进行固件烧录。 开发者可通过DAPLink USB接口对CSK6芯片进行 固件烧录 、代码仿真 与 串口查看。 使用方法如下: 1.使用TypeC数据线连接电脑USB与开发板DAPLink USB 2.若设备运行正常,在电脑设备管理器中会出现一个虚拟串口和USB设备 虚拟串口(CDC)功能: 对CSK6芯片的 GPIOA2 和 GPIOA3 【默认UART0】引脚进行了映射,可通过串口上位机工具与串口进行通讯。 烧录、仿真功能: 配合CSK6开发工具,可通过DAPLink实现固件快速烧录以及VSCode IDE环境下进行仿真调试,详见:https://docs2.listenai.com/x/8bZfGBUtuKw。 开发环境 可参照《环境搭建》与《获取大模型SDK》完成开发环境的搭建以及开发所需SDK的获取,并参照各个示例下的开发指南进行开发,通过 大模型应用开发指南可以了解如何在开发套件上接入云端大模型应用并进行应用开发。 如果需要拿实物参考,可以TB搜聆思csk6大模型开发板    

  • 发表了主题帖: 聆思CSK6大模型开发板英语评测类开源SDK详解

      离线英文评测算法SDK 能力简介 CSK6 大模型开发套件可以对用户通过语音输入的英文单词进行精准识别,并对单词的发音、错读、漏读、多读等方面进行评估,进行音素级的识别,根据用户的发音给出相应的建议和纠正,帮助用户更好地掌握单词的发音。 离线单词评测 算法具备以下特性: ●支持单词评测,评测准确率98%以上 ●支持音素级识别 ●支持单词发音评分 ●支持识别无效评测音频 功能交互展示 视觉语音大模型AI开发套件(https://docs2.listenai.com/x/nTn9kMMCUSDK )配套了离线英文评测这一示例工程,文本将对本示例工程进行说明。 1.固件运行后,可以在显示屏上看到 单词评测 的图标,点击图标即可进入单词评测应用: 2.目前固件提供了三种单词、短语、句子评测模式,点击对应选项课进入对应的模式     3.以单词评测为例,进入该模式后,固件将给出若干个英文单词,可点击右下角评测按钮进行评测 4.对着开发套件读出单词后,点击右下角图标结束评测,固件将给出此次评测的结果:   离线英译中SDK 能力简介 基于transformer模型,使用聆思科技开源的AI生态工具链LNN(ListenAI Neural Network),完成中英翻译任务的训练、量化、模型转换、仿真调试等一系列步骤,并实现在聆思CSK6芯片上进行推理。 SDK提供的示例集成了这个模型,可以让聆思CSK6开发板实现英译中功能,可用于体验离线翻译功能。 触摸屏UI交互翻译 固件烧录完毕后,程序将自动运行,您也可以通过复位按键(RST)对程序进行复位,复位后的UI界面: ●点击画面中心的输入框,可通过屏幕上显示的键盘输入句子 ●点击输入框左侧的按钮,可随机填入一句演示的句子 ●点击下方翻译按钮,即可输出改句子的中文翻译 UART串口交互翻译 本示例也支持通过串口 UART 进行离线翻译,操作如下: ●打开 聆思在线串口终端(https://tool.listenai.com/serial-term/),选择开发板对应的串口,点击连接 在下方输入框输入待翻译的英文内容,点击发送按钮,即可在接收区查看到翻译后的中文结果。     离线字母拼读算法SDK 能力简介 CSK6 大模型开发套件可以对用户的语音输入进行字母(a~z)的识别,通过语音拼读单词字母,快速准确地查询单词的发音和含义,可应用于扫描词典笔、单词卡、学习机等产品。 可以对用户的语音输入进行字母(a~z)的识别,通过语音拼读单词字母,快速准确地查询单词的发音和含义。 功能交互展示 聆思 CSK6 大模型开发套件出厂集成提供了字母拼读算法的示例,长按即可加载示例进行使用,无需联网。 1.固件运行后,可以在显示屏上看到操作提示词 2.按住按键进行单词拼读 3.拼读完成后,固件将会给出单词的发音和含义 SDK资源下载 以上3个离线英语评测SDK可以在以下地址下载: 1、 语音视觉大模型开发板 SDK:https://cloud.listenai.com/CSKG962172/duomotai_ap/-/tree/master/ ●字母拼读:apps目录下,工程目录名称为 lcd_wsp ●英文评测: apps目录下,工程目录名称为 lcd_csps ●英译中: apps/thinker_service目录下,工程目录名称为 translation 2、离线英译中transformer模型项目地址:GitHub - dwzhang00/Offline-translation: An offline translation model based on transformer   补充开发板信息 开发板具备丰富语音图像功能与硬件外设的开发板,采用有着丰富组件生态的 Zephyr RTOS 作为操作系统,默认配套开箱即玩的 AI 应用,也可以配合聆思的模型训练推理工具 LNN 将自己的算法模型部署至芯片上,构建自己的 AI 应用,开发板详情参考:https://docs2.listenai.com/x/nTn9kMMCU  

  • 发表了主题帖: 聆思CSK6大模型多模态语音交互开源SDK介绍

    聆思CSK6大模型多模态SDK除了支持语音交互之外,还支持图像方面的交互,包括对图像的识别以及图片生成。用户可以通过语音交互、摄像头拍照作为交互入口,实现与大模型的多模态交互。   SDK主要包含以下功能: ●语音交互:支持按键录音或唤醒后通过语音与大模型进行对话 ●拍照识图:支持通过摄像头拍摄图像并上传给大模型进行识别,支持依据识图内容进行提问 ●图片生成:支持通过语音交互描述画面内容,令大模型生成图片并显示至套件屏幕上     语音交互模式 支持的语音交互模式 多模态SDK支持三种交互方式,其特点如下:   模式 唤醒方式 交互方式 按键交互 按下屏幕麦克风图标或开发板K3按键 按住按键说话,松开提交 语音唤醒(单轮) 唤醒词 “小美小美” 听到提示音 “在呢” 后进行提问,每次提问均需要唤醒 语音唤醒(多轮) 唤醒词 “小美小美” 听到提示音 “在呢” 后进行提问,可持续对话,当超过20秒无语音输入时自动结束本次交互 语音交互模式的切换 在待机页面,下滑可调出下滑菜单,点击下滑菜单中的 设置图标,可进行配置页面:     选中对应的模式后,点击左上角即可回到待机页面并生效。     按键交互模式 设置成按键交互(按键唤醒)模式下,按住屏幕上的麦克风按钮或开发板上的K3按键,即进入录音状态,松开按键则结束录音并提交。   语音唤醒模式 当设置为语音唤醒(单轮)或语音唤醒(多轮),可通过唤醒词 —— “小美小美” 对设备进行唤醒,当听到 “在呢” 的提示音后,即可正常进行语音输入。 退出对话 在使用过程中,点击左上角即可结束本轮对话回到待机页面,此操作会同步清除本次对话的上下文信息。       拍照识图 在待机页,点击拍照按钮即可进入取景页面,对准要拍照的物体,点击右侧中间的拍照键完成抓拍,确认画面抓拍正常后(无晃动模糊的情况),点击右侧的 √ 进行提交识别:       文生图 在设备进入语音交互状态后,可以通过带有绘画意图的提示词让大模型进行作画,比如: ●“画一只熊猫”   ●“画一个人正在使用电脑”         SDK资源下载 语音视觉大模型开发板 SDK:https://cloud.listenai.com/CSKG962172/duomotai_ap/-/tree/master/ DEMO固件下载:https://docs2.listenai.com/x/UzjbjIAxw                  

  • 2024-06-12
  • 发表了主题帖: 聆思CSK6语音视觉AI大模型开发板硬件详解(附硬件资料下载)

    本帖最后由 胡黎明 于 2024-6-13 14:41 编辑 视觉语音大模型 AI 开发套件( CSK6-MIX )是围绕 CSK6011A 芯片设计的具备丰富语音图像功能与硬件外设的开发板,采用具备丰富组件生态的 Zephyr RTOS作为操作系统,官方提供了十几种开源SDK,包含大模型语音交互、大模型拍照识图、文生图、人脸识别、头肩追踪、手势识别、坐姿提醒等。 聆思提供还提供了模型训练推理工具将自己的算法模型部署至芯片上,也可以配合这个工具构建自己的 AI 应用。       功能特性 功能概述 使用聆思 CSK6011A 芯片作为主控,板载 16MB Flash 集成摄像头、麦克风、扬声器、屏幕等丰富外设配件 配套多模态应用示例,支持快速上手体验大模型语音交互、智能视觉等 AI 应用 板载 DAPLINK 调试器,外接一条USB 线即可实现烧录、调试、串口日志查看 板载网络模组,支持开发联网类应用 大模型示例SDK清单 SDK集成了星火大模型,可以二次开发改接其他大模型,示例清单见下表,可以直接通过链接进行固件烧录并下载: 序号 大模型功能 使用教程 功能说明 1 大模型多模态 大模型多模态快速体验 套件出厂默认应用。包含大模型语音问答、拍照识图、大模型绘图等丰富供能示例,支持语音唤醒、多轮语音交互。 2 智能对话 智能问答+坐姿检测快速体验 除了大模型语音对话,还集成了可离线运行的坐姿检测算法,是一个 大模型在线服务+离线AI能力 的示例。 3 智能对话 + 文生图 + 设备控制 大模型控制快速体验 该示例展示了如何通过大模型实现语音输入意图的理解,实现对话、绘图和控制开发板屏幕颜色进行切换,用户可参考代码与教程自行修改。 4 接入自定义应用 基于模板创建应用 通过编排新增意图落域 讲解如何在云端快速建立一个自定义大模型应用并接入到开发套件上实现语音交互,由浅入深地展示如何开发自己的大模型助手。 离线AI能力示例SDK清单 序号 AI 能力 使用教程 1 语音唤醒 + 坐姿检测 https://docs2.listenai.com/x/i_84jJ5pd 2 语音合成 https://docs2.listenai.com/x/e16RmshY3 3 坐姿检测 https://docs2.listenai.com/x/e16RmshY3 4 人脸识别 https://docs2.listenai.com/x/XuPPPS80c 5 单词评测 https://docs2.listenai.com/x/hZ6NT04Kk 6 头肩检测 & 手势识别 https://docs2.listenai.com/x/eiRAtqX7_   LNN AI示例SDK清单 LNN是用于移植适配算法至CSK6芯片的工具,提供了视觉、语音相关的示例SDK,如果想在CSK6上移植适配自己的算法,可以参照这些示例: 序号 能力 使用教程 1 拍照物体识别 https://docs2.listenai.com/x/AyRl56jpS 2 鼾声检测 https://docs2.listenai.com/x/tD4HR_HpM 3 英译中 https://docs2.listenai.com/x/GxlJsvPfc   开发板硬件资源   编号 资源 说明 1 CSK USB 接口 CSK6 芯片的 USB 接口,可通过本接口使用 CSK6 的 USB 硬件功能,支持对开发板进行供电。 2 DAPLink 调试器接口 可通过本接口查看日志、烧录固件、调试仿真,支持对开发板进行供电。 3 电源开关 控制开发板总电源开关。 4 外扩排针 引出 CSK6 芯片的可用 IO 口,包括部分由扩展 IO 芯片 (19编号)外接的 IO口,开发者可按需进行使用。 5 摄像头模组 默认配套 30W 像素的摄像头模组,型号为 GC0328。 6 扬声器接口 用于连接扬声器进行播音。 7 RGB LED 支持编程控制的 LED。 8 触摸显示屏 分辨率 320*240 的触摸显示屏,屏显硬件接口为 SPI,触摸硬件接口为 I2C 。 9 麦克风 板载的两个麦克风,连接芯片的 Audio ADC,用于语音相关应用的录音。 10 硬回采开关 用于控制第二路录音链路用于麦克录音(默认)还是硬件回采。 11 SD卡槽 用于插入 SD 存储卡。 12 网络模组调试座 可用语烧录网络模组的固件与调试。 13 网络模组 使用 ESP32 C3 作为网络模组。 14 扩展按键区 通过扩展 IO 芯片 CH32 扩展引出的按键,支持轮询检测。 15 CSK6 功能按键区 包括 CSK6 芯片的复位、BOOT、自定义功能按键。 16 电源LED 指示开发板的供电状态,供电正常使,LED亮起。   开发板设计资料下载 文件 操作 大模型开发套件 V2.0 硬件设计 https://oshwhub.com/lshuangyu/leaf-technology-multimodal-devel CSK6系芯片 引脚功能表 V1.0 https://docs2.listenai.com/zz/3294.xlsx?shortId=nTn9kMMCU   附件大纲: 功能概述 ├──大模型示例SDK清单 ├──离线AI能力示例SDK清单 ├──LNN AI示例SDK清单 开发板硬件资源 开发板设计资料下载 开发板尺寸V2.0 开发板配件 ├──摄像头模组 ├──摄像头安装 ├──触摸屏模块 ├──触摸屏安装 ├──网络模组 更多使用说明 ├──供电 ├──DAPLink UsB口的使用 开发环境

最近访客

< 1/1 >

统计信息

已有6人来访过

  • 芯积分:76
  • 好友:--
  • 主题:20
  • 回复:1

留言

你需要登录后才可以留言 登录 | 注册


现在还没有留言