胡黎明的个人空间动态-电子工程世界

胡黎明

动态发布点评好友关于

2025-01-10
发表了主题帖：详解用大模型超拟人语音做桌面AI宠物/机器人的个性化能力

前言本文基于前面已经落地的CSK6大模型语音视觉开发板的配套示例功能来进行讲解目前聆思平台的超拟人模板实现了快速响应、声纹识别、知识库问答、兜底闲聊、超拟人TTS等功能，具体业务流程如下：详情请参考附录
2025-01-06
发表了主题帖：实操给桌面AI语音助理（大模型语音开发板）更换自定义唤醒词

前面分享了怎么用CSK6大模型语音开发板实现桌面机器人和给其他硬件对接智能语音，当更改音色后默认唤醒词可能跟音色人设不符，这时就需要更改为自定义的名字，这篇就介绍一下怎么通过官方提供的工具实操更换唤醒词。更换唤醒词算法资源的流程如下，如果还想把界面中提示语的 “小美小美” 更换为自定义唤 https://wdcdn.qpic.cn/MTY4ODg0OTk2NTM5NzUxOA_701535_FTTM2eNyYoiGCpyZ_1735873456?w=1070&h=101&type=image/png"},"egFillModeProperties":{"stretch":{},"tile_i":true},"rotWithShape":true,"srcRect":{}},"spPr":{"xfrm":{"off":{"x":0,"y":0},"ext":{"cx":5760085,"cy":543709}},"prstGeom":{"avLst":{},"prst":"STShapeType_rect"},"solidFill":{},"ln":{}},"isNotAutoFitLayout":false},"uri":"http://schemas.openxmlformats.org/drawingml/2006/picture","wsp":{"cNvSpPr":{},"txbx":{}}}},"distT":0,"distB":0,"distL":0,"distR":0}},"mode":1},"propertyType":"DrawingProperty","builtinStyleName":""}],"subStory":[],"srcGlobalPadId":"w3_AA4ANgZEAAYklOHcM4QRoCeNqXCeX","copyStart":205}" data-version="3.0.0" inner_data_type="webData" data-hash="d41d8cd98f00b204e9800998ecf8427e"> 醒词一致的文字，可以在更换唤醒词后参考本文后半部进行操作。
2024-12-26
发表了主题帖：大模型+AI智能语音交互硬件开发上手建议路径和资料汇总

前言该上手流程为通用流程，有大模型使用经验的用户，按照本文提供的资料即可进行大模型+AI智能语音交互硬件的相关实操。方案支持提示词优化、接入私有服务和其他大模型，建议在完成上手实操熟悉相关功能后再进行其他二次开发。详情见附件
2024-12-19
发表了主题帖：实操给桌面机器人加上超拟人音色

前面我们讲了怎么用CSK6大模型开发板做一个桌面机器人充当AI语音助理，近期上线超拟人方案，不仅大模型语音最快可以1秒内回复，还可以让我们的桌面机器人使用超拟人音色、具备声纹识别等能力，本文以csk6大模型开发板为例实操怎么把超拟人音色用起来。
2024-12-18
发表了主题帖：实操给触摸一体机接入大模型语音交互

本文以CSK6 大模型开发板+串口触摸屏为例，实操讲解触摸一体机怎样快速增加大模型语音交互功能，使用户能够通过语音在一体机上查询信息、获取智能回答及实现更多互动功能等。在本文方案中通过CSK6大模型语音开发板采集用户语音，将语音数据传输到大模型进行处理，再将大模型生成的回答转换为语音输出和在触摸一体机屏幕上显示文字结果。
2024-11-08
发表了主题帖：用CSK6大模型开发板自定制一个能说会唱的桌面聊天机器人/AI智能语音助理

桌面机器人，作为人工智能领域中一个充满潜力的分支，正逐渐成为我们日常生活中的伙伴。它们不仅能够提供信息查询、陪伴关怀等实用功能，还能以更加人性化的方式与我们互动，成为我们工作和娱乐的好帮手。本文以聆思CSK6大模型开发板为例，讲解怎么定义人设、修改发音人音色、增加技能、挂载私有知识库、让您的桌面小伙伴更加智能、更加贴近用户的需求。 1、个性人设塑造功能描述：个性塑造功能支持设置设备的交互风格，包括对话风格、语调语速等，增加个性化体验。支持更改“大模型的自我认知”设定，让其展示特定的个性特征，适应不同用户的喜好。
2024-10-16
发表了主题帖：大模型语音开发板外壳3D打印资源和重点结构讲解

前言聆思CSK6大模型语音视觉开发板联网就可以使用大模型语音对话，因此有些朋友就想加个外壳放在桌面像音箱一样使用。但由于开发板拾音和无线信号都容易被外壳屏蔽，导致开发板不能正常使用，本篇以3D印的外壳为例子讲下相关的外壳结构和相关注意事项。下图外观的3D打印模型文件资源放在附件文档中，有需要的朋友可以自取。关键结构注意事项 ● 麦克风拾音窗口：分为面板窗口和侧窗，开两个窗口的目的是尽量增加收音面，在办公室环境实测开窗的两个角度拾音效果和不加外壳时差不多，但从Type C接口这侧唤醒交互效果稍弱。详细内容请参考附录文档
2024-10-14
发表了主题帖：聆思CSK6大模型语音开发板改造：延长板载麦克风（外接驻极体麦克风）

前言近期有不少开发者想把CSK6大模型开发板接到自己的智能音响、机器人、机器狗等产品上使用，但把开发板放在外壳下时麦克风被遮挡会影响拾音效果，把开发板暴露在外面时又不美观，此时就有必要把麦克风进行延长。材料准备 1.1k电阻 x2 驻极体麦克风 x1 （参考指标：灵敏度-35±3dB，性噪比 60dB ）详情请查看附件
2024-09-05
发表了主题帖：实操在聆思CSK6大模型开发板的英文评测SDK中自定义添加单词、短语、句子资源

英文评测示例通过对用户语音输入的英文单词进行精准识别，提供单词、短语、句子三种类型，用户在选择好类型后，可根据屏幕上的提示进行语音输入，评测算法将对输入的英文语音进行精准识别，并对单词的发音、错读、漏读、多读等方面进行评估。本文将详细介绍在聆思CSK6大模型语音视觉开发板上，如何替换英文评测示例中的单词、短语和句子，从而让您有更好的AI应用体验。
2024-08-26
发表了主题帖：聆思CSK6大模型语音视觉开发板接入AIUI技能实操（语音控制风扇开关）

本文以大模型语音控制灯的开关为例,讲解如何通过LSPlatform的云端编排功能在大模型语音交互流程中加入AIUI技能，实现更丰富的产品功能。大模型语音模板加入AIUI技能节点后的数据流程如下图所示：
2024-08-16
发表了主题帖：智能硬件大模型语音交互流程自定义编排（进阶篇）

前言上一篇讲了基础节点和常规调试方法，在实际应用开发的过程中，除了大模型相关的基础节点外，链路编排实际上还需要包含了更多的通用节点。本篇将介绍几个在实际应用开发中常用的节点及其功能。
2024-08-15
发表了主题帖：聆思CSK6大模型开发板语音唤醒加载GIF动画

本篇文章主要介绍基于聆思CSK6大模型开发板的语音交互多模态实例进行二次开发，实现在语音唤醒后在屏幕展示GIF动画表情。通过LGVL官网的工具将GIF转换为适合嵌入式系统使用的格式基于SDK源代码进行修改开发板编译与烧录
2024-08-09
发表了主题帖：聆思CSK6大模型语音控制风扇（上）

本文介绍如何实现大模型+语音交互对风扇实现开关控制，示例使用的硬件是聆思CSK6大模型开发板，大模型接的是星火大模型。本文将先详细介绍大模型云端从获取交互语音到下发控制指令的全过程，包括整合上下文、配置提示词、语义意图分类、提取关键信息以及控制指令的执行等关键环节。
2024-07-19
发表了主题帖：手把手教你用聆思CSK6大模型开发板接入文心一言/千帆大模型

简介：本贴介绍了如何使用聆思CSK6大模型开发板接入文心一言做一个可以语音交互的AI助手。当前方案是把开发套件当做输入端，交互内容先上传到聆思的大模型平台（LSPlatform），然后平台再根据匹配的应用策略转给后端的大模型处理。基于聆思大模型平台提供的应用编排功能，我们如果要使用其他大模型，只需要从云端更改大模型接入节点，而无需去修改硬件端。首先，需要在LSplatform上创建新应用并导入文心一言示例工程。(工程文件可以从附件文档中获得）然后配置包括HOST、AK/SK、Model和Stream等参数，部署验证成功后，将云端服务与产品配置绑定。在云测试页面交互返回如上图信息，就可以在CSK6开发板设备端写入云端产品服务配置，无需修改固件即可实现语音交互。实操详情请参考附件。
发表了主题帖：手把手教你用聆思CSK6开发板接入ChatGPT

本帖最后由胡黎明于 2024-7-19 18:42 编辑简介：本贴介绍了如何使用聆思CSK6大模型开发板接入ChatPT做一个可以语音交互的AI助手。当前方案是把开发套件当做输入端，交互内容先上传到聆思的大模型平台（LSPlatform），然后平台再根据匹配的应用策略转给后端的大模型处理。基于聆思大模型平台提供的应用编排功能，我们如果要使用其他大模型，只需要从云端更改大模型接入节点，而无需去修改硬件端。首先，需要在LSplatform上创建新应用并导入ChatGPT示例工程。(工程文件可以从附件文档中获得）然后配置HOST、API、Model和Stream等参数，部署验证成功后，将云端服务与产品配置绑定。在云测试页面交互返回如上图信息，就可以在CSK6开发板设备端写入云端产品服务配置，无需修改固件即可实现语音交互。实操详情请参考附件。
2024-06-20
发表了主题帖：聆思CSK6大模型+AI交互多模态开源SDK介绍

视觉语音大模型 AI 开发套件( CSK6-MIX )是围绕 CSK6011A 芯片设计的具备丰富语音图像功能与硬件外设的开发板，采用具备丰富组件生态的 Zephyr RTOS作为操作系统，官方提供了十几种开源SDK，包含大模型语音交互、大模型拍照识图、文生图、人脸识别、头肩追踪、手势识别、坐姿提醒等。聆思科技还提供了模型训练推理工具将自己的算法模型部署至芯片上，也可以配合这个工具构建自己的 AI 应用。语音交互与识图功能介绍 SDK主要包含以下功能： ●语音交互：支持按键录音或唤醒后通过语音与大模型进行对话 ●拍照识图：支持通过摄像头拍摄图像并上传给大模型进行识别，支持依据识图内容进行提问 ●图片生成：支持通过语音交互描述画面内容，令大模型生成图片并显示至套件屏幕上语音交互模式支持的语音交互模式多模态SDK支持三种交互方式，其特点如下：模式唤醒方式交互方式按键交互按下屏幕麦克风图标或开发板K3按键按住按键说话，松开提交语音唤醒(单轮) 唤醒词 “小美小美” 听到提示音 “在呢” 后进行提问，每次提问均需要唤醒语音唤醒(多轮) 唤醒词 “小美小美” 听到提示音 “在呢” 后进行提问，可持续对话，当超过20秒无语音输入时自动结束本次交互语音交互模式的切换在待机页面，下滑可调出下滑菜单，点击下滑菜单中的设置图标，可进行配置页面：选中对应的模式后，点击左上角即可回到待机页面并生效。按键交互模式设置成按键交互(按键唤醒)模式下，按住屏幕上的麦克风按钮或开发板上的K3按键，即进入录音状态，松开按键则结束录音并提交。语音唤醒模式当设置为语音唤醒(单轮)或语音唤醒(多轮)，可通过唤醒词 —— “小美小美” 对设备进行唤醒，当听到 “在呢” 的提示音后，即可正常进行语音输入。退出对话在使用过程中，点击左上角即可结束本轮对话回到待机页面，此操作会同步清除本次对话的上下文信息。拍照识图在待机页，点击拍照按钮即可进入取景页面，对准要拍照的物体，点击右侧中间的拍照键完成抓拍，确认画面抓拍正常后（无晃动模糊的情况），点击右侧的 √ 进行提交识别：文生图在设备进入语音交互状态后，可以通过带有绘画意图的提示词让大模型进行作画，比如： ●“画一只熊猫” ●“画一个人正在使用电脑” 图片生成与设备控制功能介绍本示例主要包含以下功能：可通过“小聆小聆”对设备进行唤醒可通过语音交互与大模型进行对话可通过语音交互使用大模型绘制图片并显示在屏幕上可通过语音交互通过大模型控制屏幕显示的颜色支持通过LSPlatfrom接入自己的大模型应用大模型语音对话功能我们可以通过 “小聆小聆” 唤醒词对开发套件进行唤醒套件被正常唤醒时，会播放应答语 —— "在呢" 此时我们可以接着对开发套件说出我们的问题，比如：“什么是大模型？” 稍等片刻后，开发套件将播放返回的答案大模型作画我们可以通过 “小聆小聆” 唤醒词对开发套件进行唤醒套件被正常唤醒时，会播放应答语 —— "在呢" 此时我们可以接着对开发套件以 “画xx” 的句式说出我们希望它绘制的图像，比如：“画一只大熊猫” 稍等片刻后，开发套件将在显示屏上显示大模型根据我们需求生成的图片大模型控制设备我们可以通过 “小聆小聆” 唤醒词对开发套件进行唤醒套件被正常唤醒时，会播放应答语 —— "在呢" 此时我们可以接着对开发套件件以 “把屏幕设置成xx” 的句式说出希望屏幕显示的颜色，比如：“把屏幕设置成大海一样的颜色” 稍等片刻后，开发套件将把屏幕设置成理解了我们描述后的颜色智能问答与坐姿检测功能介绍本示例功能包含：坐姿检测：通过摄像头检测人员坐姿，并在出现不良坐姿时进行提醒（红灯闪烁）语音识别：支持离线识别指定唤醒词并进行录音网络：通过 WIFI 芯片接入网络，对接聆思大模型平台，支持与大模型进行对话屏显：通过显示屏展示应用相关动画界面体验大模型语音对话功能我们可以通过 “小聆小聆” 唤醒词对开发套件进行唤醒套件被正常唤醒时，会播放应答语 —— "在呢" 此时我们可以接着对开发套件说出我们的问题，比如：“什么是大模型？” 稍等片刻后，开发套件将播放返回的答案体验坐姿检测本示例工程中默认启用了坐姿检测功能，当摄像头识别到不良坐姿时，开发板上也将闪烁红色 LED 进行提醒，同时，我们也可通过 PC 工具查看实时拍摄的图像与坐姿检测结果。本示例运行时，摄像头将持续拍摄图像并并送入坐姿检测算法进行处理，当检测到画面中出现不良坐姿(如趴桌、手托脸等)时，将闪烁红色 LED 进行提醒，如下图。借助串口连接即可看到预览图和识别结果；相关资料开发版硬件详情和资料下载：套件简介 | 聆思文档中心大模型多模态应用开发培训视频：大模型时代下的智能硬件新玩法_哔哩哔哩_bilibili
2024-06-18
回复了主题帖：聆思CSK6大模型开发板视觉识别类开源SDK介绍

Jacktang 发表于 2024-6-18 07:27 为了提高安全性，大模型开发板还可以进行活体识别，判断当前交互对象是否为真实的人，是的，可以结合上述第四个活体识别的功能
发表了主题帖：手把手教你做一个成本40元不到的人脸识别小相机

前言本文以UP主工科男孙老师近期发布的视频产品为例，按以下顺序讲解如何基于聆思官方提供的资料做一个成本40元不到的人脸识别小相机。实例介绍 DIY使用的主要元器件介绍程序和烧录实例演示视频实例介绍下图是孙老师视频中分享的人脸识别相机的模块图片，可以看到PCBA相当简洁，PCBA正中间有一颗聆思 CSK6011A 型号的芯片作为主控，左侧是用于存储固件的 Flash，剩下的则是用于交互的按键与晶振、阻容、LED等器件。算上屏幕和摄像头，整个方案量产成本预估40元不到。我们可以看到PCBA上方有两个按键，BOOT按键可以用来实现人脸录入，K1按键可以用来启动人脸识别，识别结果可以通过屏幕直接显示出来。 PCBA的侧面预留了一个可用于烧录与输出应用信息的串口，当检测到人脸之后，它就会不停的输出检测到的信息，除了有没有人脸，还有人脸在画面中的、xy坐标、大小三个方向的偏转角信息等等，这样就可以把相机当做一个传感器模块和其他硬件模块搭配，做一些更好玩的应用。主要元器件和资源介绍孙老师做的小相机模块主要元器件为这几种：主芯片、摄像头、屏幕、开关电源（DCDC）、电容电阻等，主要信息如下：聆思 CSK6011A芯片（三核异构AI处理器） ARM Star MCU：最高300MHz主频 HIFI4 DSP：最高300MHz主频 NPU：128GOPS算力 SRAM: 1MB PSRAM：8MB 内置最高支持 8MB Flash，可选最高 16MB 的外置 Flash 更详细芯片信息，如规格书、硬件设计参考等资料可以进入聆思文档中心下载：https://docs2.listenai.com/x/af7lMsf-Scg 摄像头型号为 GC0328，官方已基于摄像头对算法做过优化，不建议更换其他摄像头，可以通过聆思官方文档或联系官方客服小助手了解摄像头更多的信息接口：DPV 像素：30万屏幕：孙老师在这个小相机项目中选择了一个小尺寸的 TFT 屏，主控芯片 CSK6011A 本身具备 SPI 和 I2C 接口，支持接触摸屏，如官方的大模型开发板使用的是更大尺寸的触摸显示屏。屏显接口:SPI 触摸接口:I2C 可根据实际需求更换或去掉屏幕开关电源（DCDC）开发板模块可以由串口的5V进行供电，芯片供电需要通过开关电源芯片转换为3.3V 电容电阻使用可以参考聆思官方提供的原理图根据实际情况搭配使用原理图相关人脸识别相机可以参考聆思CSK6大模型开发板原理图裁剪功能获得，有想尝试拓展模块玩法的朋友也可以很方便的进行改造，开发板资料的下载地址：聆思开发板原理图下载程序和烧录芯片支持串口烧录，模块预留串口，外接串口工具板即可进行烧录。人脸识别SDK介绍 SDK下载地址：人脸识别SDK | 聆思文档中心返回人脸边界框、人脸标定点、头部姿态角度、人脸识别特征头部姿态角度如图，支持pitch、roll、yaw三个角度将检测到的人脸特征值和本地存储的人脸特征值输入算法进行比对，并返回比对结果聆思官方提供有开源的SDK除了人脸识别，还提供有坐姿检测、头肩跟踪、手势识别、物体分类等AI能力SDK，需要哪个烧录哪个，详情可以参考SDK目录下的README文件。烧录 cskburn desktop是聆思科技提供的一款桌面烧录工具，支持windwos、Liunx、macOS，一键安装，连接串口即可快速对 CSK6系芯片、开发套件快速进行固件烧录，进行下载地址： cskburn桌面烧录工具 | 聆思文档中心进入烧录模式：芯片烧录可以用BOOT+RST组合进入烧录模式。以下图为例，串口工具链接后，按住BOOT后再按RST即可进入烧录模式。实例演示视频 UP主孙老师改造的视频：【十几块钱的单片机也可以做人脸识别？准确率很高！】 DIY资料汇总孙老师开源的人脸识别小相机工程资料：人脸识别小相机 - 嘉立创EDA开源硬件平台如果要基于现有SDK进行二次开发，可以参考一下文档一键部署开发环境。环境搭建：https://docs2.listenai.com/x/ZgVUIzY6M 获取SDK：获取大模型SDK | 聆思文档中心想给模块加上网络模块或其他AI能力，可以参考聆思CSK6大模型开发板资料进行调整改造，下载地址：套件简介 | 聆思文档中心
2024-06-17
发表了主题帖：聆思CSK6大模型开发板视觉识别类开源SDK介绍

大模型开发板除了语音交互之外，还配套有大模型拍照识图和坐姿检测、人脸识别、活体识别、头肩跟随、手势识别、物体分类等七个线视觉识别方面的交互示例等。联网使用大模型图片分析+拍照离线识别坐姿检测、人脸识别、活体识别、头肩跟随、手势识别、物体分类 SDK介绍 1、大模型语音交互+拍照识图SDK SDK功能语音交互：支持按键录音或唤醒后通过语音与大模型进行对话拍照识图：支持通过摄像头拍摄图像并上传给大模型进行识别，支持依据识图内容进行提问图片生成：支持通过语音交互描述画面内容，令大模型生成图片并显示至套件屏幕上拍照识图在待机页，点击拍照按钮即可进入取景页面，对准要拍照的物体，点击右侧中间的拍照键完成抓拍，确认画面抓拍正常后（无晃动模糊的情况），点击右侧的 √ 进行提交识别：识别结果： 2、坐姿检测SDK 算法简介 CSK6 大模型开发套件可检测图像中人物的坐姿情况，并对各种不良的坐姿进行识别，当画面中有坐姿信息时，显示屏上将实时对人物的关键骨骼点进行标注并显示该人物的包含手、身体状态在内的坐姿检测结果，结果包含一下内容：手状态：正常/下垂/撑脸身体状态：正常/趴桌/倾斜/驼背/离席 CSK6 芯片支持运行坐姿检测 AI算法，具备以下特性：硬件上仅需配合 30W 像素镜头模组，性价比出色纯离线运行算法，无需联网，保障隐私检测准确率＞ 97%，响应时间＜ 18ms 识别距离：推荐 40cm ~ 60cm, 建议不超过 110cm 3、人脸识别SDK 人脸识别算法简介人脸识别算法具备以下特性：支持检测图像中人脸信息，选取画面中分值最高的人脸，返回人脸边界框、人脸标定点、头部姿态角度、人脸识别特征等人脸标定点如图，支持68个关键点检测头部姿态角度如图，支持pitch、roll、yaw三个角度支持特征比较：将检测到的人脸特征值和本地存储的人脸特征值输入算法进行比对，并返回比对结果应用场景离线人脸识别适用于网络条件不稳定、无网、数据安全性要求高、人脸库较小（20人以下）单台设备的人脸识别场景。常见于人脸门禁、小型企业考勤机、自助终端设备等。算法效果指标数据识别效果在1m距离内，测试特征底库10个，人脸识别效果分别为：识别能力识别率虚警率人脸识别 95% 0.1% 人脸标定平均误差(NME)约为0.04 头部姿态模型预测平均偏差约为±3° 全流程耗时 100ms以内使用介绍人脸识别示例工程的使用调用人脸识别算法，可以通过开发板上的按键操作进行人脸注册、脸识别，并通过图像预览工具查看摄像头的画面与输出结果。固件功能说明程序运行后，默认会在屏幕上显示实时的摄像头画面并在画面中使用方框实时标注出人脸，并通过方框的颜色指示不同的识别状态。可以按照以下流程进行人脸识别功能的使用： Step1：检测到人脸 (屏幕显示黄色框 / 开发板LED亮黄色) Step2：按K1按键注册当前人脸特征 (屏幕 registered参数增加1 /开发板LED闪烁蓝色) Step3：按K2对当前人脸进行识别比对识别通过：屏幕显示绿色框 / 开发板LED亮绿色识别未通过：屏幕显示红色框 / 开发板LED亮红色 LED指示状态黄色：检测到人脸绿色：人脸特征比对通过红色：人脸特征比对未通过按键功能 K1：录入当前检测到的人脸特征 K2：将当然的人脸特征与之前录入的特征进行比较 K3：开关摄像头红外补光灯(安装红外摄像头时) 4、活体识别功能说明需要搭配带补光灯的红外摄像头，结合人脸识别算法，实现对活体的检测。程序运行后，默认会在屏幕上显示实时的摄像头画面并在画面中使用方框实时标注出人脸，并通过方框的颜色指示不同的识别状态。 1.注册人脸当LED为黄色时(检测到人脸)，按动K1按键，此时将会录入当前检测到的人脸特征，录入成功后，可看到屏幕上显示的registered 数量增加1，说明本次录入已完成并加入人脸特征库： 2.比对人脸当LED为黄色时(检测到人脸)，按动K2按键，此时固件会将当前摄像头前检测到的人脸与已录入的人脸特征进行比对，若对比成功(命中已录入的人脸特征)，屏幕中圈中人脸的框将变为绿色，同时开发板上的LED颜色将变为绿色，表示人脸特征比对通过，并在屏幕上显示匹配的人脸特征序号(id)与评分(score)。若比对不通过，即当前人脸未在人脸特征库中录入过，屏幕中圈中人脸的框将变为红色，同时开发板上的LED颜色将变为红色，表示人脸特征比对通过。 3.串口日志的查看本示例同样支持串口日志的打印，可通过连接开发板上的DAP_USB 并使用串口工具打开对应的串口设备进行日志查看，默认波特率 115200，伴随着人脸录入、人脸比对等操作，可看到日志串口有对应的结果输出。 5、头肩跟随+手势识别SDK 头肩跟随头肩算法介绍检测图像中所有人体的头肩位置，返回每个头肩的唯一id、位置坐标、检测得分等；通过摄像头实时获取图像并在屏幕上进行预览显示在屏幕展示的画面中标注头肩检测和手势识别的结果与评分头肩跟随算法效果演示手势识别通过头肩检测识别用户的手势，返回当前目标的手势、得分等；支持5种手势，分别为LIKE(👍)、OK(👌)、STOP(🤚)、YES(✌️)、SIX(🤙)；应用场景跟拍云台在直播、视频通话场景，通过云台实现人体追踪，让手机一直正面朝向用户进行录像。并且可以通过手势开启、停止追踪。算法参数（1）识别效果为了让用户在常用的交互距离取得比较好的识别效果，我们建议头肩跟踪跟手势识别最短交互距离为0.5m，最佳交互距分别为3.5m/3m，所对应的识别效果如下：识别能力最佳交互距离识别率虚警率头肩跟踪 3.5m 95% 5% 手势识别 3m 91% 5% （2）帧率以下是分别在单人和多人场景下的帧率：场景识别能力帧率单人头肩追踪、手势识别 15FPS 多人头肩追踪、手势识别 10FPS 6、物体分类算法简介 CSK6 大模型开发套件可通过摄像头抓拍画面并对该画面进行物体分类识别，支持包括苹果、床、键盘等100+种物体的识别。通过触摸屏可进行取景与抓拍控制，完成拍照后将自动识别并在屏幕上显示识别结果。本示例演示在开发套件上运行基于pytorch-cifar100训练的resnet18物体分类模型，支持通过摄像头拍照并完成对指定物品的分类识别。本模型支持以下物体的分类识别： "apple", "aquarium_fish", "baby", "bear", "beaver", "bed", "bee", "beetle", "bicycle", "bottle", "bowl", "boy", "bridge", "bus", "butterfly", "camel", "can", "castle", "caterpillar", "cattle", "chair", "chimpanzee", "clock", "cloud", "cockroach", "couch", "crab", "crocodile", "cup", "dinosaur", "dolphin", "elephant", "flatfish", "forest", "fox", "girl", "hamster", "house", "kangaroo", "keyboard", "lamp", "lawn_mower", "leopard", "lion", "lizard", "lobster", "man", "maple_tree", "motorcycle", "mountain", "mouse", "mushroom", "oak_tree", "orange", "orchid", "otter", "palm_tree", "pear", "pickup_truck", "pine_tree", "plain", "plate", "poppy", "porcupine", "possum", "rabbit", "raccoon", "ray", "road", "rocket", "rose", "sea", "seal", "shark", "shrew", "skunk", "skyscraper", "snail", "snake", "spider", "squirrel", "streetcar", "sunflower", "sweet_pepper", "table", "tank", "telephone", "television", "tiger", "tractor", "train", "trout", "tulip", "turtle", "wardrobe", "whale", "willow_tree", "wolf", "woman", "worm" 本示例基于开源项目进行移植适配，仅用于 CV 能力的验证与评估，不代表适用于商用项目。功能展示点击屏幕翻转按钮，可实现对摄像头的影像预览翻转，可根据摄像头是否安装在开发板背面进行切换点击屏幕 TAKE 按钮，可对当面画面进行拍照并识别 SDK资源下载大模型拍照识图：https://cloud.listenai.com/CSKG962172/duomotai_ap/-/tree/feature/awe_open/apps/LLM_pic 其他功能SDK下载地址：https://cloud.listenai.com/CSKG962172/duomotai_ap/-/tree/master/ 坐姿检测： apps目录下，工程目录名称为 lcd_spd 人脸识别： apps目录下，工程目录名称为 fd 活体识别： apps目录下，工程目录名称为 fdh 头肩跟随+手势识别： apps目录下，工程目录名称为 hsd 物体分类： apps目录下，工程目录名称为 resnet18 已打包好的DEMO固件下载：大模型拍照识图固件：https://docs2.listenai.com/x/UzjbjIAxw 坐姿检测： https://docs2.listenai.com/x/D3CV6m1w6 人脸识别： https://docs2.listenai.com/x/C176n3JaJ 活体识别： https://docs2.listenai.com/x/Pr51i42rn 头肩跟随+手势识别：https://docs2.listenai.com/x/UGGyPHCTL 物体分类： https://docs2.listenai.com/x/urrNYp4Ie 补充开发板信息开发板具备丰富语音图像功能与硬件外设的开发板，采用有着丰富组件生态的 Zephyr RTOS 作为操作系统，默认配套开箱即玩的 AI 应用，也可以配合聆思的模型训练推理工具 LNN 将自己的算法模型部署至芯片上，构建自己的 AI 应用，开发板详情参考：https://docs2.listenai.com/x/nTn9kMMCU
2024-06-14
发表了主题帖：聆思CSK6语音视觉AI大模型开发板硬件详解（附硬件资料下载）

简介视觉语音大模型 AI 开发套件( CSK6-MIX )是围绕 CSK6011A 芯片设计的具备丰富语音图像功能与硬件外设的开发板，采用具备丰富组件生态的 Zephyr RTOS作为操作系统，官方提供了十几种开源SDK，包含大模型语音交互、大模型拍照识图、文生图、人脸识别、头肩追踪、手势识别、坐姿提醒等。聆思提供还提供了模型训练推理工具将自己的算法模型部署至芯片上，也可以配合这个工具构建自己的 AI 应用。功能特性功能概述使用聆思 CSK6011A 芯片作为主控，板载 16MB Flash 集成摄像头、麦克风、扬声器、屏幕等丰富外设配件配套多模态应用示例，支持快速上手体验大模型语音交互、智能视觉等 AI 应用板载 DAPLINK 调试器，外接一条USB 线即可实现烧录、调试、串口日志查看板载网络模组，支持开发联网类应用大模型示例SDK清单 SDK集成了星火大模型，可以二次开发改接其他大模型，示例清单见下表，可以直接通过链接进行固件烧录并下载：序号大模型功能使用教程功能说明 1 大模型多模态大模型多模态快速体验套件出厂默认应用。包含大模型语音问答、拍照识图、大模型绘图等丰富供能示例，支持语音唤醒、多轮语音交互。 2 智能对话智能问答+坐姿检测快速体验除了大模型语音对话，还集成了可离线运行的坐姿检测算法，是一个大模型在线服务+离线AI能力的示例。 3 智能对话 + 文生图 + 设备控制大模型控制快速体验该示例展示了如何通过大模型实现语音输入意图的理解，实现对话、绘图和控制开发板屏幕颜色进行切换，用户可参考代码与教程自行修改。 4 接入自定义应用基于模板创建应用通过编排新增意图落域讲解如何在云端快速建立一个自定义大模型应用并接入到开发套件上实现语音交互，由浅入深地展示如何开发自己的大模型助手。离线AI能力示例SDK清单序号 AI 能力使用教程 1 语音唤醒 + 坐姿检测智能问答+坐姿检测快速体验 2 语音合成语音合成快速上手 3 坐姿检测坐姿检测快速上手 4 人脸识别人脸识别快速上手 5 单词评测单词测评快速上手 6 头肩检测 & 手势识别头肩检测&手势识别快速上手 LNN AI示例SDK清单 LNN是用于移植适配算法至CSK6芯片的工具，提供了视觉、语音相关的示例SDK，如果想在CSK6上移植适配自己的算法，可以参照这些示例：序号能力使用教程 1 拍照物体识别物体分类快速上手 2 鼾声检测鼾声快速上手 3 英译中英译中快速体验开发板硬件资源编号资源说明 1 CSK USB 接口 CSK6 芯片的 USB 接口，可通过本接口使用 CSK6 的 USB 硬件功能，支持对开发板进行供电。 2 DAPLink 调试器接口可通过本接口查看日志、烧录固件、调试仿真，支持对开发板进行供电。 3 电源开关控制开发板总电源开关。 4 外扩排针引出 CSK6 芯片的可用 IO 口，包括部分由扩展 IO 芯片 (19编号)外接的 IO口，开发者可按需进行使用。 5 摄像头模组默认配套 30W 像素的摄像头模组，型号为 GC0328。 6 扬声器接口用于连接扬声器进行播音。 7 RGB LED 支持编程控制的 LED。 8 触摸显示屏分辨率 320*240 的触摸显示屏，屏显硬件接口为 SPI，触摸硬件接口为 I2C 。 9 麦克风板载的两个麦克风，连接芯片的 Audio ADC，用于语音相关应用的录音。 10 硬回采开关用于控制第二路录音链路用于麦克录音(默认)还是硬件回采。 11 SD卡槽用于插入 SD 存储卡。 12 网络模组调试座可用语烧录网络模组的固件与调试。 13 网络模组使用 ESP32 C3 作为网络模组。 14 扩展按键区通过扩展 IO 芯片 CH32 扩展引出的按键，支持轮询检测。 15 CSK6 功能按键区包括 CSK6 芯片的复位、BOOT、自定义功能按键。 16 电源LED 指示开发板的供电状态，供电正常使，LED亮起。开发板设计资料下载文件操作大模型开发套件V2.0 硬件设计聆思科技多模态开发板 - 嘉立创EDA开源硬件平台 CSK6系芯片引脚功能表 V1.0 下载开发板尺寸 V2.0 开发板配件摄像头模组套件默认配套一个摄像头模组，参数如下：属性参数 Sensor 型号 GC0328 接口 DVP 像素 30W 摄像头安装本摄像头可通过开发套件主板上的摄像头接口进行连接，安装摄像头时，请抬起摄像头接口座上的盖板，将摄像头软排线水平插入接口座后，盖紧盖板，安装完成后如下：触摸屏模块套件支持使用配套的触摸屏模块，触摸屏模块参数如下：属性参数尺寸 2.4寸(显示区域尺寸) 分辨率 320*240 屏显驱动型号 ST7789V / 数据手册下载屏显接口 SPI 触摸驱动型号 FT5336 / 数据手册下载触摸接口 I2C 触摸屏安装本摄像头可通过开发套件主板上的屏幕排针座直接进行连接，连接时，请通过屏幕模块和主板上的三角标识确认安装方向，如图：网络模组为了方便接入 WIFI 与 BLE 网络，配套无线网络模组型号是ESP32-C3。网络模组以hosted的模式与开发套件的主控芯片CSK6进行通讯，完整协议栈完整地运行在CSK6上。网络模组相关的源码信息如下：项目说明源码路径 SDK目录\modules\lib\esp-hosted\esp-hosted\esp\esp_driver\network_adapter 编译指引 Get Started - ESP32-C3 - — ESP-IDF Programming Guide latest documentation 更多使用说明供电开发板支持通过 DC 座或任意 Type-C 接口进行供电，因部分电脑或 USB HUB 存在供电电流不足的问题，因此建议在条件允许的情况下优先使用 DC 供电座对开发套件进行供电。 DAPLink USB口的使用开发板板载了DAPLink调试器芯片，DAPLink 芯片与 CSK6 芯片的 SWD 接口、烧录串口(A15/A18)、日志串口(A02/A03)进行了连接，从而实现可以使用DAP_USB接口查看CSK6 芯片的日志以及对 CSK6 进行固件烧录。开发者可通过DAPLink USB接口对CSK6芯片进行固件烧录、代码仿真与串口查看。使用方法如下： 1.使用TypeC数据线连接电脑USB与开发板DAPLink USB 2.若设备运行正常，在电脑设备管理器中会出现一个虚拟串口和USB设备虚拟串口(CDC)功能：对CSK6芯片的 GPIOA2 和 GPIOA3 【默认UART0】引脚进行了映射，可通过串口上位机工具与串口进行通讯。烧录、仿真功能：配合CSK6开发工具，可通过DAPLink实现固件快速烧录以及VSCode IDE环境下进行仿真调试，详见：https://docs2.listenai.com/x/8bZfGBUtuKw。开发环境可参照《环境搭建》与《获取大模型SDK》完成开发环境的搭建以及开发所需SDK的获取，并参照各个示例下的开发指南进行开发，通过大模型应用开发指南可以了解如何在开发套件上接入云端大模型应用并进行应用开发。如果需要拿实物参考，可以TB搜聆思csk6大模型开发板

发布的帖子

回复过的帖子

统计信息

已有7人来访过

芯积分：84
好友：--
主题：22
回复：1

留言

现在还没有留言

胡黎明

前言 本文基于前面已经落地的CSK6大模型语音视觉开发板的配套示例功能来进行讲解 目前聆思平台的超拟人模板实现了快速响应、声纹识别、知识库问答、兜底闲聊、超拟人TTS等功能，具体业务流程如下： 详情请参考附录

本文以大模型语音控制灯的开关为例,讲解如何通过LSPlatform的云端编排功能在大模型语音交互流程中加入AIUI技能，实现更丰富的产品功能。 大模型语音模板加入AIUI技能节点后的数据流程如下图所示：

前言 上一篇讲了基础节点和常规调试方法，在实际应用开发的过程中，除了大模型相关的基础节点外，链路编排实际上还需要包含了更多的通用节点。本篇将介绍几个在实际应用开发中常用的节点及其功能。

本篇文章主要介绍基于聆思CSK6大模型开发板的语音交互多模态实例进行二次开发，实现在语音唤醒后在屏幕展示GIF动画表情。 通过LGVL官网的工具将GIF转换为适合嵌入式系统使用的格式 基于SDK源代码进行修改 开发板编译与烧录

Jacktang 发表于 2024-6-18 07:27 为了提高安全性，大模型开发板还可以进行活体识别，判断当前交互对象是否为真实的人， 是的，可以结合上述第四个活体识别的功能

最近访客

统计信息

留言

推荐博文

前言本文基于前面已经落地的CSK6大模型语音视觉开发板的配套示例功能来进行讲解目前聆思平台的超拟人模板实现了快速响应、声纹识别、知识库问答、兜底闲聊、超拟人TTS等功能，具体业务流程如下：详情请参考附录

本文以大模型语音控制灯的开关为例,讲解如何通过LSPlatform的云端编排功能在大模型语音交互流程中加入AIUI技能，实现更丰富的产品功能。大模型语音模板加入AIUI技能节点后的数据流程如下图所示：

前言上一篇讲了基础节点和常规调试方法，在实际应用开发的过程中，除了大模型相关的基础节点外，链路编排实际上还需要包含了更多的通用节点。本篇将介绍几个在实际应用开发中常用的节点及其功能。

本篇文章主要介绍基于聆思CSK6大模型开发板的语音交互多模态实例进行二次开发，实现在语音唤醒后在屏幕展示GIF动画表情。通过LGVL官网的工具将GIF转换为适合嵌入式系统使用的格式基于SDK源代码进行修改开发板编译与烧录

Jacktang 发表于 2024-6-18 07:27 为了提高安全性，大模型开发板还可以进行活体识别，判断当前交互对象是否为真实的人，是的，可以结合上述第四个活体识别的功能