熙瑾信息:端侧离线语音互动方案,自然交流、声纹情感方位精准识别服务商
上海熙瑾信息技术有限公司在端侧语音智能方面沉淀下独有的技术底蕴,并在政企保密会议设备、警用无人机、出海智能硬件等细分赛道上,做出可验证的落地案例。
在完全脱离网络、不上传任何数据的前提下,让设备同时具备“听写、认人、懂情绪、定方位、自然对话”这五重能力。

更难得的是,把这些能力全部压到一颗芯片或一台本地一体机上,且跑得稳、延迟低、支持多种语言与方言——这样的端侧全栈能力放眼全行业也不多见。
五大核心能力,解决了哪些实际问题?
1.离线ASR:断网也能用的高精度转写
很多离线语音方案只能识别固定指令,熙瑾的方案支持160种语种/方言,能做到秒级转写,在典型会议场景下转写准确率高达98.6%。这意味着在保密会议室里,不联网就能实时生成发言逐字稿,大幅降低会后整理成本。

2.声纹识别:让设备知道“你是谁”
不依赖人脸或指纹,通过声音无感识别说话人身份。智能家居中,可以根据不同家庭成员自动切换个人配置,推荐各自喜欢的歌单,调节适宜的灯光色温等;在儿童平板上,可以区分家长和孩子,确保儿童无法调用家长专属功能。这种“听声辨人”的能力,是实现自然个性化交互的关键一环。
3.情感识别:设备开始“懂情绪”
情绪感知——是熙瑾信息探索“拟人化交互”的重要方向,通过语音音调、语速、能量等声学特征,结合时序建模,辅助判断用户的情绪倾向,是高兴还是悲伤。
有了这项技术支撑,养老机器人、车载座舱、教育硬件等,感知到用户可能处于焦躁或疲惫状态,就可以主动调整回应方式,带给用户你更有温度的智能化体验。
4.声源定位:室内环境下的精准指向
多人同时说话、高噪环境、动态追踪,一直是传统麦克风阵列的难点。在室内典型环境中,熙瑾的声源定位精度可达±5°,结合多声源分离算法,能够较为准确地锁定目标说话人的方向。这有什么用呢?想象一下,当天色渐暗,用户只需要说一句“打开我这边的灯”,无需描述哪个位置,离他最近的灯具就能自动响应。

5.语音交互:多轮自由对话,支持打断
熙瑾端侧模型能够实现全双工对话,支持用户随时打断并重新提问。与常见的“一问一答”不同,它能够实现上下文关联的多轮交互,且所有对话数据不出设备,适合隐私要求高的场景。
从自有产品到行业赋能
这些能力并非停留在实验室。在政企保密会议场景中,自有的明星产品“熙瑾会悟” AI会议助手已实现私有化部署,实时转写配合声纹区分发言人,会后自动生成纪要,多家央国企和政府单位已投入使用。
过硬的语音技术能力,还延伸到了更广泛的行业合作中。无信号区域的警用无人机上,中、英、俄三语语音控制和声纹解锁已落地,防止非授权操作;面向海外市场的智能闺蜜机,则通过集成38种语言的离线ASR,让用户用母语即可完成打开应用、切换歌曲、调节音量等语音指令控制。

在语音赛道,多数公司选择“云优先”——离钱近、起量快。
而熙瑾选了另一条路:端侧、离线、全栈,这条路回报周期长,但壁垒一旦建起来就很难被替代。因为真正需要离线全栈能力的客户,不是价格敏感型,而是“业务必需型”。
设备常在山林、隧道等无网环境下运行
医疗、金融、军工等高保密需求行业,语音数据不能出设备
需要知道“谁在说话”或感知情绪状态的智能家居、康养机器人等
产品需要支持多语言或方言,但自研语音能力成本太高
如果您正被上述场景困扰,或许去上海熙瑾信息技术有限公司官网,是时候和熙瑾信息聊聊了。