清华系初创无问芯穹发布端侧开源模型,助力智能设备AI升级
上海无问芯穹智能科技有限公司近日推出端侧全模态理解开源模型Megrez-3B-Omni。这款30亿参数的模型尺寸适合手机、平板等端侧设备,具备图片、音频、文本三种模态数据处理能力。
文本理解:压缩大模型,提高计算效率
在文本理解方面,Megrez-3B-Omni将上一代14B大模型压缩至3B规模,降低计算成本,提升计算效率。该模型支持文本分类、问答、摘要等多种自然语言处理任务。
语音理解:多轮对话,跨模态切换
在语音理解方面,该模型支持中英文语音输入,处理复杂多轮对话场景。用户不仅可以通过语音输入文本,还可以对输入图片或文字进行语音提问,实现不同模态间自由切换。
图像理解:场景理解,OCR识别
在图像理解方面,Megrez-3B-Omni可在场景理解、光学字符识别(OCR)等任务上识别并提取文本信息。该模型可以识别复杂场景中的文本,例如标牌、路标和菜单。
软硬件协同优化,提升端侧性能
无问芯穹通过软硬件协同优化策略,令Megrez-3B-Omni与主流硬件适配。该模型支持CPU、GPU和NPU同时推理,通过跨越软硬件层次的系统优化,额外带来最高70%的性能提升,最大化利用端侧硬件性能。
同步开源语言模型,加速AI搜索
除了Megrez-3B-Omni外,无问芯穹还同步开源了纯语言版本模型Megrez-3B-Instruct。这款单模态模型最大推理速度领先同精度模型300%,具备AI搜索功能。
清华系背景,技术创新驱动
无问芯穹由清华大学电子工程系教授、系主任汪玉发起。他带领的NICS-EFC实验室早在2008年便投入到面向智能场景的软硬件联合优化技术路线,提出“算法创新-编译映射-硬件架构”联合优化的设计范式。
联合创始人、首席科学家戴国浩毕业于清华大学电子工程系NICS-EFC实验室,现任上海交通大学长聘教轨副教授、清源研究院人工智能设计自动化创新实验室负责人。联合创始人兼CEO夏立雪是汪玉的博士生。
面向端侧应用,赋能智能设备
无问芯穹表示,Megrez-3B-Omni模型旨在为端侧智能设备提供强大的AI能力。通过部署该模型,智能手机、平板等设备可以实现更具交互性和智能化的功能,例如:
* 语音助手:理解复杂语音指令,执行设备设置或应用操作
* 图像识别:识别场景中的文本信息,提供导航或购物辅助
* 文字处理:自动摘要、翻译或问答,提升工作效率
持续迭代,探索未来发展
Megrez-3B-Omni模型的发布只是无问芯穹端侧AI探索的开始。未来,公司将持续迭代模型,提升性能和功能。通过软硬件协同优化的创新技术,无问芯穹致力于为智能设备提供更强大的AI引擎,赋能智能生活和产业升级。
原创文章,作者:讯知在线,如若转载,请注明出处:http://m.xzxci.cn/2024/12/18/38123.shtml