无问芯穹重磅推出端侧开源模型,助力AI普惠
近日,清华大学系初创企业无问芯穹智能科技有限公司推出端侧全模态理解开源模型 Megrez-3B-Omni。该模型拥有 30 亿参数,能够在手机、平板等端侧设备上执行图像、音频和文本三种模态的数据处理任务,为人工智能的普及应用提供了强大的算力支持。
文本理解:精简高效,提升效率
在文本理解方面,Megrez-3B-Omni 将上一代 14B 大模型压缩至 3B 规模,大幅降低了计算成本和提升了计算效率。该模型能够高效处理复杂的文本理解任务,如问答、摘要和翻译,为端侧设备带来了更多可能。
语音理解:多轮对话,无缝切换
在语音理解方面,Megrez-3B-Omni 支持中英文语音输入,并能够处理复杂的多轮对话场景。用户可以通过语音向模型提问,或将输入图片或文字转换为语音输出,实现不同模态之间的自由切换,大大提升了交互体验。
图像理解:场景理解,文本提取
在图像理解方面,Megrez-3B-Omni 可以在场景理解、OCR(光学字符识别)等任务上识别并提取文本信息。该模型能够准确识别图像中的文字内容,为图像处理、文档扫描和信息提取等应用提供了便利。
同步开源纯语言模型,加速AI普及
此外,无问芯穹还同步开源了纯语言版本模型 Megrez-3B-Instruct。该模型为单模态模型,最大推理速度比同精度模型快 300%,并具备强大的 AI 搜索功能。Megrez-3B-Instruct 的开源将有助于加速 AI 技术的普及和应用。
软硬件协同,最大化性能
无问芯穹表示,Megrez-3B-Omni 通过软硬件协同优化策略,使得各参数与主流硬件适配,最大化利用端侧硬件性能。该模型支持 CPU、GPU 和 NPU 同时推理,通过跨越软硬件层次的系统优化,额外带来最高 70% 的性能提升。
未来展望:端侧智能,触手可及
Megrez-3B-Omni 的推出是无问芯穹在端侧人工智能领域的重要里程碑。该公司表示,未来将继续迭代模型,让用户通过简单的语音指令,即可完成端设备的设置或应用操作。该方案将为端侧设备带来更强大的智能化体验,助力人工智能技术惠及更多用户。
关于无问芯穹
无问芯穹由清华大学电子工程系教授、系主任汪玉发起,其带领的 NICS-EFC 实验室早在 2008 年便投入到面向智能场景的软硬件联合优化技术路线的研究,提出“算法创新-编译映射-硬件架构”联合优化的设计范式。
联合创始人、首席科学家戴国浩毕业于清华大学电子工程系 NICS-EFC 实验室,现任上海交通大学长聘教轨副教授、清源研究院人工智能设计自动化创新实验室负责人。联合创始人兼 CEO 夏立雪是汪玉的博士生。
无问芯穹致力于为人工智能提供算力设施,打造“端云直通”的 AI 发展新生态。该公司拥有端侧芯片、AI 算法、嵌入式软件和系统集成等全栈技术,专注于端侧人工智能的场景化应用,为智慧城市、智能制造、智能医疗等领域提供软硬件一体化的解决方案。
原创文章,作者:讯知在线,如若转载,请注明出处:http://m.xzxci.cn/2024/12/17/37802.shtml