一升迷你主机跑百亿级大模型?英特尔酷睿Ultra可能比你想象的更强大

在很多人的印象里,想要在本地运行百亿级别的大模型,至少是需要一台配备了足够大显存显卡或者计算卡才能够做到的事情,毕竟这些模型要跑起来,显存的压力往往要比算力的压力要大上不少,轻薄本和迷你主机这种轻小、便携的产品则往往只能够勉强运行7B乃至更小的模型,尽管对于日常的使用来说已经基本够用,但是对于很多有着更高需求的用户来说依旧有些捉襟见肘。

不过,当一台配备酷睿Ultra 9 285H处理器和96GB内存,但是体积仅有1升的迷你主机在万众瞩目之下流畅运行1200亿参数的大模型时,相信整个行业仿佛听到了一个新时代开启的轰鸣。英特尔通过系统性创新,将昔日遥不可及的数据中心级算力,成功植入个人计算设备的深刻变革。上周在重庆举办的2025英特尔技术创新与产业生态大会上,英特尔在AI新技术与软件创新论坛上的分享,为业界展现了在当下的边缘算力下,端侧AI实用化程度的重要进展。

内存架构的革命性突破,是英特尔此次技术展示的基石。长期以来,集成显卡的显存配置如严重制约了大型模型在端侧设备上的运行潜力,即使一些设备能够在BIOS当中调整显存分配,但是繁琐的设置过程以及固定分配对于系统内存的占用都影响着使用体验。而英特尔推出的“共享GPU内存覆盖”技术,彻底打破了这一桎梏。用户可通过英特尔显卡控制面板,在5%至95%的宽泛区间内,自由调节系统内存分配给显存的比例。这种动态调配能力意味着,在128GB系统内存的豪华配置下,高达120GB的空间可转化为显存,在96GB配置上也能释放出90GB的庞大显存资源。更具革命性的是其独特的并行访问机制,CPU与集成显卡能够同时访问这片共享内存区域,既确保了大模型对显存的渴求,又保障了系统多任务处理的流畅性,这种精妙的平衡设计,展现了英特尔在系统架构优化上的深厚功力。正是这一“大显身手”的创新,让千亿模型在轻薄本和迷你主机上运行成为可能。

现场演示环节展示了Ultra 9 285H处理器搭配96GB内存配置在从20B到120B参数规模模型在端侧设备上运行的实际效果,面对“小李未吃早饭跑步晕倒”的同一问题时,GPT-OSS-20B模型给出了简洁的基础性回答;Qwen3-30B模型则展现出多角度的分析能力,提供了多条原因与建议;而当挑战升级至GPT-OSS-120B模型时,其回答不仅缜密全面,更以结构化表格形式呈现,并附上详细的解释与防范措施。67GB的显存占用,直观印证了大内存配置对于承载顶尖智能的必要性。更具震撼力的是长上下文处理能力的验证,当《红楼梦》前五章超过30K的复杂文本被输入80B模型,并被要求以“刘姥姥与贾宝玉滴血认亲”的创意方向续写第六章时,系统不仅深刻理解了古典文学的语境与风格,更融合了现代网络叙事元素,生成了长达1500字、情节跌宕起伏的全新章节。这一壮举证明,端侧AI在深度理解以及更多需要创造能力的领域展现实力。

英特尔为端侧AI带来的改变不仅如此,端侧AI还从单纯的思考者,进化为具备听、看、说等全方位感知能力的行动者。在视觉感知领域,DeepSeek OCR技术的本地化部署展现了卓越实力。不同于传统基于CNN的OCR,这款Transformer架构的模型,不仅能精准识别复杂版式文档中的文字与排版,更能将表格数据直接转换为规范的Markdown格式,为日常办公的数字化流程提供了高效、私密的解决方案。在听觉与表达层面,TTS声音克隆技术在端侧的实现同样令人瞩目。该系统支持FastSpeech2、GPT-Sovits等主流模型,不仅能生成高度自然的个性化语音,还能模拟双人对话场景。更重要的是,本地化处理完全规避了声音数据上传云端的隐私风险,带来更安全,更灵活的端侧使用体验。

最具冲击力,也最吸引人的展示,莫过于多种AI应用融合的自动化工作流。面对“制作康熙与洪承畴野史短片”的复杂任务,英特尔展示了从信息搜集到视频生成的全链条自动化处理。当网络爬虫遇到无法抓取的页面时,DeepSeek OCR迅速介入,将图像化的信息转化为可处理文本;随后,大模型对信息进行分解,通过模型上下文协议(MCP)调用后续工具生成口播脚本;TTS技术拟合出指定声音,最终由Wan2.2模型生成视频。整个流程仅需数小时,而过去完成同样工作,一个工作室可能需要耗费数天甚至一周时间。这一生动案例,淋漓尽致地展现了端侧AI在重塑生产力方面的巨大潜能,它将复杂的创作过程压缩,让个体能力得到前所未有的放大。

为了持续突破算力边界,英特尔在硬件创新上同样持续向前。与知名主控厂商群联PHISON联合开发的aiDAPTIV+技术,开创性地提出了“以存代算”的理念。该技术通过将大模型推理过程中消耗算力最严重的预处理阶段所产生的KV Cache,持久化存储于PCIe Gen5 AI SSD中。当用户遇到相似问题时,系统无需重新计算,可直接从高速SSD中调用缓存,从而极大加速响应。在实际测试中,针对RAG系统和代码生成场景,这项技术实现了惊人的7-8倍首token时间提升,为实时性要求严苛的应用铺平了道路。

英特尔还借助雷电互联技术构建本地高效算力集群。利用雷电接口高达40Gb/s的带宽和仅为5G以太网1/3-1/5的超低时延,两台酷睿Ultra 9 285H设备可通过张量并行方式,协同运行高达235B参数的庞大模型。尽管当前6-7 tokens/s的输出速度尚有提升空间,但这一分布式架构为预算有限却渴求更大算力的应用场景,提供了极具吸引力的新选择,其在优化之后的潜力令人充满期待。

英特尔的端侧AI布局,已从最初的工作站,游戏本逐渐扩展到轻薄本以及迷你主机。除此之外,英特尔还展示了配备单卡或双卡ARC B60的小型工作站以及采用至强W处理器加四张ARC B60的部门级工作站,英特尔构建了层次分明的产品矩阵,无论是赋能智能座舱、智能家居的AI Box,还是提升车载智能与NAS功能的解决方案,酷睿Ultra的算力正无处不在。

而展望未来,英特尔在端侧AI上的征程正迈向一个更加激动人心的新阶段。明年年初,代号为Panther Lake的第三代酷睿Ultra处理器将基于Intel18A这一英特尔最先进的半导体制程工艺进入大规模量产。作为首款采用Intel 18A制程打造的客户端SoC,Panther Lake将引入可扩展的多芯粒架构,并配备多达16个全新的性能核与能效核,实现CPU性能超过50%的飞跃。其集成的全新英特尔锐炫GPU,拥有最多12个Xe核心,图形性能提升同样超过50%。更重要的是,其更出色的XPU设计将平台AI性能推向前所未有的180 TOPS高峰,这将为端侧运行更庞大、更复杂的模型,以及实现更沉浸、更流畅的AI生成体验提供源源不断的动力。

支撑这一飞跃的,正是新一代Intel 18A制程革命性的技术实力。作为英特尔研发和制造的首个2纳米级节点,Intel 18A相较于前代实现了每瓦性能提升高达15%,芯片密度提升约30%。其关键创新包括全新的RibbonFET晶体管架构,实现了更高效的开关控制,以及突破性的PowerVia背面供电技术,优化了电力传输与信号完整性。结合先进的Foveros 3D封装技术,Intel 18A将作为核心技术平台,支撑英特尔未来至少三代客户端与服务器产品的研发与生产,为端侧AI的持续进化奠定坚不可摧的基石。

阅读剩余
THE END