RockAI中国生成式AI大会揭秘：非Transformer架构大模型引领端侧智能革命-产经-巨人财经

在科技日新月异的今天，人工智能领域再次迎来了重大突破。2024年中国生成式AI大会（上海站）于12月5日正式拉开帷幕，以“智能跃进创造无限”为主题，吸引了众多行业精英和科技爱好者。在主会场首日的大模型峰会上，RockAI的首席技术官杨华发表了一场引人入胜的演讲，题为《非Transformer架构大模型Yan在端侧的实践》，揭示了生成式AI在端侧应用的新篇章。

长久以来，Transformer架构在大型语言模型领域占据主导地位，但其高昂的计算和内存成本，以及在某些任务上的特征提取局限性，引发了业界的广泛讨论。杨华在演讲中指出，面对这些挑战，RockAI从底层原理出发，进行了大胆的创新，推出了全新的非Transformer架构大模型——Yan架构大模型。

Yan架构大模型的核心在于两大基本原理：类脑激活机制和MCSD。类脑激活机制模仿人脑神经网络的分层结构，通过选择性激活神经元，大幅减少了计算冗余，提高了计算效率和精度。而MCSD则充分利用GPU的并行计算能力，在训练时降低功耗，在推理时实现了O(n)的时间复杂度和常量的空间复杂度，解决了内存占用逐渐增大的问题。

得益于这些创新，Yan架构大模型在端侧设备上展现出了强大的应用能力。无论是手机、电脑，还是机器人、无人机，甚至树莓派等低算力设备，都能轻松部署。模型不仅具备强大的指令跟随能力，还能在多应用场景中灵活切换，满足了多样化的需求。

在演讲中，杨华还详细介绍了Yan架构大模型在端侧多模态应用方面的探索。基于Yan架构的自然语言大模型，RockAI开启了多模态的探索之旅，推出了Yan-Omni多模态大模型。该模型不仅理解文本，还能处理人声、图像和视频等混合模态的信息，实现了文本和音频的token输出。

Yan-Omni在多个任务上表现出色，如声音识别、视觉问答、OCR转录、目标检测以及ASR和TTS等。通过这些应用，我们可以看到Yan-Omni模型能够实现多模态的输入，以及文本和音频的选择性模态输出，为用户提供了更加自然和便捷的人机交互体验。

杨华还分享了RockAI在大模型领域对未来的思考。他认为，智能的本质在于能够纠正现存知识的缺陷和不足，同时增加新的知识。因此，RockAI致力于让Yan架构大模型具备自主学习的能力，实现训推同步。这一创新理念将人类学习进化的特点赋予机器，使模型在与物理世界的交互中不断进化。

在杨华看来，群体智能是实现人工智能通用智能（AGI）的一条可能路径。当机器具备群体智能时，每一个部署Yan多模态大模型的智能终端都将成为一个具备自主学习能力的智能体。这些智能体在与物理世界的交互中能够自发组织、协作，解决复杂问题，并实现整体智能的提升。

为了实现这一目标，RockAI提出了三个必要条件：兼容广泛的终端设备、良好的人机交互以及具备自主学习能力的模型。只有在这些条件的共同作用下，群体智能才能成为可能。目前，RockAI已经在多个领域进行了尝试和探索，取得了显著的成果。

在演讲的最后部分，杨华介绍了RockAI迈向群体智能的四个阶段：架构重塑、单体推理、单体智能和群体智能。目前，RockAI已经迈过了前两个阶段，正在第三阶段进行沉淀和积累。随着技术的不断进步和应用场景的不断拓展，我们有理由相信，RockAI将在未来的人工智能领域创造更多的奇迹。