7月5日，针对盘古Pro MoE模型被质疑套壳阿里通义千问Qwen-2.5的争议，华为诺亚方舟实验室发布声明称，该模型是基于昇腾硬件平台开发、训练的基础大模型，非基于其他厂商模型增量训练，并强调其创新了全球首个面向昇腾硬件的分组混合专家（MoGE）架构，解决分布式训练负载均衡难题，提升训练效率。此前，GitHub研究指出盘古Pro MoE与Qwen-2.5的注意力参数分布高度相似（平均相关性0.927），代码文件含阿里版权声明，引发“非独立开发”质疑。华为回应称，部分基础组件代码参考了业界开源实践，严格遵循开源协议并标注版权，符合开源协作精神。目前，涉事GitHub库已删除，阿里方面暂未回应。业内指出，此次争议暴露AI大模型开源定义模糊、协议规则待完善等问题，如何界定开源模型边界、推动健康有序发展仍是行业关键课题。据悉，盘古大模型已落地30余行业、400余场景，覆盖政务、金融、制造等领域。华为回应盘古ProMoE抄袭质疑：基于昇腾平台开发，合规引用开源组件

Flynn热度 5,299点赞 3,891评论 704

知乎

知乎大模型

如何评价杨立昆认为大模型只是对海量文本的模式进行复杂拟合，根本不懂意义？

LeCun新作反杀AGI派！AI连「鸟」都搞不懂，拿什么超越人类？-36氪LLM追求的是极致的统计压缩，而人类追求适应性语义丰富。如果 LLM 只是通过强大的记忆和存储能力表现出类似人类只能的东西，相当于只知其然不知其所以然，那么 LLM 实现 AGI 是否还有戏？

BugBuster喵热度 3,763点赞 3,203评论 280

知乎

知乎大模型

国内AI大模型已近80个，哪个最有前途？

找个有前途的关注，如果开源，就尝试用着，免得落后。

佳人李大花热度 2,941点赞 2,523评论 209

知乎

知乎大模型

2026年，中美大模型的差距会变大还是变小？

大佬们说说？

黑兵热度 2,035点赞 1,715评论 160

知乎

知乎大模型

大模型测试的下半场

但要清楚自己在补的是不是长尾。如果你在做模型本身：Agent 时代的强模型，不再是”什么都会”的模型，而是”知道什么时候该做什么”的模型

李磊NLP热度 1,318点赞 986评论 166

知乎

知乎大模型

大模型的理论基础中，有哪些令人惊叹的数学工具或关键研究？

近年来，大语言模型在自然语言处理、代码生成等领域取得突破，其背后离不开深厚的数学支撑。无论是模型架构、训练优化，还是理论解释，数学都扮演着核心角色。希望探讨的方向：关键数学分支的应用：线性代数、概率论、信息论、优化理论、微分几何等如何具体应用于大模型的设计与训练中？有没有一些“高阶数学工具”（如流形学习、表示论、随机矩阵理论等）在模型理论分析中发挥了意想不到的作用？具体技术与技巧：例如，注意力机制中的矩阵运算与稀疏化处理、位置编码与傅里叶变换的关联、优化器中自适应学习率的数学原理等。在模型缩放律、泛化理论、分布外鲁棒性等理论研究中，有哪些精妙的数学推导或证明令人印象深刻？跨学科研究的启发：是否有来自其他领域（如统计物理、动力系统、微分方程）的数学方法，被成功迁移到大模型的理论探索中？在可解释性、模型编辑、知识溯源等方向，数学提供了哪些新的分析框架？欢迎从理论、应用、前沿研究等任意角度分享，期待大家结合具体论文、公式或案例展开讨论！

chouheiwa热度 1,230点赞 1,166评论 32

知乎

知乎大模型

纺纱机烧掉了三代人，大模型呢

单独局部的看，纺纱机让他效率提高了几十倍，这是不是跟大模型技术一样呢。现在算力有的用，人就不能歇着，和以前不也是一样

远山乱云热度 1,227点赞 753评论 237

知乎

知乎大模型

有没有一种可能，现在的大语言模型已经发展得接近极限了？

现在越来越觉得大语言模型好像也就那么回事。除了检索东西方便点，其他的我感觉都是套路，还是没有任何的人性、人味道。是不是现在的大语言模型除了速度、上下文长度之外，基本上也快抵达极限了？大语言模型很可能不是通往 AGI 的那条路。

石昊热度 1,093点赞 737评论 178

知乎

知乎大模型

为什么说大模型训练很难？

自从Bert网络模型产数量超过3亿规模，当时候只是觉得性能好，没想到GPT系列出来后，GPT-3直接用170B规模的参数量模型精度碾压竞品。接着就是新一轮的竞争了，后面的事情就有点可怕了，Google推出万亿稀疏switch transformer，huawei推出2000亿稠密鹏程盘古大模型，微软推出Turing-NLG有1000亿参数，英伟达推出MegatronLM系列。大家都说大模型难，大模型训练除了集群调度麻烦，还难在哪里吗？

BugBuster喵热度 956点赞 856评论 50

知乎

知乎大模型

大模型开源会不会变成给闭源做嫁衣?

利用自身的算力优势，吸取开源的某些优势思路完善自己的闭源模型，使自己更有竞争力。

文识天热度 869点赞 655评论 107