第263章 2020的深红(5 / 6)
,全栈开发和自动化。
需要这些工作,帮助LLM从实验室走向实际应用。
“我们可以采取将模型分解为多个专家子模块,仅激活部分参数,路由机制选择专家处理输入,扩展到动态MoE,再引入自适应路由,进一步降低推理成本.”
“压缩Key-Value缓存,通过潜在表示减少注意力机制的内存占用,同时保持多头并行,再通过集成知识图谱的方式来缓解幻觉,同时优化低算力训练”
“使用8位浮点格式进行计算,结合更高精度积累以避免精度损失,细粒度量化策略扩展到FP4/INT8混合”
“MoE中无辅助损失的均衡策略,确保专家利用率高,而不引入额外训练负担,扩展到无监督均衡,应用于边缘AI训练”
“同时预测多个后续token,densify训练信号,提高数据效率,结合链式预测”
“使用知识图谱注入事实,退拟合模型以修正偏差;自精炼减少检索开销”
赵松下亲眼看着他们命名为阿尔法的人工智能,以难以想象的速度狂飙突进。
他严重怀疑林教授是不是过于变态了,明明来的很少,但每次来都有突破性进展。
他们这次用到了大量新方法,要么是论文方法第一次在工程里实践,要么就是从来没有出现过的方法。
殊不知看上去林燃只是每周来个两天,但实际上林燃在1960时空已经过去了两年时间,围绕LLM这条路线,林燃已经有了很深的思考。
赵松下五年工龄只能干点边缘工作,但不妨碍靠着啃论文和听林燃讲课,水平突飞猛进。
他11月接到通知,12月到申海开始工作,中间春节就回去了三天,加班费打满。
春节回去前,以Pony为首的高管团队就来参观最新进展。
偌大的会议室坐满了人,赵松下坐在最边上,林燃和Pony在第一排谈笑风生,鹅厂其他高管团队清一色坐在后面。
“好,既然大家都到齐了,那我们就废话不多说,直接开始吧。”林燃说。
这次由他来亲自展示:
“ChatGPT很棒,但它有时会出错,会‘幻觉’出不存在的事实,还需要海量算力。
我们的深红,通过MoE架构和MLA技术,一定程度上消除了幻觉问题,并在较低算力下实现更快的响应。”
台下的工程师们都搞不懂林总为什么这么执着,之前叫阿尔法不是很好听吗?最近非要改名叫深红。
林燃敲击键盘,
↑返回顶部↑
温馨提示:亲爱的读者,为了避免丢失和转马,请勿依赖搜索访问,建议你收藏【顶点小说网】 m.dy208.com。我们将持续为您更新!
请勿开启浏览器阅读模式,可能将导致章节内容缺失及无法阅读下一章。