2024年末,AI界再次传来重磅消息。深度求索发布大模型 DeepSeek V3 ,完全开源,免费使用。最重要的是,这家被称为 "AI界拼多多" 的杭州企业再次将大模型训练成本砍一刀。 DeepSeek V3训练耗时两个月, 仅花费558万美元 ,但性能却辟比ChatGPT。而 GPT-4o等大模型的成本约为一亿美元 ,这家初创企业以一举之力颠覆大众和业界对AI高昂研发成本的固有印象。 新年伊始, "雷军千万年薪招揽95后天才少女" 的消息一出迅速抢占各大头条,关于AI人才身世背景的争论此起彼伏。北师大本科、北大硕士、先后在阿里达摩学院和DeepSeek就职的罗福莉即将加入小米在圈内早已不是新鲜事,看似利好小米的新闻,实则也 为前东家DeepSeek的热度再添了把火 。 01 / 一年崛起:深度求索的非凡历程 2023年5月,量化投资基金幻方正式将大模型研究团队拆分, 成立深度求索公司 。DeepSeek背后的推手正是创始人梁文锋,曾在浙江大学学习人工智能。而梁文锋在接受采访时表示,在美国政府对中国实施AI芯片限制之前,幻方量化 已经购买了10000多台GPU ,确保了DeepSeek的开发。 DeepSeek的团队以 刚毕业的学生 和 新晋AI从业者 为主,他们拥有无限的创造力和激情。梁文峰表示,在DeepSeek,每个人都可以 随时调用训练集群的卡 ,无需审批。 这种开放和自由的氛围使得DeepSeek能够迅速崛起,成为中国乃至全球少有的 兼具强大基础设施工程能力和模型研究能力 的团队。 2024一年来,DeepSeek共发布8篇研究论文。从中映射出的是在资源限制下,一家 依托本土人才 的AI企业,奋力追逐甚至赶超行业巨头的快速崛起历程。 02 / 与主流大模型硬碰硬 : DeepSeek V3的卓越表现 DeepSeek V3的预训练阶段仅需 266.4万个H800 GPU小时 ,后续训练阶段需10万个GPU小时。大概两个月时间,DeepSeek就利用 2048个GPU 完成了模型的训练,仅花费558万美元。 相比之下, Meta的Llama 3.1使用了3080万个GPU小时 ,约为DeepSeek V3的11倍,而Mata使用的是比............. 原文转载: https://fashion.shaoqun...
Comments
Post a Comment