中国进口芯片受到限制,迫使DeepSeek工程师“更有效地训练大模型,以让其仍有竞争力”,乔治华盛顿大学专门研究新兴技术和国际关系的助理教授杰弗里·丁(音)说。
本月早些时候,拜登政府颁布了旨在阻止中国通过其他国家获得先进人工智能芯片的新规则。新规则出台前,美国已采取了多轮限制措施,阻止中国公司购买或制造尖端计算机芯片。特朗普总统尚未表明他是否会继续实施或取消这些措施。
美国政府一直试图阻止中国公司获得先进芯片,因为担心这些芯片可能用于军事目的。作为回应,中国的一些公司囤积了大量这类芯片,另一些公司则在蓬勃发展的黑市采购走私芯片。
DeepSeek由一家名叫幻方的量化股票交易公司运营。到2001年,它已将利润投入购买数千枚英伟达芯片,用于训练其早期模型。公司没有回复记者的置评请求,它在中国有一种名声,那就是以高薪和让人们能够探索最感兴趣的研究课题为承诺,吸引了刚从顶尖大学毕业的人才。
曾参与早期DeepSeek大模型开发的计算机工程师汪子涵(音)说,公司也雇佣没有任何计算机科学背景的人帮助该技术理解并生成诗歌,并在做难度极大的中国高考试卷时获得高分。
DeepSeek不制造任何消费者产品,而是让工程师全神贯注地做研究。这意味着其技术不受中国有关人工智能法规中最严格部分的限制,中国要求面向消费者的技术必须遵循政府对信息的控制。
领先的美国公司继续推动人工智能的发展。去年12月,OpenAI公布了一款性能超过现有技术的名为o3的新“推理”系统,尽管该系统尚未在该公司以外得到广泛使用。但DeepSeek继续表明自己并不落后,它在本月发布了自己的一个推理模型,性能同样令人印象深刻。
(《纽约时报》已起诉OpenAI及其合作伙伴微软,称其侵犯了与人工智能系统相关新闻内容的版权。OpenAI和微软否认了这些指控。)
这个快速变化的全球市场的关键部分是一个存在已久的想法:开源软件。与许多其他公司一样,DeepSeek也将其最新的人工智能模型放入开源软件系统,这意味着它已经与其他企业和研究人员共享了基础代码,让其他人能用相同的技术构建和发布自己的产品。
虽然中国大型科技企业的员工只与自己的同事合作,但“如果你从事开源软件开发,你其实是在与世界各地的人才合作”,旧金山Baseten的首席软件工程师张一能(音)说,他为开源的SGLang项目工作。他还帮助其他人和公司使用DeepSeek模型构建产品。
2023年,Meta免费分享了一个名为LLama的人工智能模型后,人工智能的开源生态系统开始蓬勃发展。许多人曾假设,只有像Meta这样的科技巨头——拥有使用大量专用芯片的大型数据中心——继续开源其技术,人工智能社区才会蓬勃发展。但DeepSeek和其他公司已表明,它们也可以拓展开源技术的能力。
许多高管和专家认为,美国大公司不应该开源其技术,因为它们能被用来传播虚假信息或造成其他严重危害。一些美国立法者已在探索阻止或限制开源的可能性。
但也有人认为,如果监管机构扼杀了开源技术在美国的进步,中国将获得显著优势。他们认为,如果最好的开源技术来自中国,美国开发人员将在这些技术的基础上构建他们的系统。从长远来看,这可能会让中国成为研发人工智能的中心。
“开源社区的重心已在向中国转移,”加州大学伯克利分校计算机科学教授伊恩·斯托伊卡说。“这对美国来说可能是一个巨大的危险”,因为它让中国得以加速新技术的研发。
就职典礼数小时后,特朗普总统撤销了拜登政府威胁限制开源技术的行政命令。
斯托伊卡和他的学生最近构建了一个名为Sky-T1的人工智能模型,在某些基准测试中,该模型的性能可与最新的OpenAI系统——OpenAI o1相媲美。他们的模型只需要450美元的计算能力。
他们能做到这点是因为他们的系统是建在中国科技巨头阿里巴巴发布的两项开源技术的基础之上的。
他们450美元的系统不如OpenAI技术或DeepSeek新模型强大。他们使用的技术不太可能产生超越领先技术性能的系统。但他们的研究表明,即使是资源微不足道的组织或者企业,也能构建具有竞争力的系统。
多伦多的技术顾问鲁文·科恩从去年12月下旬起一直在使用 DeepSeek-V3。他说,该模型与OpenAI、谷歌,以及旧金山初创公司Anthropic的最新系统能力相当,而且使用起来便宜得多。
“DeepSeek是让我省钱的办法,”他说。“这是像我这样的人想用的技术。”
本月早些时候,拜登政府颁布了旨在阻止中国通过其他国家获得先进人工智能芯片的新规则。新规则出台前,美国已采取了多轮限制措施,阻止中国公司购买或制造尖端计算机芯片。特朗普总统尚未表明他是否会继续实施或取消这些措施。
美国政府一直试图阻止中国公司获得先进芯片,因为担心这些芯片可能用于军事目的。作为回应,中国的一些公司囤积了大量这类芯片,另一些公司则在蓬勃发展的黑市采购走私芯片。
DeepSeek由一家名叫幻方的量化股票交易公司运营。到2001年,它已将利润投入购买数千枚英伟达芯片,用于训练其早期模型。公司没有回复记者的置评请求,它在中国有一种名声,那就是以高薪和让人们能够探索最感兴趣的研究课题为承诺,吸引了刚从顶尖大学毕业的人才。
曾参与早期DeepSeek大模型开发的计算机工程师汪子涵(音)说,公司也雇佣没有任何计算机科学背景的人帮助该技术理解并生成诗歌,并在做难度极大的中国高考试卷时获得高分。
DeepSeek不制造任何消费者产品,而是让工程师全神贯注地做研究。这意味着其技术不受中国有关人工智能法规中最严格部分的限制,中国要求面向消费者的技术必须遵循政府对信息的控制。
领先的美国公司继续推动人工智能的发展。去年12月,OpenAI公布了一款性能超过现有技术的名为o3的新“推理”系统,尽管该系统尚未在该公司以外得到广泛使用。但DeepSeek继续表明自己并不落后,它在本月发布了自己的一个推理模型,性能同样令人印象深刻。
(《纽约时报》已起诉OpenAI及其合作伙伴微软,称其侵犯了与人工智能系统相关新闻内容的版权。OpenAI和微软否认了这些指控。)
这个快速变化的全球市场的关键部分是一个存在已久的想法:开源软件。与许多其他公司一样,DeepSeek也将其最新的人工智能模型放入开源软件系统,这意味着它已经与其他企业和研究人员共享了基础代码,让其他人能用相同的技术构建和发布自己的产品。
虽然中国大型科技企业的员工只与自己的同事合作,但“如果你从事开源软件开发,你其实是在与世界各地的人才合作”,旧金山Baseten的首席软件工程师张一能(音)说,他为开源的SGLang项目工作。他还帮助其他人和公司使用DeepSeek模型构建产品。
2023年,Meta免费分享了一个名为LLama的人工智能模型后,人工智能的开源生态系统开始蓬勃发展。许多人曾假设,只有像Meta这样的科技巨头——拥有使用大量专用芯片的大型数据中心——继续开源其技术,人工智能社区才会蓬勃发展。但DeepSeek和其他公司已表明,它们也可以拓展开源技术的能力。
许多高管和专家认为,美国大公司不应该开源其技术,因为它们能被用来传播虚假信息或造成其他严重危害。一些美国立法者已在探索阻止或限制开源的可能性。
但也有人认为,如果监管机构扼杀了开源技术在美国的进步,中国将获得显著优势。他们认为,如果最好的开源技术来自中国,美国开发人员将在这些技术的基础上构建他们的系统。从长远来看,这可能会让中国成为研发人工智能的中心。
“开源社区的重心已在向中国转移,”加州大学伯克利分校计算机科学教授伊恩·斯托伊卡说。“这对美国来说可能是一个巨大的危险”,因为它让中国得以加速新技术的研发。
就职典礼数小时后,特朗普总统撤销了拜登政府威胁限制开源技术的行政命令。
斯托伊卡和他的学生最近构建了一个名为Sky-T1的人工智能模型,在某些基准测试中,该模型的性能可与最新的OpenAI系统——OpenAI o1相媲美。他们的模型只需要450美元的计算能力。
他们能做到这点是因为他们的系统是建在中国科技巨头阿里巴巴发布的两项开源技术的基础之上的。
他们450美元的系统不如OpenAI技术或DeepSeek新模型强大。他们使用的技术不太可能产生超越领先技术性能的系统。但他们的研究表明,即使是资源微不足道的组织或者企业,也能构建具有竞争力的系统。
多伦多的技术顾问鲁文·科恩从去年12月下旬起一直在使用 DeepSeek-V3。他说,该模型与OpenAI、谷歌,以及旧金山初创公司Anthropic的最新系统能力相当,而且使用起来便宜得多。
“DeepSeek是让我省钱的办法,”他说。“这是像我这样的人想用的技术。”