• 微信

2025全国两会聚焦人工智能发展,杭州DeepSeek-R1大模型引领全球创新

时间:2025-03-18 08:03作者:admin分类:大千世界浏览:122评论:0

2025 年全国两会期间,“人工智能”这个话题被频繁提及和讨论。全国人大代表高文,他是中国工程院院士,也是鹏城实验室主任,今年提出了关于加快打造“人工智能先锋城市”等建议。2025 年年初,杭州深度求索公司发布了 DeepSeek-R1 大语言模型,此模型引发了全球轰动。它的性能与国际顶尖模型相当,然而开发成本仅是同类产品的三十分之一。鹏城实验室已经在开源社区上线了 DeepSeek 系列模型,以便国内开发者进行测试验证。

杭州机场公路算高速还是高架__郑西高速和尧栾西高速

记者:DeepSeek的出现给你带来什么影响?

高文认为会将整个领域的应用提前很多年。原本像 GPT、LLaMA、谷歌以及 Facebook 的大模型,需要头部企业具备足够的资源、算力、人才和数据,才能够把这个东西研发出来。如今国外人工智能的应用,主要都掌控在几个大厂手中,比如微软、谷歌等。DeepSeek 出现后就有了不同,它一下子让这个应用变得平民化了。这意味着不是只有少数头部企业或者顶级玩家才能够使用,而是所有的初创企业都能够使用,这就是它最大的贡献。

杭州机场公路算高速还是高架__郑西高速和尧栾西高速

DeepSeek 的出现引发了一系列的情况。应用门槛降低了,这刺激了更多的需求被释放出来。结果就是全社会对算力的需求急剧增加。如果将人工智能比作“智能汽车”,那么“算力”就如同驱动它奔跑的“汽油”。只有算力供给充足,人工智能才能够得到充分的发展。

杭州机场公路算高速还是高架__郑西高速和尧栾西高速

记者询问:从对算力的需求呈增加的这个角度去看,你们这个实验室接下来的计划与以前相比将会有怎样的变化?

高文:起初并未预料到会出现如此迅速的需求,然而如今我们必须迅速进行调整。有大量的工作需要提前开展。

杭州机场公路算高速还是高架__郑西高速和尧栾西高速

高文领导的鹏城实验室是经中央批准设立的网络通信领域新型科研机构。其主要任务之一是针对“东数西算”“数字中国”“全国一体化算力网”等国家重大战略展开工作。该实验室牵头推进“中国算力网”的研发与建设。

杭州机场公路算高速还是高架_郑西高速和尧栾西高速_

记者:你做的中国算力网的建设,要解决的是什么问题?

高文希望实现让用户能如同用电般使用算力。如果有需要,用户就可以去购买算力。并且,哪里的算力价格最为低廉,用户就购买哪里的算力。

_杭州机场公路算高速还是高架_郑西高速和尧栾西高速

这里所说的算力,是专门为 AI 训练而设计的智能算力。它与普通电脑的算力不同。这种智能算力需要成千上万颗专用芯片协同工作,并且还需要基础设施的投入以及能源的支持。

_杭州机场公路算高速还是高架_郑西高速和尧栾西高速

“东数西算”工程期望把东部所需计算的数据送至西部数据中心进行处理、结算以及存储。中国算力网建设的最初想法,是把分散在全国各地的计算资源加以整合,像超级计算中心、数据中心、云计算平台等这些资源都涵盖在内,进而形成一个统一的算力资源池,搭建起资源能够便捷接入、任务能够统一调度且具备可持续发展运营模式与机制的数字经济基础设施,以此促使国内自主算力资源迈进“全民共享”的时代。

_杭州机场公路算高速还是高架_郑西高速和尧栾西高速

记者:千行百业都在应用,对算力会有影响吗?

高文:应该是比以前的需求更大了。

记者:需求很大,你能不能跟得上人家的需求呢?

社会对算力投入较大,自然可能存在不平衡的情况。有些算力投入后使用效率较高,而有些可能使用效率较低,水平各不相同。我们期望借助算力网,能够提升整体投入资源的利用率,这与当初的电力网思路十分相近。当时电力最初是由一个工厂自行生产并供自己使用。之后发现居民需要用电,其他事业单位也需要用电,于是各地都在建设电厂。有的地方建设的电厂可能不够用,有的地方建设的电厂可能会有多余。那多余的电该如何处理呢?通过网络将多余的电卖出去,算力网也希望走类似这样的路径。

我们现在要为这些算力构建国家高速公路。首先,运用新的技术将其建设起来。同时,期望引入一些新的管理模式,并非常规的通信管理模式,而是诸如数据关联等模式。目前,我们正在与国家数据局进行沟通,以一种新的模式来推进相关工作。

杭州机场公路算高速还是高架__郑西高速和尧栾西高速

算力网的建设包含三个关键要素。其一为大规模核心算力;其二是超级光网络;其三是算力调度系统。其理想图景是,在我们需要使用算力的时候,仅仅需要插上插头,无需操心算力的来源,也不用自己去进行价格比较,系统会自动将性价比最高的算力中心进行匹配。这种模式不但能够提升现有的算力资源的利用率,而且还能够避免各地因为重复建设而导致的浪费。

郑西高速和尧栾西高速__杭州机场公路算高速还是高架

记者询问,如果我们在各方面哪怕存在一点跟不上的情况,那么在 AI 的竞争方面是否就会落后,现在是否处于这种局面。

高文:是,因为这是一个系统性的。

记者:你现在会焦急吗?

高文表示应该不会有问题,在技术方面其实我们是比较自信的。我们会按部就班地向前推进,一直都很有自信。当然,我们也期望能够获得最好的东西,像是具有最好工艺的东西、最好软件的东西,还有最快的机器以及世界上最领先的机器。但是现在遇到了阻碍之后,我们就只能通过运用集成技术来制造出最好的设备。

_郑西高速和尧栾西高速_杭州机场公路算高速还是高架

算力网中的计算任务可能涉及科学研究、国防、金融等关键领域,所以防止数据泄露和网络攻击就成为了算力网建设和运营中的重要任务。鹏城实验室有一个专门的团队,这个团队致力于网络安全技术的科研与应用。不久前刚结束的第九届亚洲冬季运动会,鹏城实验室参与到了亚冬会的网络安全保障工作中。

杭州机场公路算高速还是高架__郑西高速和尧栾西高速

记者:要保护什么?

很多管理是通过网络进行管理的。倘若这个系统遭受攻击且瘫痪,那么整个管理系统就会全部陷入瘫痪状态。

记者询问这种被攻击的风险到底是想象出来的呢,还是在现实世界中真实存在的呢?

现实世界中存在的情况,有的是恶意的,其目的是让你难堪。还有许多黑客,他们是为了显示自己的厉害,也就是能够攻进去,能够把你搞瘫痪。这两种性质都存在。

记者问:在网络上保障安全这件事,一些商业化的公司是可以去做的,甚至都能够去做,那你为什么要去做呢?

遇到难题时,需要团队具备很强的实力。有些商业公司可能无法解决这些难题。

记者:它的难点是在哪儿?

常规公司常用的一般方法,例如运行一个工具程序,对数据进行从头到尾的扫描,以查看其中是否存在异常。然而,通常高手会避免被发现,所以可能需要更专业的技术。我们这个团队拥有许多工具,通过查看响应情况,依据此来进行分析,或许能发现一些细微的迹象,最终将隐藏的东西挖掘出来。

_杭州机场公路算高速还是高架_郑西高速和尧栾西高速

2022 年,“中国算力网”一期工程中的“智算网络”正式投入使用。它将 20 多个处于不同地域且类型各异的算力中心连接起来并进行管理。这些算力中心的汇聚算力规模在不断增加,已达到 5E Flops,意味着每秒能够完成 5 万亿亿次的计算。其中,鹏程实验室的人工智能算力平台“鹏城云脑Ⅱ”是其算力枢纽节点之一。

杭州机场公路算高速还是高架__郑西高速和尧栾西高速

你从这里看过去,这里有八行。八行实际上就相当于有四台机器,每两行是一台机器。

记者:你那它的耗电量大不大?

高文:不小,每个月可能都要一两百万的电费。

郑西高速和尧栾西高速__杭州机场公路算高速还是高架

“鹏城云脑Ⅱ”是由鹏城实验室与相关企业一同研发的超级智能计算机。其峰值算力能够达到每秒完成 100 亿亿次的计算。它于 2020 年开始运行。“鹏城云脑Ⅱ”的计算能力比每秒能完成 100 千万亿次计算的“鹏城云脑Ⅰ”要强 10 倍。并且完成这次升级仅仅用了一年时间。

郑西高速和尧栾西高速__杭州机场公路算高速还是高架

记者:只用了一年提高了10倍?发生了什么?

高文说:做“鹏城云脑 I”时,当时是做判别式人工智能。那时通常所需算力不大,100P 就已能满足需求。通常我们会预判,语言模型所需的计算和存储能力,比图像的要求应更高些。因为语言的语料更易获得,可能语言处理需要的处理能力更强,所以要比做图像大 10 倍。

_郑西高速和尧栾西高速_杭州机场公路算高速还是高架

“鹏城云脑Ⅱ”目前已在 IO500 总榜单上连续 9 次获得冠军,此榜单用于衡量全球高性能平台的数据吞吐能力。同时,它在国际人工智能算力性能 AIPerf500 排行榜上连续 4 届位居第一。基于“鹏城云脑Ⅱ”,鹏城实验室搭建了一个 AI 训练平台,该平台能够同时对包含上千亿参数的超大规模 AI 模型进行处理。鹏城实验室在“鹏城云脑Ⅱ”上训练和运行了一个超大规模自然语言处理模型,这个模型就是“鹏城·脑海”。

郑西高速和尧栾西高速__杭州机场公路算高速还是高架

记者:为什么脑海没跑出来,DeepSeek跑出来了?

不是说我们的脑海不行,实际上这就是 DeepSeek 很聪明的地方。脑海和 GPT 完全是相同的技术,它里面有一个模型叫注意力机制。以前比如有一篇文章进到计算机里面,让它去处理,等处理到最后,前面的内容已经被忘记了。GPT 就是 Transformer,它发明了一种方式,这种方式被称作注意力机制或者注意力模型。也就是说,它只注意相关的内容,而对于其他的东西则不予理会,采取抓大放小的策略。

GPT 原本是一个大包,其所有功能都包含在内,因此在使用时会让人感觉很疲惫。DeepSeek 做了这样一件事,即针对特定领域用特定表述来对其进行训练,在这样训练的过程中,开销不会那么大。它总共拥有 256 个专家,使用时不需要将 256 个都安装,最多安装 8 个就足够了,这样在使用时,所需的成本很低,并且可以节省训练的时间。DeepSeek我认为它不是理论上的创新,它更多是工程上。

杭州机场公路算高速还是高架__郑西高速和尧栾西高速

目前,“鹏城·脑海”大模型存在两个版本,这两个版本已向社会开源。高文以及其团队期望通过模型训练全流程开源开放的这种方式,把“鹏城·脑海”培育成中国算力网上的一个种子应用。

杭州机场公路算高速还是高架_郑西高速和尧栾西高速_

记者:你是最底层的这个源代码开源还是参数开源?

高文表示两层都有。我们把所有参数称作切片,在训练过程中,每隔一定时间就会开启一个切片。研究者能够通过这个切片来研究训练过程中它是如何受训练的以及中间有什么变化。此外,我们的源代码已经开源,源代码开源之后,基本上用户拿着这个源代码,用自己的数据就可以重新进行训练。

记者问:你付出了所有的人、精力和资金,这就意味着你在付出,而别人获得了利益,这样的理解正确吗?

高文:开源并非仅仅关乎他人获益。我开源之后,他人在我开源的东西上,也需开源。他开源后,能让原本我的系统变得更好。接着,我们会在所有开源的东西之上继续往上迭代。众人拾柴火焰高,所有参与的人都在为其增添燃料,都在加大火势。

郑西高速和尧栾西高速__杭州机场公路算高速还是高架

“鹏城·脑海”的算力平台“鹏城云脑Ⅱ”是被培育出来的,它同样秉持着开放理念。其中,鹏城实验室自研使用了“鹏城云脑Ⅱ”算力的 50%,40%被开放提供给国内的合作伙伴、科研机构和高校,10%则释放给深圳市工业和信息化局,供社会开发者申请使用。在人工智能浪潮里,开源与开放精神正成为业界的共识。

郑西高速和尧栾西高速__杭州机场公路算高速还是高架

记者:开源就意味着共享,对吧?共享和竞争矛盾不矛盾?

从开源的角度来看,技术是否属于自己并不重要,因为可以在其基础上进行迭代。现在 OpenAI 比较难受的原因是它是闭源的,闭源意味着其他人只能请求它,必须与它签订协议,只有它同意才行,若它不同意则不行。

杭州机场公路算高速还是高架_郑西高速和尧栾西高速_

这是整个生态所存在的两条技术路线。在这个生态的早期阶段,所有的相关内容都是闭源的。之所以会这样,是因为存在版权的因素。而实际上,这样做的目的是为了保护这个软件所应拥有的权利。但是后来 Linux(操作系统)率先将软件开源。其理念在于,此东西属于人类的资产,所以将其释放出来。同时,要求所有使用该软件以及在其之上进行开发的人,给予一个承诺,即既然开源了,那么新做的东西也需开源。

我个人理解,开源更符合人类社会的发展方向。知识也是如此,以前的手艺人、工匠,很多东西是代代相传的,但万一某一辈没传好,就可能失传。而现在我们所学的知识,每个人都可以学,这是因为知识是开源的。

其实软件也是如此。如果软件变成了知识,那么你就应当将其开源。开源之后才能够进行迭代。

杭州机场公路算高速还是高架_郑西高速和尧栾西高速_

“鹏城云脑Ⅱ”在平稳运行着,与此同时,高文已经将目光投向了新的问题。当下,他正引领着团队与相关企业展开合作,一同研发下一代超级智能计算机“鹏城云脑Ⅲ”。这台计算机的智能算力规模目标是每秒能够完成 1600 亿亿次计算,其能力相较于“鹏城云脑Ⅱ”提升了 16 倍。

记者:这个云脑Ⅲ未来可以做什么事?

高文:能够进行多模态大模型的训练与使用。当下大语言模型的智能仅为语言智能,其他智能相对较弱。所谓的多模态模型,即除了语言之外,要将声音、视觉与语言融合在一起进行训练,如此一来,整个智能的水平便能逐渐与人类接近。我们期望通过这台机器的建设,为国内的生态提供帮助。

我们的整个机器尚未出来,不过我们的原型机已经问世。我们的整个机器包含 157 个机柜,而目前我们已经完成了 3 个机柜的制作。这些模型正在这 3 个机柜上的原型机上进行训练。国家赋予我们的使命是攻克一个山头,也就是要攀登一座高峰,这座高峰肯定是其他人未曾到达过的,所以我们需要率先攀登上去。

制片人丨刘斌 王惠东

记者丨董倩

策划丨孟克 陈朋

编导丨丁芳

摄像丨杨帆 刘洪波 陈朋

文章评论