对话上海AI Lab何聪辉:从DeepSeek看数据的重要性,低成本实现“四两拨千斤”

Connor 比特币最新价格 2025-02-27 108 0

对话上海AI Lab何聪辉:从DeepSeek看数据的重要性,低成本实现“四两拨千斤”

出品|搜狐科技

作者|郑松毅

编辑|杨锦

2月21日-23日,2025全球开发者先锋大会在上海举办。

最近的科技圈甚是热闹。一度爆火的国产AI“黑马”DeepSeek,掀起新一轮AI热潮。马斯克旗下xAI用足足20万张卡训练出Grok 3霸榜,看“急眼”的OpenAI也连忙官宣OpenAI-4.5/5马上发布。

从现状来看,谁能率先在AI竞赛中冲破终点线,仍无确定答案。寻找更高效地提升模型性能的方法,是大家正在埋头忙活的事儿。

在“浦江AI生态论坛”结束后,围绕AI圈近期出现的热门新模型、开源、及未来AI发展趋势等话题,搜狐科技与上海人工智能实验室青年科学家何聪辉,进行了深度对话。

作为OpenDataLab/MinerU 开源项目的创始人,何聪辉对DeepSeek取得的成绩,及开源分享研究成果的做法表示肯定和敬佩。

“一定还会有超越DeepSeek的团队存在。”何聪辉认为,“但是,模型架构未有范式级突破前,数据优化仍是最具性价比的演进路径。”

以下为对话实录(经整理编辑)

搜狐科技:数据是模型训练的“粮食”。很多人说AI大模型训练遭遇了数据“瓶颈”,公开可用的数据近乎用完,是这样吗?

何聪辉:主流模型的训练语料在过去4年间提升了3个数量级,对数据需求快速增强,全网数据预计将在 2026-2028 年使用完毕。

搜狐科技:那大模型再想得到能力提升,是否有突破瓶颈的现实路径?

何聪辉:确实面临结构性的挑战。在公开数据方面,大家将在来源相对同质化的互联网数据中进一步比拼数据质量,这仍然有较大的优化空间;在私域数据方面,虽然中国人口多,产业多,沉淀了大量私域数据,但当前能被大模型广泛使用并带来显著模型性能提升的数据没有预期多。

展开全文

此外,现在模型的“智商”已经到较高水平,要寻找模型学的还不够的数据,比如“高知识密度”数据。

搜狐科技:该怎么理解“高知识密度”的数据?

何聪辉:是超出一般水平,包含更加深刻知识和见解的数据。比如科学领域的硕士、博士级别的专业数据,甚至包括博士、博士生导师和科学家们思考深度过程的数据。

搜狐科技:比如论文?能给个更加简单易懂的例子吗?

何聪辉:论文更多的是最后科研成果的展现,“高知识密度”数据还包括论文撰写中的思考和迭代过程的数据。

以大家常见的数学题为例,我们关注的不仅是问题的最终答案,还包括解题过程中的思考步骤,甚至是试错的过程,都是极高价值的。

搜狐科技:比起公开可获取的网络数据,这种“高知识密度”数据看起来不太好获取吧?

何聪辉:这并不容易,OpenAI和海内外的一些大厂都会找人专业的人员做数据标注,或是用数据合成的技术去扩充数据。上海 AI Lab 启动的“AI4S 攀登者计划”也将和高校联合构建此类高质量数据。

搜狐科技:听您介绍下来,“数据”仍是AI模型下一阶段发展的核心驱动力?还有很多能做的工作?

何聪辉:数据的价值随着对模型的深入理解能够被持续挖掘。目前语言大模型主要考虑的是文本模态数据,未来数据在不同模态(如音频、图像、视频)间的融合或许能进一步释放数据价值。

因此在模型架构未有范式级突破前,我认为数据仍是最具性价比的演进路径。

搜狐科技:怪不得看DeepSeek、Grok模型虽然都在说开源,但其实数据部分并没有公开。是因为足够重要,才保密起来?

何聪辉:一方面数据确实是核心竞争力,另外或许也会有数据合规的方面的考量。

搜狐科技:看DeepSeek说,将继续开源5个代码库,您有什么期待?

何聪辉:作为大模型的数据方面的从业者,我希望能在数据集构建、数据处理管线、数据合成方法等领域向 DeepSeek 学习。另外,也期待DeepSeek在高效模型训练和推理等方面工作的开源。

搜狐科技:您怎么看马斯克新发的Grok 3模型?有人评价,Grok 3使用了上百倍数量的卡,但效率提升只有10%,您怎么看?

何聪辉:这恰好印证了数据质量的重要性,DeepSeek-R1在 V3 的基础上通过强化学习和数据蒸馏以更低的成本达到相当的效果。背后也折射出两条技术哲学,一个“大力出奇迹”,一个是“四两拨千斤”。

不过,从长期模型发展而言,拥有更多算力资源仍然是巨大的优势,有着更多的试错和迭代空间。

搜狐科技:关注到您是开源项目OpenDataLab和 MinerU的创始人,这两个项目在开发者社区中获得广泛的认可,您觉得开源对AI发展生态到底意味着什么?为什么会坚持走开源这条路?

何聪辉:开源正在快速重构 AI 产业生态,也在改变竞争规则。数据、模型和工具链的开源,加速了 AI技术的民主化,让大家不用“重复造轮子”,聚焦在已有成果上的二次创新。

例如,我们开源的 MinerU 智能文档解析工具,能够打通私域数据到大模型可用数据的最后一公里,在发布短短几个月内在 Github 上获得 2.6 万个星标,加速了数据准备、模型迭代和落地的效率。

而DeepSeek 接下来的开源或许让许多团队的 OKR 直接完成或者消失,也能节省大量的研发时间,整个行业水平也会快速拉齐。

另外,开源的透明度会促进 AI 的安全可信,推动AI治理和可持续发展。

评论