Deepseek爆火,专家解析六大原因
2025-02-08 12:23
今年春节期间,国产AI软件DeepSeek全球爆火,上游新闻记者对DeepSeek的运用场景进行了调查和采访,该软件得到了多名用户的好评,同时也存在部分问题。
2月8日,上游新闻记者就此事采访了从事AI软件研发工作的专家高桓以及重庆大学大数据与软件学院软件工程系主任雷晏,他们从从业者和教学者的不同角度,分析了DeepSeek爆火原因、运用场景、未来趋势等网友最关心的话题。
六大原因导致DeepSeek爆火
对高桓和雷晏的采访,是从DeepSeek春节爆火的原因开始的。高桓作为有着10年AI软件研发经验的专家,曾在多家世界500强企业从事AI软件研发工作,因此对于DeepSeek他相当熟悉。
据高桓透露,DeepSeek也经历了迭代,从DeepSeek-V1一直升级到了DeepSeek-V3,随后又推出了DeepSeek-R1。目前最常用的DeepSeek大模型是DeepSeek-V3和DeepSeek-R1,其中DeepSeek-V3与美国OpenAI公司的GPT-4o模型功能相近,重点在于高效处理大规模自然语言任务,为企业提供高效的AI解决方案,如多语言翻译、内容生成等;DeepSeek-R1则对标OpenAI的O1模型,这也是普通人接触最多的大模型,重点在于处理复杂的推理任务,可帮助用户进行逻辑思维训练。
雷晏则表示,其实早在去年5月,DeepSeek团队就发布了有关DeepSeek-V2的研究论文,但因为当时国内AI软件普遍性能很难满足科研需求,因此并未引发太多关注。直到去年12月底DeepSeek-V3在国外各项测试中霸榜,成为唯一上榜且成绩突出的国产AI软件,他也第一时间进行了跟进、试用和研究。
▲重庆大学软件工程系主任雷晏(左一)和学生交流。受访者供图
对于DeepSeek的爆火,雷晏分析有四大原因:“第一是功能太强,我们使用后发现,DeepSeek部分效果甚至优于ChatGPT,特别是在中文处理、数学推理和编程辅助等领域;第二是国产AI的突破,这是国产AI首次在效果上达到全球领先的水平;第三是技术创新,DeepSeek采用了强化学习和新的PTX(并行线程执行)编程技术,新技术不仅提高了训练效率,还降低了对硬件资源的依赖;第四是用户需求和市场环境,春节期间用户对AI工具的需求显著增加,普通人也有时间试用、讨论本来是大模型圈的东西,DeepSeek-R1凭借其出色的性能和易用性成功‘破圈’,抓住了这一机遇。”
高桓赞同雷晏教授的观点,并提到了价格和芯片也是爆火的两大因素:“DeepSeek是免费开源的模型,性能相同的OpenAI O1模型每月收费高达2000美元,所以很多企业和AI软件开发者都选择自行部署DeepSeek;此外,美国一直封锁高性能芯片,DeepSeek突破了芯片封锁,这给全球AI发展注入了新活力,所以想不火都难。”
DeepSeek有多项创新
DeepSeek究竟有多牛?记者请高桓和雷晏从不同角度,对DeepSeek与以前的AI软件(主要是大模型AI软件,如ChatGPT)进行了比较。
雷晏认为DeepSeek比过去的AI软件有多项创新,包括训练成本低、思维链可视化(可以看到大模型思考过程,方便研究人员识别和纠错)。
对于DeepSeek采用的新技术,高桓介绍道:“主要有FP8混合精度训练、多Token预测等,这些新技术都有效降低了模型训练和推理的成本,使得DeepSeek能在有限的资源条件下,依然能够实现卓越的性能表现,达到世界领先水平。”
DeepSeek能节约多少训练成本?雷晏表示:“DeepSeek-R1采用的是新的PTX编程技术,PTX是一种更底层的GPU编程语言,类似于汇编语言。这种底层优化可以绕过英伟达CUDA(类似C/C++等高级语言)的某些限制,使得模型训练效率提升了数倍。这就好比攀登珠穆朗玛峰,以前我们都需要佩戴重装备才行,可DeepSeek搞了一条捷径,现在轻装就可以爬上去了。”
高桓则透露:“根据目前圈内的消息,DeepSeek-R1的训练成本仅为600万美元,远远低于ChatGPT所需的数百亿美金融资。”
▲从事AI软件研发10年的专家高桓。受访者供图
除了技术上的创新外,雷晏还认为DeepSeek开辟了一种AI大模型训练的新方向:“实际上DeepSeek-R1有R1和R1-Zero两个版本。R1-Zero仅使用强化学习,未经过微调;而R1在强化学习后进行了微调。实验结果表明,仅通过强化学习,大模型也能达到领先水平,这一发现打破了国外的大模型训练,必须依赖大量标注数据的限制,为未来的模型训练指明了新的方向。”
DeepSeek提供的答案仍需甄别
在记者采访DeepSeek用户的过程中,教初中数学的余老师曾反馈用DeepSeek解答几何问题存在超纲的情况;记者在让DeepSeek撰写评论时,还发现DeepSeek在毫无采访的情况下,杜撰了多个采访对象和多项统计数据,这种以假乱真的答案可能会误导用户。
针对这一情况,雷晏进行了解读:“这种情况不仅仅是DeepSeek,其他AI软件也存在。目前的AI软件本质上仍是一个概率模型,不具备人类的思考能力,因此有时会输出错误的答案,而AI本身并不知道这些错误,这种现象被称作‘AI 幻觉’(hallucination),在大模型中较为常见。”
高桓也承认:“从目前来看,不管AI软件多么强大,本身还是会存在‘幻觉’问题,‘幻觉’的产生是由于模型对相应的知识掌握得不好进而导致胡说八道。”
如何辨别DeepSeek提供的答案是否准确?高桓建议:“多源验证是行之有效的方法之一。可参考多个不同的信息来源,例如权威的学术数据库、专业书籍以及官方网站等,对不同渠道获取的信息展开对比分析。倘若AI提供的内容与多个可靠来源所呈现的信息相符,那么该内容的可信度相对较高;反之,若存在较大差异,需要进一步深入核实。特别是AI生成的内容含有数据支撑时,请务必确认数据的来源是否可靠!”
雷晏也强调:“在使用DeepSeek等AI软件时,尤其是处理重要资料或复杂内容时,需要对其输出进行仔细甄别。辨别真伪最可靠的方法是通过手动查询进行验证。例如,如果AI推荐了家附近的电影院,可以通过地图软件或电影院官网核实信息。此外,还可以结合多个来源的信息进行交叉验证,以确保内容的准确性。”
AI不会取代人类思考
DeepSeek爆火之后,网上讨论最多的就是如何用好这个软件为自己的工作和生活服务。在记者采访中DeepSeek被用于备课、做旅游攻略、撰写文案和写作等。雷晏透露DeepSeek除了中文处理(如中文写作、客服对话等)、辅助学习等普通人涉及的领域外,在科研上被广泛运用到了编程:“我现在就在用DeepSeek做区域大模型软件测试,以前写代码是人写,现在直接可以把代码功能描述清楚,DeepSeek就会自动生成代码。使用效果来看通用基础代码准确率很高,只有部分特殊运用的代码还需要自己编写。”
高桓也表示:“DeepSeek的编程能力惊人,我知道某AI企业,以前需要很多人才能完成的编程工作,现在基本交给DeepSeek来做,只需要一、两个人做代码审核就好了。可以预见很多代码外包工作,可能会被AI逐步取代。”
以DeepSeek为代表的AI软件不断进步,让部分职业需要提升技能避免被淘汰,雷晏就表示:“我已经在让本科生对ChatGPT、DeepSeek等AI软件做探索性研究,让他们了解未来AI大模型时代到来之后,软件工程专业会有什么不同,如何才能不被AI取代。”
不过在聊起未来AI是否会代替人类思考,甚至取代人类的话题时,无论是高桓还是雷晏都保持了乐观。高桓表示:“从技术原理来说,现在AI本质上是基于数据和算法运行的程序,它没有自我意识和主观能动性,DeepSeek等模型的能力局限于其训练数据和预设的算法逻辑,它们只能根据已有的数据模式进行分析和处理,缺乏人类的创新思维和独立思考能力。特别是面对复杂多变、没有先例可循的问题时,人类能够凭借直觉、经验和创造力找到全新的解决方案,而AI则可能陷入困境,这也是‘AI 幻觉’产生的原因。”
雷晏则从两点分析AI无法代替人类:“首先从技术上,当前AI发展已经遇到了瓶颈,随着规模法则和摩尔定律的极限临近,AI大模型的能力提升变得愈发困难,包括deepseek只是大幅加速了模型训练,但这并不意味着AI会无限发展。其次AI大模型依赖大量数据的训练,而人类创造的大部分知识已经用于训练现有模型,数据的枯竭将限制AI的进一步发展。”
虽然AI取代人类的话题仍处在讨论当中,但目前有关AI的法律已经出现,据雷晏透露:“现在各国政府和国际组织都在加强对AI的伦理讨论和监管。例如,欧盟已经出台了《人工智能法案》,旨在确保AI的安全和可控性,这些措施将有效防止AI技术被滥用。因此,在可预见的未来,AI达到电影《终结者》中‘天网’的水平可能性较低。相反,AI更可能作为人类的工具,帮助我们解决复杂问题,提升生活质量。”
上游新闻记者 赵映骥
凡注明来源重庆日报的作品,版权均属重庆日报所有,未经授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:重庆日报网”。违反上述声明者,本网将追究其相关法律责任。
除来源署名为重庆日报稿件外,其他所转载内容之原创性、真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考并自行核实。