当前位置:

基调听云首发 《大模型服务性能评测 DeepSeek-R1 API 版》第一期

来源:互联网 时间:2025-02-22

春节假期,DeepSeek-R1 横空出世,成为全球热议焦点。2023年11月,DeepSeek 发布首个大模型 DeepSeek LLM;2024年5月开源 DeepSeek-V2,因性能出色、价格优势收获 “AI 届拼多多” 称号。12月26日上线并开源 DeepSeek-V3,凭借低训练成本和出色性能引发全球热议。2025年1月20日,DeepSeek 发布的 DeepSeek-R1 推理大模型逻辑推理能力出色,接近甚至超越OpenAI的o1,引发全球轰动,被硅谷科技媒体称为新时代的 “斯普特尼克时刻”。

DeepSeek-R1 凭借其创新和高效的训练方法、强大的推理能力、大幅下降的使用成本和开源等出色表现迅速在 AI 大模型领域脱颖而出,其技术的深度整合已在多个行业中带来了显著的变革与推动。7天完成1亿用户增长,移动端上线26天,日活突破4000万,目前已成为众多用户寻求智能帮助的首选。用户暴增,大量用户同时发送请求,服务器的算力资源、存储资源和网络带宽等被快速占满,处理能力达到极限,无法及时响应所有请求,从而导致频繁报错,关于其服务器繁忙的吐槽纷至沓来。

由于 DeepSeek 官方提供的R1服务频繁报错,各类替代服务方案也开始出现,除了私有化部署方案,各大云服务商、芯片厂商等第三方服务商陆续上线 DeepSeek-R1 服务,为用户提供了更多选择。与此同时,越来越多的国内厂商接入 DeepSeek-R1 大模型服务,如:阿里云、华为云、腾讯云、华为、荣耀、OPPO、科大讯飞、顺丰等,涵盖云服务、软件与应用服务商、手机厂商、酒店、物流供应链、汽车、医药、媒体等行业。

为了更好地服务开发者和终端用户,国内领先的可观测与应用安全厂商基调听云对多家提供 DeepSeek-R1 API 服务的厂商开展了全面评测,并发布了《大模型服务性能评测 DeepSeek-R1 API版》第一期。

此次测评利用基调听云拨测工具,模拟真实用户的主动监控,从网络性能、接口响应时间、推理速度、内容生成速度等多个关键指标对主流云服务厂商的API接口进行了深入测试。同时,测评还结合了来自多个城市、运营商、主机和时间维度的数据分析,旨在为各行业开发者和终端用户提供更具针对性和参考价值的建议,帮助大家选择更快、更稳定的 DeepSeek-R1 服务。

TL;NR(太长不看版):

(1)经过对多家主流云服务厂商API接口的深度评测,火山引擎在 API 响应性能上全面领先,各项指标均显著优于其他服务商。DeepSeek 官方虽推理速度较好,但首 Token 延迟过长且可用性低,成为显著短板。

(2)其他服务商表现分化:硅基流动可用性较高,腾讯云与阿里云百炼速度表现不是太理想。

(3)如果你不是开发者,只关心哪里能用 DeepSeek-R1,直接拉到文章结尾看我们的推荐网页版服务。

评测结果及解读

1740128801905994.png

数据分析:

1.  火山引擎在平均速度、推理速度、生成速度上表现最优,且可用性高达 99.83%,在API接入上首选推荐。

2.  DeepSeek 官方推理速度较快,但首 Token 延迟显著(7.753s),可用性最低(42.21%)。

3.  硅基流动首 Token 响应快(0.714s)且可用性稳定(98.83%),但平均速度较弱(12.426 tokens/s)。

4.  腾讯云整体性能较低,其中总性能最差(47.584s)且可用性一般(71.24%)。

5.  阿里云百炼表现不理想,平均速度最慢(3.684 tokens/s),首包时间也最长(1.091s),可用性尚可(87.98%)。

总体性能影响因素分析

1、服务端推理性能是主要影响因素

•在整体测试中,推理速度和生成速度的差异在厂商间表现较为显著,尤其是火山引擎在推理和生成速度上表现优秀,而其他厂商的性能则较为逊色。服务端推理的性能显然是影响API整体性能的关键因素。

2、网络因素的影响较小

•虽然网络延迟(DNS 时间、连接时间等)存在一定的差异,但从测试结果来看,除非网络层的延迟异常高,否则不会对整体的 API 性能产生根本性影响。例如,DeepSeek 官方和火山引擎的网络层延迟较低,但推理和生成速度的差异更多源自服务端的处理能力,而非网络本身。

因此,服务端推理性能是影响整体性能的主要因素,网络层的影响相对较小,基本可以忽略不计,尤其当网络延迟不超过合理范围时。

城市维度

1740128846207978.png

城市维度分析:

1. 火山引擎在以上城市均保持最高性能,且可用性全达 100%。

2. DeepSeek 官方在重庆的首 Token 时间最长12.675 秒,其他城市均在9秒内。

3. 硅基流动的可用性在广州的表现的最差93.75%,其他城市在98%以上。

4. 其他服务商与其他指标未见明显差异,整体与前面的结论一致。

运营商维度

1740128951569915.png

运营商维度分析:

1.  DeepSeek 官方在中国移动的网络下建连时间0.152秒,其他运营商均在0.05秒以内。

2.  其他服务商指标对比未见明显差异,整体与前面结论一致。

主机维度

1740128970510708.png

主机维度分析:该维度从各服务商提供 API 服务的目标主机 IP 地址维度分析各家服务的分布和性能。

主机数量:腾讯云主机数量最多,DeepSeek 官方主机数量最少。

主机城市:腾讯云的主机城市分布最广,其次是火山引擎。

主机运营商分布:腾讯云的主机运营商分布最广,其次是火山引擎。

时间维度(1小时粒度)

1740128998780440.png

各时间段分析:

时段(2025/2/17 8:00 - 15:00)

● 特点:DeepSeek 官方和阿里云百炼可用性波动较大,腾讯云可用性不高,但是可用性比较稳定,其它服务商可用性相对优秀,稳定。

● 原因:可能此时用户流量较大,服务器负载也比较大,腾讯云服务商可能受到限流影响。

时段(2025/2/17 15:00 - 2025/2/18 0:00)

● 特点:DeepSeek 官方在2025/2/17 15:00 - 17:00 服务出现不可用的情况,腾讯云可用性不高,但是可用性比较稳定,其它服务商可用性相对优秀,稳定。

● 原因:可能此时 DeepSeek 官方用户流量较大,服务器负载也比较大,腾讯云服务商可能受到限流影响。

时段(2025/2/18 0:00 - 8:00)

● 特点:多数服务商 API 的可用性较高,甚至达到100%。性能时长也相对较短。

● 原因:可能此时用户流量较少,服务器负载较低,能够为每个请求分配更多资源。

各服务商 API 整体性能分析:

火山引擎

● 可用性:整体非常稳定,未出现明显波动。

● 性能:整体表现良好,未出现显著问题。

DeepSeek 官方

● 可用性:

2025-02-17 08:00 - 2025-02-18 01:00:可用性波动较大,从较差逐渐改善至良好。

2025-02-18 01:00 - 2025-02-18 08:00:可用性保持100%,表现稳定。

● 整体性能:在可用性提升的同时,性能表现也逐渐优化,整体时间指标表现优秀。

硅基流动

● 可用性:整体波动较小,表现稳定,大部分时间维持在95%以上。

● 性能:在各时间段内有波动,但整体表现较为平稳。

腾讯云

● 可用性:总体较低,但各时间段内的波动较小。在测评过程中,腾讯云可能受到限流影响,导致可用性表现不佳。

● 性能:在各时间段内有波动,但整体表现较为平稳。

阿里云百炼

● 可用性:

2025-02-17 08:00 - 2025-02-17 13:00:波动明显,之后大部分时间维持在90%以上,表现较为稳定。

● 性能:2025-02-17 08:00 - 2025-02-17 13:00:波动明显,在其它各个时间段内表现较为稳定。

本次评测的测试工具、指标采集、测试厂商、测试参数等详情如下:

测试工具及指标采集

1.  测试工具:基调听云拨测平台

2.  采集指标:

● 通过API返回的数据计算出来的指标包含:平均速度(tokens/s)、首 Token 时间(s)、推理速度(tokens/s)、生成速度(tokens/s)

● 通过听云拨测客户端计算的指标包含:DNS 时间(s)、建连时间(s)、握手时间(s)、发出请求时间(s)、首包时间(s)、剩余包时间(s)、性能(s) 和可用性(%)

3.  测试节点:北京/上海/广州/深圳/重庆/苏州/成都/杭州/武汉九地移动/电信/联通三大运营商,模拟27个终端用户

4.  任务属性:任务绑定(相同频率,相同监测点)

5.  大模型相关的测试指标和计算方式参考了公众号“赛博禅心”文章“务实测试:DeepSeek 各家 API 真实速度”中提到的测试脚本。

测试厂商

腾讯云、阿里云、火山引擎、DeepSeek 官方和硅基流动

测试参数

●测试频率:1小时

●测试周期:2025/02/17 08:00 - 2025/02/18 08:00

●测试 Prompt:9.9和9.11这两个数哪个更大?请在结果中只输出比较大的那个数,并放在两个"#"符号之间。

●期望响应格式:#9.9#

指标定义

(1)模型性能指标

● 首 Token 时间:从请求发起至模型返回第一个有效 Token 的时间间隔 (单位:s)

● 推理速度:模型推理阶段的平均速度 (单位:tokens/s)

● 生成速度:模型生成阶段的平均速度 (单位:tokens/s)

● 平均速度:模型推理和生成两个阶段的整体平均速度 (单位:tokens/s)

(2)网络指标

● DNS:通过域名解析服务,将指定的域名解析成 IP 地址的消耗时间。

● 建连:浏览器和 Web 服务器建立 TCP/IP 连接的消耗时间。

● SSL:浏览器和 Web 服务器建立安全套接层 (SSL) 连接的消耗时间。

● 首包:浏览器发送 HTTP 请求结束开始,到收到 Web 服务器返回的第一个数据包的消耗时间。

● 剩余包:浏览器接收 Web 服务器返回的第一个数据包到元素数据接收结束的消耗时间。

● 性能(总下载时间):监测一个页面总的消耗时间,即从开始监测到监测结束的时间。

● 可用性:时间范围内,目标服务能够被正常访问的次数与总访问次数的比值。

(3)分析维度

● 运营商:移动/电信/联通

● 城市:北京/上海/广州/深圳/重庆/苏州/成都/杭州/武汉

● 目标主机(基于 API 服务的暴露的 IP 地址)

本次测评旨在为开发者提供深度数据支撑,助力其精准洞察各服务商 API 接口的性能表现,从而有针对性地优化产品体验。对于开发者和企业用户而言,这些数据可以作为服务商选择的决策依据,可以依托本次测评数据,更科学地甄别适配自身需求的技术方案,有效提升调用效率,大幅降低响应延迟,全方位增强整体服务质量。

1740129028726874.png

最后,提前预告一下,基调听云正在对各家网页版本的 DeepSeek-R1 服务进行评测,将在近期发布网页版的评测结果。敬请期待

 

阅读下一篇

返回首页 返回科技