基调听云首发《大模型服务性能评测 DeepSeek-R1 API 版》第一期

春节假期，DeepSeek-R1 横空出世，成为全球热议焦点。2023年11月，DeepSeek 发布首个大模型 DeepSeek LLM；2024年5月开源 DeepSeek-V2，因性能出色、价格优势收获 “AI 届拼多多” 称号。12月26日上线并开源 DeepSeek-V3，凭借低训练成本和出色性能引发全球热议。2025年1月20日，DeepSeek 发布的 DeepSeek-R1 推理大模型逻辑推理能力出色，接近甚至超越OpenAI的o1，引发全球轰动，被硅谷科技媒体称为新时代的 “斯普特尼克时刻”。

DeepSeek-R1 凭借其创新和高效的训练方法、强大的推理能力、大幅下降的使用成本和开源等出色表现迅速在 AI 大模型领域脱颖而出，其技术的深度整合已在多个行业中带来了显著的变革与推动。7天完成1亿用户增长，移动端上线26天，日活突破4000万，目前已成为众多用户寻求智能帮助的首选。用户暴增，大量用户同时发送请求，服务器的算力资源、存储资源和网络带宽等被快速占满，处理能力达到极限，无法及时响应所有请求，从而导致频繁报错，关于其服务器繁忙的吐槽纷至沓来。

由于 DeepSeek 官方提供的R1服务频繁报错，各类替代服务方案也开始出现，除了私有化部署方案，各大云服务商、芯片厂商等第三方服务商陆续上线 DeepSeek-R1 服务，为用户提供了更多选择。与此同时，越来越多的国内厂商接入 DeepSeek-R1 大模型服务，如：阿里云、华为云、腾讯云、华为、荣耀、OPPO、科大讯飞、顺丰等，涵盖云服务、软件与应用服务商、手机厂商、酒店、物流供应链、汽车、医药、媒体等行业。

为了更好地服务开发者和终端用户，国内领先的可观测与应用安全厂商基调听云对多家提供 DeepSeek-R1 API 服务的厂商开展了全面评测，并发布了《大模型服务性能评测 DeepSeek-R1 API版》第一期。

此次测评利用基调听云拨测工具，模拟真实用户的主动监控，从网络性能、接口响应时间、推理速度、内容生成速度等多个关键指标对主流云服务厂商的API接口进行了深入测试。同时，测评还结合了来自多个城市、运营商、主机和时间维度的数据分析，旨在为各行业开发者和终端用户提供更具针对性和参考价值的建议，帮助大家选择更快、更稳定的 DeepSeek-R1 服务。

TL;NR（太长不看版）：

（1）经过对多家主流云服务厂商API接口的深度评测，火山引擎在 API 响应性能上全面领先，各项指标均显著优于其他服务商。DeepSeek 官方虽推理速度较好，但首 Token 延迟过长且可用性低，成为显著短板。

（2）其他服务商表现分化：硅基流动可用性较高，腾讯云与阿里云百炼速度表现不是太理想。

（3）如果你不是开发者，只关心哪里能用 DeepSeek-R1，直接拉到文章结尾看我们的推荐网页版服务。

评测结果及解读

数据分析：

1. 火山引擎在平均速度、推理速度、生成速度上表现最优，且可用性高达 99.83%，在API接入上首选推荐。

2. DeepSeek 官方推理速度较快，但首 Token 延迟显著（7.753s），可用性最低（42.21%）。

3. 硅基流动首 Token 响应快（0.714s）且可用性稳定（98.83%），但平均速度较弱（12.426 tokens/s）。

4. 腾讯云整体性能较低，其中总性能最差（47.584s）且可用性一般（71.24%）。

5. 阿里云百炼表现不理想，平均速度最慢（3.684 tokens/s），首包时间也最长（1.091s），可用性尚可（87.98%）。

总体性能影响因素分析

1、服务端推理性能是主要影响因素

•在整体测试中，推理速度和生成速度的差异在厂商间表现较为显著，尤其是火山引擎在推理和生成速度上表现优秀，而其他厂商的性能则较为逊色。服务端推理的性能显然是影响API整体性能的关键因素。

2、网络因素的影响较小

•虽然网络延迟（DNS 时间、连接时间等）存在一定的差异，但从测试结果来看，除非网络层的延迟异常高，否则不会对整体的 API 性能产生根本性影响。例如，DeepSeek 官方和火山引擎的网络层延迟较低，但推理和生成速度的差异更多源自服务端的处理能力，而非网络本身。

因此，服务端推理性能是影响整体性能的主要因素，网络层的影响相对较小，基本可以忽略不计，尤其当网络延迟不超过合理范围时。

城市维度

城市维度分析：

1. 火山引擎在以上城市均保持最高性能，且可用性全达 100%。

2. DeepSeek 官方在重庆的首 Token 时间最长12.675 秒，其他城市均在9秒内。

3. 硅基流动的可用性在广州的表现的最差93.75%，其他城市在98%以上。

4. 其他服务商与其他指标未见明显差异，整体与前面的结论一致。

运营商维度

运营商维度分析：

1. DeepSeek 官方在中国移动的网络下建连时间0.152秒，其他运营商均在0.05秒以内。

2. 其他服务商指标对比未见明显差异，整体与前面结论一致。

主机维度

主机维度分析：该维度从各服务商提供 API 服务的目标主机 IP 地址维度分析各家服务的分布和性能。

主机数量：腾讯云主机数量最多，DeepSeek 官方主机数量最少。

主机城市：腾讯云的主机城市分布最广，其次是火山引擎。

主机运营商分布：腾讯云的主机运营商分布最广，其次是火山引擎。

时间维度（1小时粒度）

各时间段分析：

时段（2025/2/17 8:00 - 15:00）

● 特点：DeepSeek 官方和阿里云百炼可用性波动较大，腾讯云可用性不高，但是可用性比较稳定，其它服务商可用性相对优秀，稳定。

● 原因：可能此时用户流量较大，服务器负载也比较大，腾讯云服务商可能受到限流影响。

时段（2025/2/17 15:00 - 2025/2/18 0:00）

● 特点：DeepSeek 官方在2025/2/17 15:00 - 17:00 服务出现不可用的情况，腾讯云可用性不高，但是可用性比较稳定，其它服务商可用性相对优秀，稳定。

● 原因：可能此时 DeepSeek 官方用户流量较大，服务器负载也比较大，腾讯云服务商可能受到限流影响。

时段（2025/2/18 0:00 - 8:00）

● 特点：多数服务商 API 的可用性较高，甚至达到100%。性能时长也相对较短。

● 原因：可能此时用户流量较少，服务器负载较低，能够为每个请求分配更多资源。

各服务商 API 整体性能分析：

火山引擎

● 可用性：整体非常稳定，未出现明显波动。

● 性能：整体表现良好，未出现显著问题。

DeepSeek 官方

● 可用性：

2025-02-17 08:00 - 2025-02-18 01:00：可用性波动较大，从较差逐渐改善至良好。

2025-02-18 01:00 - 2025-02-18 08:00：可用性保持100%，表现稳定。

● 整体性能：在可用性提升的同时，性能表现也逐渐优化，整体时间指标表现优秀。

硅基流动

● 可用性：整体波动较小，表现稳定，大部分时间维持在95%以上。

● 性能：在各时间段内有波动，但整体表现较为平稳。

腾讯云

● 可用性：总体较低，但各时间段内的波动较小。在测评过程中，腾讯云可能受到限流影响，导致可用性表现不佳。

● 性能：在各时间段内有波动，但整体表现较为平稳。

阿里云百炼

● 可用性：

2025-02-17 08:00 - 2025-02-17 13:00：波动明显，之后大部分时间维持在90%以上，表现较为稳定。

● 性能：2025-02-17 08:00 - 2025-02-17 13:00：波动明显，在其它各个时间段内表现较为稳定。

本次评测的测试工具、指标采集、测试厂商、测试参数等详情如下：

测试工具及指标采集

1. 测试工具：基调听云拨测平台

2. 采集指标：

● 通过API返回的数据计算出来的指标包含：平均速度(tokens/s)、首 Token 时间(s)、推理速度(tokens/s)、生成速度(tokens/s)

● 通过听云拨测客户端计算的指标包含：DNS 时间(s)、建连时间(s)、握手时间(s)、发出请求时间(s)、首包时间(s)、剩余包时间(s)、性能(s) 和可用性(%)

3. 测试节点：北京/上海/广州/深圳/重庆/苏州/成都/杭州/武汉九地移动/电信/联通三大运营商，模拟27个终端用户

4. 任务属性：任务绑定（相同频率，相同监测点）

5. 大模型相关的测试指标和计算方式参考了公众号“赛博禅心”文章“务实测试：DeepSeek 各家 API 真实速度”中提到的测试脚本。

测试厂商

腾讯云、阿里云、火山引擎、DeepSeek 官方和硅基流动

测试参数

●测试频率：1小时

●测试周期：2025/02/17 08:00 - 2025/02/18 08:00

●测试 Prompt：9.9和9.11这两个数哪个更大？请在结果中只输出比较大的那个数，并放在两个"#"符号之间。

●期望响应格式：#9.9#

指标定义

（1）模型性能指标

● 首 Token 时间：从请求发起至模型返回第一个有效 Token 的时间间隔 (单位：s)

● 推理速度：模型推理阶段的平均速度 (单位：tokens/s)

● 生成速度：模型生成阶段的平均速度 (单位：tokens/s)

● 平均速度：模型推理和生成两个阶段的整体平均速度 (单位：tokens/s)

（2）网络指标

● DNS：通过域名解析服务，将指定的域名解析成 IP 地址的消耗时间。

● 建连：浏览器和 Web 服务器建立 TCP/IP 连接的消耗时间。

● SSL：浏览器和 Web 服务器建立安全套接层 (SSL) 连接的消耗时间。

● 首包：浏览器发送 HTTP 请求结束开始，到收到 Web 服务器返回的第一个数据包的消耗时间。

● 剩余包：浏览器接收 Web 服务器返回的第一个数据包到元素数据接收结束的消耗时间。

● 性能（总下载时间）：监测一个页面总的消耗时间，即从开始监测到监测结束的时间。

● 可用性：时间范围内，目标服务能够被正常访问的次数与总访问次数的比值。

（3）分析维度

● 运营商：移动/电信/联通

● 城市：北京/上海/广州/深圳/重庆/苏州/成都/杭州/武汉

● 目标主机（基于 API 服务的暴露的 IP 地址）

本次测评旨在为开发者提供深度数据支撑，助力其精准洞察各服务商 API 接口的性能表现，从而有针对性地优化产品体验。对于开发者和企业用户而言，这些数据可以作为服务商选择的决策依据，可以依托本次测评数据，更科学地甄别适配自身需求的技术方案，有效提升调用效率，大幅降低响应延迟，全方位增强整体服务质量。

最后，提前预告一下，基调听云正在对各家网页版本的 DeepSeek-R1 服务进行评测，将在近期发布网页版的评测结果。敬请期待

基调听云首发 《大模型服务性能评测 DeepSeek-R1 API 版》第一期

基调听云首发《大模型服务性能评测 DeepSeek-R1 API 版》第一期