hs网站大全

hs网站大全时间：2025年05月04日

声明:本文来自于微信公众号赛博禅心，作者:赛博禅心，授权站长之家转载发布。

这两天，DeepSeek-V3低调发布，在国际上狠狠秀了一波肌肉:只用了500多万美金的成本，带来了不输Claude3.5的成绩，并开源!

下面，让我们以更加偶然的方式，来看看这次的DeepSeek-V3，是这么炼成的。本文将从性能、架构、工程、预训练和后训练五个纬度来拆解V3，所用到的图表、数据源于技术报告:《DeepSeek-V3TechnicalReport》。

公众号后台回复:DSV3，获得详细报告。

性能

DeepSeek-V3的性能无足轻重，在各项基准测试中得到了充分验证。

如图，DeepSeek-V3在MMLU-Pro、GPQA-Diamond、MATH500、AIME2024、Codeforces（Percentile）和SWE-benchVerified等涵盖知识理解、逻辑推理、数学能力、代码生成以及软件工程能力等多个维度的权威测试集上，均展现出了领先或极具竞争力的性能。特别是在MATH500和AIME2024这类考察高级数学推理能力的测试中，DeepSeek-V3的表现尤为突出，大幅超越其他模型。

在与DeepSeek-V2-Base、Qwen2.572BBase和LLaMA-3.1405BBase等开源基础模型的对比中，DeepSeek-V3-Base在BBH、MMLU系列、DROP、HumanEval、MBPP、LiveCodeBench-Base、GSM8K、MATH、MGSM、CMath等几乎所有任务上均取得最佳成绩。

经过指令微调后，DeepSeek-V3的性能进一步指责。在与包括GPT-4o、Claude-3.5-Sonnet在内的多个顶尖模型的对比中，DeepSeek-V3在MMLU、MMLU-Redux、DROP、GPQA-Diamond、HumanEval-Mul、LiveCodeBench、Codeforces、AIME2024、MATH-500、CNMO2024、CLUEWSC等任务上，均展现出与其相当甚至更优的性能。

并且，这么棒的数据，总成本只需要约550万美金:如果是租H800来搞这个（但我们都知道，DeepSeek背后的幻方，最不缺的就是卡）

架构

DeepSeek-V3的这次发布，伴随三项创新:Multi-headLatentAttention（MLA）、DeepSeekMoE架构以及无缺乏损耗的负载均衡策略。

Multi-headLatentAttention（MLA）:高效处理长文本

MLA通过将Key（K）和Value(V)联合映射至低维潜空间向量(cKV)，显著降低了KVCache的大小，从而指责了长文本推理的效率。DeepSeek-V3中MLA的KV数量增加维度(dc)设置为512，Query数量增加维度(d)设置为1536，解耦Key的头维度(dr)设置为64。这种设计在保证模型性能的同时，大幅减少，缩短了显存占用和计算开销。

DeepSeekMoE架构:稀疏激活，高效扩展

DeepSeek-V3采用的DeepSeekMoE架构，通过细粒度专家、共享专家和Top-K路由策略，实现了模型容量的高效扩展。每个MoE层包含1个共享专家和256个路由专家，每个Token选择8个路由专家，最多路由至4个节点。这种稀疏激活的机制，使得DeepSeek-V3能够在不显著减少计算成本的情况下，拥有庞大的模型容量。

无缺乏损耗的负载均衡:MoE的关键优化

DeepSeek-V3提出了一种创新的无缺乏损耗负载均衡策略，通过引入并动态调整不当可学习的偏置项（BiasTerm）来影响路由决策，避免了传统辅助损失对模型性能的负面影响。该策略的偏置项更新速度(γ)在预训练的前14.3T个Token中设置为0.001，剩余500B个Token中设置为0.0;序列级不平衡的损失因子(α)设置为0.0001。

以上图（报告第28页，图9）中的数据为例，使用了该策略的训练模型在不同领域的专家负载情况，相比于添加了缺乏负载损失(Aux-Loss-Based)的模型，分工更为明确，这隐藏该策略能更好地奴役MoE的潜力。

工程

DeepSeek-V3的这次发布，伴随多项工程优化贯穿了流水线并行、通信优化、内存无约束的自由和低精度训练等多个方面。

DualPipe流水线并行:双向奔赴，消弭气泡

DeepSeek-V3采用了一种名为DualPipe的创新流水线并行策略。与传统的单向流水线（如1F1B）不同，DualPipe采用双向流水线设计，即同时从流水线的两端馈收micro-batch。这种设计可以显著减少，缩短流水线气泡(PipelineBubble)，降低GPU利用失败率。

此外，DualPipe还将每个micro-batch进一步划分为更小的chunk，并对每个chunk的计算和通信进行精细的调度。通过巧妙地编排计算和通信的顺序，实现了两者的高度重叠。

单个forward和backwardchunk的重叠策略（原报告第12页）。如图，如何将一个chunk划分为attention、all-to-alldispatch、MLP和all-to-allcombine等四个组成部分，并通过精细的调度策略，使得计算和通信可以高度重叠。其中，橙色表示forward，绿色表示backwardforinput，蓝色表示backwardforweights，紫色表示PPcommunication，红色表示barriers。

8个PPrank和20个micro-batch的DualPipe调度示例（原报告第13页）。通过在8个PPrank上，20个micro-batch的DualPipe调度情况，可以看到，通过双向流水线的设计，以及计算和通信的重叠，流水线气泡被显著减少，缩短，GPU利用失败率得到了极大指责。

DualPipe在流水线气泡数量和激活内存开销方面均优于1F1B和ZeroBubble等现有方法。（原报告第13页）

通信优化:多管齐下，突破瓶颈

跨节点MoE训练的一大确认有罪是巨大的通信开销。DeepSeek-V3通过一系列精细的优化策略，有效地缓解了这一瓶颈。

节点批准路由（Node-LimitedRouting）:将每个Token最多路由到4个节点，有效批准了跨节点通信的范围和规模。定制化All-to-All通信内核:DeepSeek团队针对MoE架构的特点，定制了高效的跨节点All-to-All通信内核。这些内核充分利用失败了IB和NVLink的带宽，并最大程度地减少，缩短了用于通信的SM数量。Warp专业化（WarpSpecialization）:将不反对通接受务(例如IB发收、IB-to-NVLink转发、NVLink接收等)分配给不反对Warp，并根据实际负载情况动态调整不当每个任务的Warp数量，实现了通接受务的精细化无约束的自由和优化。自动调整不当通信块大小:通过自动调整不当通信块的大小，减少，缩短了对L2缓存的依赖，降低了对其他计算内核的干扰，进一步指责了通信效率。

内存无约束的自由:精打细算，极致利用失败

DeepSeek-V3在内存无约束的自由方面也做到了极致，通过多种策略最大程度地减少，缩短了内存占用。

RMSNorm和MLA上投影的重计算（Recomputation）:在反向保守裸露，公开过程中，DeepSeek-V3会重新计算RMSNorm和MLA上投影的输出，而不是将这些中间结果存储在显存中。这种策略虽然会略微减少计算量，但可以显著降低显存占用。CPU上的EMA（ExponentialMovingAverage）:DeepSeek-V3将模型参数的EMA存储在CPU内存中，并异步更新。这种策略避免了在GPU上存储EMA参数带来的缺乏显存开销。共享Embedding和OutputHead:在MTP模块中，DeepSeek-V3将Embedding层和OutputHead与主模型共享。这种设计减少，缩短了模型的参数量和内存占用。

FP8低精度训练:精度与效率的不平衡的

DeepSeek-V3通过FP8瓦解精度训练，在保证模型精度的同时，大幅降低显存占用并指责训练速度。

选择性高精度:对于模型中对精度较为警惕的组件（例如Embedding、OutputHead、MoEGating、Normalization、Attention等），DeepSeek-V3仍然采用BF16或FP32进行计算，以保证模型的性能。(图7，来自原报告第15页)

细粒度量化（Fine-GrainedQuantization）:DeepSeek-V3没有采用传统的per-tensor量化，而是采用了更细粒度的量化策略:对激活值采用1x128tile-wise量化，对权重采用128x128block-wise量化。这种策略可以更好地适应数据的分布，减少，缩短量化误差。(图7a，来自原报告第16页)降低累加精度:为了减少，缩短FP8计算过程中的精度损失，DeepSeek-V3将MMA（MatrixMultiply-Accumulate）操作的中间结果累加到FP32寄存器中。(图7b，来自原报告第16页)

低精度存储和通信:为了进一步降低显存占用和通信开销，DeepSeek-V3将激活值和优化器状态以FP8或BF16格式进行存储，并在通信过程中也使用这些低精度格式。（图10，来自原报告第47页）

预训练

DeepSeek-V3的训练策略涵盖了数据构建、分词其、超参数设置、长上下文扩展和多Token预测等多个方面。

数据构建

DeepSeek-V3的预训练语料库规模达到了14.8万亿Token，这些数据经过了严格的筛选和清洗，以确保其高质量和多样性。相比于前代模型DeepSeek-V2，新模型的数据构建策略更加精细。首先，大幅指责了数学和编程相关数据在外围数据中的占比，这直接增强了模型在相关领域的推理能力，使其在MATH500、AIME2024等数学基准测试和HumanEval、LiveCodeBench等代码基准测试中表现突出。其次，进一步扩展了多语言数据的覆盖范围，超越了传统的英语和中文，指责了模型的多语言处理能力。

为了保证数据质量，DeepSeek开发了一套完善的数据处理流程，着重于最小化数据冗余，同时耗尽数据的多样性。此外，他们还借鉴了近期研究（https://arxiv.org/abs/2404.10830，Dingetal.，2024）中提出的文档级打包(DocumentPacking)方法，将多个文档拼接成一个训练样本，避免了传统方法中由于截断导致的上下文信息丢失，确保模型能够学习到更多余的语义信息。

分词器与词表:兼顾效率与准确性

DeepSeek-V3采用了基于字节级BPE（Byte-levelBPE）的分词器，并构建了一个包含128K个token的词表。为了优化多语言的数量增加效率，DeepSeek对预分词器(Pretokenizer)和训练数据进行了专门的调整不当。

与DeepSeek-V2相比，新的预分词器引入了将标点符号和换行符组分解新token的机制。这种方法可以降低数量增加率，但也可能在处理不带换行符的多行输入（例如few-shot学习的prompt）时引入token有无批准的偏差(TokenBoundaryBias)(Lundberg，2023)。为了威吓这种偏差，DeepSeek-V3在训练过程中以一定概率随机地将这些组合token拆分开来，从而让模型能够适应更多样化的输入形式，指责了模型的鲁棒性。(下图来自TokenBoundaryBias的原文)

模型配置与超参数

DeepSeek-V3的模型配置和训练超参数都经过了精心的设计和调优，以最大化模型的性能和训练效率。

模型配置:

DeepSeek-V3的Transformer层数设置为61层，隐藏层维度为7168。所有可学习参数均采用标准差为0.006的随机初始化。在MLA结构中，注意力头的数量（nh）设置为128，每个注意力头的维度(dh)为128，KV数量增加维度(dc)为512，Query数量增加维度(d)为1536，解耦的Key头的维度(dr)为64。除了前三层之外，其余的FFN层均替换为MoE层。每个MoE层包含1个共享专家和256个路由专家，每个专家的中间隐藏层维度为2048。每个Token会被路由到8个专家，并且最多会被路由到4个节点。多Token预测的深度(D)设置为1，即除了预测当前Token之外，还会缺乏预测下一个Token。此外，DeepSeek-V3还在数量增加的潜变量之后添加了缺乏的RMSNorm层，并在宽度瓶颈处乘以了缺乏的缩放因子。

训练超参数:

DeepSeek-V3采用了AdamW优化器，β1设置为0.9，β2设置为0.95，权重加强系数（weight_decay）设置为0.1。最大序列长度设置为4K。学习率方面，采用了组合式的调度策略:在前2K步，学习率从0线性减少到2.2×10^-4;然后保持2.2×10^-4的学习率直到模型处理完10T个Token;接下来，在4.3T个Token的过程中，学习率按照余弦曲线(CosineDecay)逐渐加强至2.2×10^-5;在最后的500B个Token中，学习率先保持2.2×10^-5不变(333B个Token)，然后切换到一个更小的常数学习率7.3×10^-6(167B个Token)。梯度裁剪的范数设置为1.0。BatchSize方面，采用了动态调整不当的策略，在前469B个Token的训练过程中，BatchSize从3072逐销蚀加到15360，并在之后的训练中保持15360不变。

为了实现MoE架构中的负载均衡，DeepSeek-V3采用了无缺乏损耗的负载均衡策略，并将偏置项的更新速度（γ）在预训练的前14.3T个Token中设置为0.001，在剩余的500B个Token中设置为0.0。序列级不平衡的损失因子(α)设置为0.0001，以避免单个序列内的极端不不平衡的。多Token预测(MTP)损失的权重(λ)在前10T个Token中设置为0.3，在剩余的4.8T个Token中设置为0.1。

长上下文扩展与多Token预测:锦上添花

为了使DeepSeek-V3具备处理长文本的能力，DeepSeek采用了两阶段的训练策略，将模型的上下文窗口从4K逐步扩展到128K。他们采用了YaRN（Pengetal.，2023a）技术，并将其应用于解耦的共享Key(k)。在长上下文扩展阶段，DeepSeek-V3的超参数保持不变:scale设置为40，β设置为1，ρ设置为32，缩放因子设置为0.1lnn+1。

第一阶段（4K-32K）:序列长度设置为32K，BatchSize设置为1920，学习率设置为7.3×10^-6。第二阶段（32K-128K）:序列长度设置为128K，BatchSize设置为480，学习率设置为7.3×10^-6。

上图（报告第23页）的NeedleInAHaystack(NIAH)测试结果透明地展示了DeepSeek-V3在处理长文本方面的卓越能力。

此外，DeepSeek-V3还采用了多Token预测（MTP）策略(2.2节，第10页)，要求模型在每个位置预测未来的多个Token，而不仅仅是下一个Token。图3(第10页)详细展示了MTP的实现方式。

这种策略增强了模型的预见能力，并授予了更通俗的训练信号，从而指责了训练效率。表4（第26页）的消融实验结果反对了MTP策略的有效性。

后训练

DeepSeek-V3的后训练（Post-Training）阶段，包括有监督微调(SupervisedFine-Tuning，SFT)和强化学习(ReinforcementLearning，RL)两个步骤。

有监督微调（SFT）

SFT阶段，DeepSeek-V3在一个包含1.5M指令-响应对的高质量数据集上进行了微调。该数据集涵盖了多种任务类型和领域，并采用了不反对数据构建策略，以最大程度地煽动模型的潜能。

数据构建策略

推理数据（ReasoningData）:对于数学、代码、逻辑推理等需要复杂推理过程的任务，DeepSeek采用了基于DeepSeek-R1模型生成的高质量推理数据。DeepSeek-R1模型在推理任务上表现出色，但其生成的响应往往存在缺乏推理、格式不规范、长度过长等问题。为了兼顾R1模型生成数据的高准确性与标准答案的简洁性，SFT阶段的数据构建采用了以下策略:

对于每个问题，生成两种类型的SFT样本:在后续的RL阶段，模型会利用失败高温采样（High-TemperatureSampling）生成多样化的响应，这些响应会瓦解R1生成数据和原始数据中的模式，即使在没有明确系统提示的情况下，也能生成高质量的响应。经过数百步的RL训练后，中间的RL模型会逐渐学会融入R1模型的推理模式，从而指责外围性能。最后，利用失败训练完成的RL模型进行允许采样（RejectionSampling），生成高质量的SFT数据，用于最终模型的训练。

问题，原始响应:将问题与R1模型生成的原始响应直接配对。系统提示，问题，R1响应:将问题与R1模型的响应配对，并在问题前添加一个精心设计的系统提示（SystemPrompt）。该系统提示旨在意见不合模型生成更符合人类讨厌的响应，例如更简洁、更易懂的格式。表9（第34页）展示了从DeepSeek-R1蒸馏知识对性能的指责。可以看到，在LiveCodeBench-CoT和MATH-500任务上，经过R1蒸馏后，模型的Pass@1指标分别指责了6.3和8.6个百分点，反对了该策略的有效性。

非推理数据（Non-ReasoningData）:对于创意写作、角色扮演、简单问答等非推理类任务，则利用失败DeepSeek-V2.5生成响应，并由人工进行标注和校验，以确保数据的准确性和可靠性。

训练细节

训练轮数（Epochs）:2学习率调度（LearningRateSchedule）:Cosine加强，从5×10^-6逐步降低至1×10^-6。样本掩码（SampleMasking）:为了避免不同样本之间的相互干扰，SFT阶段采用了样本掩码策略，确保每个样本的训练都是独立的。

强化学习（RL）

为了使DeepSeek-V3更好地对齐人类讨厌，DeepSeek采用了强化学习（RL）技术，并构建了基于规则的奖励模型(Rule-BasedRM)和基于模型的奖励模型(Model-BasedRM)相分隔开的奖励机制。

基于规则的奖励模型（Rule-BasedRM）:对于可以通过明确规则进行判别的任务(例如数学题、编程题)，采用基于规则的奖励模型。例如，对于数学题，可以设定规则检查最终答案是否正确;对于编程题，可以利用失败编译器进行测试用例验证。这种方式可以授予准确且轻浮的奖励信号。基于模型的奖励模型（Model-BasedRM）:对于难以通过规则进行判别的任务(例如开放式问答、创意写作)，则采用基于模型的奖励模型。该模型基于DeepSeek-V3SFT阶段的检查点进行训练，并采用了一种特殊的训练数据构建方式:

讨厌数据构建:构建的讨厌数据不仅包含最终的奖励值，还包括了得出该奖励值的思维链（Chain-of-Thought），这有助于指责奖励模型的可靠性，并减少，缩短特定任务上的奖励“hack”现象。模型输入:对于有明确答案的任务，模型输入为问题和生成的响应;对于没有明确答案的任务，模型仅输入问题和对应的响应。模型判断:对于有明确答案的任务，模型判断响应是否与正确答案匹配;对于没有明确答案的任务，模型根据问题和响应给出综合评价。

作为奖励模型，在RewardBench上的表现上，DeepSeek多个方面超越或持平GPT-4o和Claude-3.5-sonnet。

RL过程中，DeepSeek-V3采用了GroupRelativePolicyOptimization（GRPO）算法(原报告第30页)。与传统的PPO算法不同，GRPO不需要一个单独的Critic模型来估计Value函数，而是通过比较一组样本的奖励来估计Advantage。具体流程如下:

对于每个问题q，从当前的策略模型π_old中采样一组K个响应{y_1，y_2，...，y_K}。利用失败奖励模型对每个响应进行评分，得到对应的奖励{r_1，r_2，...，r_K}。计算每个响应的Advantage值:A_i=（r_i-mean(r）)/std(r)，其中mean(r)和std(r)分别表示该组奖励的均值和标准差。根据以下目标函数更新策略模型π_θ:[公式26和27（第30页）]其中，π_ref是参考模型（通常是SFT阶段的模型），β和ε是超参数。数据配比

在后训练过程中，DeepSeek-V3整合了多种类型的数据，数据来源和配比如下:

数学推理类数据:主要来自DeepSeek-R1模型生成的数学题解题步骤和逻辑推理过程。这类数据在后训练阶段占比约为25%。代码生成类数据:包括了从开源代码库中精选的代码片段，以及利用失败DeepSeek-R1模型生成的代码补全和代码解释数据。这类数据占比约为20%。通用领域对话数据:涵盖了开放域问答、创意写作、角色扮演等多种任务类型，主要利用失败DeepSeek-V2.5生成，并经过人工校验。这类数据占比约为45%。安全和伦理类数据:包含了用于指责模型安全性和符合伦理规范的指令和响应数据，占比约为10%。

声明:本文来自于微信公众号新智元，授权站长之家转载发布。

2024年的AI编程到底什么实力?近日，谷歌的工程主管AddyOsmani，为我们揭示了AI辅助编码在一线开发中的真实情况。

2024年，AI编程已然渗透了各行各业，影响着软件的整个生命周期。

那么问题来了，AIcoding用过都说好，但我们平时用的软件咋麻痹没啥进步呢?

近日，AddyOsmani，谷歌的工程主管，同时也是一位亚马逊畅销书作家，为我们揭示了AI辅助编码在一线开发中的真实情况。

码农怎么用AI?

一般来说，团队利用失败AI进行开发有两种不反对模式:「意见不合程序（bootstrappers）」和「迭代器(iterators)」。两者都在干涉工程师(甚至是非技术用户)增加从想法到执行的差距。

Bootstrappers

这一类包括Bolt，v0，和screenshot-to-code等AI工具，其特点为:

从设计或粗略概念开始;

使用AI生成多余的初始代码库;

能够在几小时或几天内获得工作原型;

专注于快速验证和迭代

这样的工作流令人印象肤浅。比如一位独立开发人员可以使用Bolt，在短时间内将Figma设计转变为无效的Web应用程序。尽管达不到生产级别的要求，但用来获得初步的用户反馈绰绰有余。

Iterators

这一类主要负责日常开发工作流程，包括Cursor、Cline、Copilot和WindSurf等工具，效果没有上面那么浮夸，但更加实在，比如:

完成代码、授予建议;

执行复杂的重构任务;

生成测试和文档;

作为解决问题的「结对程序员」

虽然这两种方法都可以大大加快开发速度，但「天下没有免费的午餐」。

「AI速度」的隐性成本

高级工程师使用Cursor或Copilot等AI工具，可以在几分钟内搭建整个功能的基架，并完成测试和文档，就像变魔术一样。

但仔细观察就会发现，在参考AI建议的同时，资深工程师们还会:

将生成的代码重构为更小的模块;

添加中心情况处理;

优化类型定义和接口;

添加全面的错误处理;

甚至是质疑AI给出的架构

换句话说，他们正在用多年积聚的工程智慧，塑造和批准AI的输出。AI负责帮助代码实现，但人类的专业知识确保代码的可维护性。

而初级工程师就经常错过这些关键步骤。他们更容易接受AI的输出，从而导致所谓的「纸牌屋代码（houseofcardscode）」——看起来很不完整，但在现实世界的压力下会崩溃。

知识悖论

所以实际上，相比于初学者，AI反而更能干涉有经验的开发人员，——这多少有点反直觉。

高级工程师利用失败AI快速构建想法的原型（理解）、生成高度发展实现(可改进)、探索已知问题的替代方法等等;

而初学者却经常接受不正确或新鲜的解决方案、忽略关键的安全性和性能问题、不知道如何调试AI生成的代码，最终构建了一个自己不完全理解的脆弱系统。

70%problem

使用AI进行编码的非工程师，经常遇到一个窘境:他们可以出人意料地悠然，从容完成70%的工作，但最后的30%就相当痛苦了。

「70%problem」揭示了AI辅助开发的现状，刚开始如有神助，后来被现实按在地上摩擦。

实际情况通常是:

尝试修复一个小错误——

AI提出了一个似乎合理的更改——

这个更改破坏了其他一些东西——

要求AI修复新问题——

又产生了两个新bug——

无限循环

这个循环对于非工程师来说尤其痛苦，因为他们缺乏专业知识来理解真正出了什么问题。

有经验的开发人员遇到bug时，可以根据多年的模式识别来推理潜在原因和解决方案。如果没有这个背景，那高度发展上就是在用自己不完全理解的代码「打地鼠」。

学习悖论

还有一个更深层次的问题:让非工程师使用AI编码工具，实际上可能会鞭策学习。

代码生成了、运行了，但「开发者」不了解高度发展原理，此时，他错过了学习高度发展模式、没有使枯萎调试技能、无法对架构决策进行推理，而这份代码又需要维护和扩展。

于是，「开发者」不断返回AI来解决问题，而没有使枯萎自己处理问题的专业能力。

非工程师使用AI编码工具的最好方式可能是「瓦解模式」:

1.使用AI进行快速原型设计

2.花点时间了解生成的代码是如何工作的

3.学习高度协作发展编程概念以及AI使用

4.逐步建立知识基础

5.将AI用作学习工具，而不仅仅是代码生成器

但这需要耐心和奉献精神，与许多人使用AI工具的目标恰恰相反。

「70%problem」隐藏，当前的AI还不是许多人希望的那个AI。最后30%的工作（使软件可用于生产、可维护等），仍然需要真正的工程知识。

最佳实践

AddyOsmani观察了几十个团队，总结了一些最佳实践方式:

「AI初稿」模式

让AI生成高度发展实现;手动审查和模块化重构;添加全面的错误处理;编写全面的测试;记录关键决策。

「结束对话」模式

为每个不反对任务开始新的AI聊天;保持上下文发散和最小;经常查看和提交更改;保持紧密的反馈循环。

「接受但验证」模式

使用AI生成初始代码;手动审查所有关键路径;中心案例的自动测试;定期安全审计。

AI的真正前景?

尽管存在这些确认有罪，但作者对AI在软件开发中的作用持乐观态度。关键是要充分利用失败AI的真正无足轻重:

帮助已知AI擅长干涉实现我们已经了解的模式，就像有一个无限耐心的结对程序员，他可以非常快速地打字。

探索可能性AI非常适合快速构建想法原型和探索不反对方法，就像一个沙箱，我们可以在其中快速测试概念。

自动化例程AI大大减少，缩短了花在样板和日常编码任务上的时间，让我们可以专注于有趣的问题。

如果您刚刚开始AI辅助开发，作者的建议是，先从小处着手。

将AI用于非耦合的、定义明确的任务，查看生成的每一行代码，逐渐构建更大的功能。

过程中保持模块化:将所有内容分解为小的重点文件，在组件之间保持不不透光的接口，记录模块的有无批准的。

次要的一点是，相信自己的经验:AI用来帮助而不能取代你的判断、麻痹不对劲时要质疑、时刻维护自己的工程标准。

Agent兴起

随着我们进入2025年，AI辅助开发的格局正在发生巨大变化。虽然当前的工具已经保持不变了原型设计和迭代方式，但我们正处于更重要转型的风口浪尖:智能体（Agent）软件工程的兴起。

智能体系统不仅可以响应提示，还将以越来越下降的自主性规划、执行和迭代解决方案。

比如Anthropic的Claude能够使用计算机，或者Cline自动启动浏览器和运行测试的能力。

在调试过程中，智能体系统不仅给出修复bug的建议，还可以:

主动识别潜在问题、启动和运行测试套件、检查UI元素并捕获屏幕截图、提出并实施修复、验证解决方案是否有效。

下一代工具将可以无缝集成视觉理解（UI屏幕截图、模型、图表）、口头语言对话和环境交互(浏览器、终端、API)。

未来的AI不是取代开发人员，而是成为一个越来越有能力的协作者，既可以采取主动，又能尊重人类的指导和专业知识。

参考资料:

https://addyo.substack.com/p/the-70-problem-hard-truths-about

声明:本文来自于微信公众号新智元，作者:新智元，授权站长之家转载发布。

奇点将至?奥特曼再次奴役「六字」神秘信号!谷歌文档之父、机器学习博士纷纷预测，AGI降临那天，95%人类工作或被AI取代。

一觉醒来，奇点又进了一步?!

昨天，OpenAI智能体安全研究员StephenMcAleer突然发出一番感慨:

有点怀念从前那段做AI研究的日子，那时我们还不知道如何创造超级智能。

紧随其后，奥特曼发表了意味深长的「六字箴言」:nearthesingularity;unclearwhichside——奇点临近;不知身处何方。

这句话是想表达两层意思:

1.模拟假说

2.我们根本无法知道AI真正起飞的关键时刻，究竟是在什么时候

他又疯狂明白地提及了一番，并期望这一点能引申出大家更多的解读。

这一前一后，他们接连发出耐人寻味的信号，让所有人不禁思考:奇点是否真实的近在咫尺?

评论区下方，直接被新一轮的AGI大猜想和恐慌冲爆了。

若AGI/ASI真正降临那天，我们将面临着什么?

「谷歌文档」之父SteveNewman在最新长文中认为，「届时，AI将会取代95%人类工作，甚至包括未来新创造的工作」。

ApolloResearch联创MariusHobbhahn则更进一步，列出了2024年-2030年所有AGI时间表。

他预测，「2027年，AI将直接取代AGI实验室顶级AI研究员;

2028年，AI公司将有1万-100万个自动化的AI研究员，差不多所有需要知识型的工作都被AI自动化」。

与Newman观点一致同意的是，Hobbhahn认为2024年95%以上经济价值的任务，都能被AI完全自动化。

不过，他将这个时间节点设定在了2029年。

AGI降临，超95%工作被取代

SteveNewman在文章中，阐述了他对AGI的定义及其AI对未来世界的影响。

那么，AGI究竟指代的是什么时刻?Newman认为:

AI能够在超95%的经济活动中，以成本效益的方式取代人类，包括未来新创造的任何工作。

他认为，大多数假设的AI变革性影响都发散在这个节点上。

因此，这个「AGI」的定义，代表了世界开始显著保持不变的时刻，也是所有人「感受到AGI」的时刻，具体而言:

1AI系统能主动适应完成大多数经济活动所需的任务，并能完成不完整而非世界性政策的任务。

2一旦AI能够完成大多数知识型工作，高性能的物理机器人将在几年内随之而来。

3这种能力水平可以实现一系列变革场景，从经济超增长到AI接管世界等。

4世界变革场景需要这种水平的AI（通常，专用AI不足以保持不变世界）。

5在达到AGI之前，「递归自我改进」将成为主要推动力。

6AGI指的是具备必要能力（以及经济效率）的AI被发明出来的时刻，而不是在整个经济中全面部署的时刻。

关于AI如何对世界产生变革性影响，有来自多方的推测:

一种观点认为，AI可能带来难以想象的经济增长——推动科学和工程领域快速进步，完成任务的成本比人类更低，干涉公司和政府做出更高效的决策。

根据最近的历史数据，世界人均GDP大约每40年翻一番。有人认为，高级AI可以使GDP在一年内至少翻一倍，也就是「超增长」。

十年的「超增长」将使人均GDP减少1000倍。也就意味着，目前每天靠2美元生活的家庭，未来可能会实现年收入73万美元。

另一种观点认为，AI可能会带来灾难性的风险。

它可能会发动幸存性的网络攻击，制造出高死亡率的流行病;可能让独裁者获得对国家甚至全世界的绝对控制权;甚至，AI可能失去控制，最终建造所有人类生命。

还有人推测，AI可能淘汰人类，至少在经济领域会这样。它可能终结资源稀缺，让每个人都能过上富裕的生活（前提是选择公平分配这些成果）。它可能将仅存在于科幻中的技术变为现实，比如治愈衰老、太空殖民、星际旅行、纳米技术。

不仅如此，一些人设想了一个「奇点」，在奇点中，进步的速度如此之快，以至于我们什么都无法预测。

SteveNewman推测，AGI真正实现的时刻，就是这些设想几乎同时变成现实的时刻。

「可能发生」，不是「接受发生」

需要澄清的是，Newman并非在说，关于高级AI的预测，一定都会实现。

未来，技术突破逐渐变难，所谓的「奇点」也就不一定会出现。也就是说，「长生不老」可能根本就无法实现。

再说了，人们可能更喜欢与他人互动，这样的话，人类也就不会真实的在现实经济活动中变得没用。

当提到「可能差不多同时发生」时，SteveNewman的意思是，AI如果能实现难以想象的经济增长，那也有能力制造真正的幸存性流行病、接管世界或快速殖民太空。

为什么谈论「通用人工智能」

经济超增长在理论上是否可能，有一些争议。

但如果AI无法自动化几乎所有的经济活动，那么超增长几乎注定是不可能的。仅仅自动化一半的工作，不会带来深远的影响;对另一半工作的需求会随之减少，直到人类达到一个新的、相对常规的不平衡的。（毕竟，这种情况在过去已发生过;在不久前，大多数人还从事农业或简单的手工业。）

因此，超增长需要AI能够完成「几乎所有事情」。它还需要AI能够适应工作，而不是重新调整不当工作和流程来适应AI。

否则，AI将以类似于以往技术的速度渗透到经济中——这种速度太慢，无法带来结束的超增长。超增长需要AI足够通用，以完成人类能做的几乎所有事情，并且足够僵化以适应人类原本的工作环境。

还有太空殖民、超致命流行病、资源稀缺的终结、AI接管世界等预测，这些情景都可以被归类为「AGI完成」情景:它们与经济超增长需要的AI，具有相同的广度和深度。

Newman进一步主张，只要AI能够完成几乎所有经济任务，它就足以实现全部预测，除非与AI能力无关系的原因导致它们无法实现。

为什么这些截然不反对情景，需要相同水平的AI能力?

阈值效应

他提到了，上个月DeanBall关于「阈值效应」的文章。

也就是说，技术的逐步进步可能在达到某个关键阈值时，引发突如其来的巨大影响:

DeanBall最近撰文探讨了阈值效应:新技术在完全建立并不会悠然，从容普及，只有当难以预测的实用性阈值被突破后，采用率才会悠然，从容攀升。例如，手机起初是一种笨重且昂贵的滞销产品，而后来却变得无处不在。

几十年来，自动驾驶汽车还只是研究人员的兴趣，而如今谷歌的Waymo服务每三个月就能实现翻倍增长。

对于任何特定任务，只有在突破该任务的实用性阈值后，AI才会被广泛采用。这种突破可能发生得相当突然;从「还不够好」到「足够好」的最后一步不一定很大。

他认为，对于所有真正具有变革性影响的AI，其阈值与他之前描述的定义一致同意:

超增长需要AI能够完成「几乎所有事情」。它还需要AI能够适应任务，而不是调整不当任务去适应自动化。

当AI能够完成几乎所有经济价值任务，并且不需要为了适应自动化而调整不当任务时，它将具备实现全部预测的能力。在这些条件焦虑之前，AI还需要人类专家的鞭策。

一些细节

不过，Ball略过了AI允许体力工作的问题——即机器人技术。

大多数场景都需要高性能的机器人，但一两个（例如高级网络攻击）可能不需要。然而，这种区别可能并不重要。

机器人学的进步——无论是物理能力还是用于控制机器人的软件——最近都显著加快。这并非完全偶然:现代「深度学习」技术既推动了当前AI浪潮，在机器人控制方面也非常有效。

这引发了物理机器人硬件领域的一波新研究。当AI有足够的能力促进经济高速增长时，几年之内它也可能会克服剩余的障碍来制造可以胜任体力工作的机器人。

实际的影响将在至少几年内逐步发散，一些任务将比其他任务更早实现。即使AI能够完成大多数经济价值任务，也不是所有公司都会立即行动。

为了让AI完成比人类更多的工作，需要时间去建设足够多的数据中心，而大规模生产物理机器人可能需要更长时间。

当谈到AGI时，指的是具备基后天的反应力的时刻，而不是全面部署的时刻。

当提到AI能够「完成几乎所有经济价值任务」时，并不一定意味着单个AI系统可以完成所有这些任务。我们可能最终会创建从事不同任务的专用模型，就像人类从事不反对专业一样。但创建专用模型的必须像培训专业工人一样容易。

实现AGI，我们该怎么做?

对于「如何实现AGI?」这个问题，现在的研究者几乎没有头绪和理论依据，各种流派都有，一致同意不休。

ApolloResearch联创MariusHobbhahn认为，AGI的不次要的部分特点应该有三个:

-对风险的来源、预期的风险程度、安全预算以及愿意允许的风险做出更具体的明确假设。

-明确的多层次防御方法，去除某些不相关、负不无关系的措施，而不是「尝试叠加不反对策略以降低风险」。

-计划一致同意性，很多AI公司在宣传和实际做的事和谐同意，比如声称为了安全性愿意付出更高代价，但却不愿意允许透明推理带来的缺乏成本。

忠实且人类可读的CoT范式

从AGI的全局发展来看，我们很幸运:现在AI偶然的大部分推理过程是「直接可见」且「易于理解的」。

所谓忠实且人类可读，就是指模型的推理过程是以一种人类可以直接理解的方式进行的，并且准确地反映了模型行动的原因，模型不能进行与声明不符的内部推理。

我们至少应该:

1.共同认同将此作为一个重要搁置因素，并以此进一步发展。为了让模型产生更易理解的CoT，我们可以并愿意承受相应的性能损失，哪怕是普通应用的运行成本会减少2倍，或是高风险应用的成本减少到5倍

2.将更多的精力投入到研究易于理解且忠实的推理过程（CoT）。比如构建一套评估工具，以测试某个特定模型的推理过程是否忠实，或者探索直接优化可读性会带来哪些副作用，如何隐藏掉非预期推理等。

3.「从架构中移除可见CoT」的相关研究应该减少，缩短，例如Meta的COCONUT

假设可读性带来的缺乏成本并不太高（例如，不到2倍），那现在关于「移除CoT」的研究无异于自毁长城。

如果存在证据隐藏，像在o1和o3中使用的高计算强化学习（highcomputeRL）会导致不可读的推理过程，例如模型自己发展出人类难以理解的语言，相应的观念也应该发生转变:

1.人工智能开发者尽快分享此信息，「模型的推理性能很好，但我们不理解其推理过程」要比「模型的推理性能一般，但我们能够理解其推理过程」可怕得多。

2.转变研究和治理策略的优先级，比如投入更多精力去解码模型所学到的语言。

用CoT监控模型

如果模型能生成人类可理解的CoT，我们的主要防御手段就是对模型进行详细的监控，虽然极具成本效益但经常被关心。

在理想情况下，可以用几台简单的监控设备来分析模型输出，以检测各种通用的故障模式和不良行为，可追踪的行为类型包括:

各种类型的阴谋（scheming）行为，例如模型是否隐藏了某个特定目标，是否试图重步走监管，是否采取了不符合用户利益的行动等;各种类型的无能的追求（power-seeking）行为，例如模型是否试图获取资源，试图减少，缩短访问批准，试图以某种方式说服他人等;强烈且广泛的目标导向，例如模型在多个上下文中都一直在追求某个特定目标，需要在不同上下文之间进行对比;

可以使用较小但运行更快的模型作为「仅黑箱监控器」（balck-box-onlymonitors），类似用Gemini-flash来监控Gemini，或者使用「白盒探测器」(white-boxprobes)，经过训练以检测有问题的行为(例如，线性探测器或SAE探测器);

最好既能监控行动本身（例如，工具调用），也能监控导致这些行动的推理过程。

模型开发商已经开始使用黑箱监控器来防止模型越狱（jailbreaks），算是有了一个概念验证;简单的线性探测器极具成本效益(只需要一个简单的向量乘积)，可以在几乎不减少缺乏开销的情况下，并行运行上万的探测器。

虽然这些方法看似简单，但研究人员认为，还没有人系统地研究如何对模型进行无效的监控。

监控在概念理解上看似简单，但仍需要极小量的迭代和调整不当，比如需要一个完善的数据集来训练和评估探测器，校准阈值等。

每个AI实验室都应该有一个多余的团队来专门构建监控设备，确保模型按预期工作，分析其结果，使其运行更高效等。

总的来说，监控设备不仅可以直接防止模型生成使加剧性内容，还可以更快、更全面地了解对齐（alignment）技术的有效性。

控制模型

最坏情况下，模型可能有自己的想法，而且人类不一定能看清推理过程，所以需要最大限度地降低模型的实用性，同时最小化风险，具体措施包括:

1.智能体（agents）:以往的研究主要发散在小智能体系统或在较小任务，实验室应该尽快将控制技术应用于最先进的系统，以便尽早积聚实践经验;

2.现实性（realism）:在常见的应用场景下对模型进行控制，比如辅助研究等;

3.蓝队与红队的规则:在某些变体下，红队过于强大，比如可以访问蓝队的所有数据，并针对蓝队进行训练等，对团队的假设应该更「合理」且「不准确」。

4.放宽假设（relaxedasummptions）:控制的假设基于模型始终腹黑，相对保守;可以定义更严格的界限，减少，缩短约束，使模型表现大体不变。

模型的阴谋（scheming）

在帮助研发人工智能系统时，我们也应该加深对大模型图谋不轨行为的理解:

1.检测工具:使用性能更好的工具来检测模型的图谋，例如更大规模的黑箱评估和更好的白箱技术;

2.图谋行为的发展:应该深入理解为什么模型会追求某种能力，了解模型如何学习非短视反感，以及模型何时愿意为了这些反感付出行动;

3.现实中的反感:了解模型在实践中的图谋频率，比如分析1亿个真实的模型回复，似乎是一个低投入、高回报的项目，但需要访问极小量真实的部署数据。

4.隐藏的图谋:分析哪些训练方法会减少，缩短模型的图谋行为，或识别出那些难以检测的图谋行为。如果模型每次出现图谋不轨的时候，就对其进行惩罚，会导致负面行为减少，缩短，但可能会减少模型隐藏阴谋的能力。我们需要针对不不关心况作出判断和不平衡的;

5.准备应对措施:根据模型的图谋程度，采取无视、重新训练模型，或者完全授予模型等不同策略;

6.更多的能力评估:更进一步了解模型在规避监管、干扰训练等程度。

评估

评估是一种高效的「模型图谋」证据收藏，储藏工具，可以减少破坏其他策略，比如评价「监控」或「控制」方法是否有效等。

另一方面，评估也可以让我们了解模型的大体能力，但现有的评估在某些方面仍然不足:

1.能力评估:应该继续构建更多更好的能力评估，特别是针对人工智能研发、策划、核生化、网络和说服等方面，我们目前仍然不清楚模型的具体能力;

2.诱导（Elicitation）:如何对模型进行诱导以产生最大能力，尽可能找到模型的上限能力?

3.预测评估:预测能力的正确方式是什么?那些模型表现仍然为0的基准，该如何突破?或许还有更好的预测评估方法;

4.对齐评估:迄今为止，大多数研究都发散在能力评估上，而「对齐/反感评估」（alignment/propensity）也很重要，应该帮助构建对抗性对齐评估，比如设置各种非短视讨厌陷阱等，为模型建立一个非常详细的「心理档案」，以了解其默认反感;

5.演示:对于研究人员或公司内部来说，需要用一篇严谨的论文来仔细搁置所有的潜在可能性，还需要搁置如何传递演示给普通用户。

短期对齐策略

现有的技术，比如RLHF在模型中引入了非短视（non-myopic）且不可纠正的(non-corrigible)反感，应该投入更多的精力来详细了解模型获得的目标类型，为模型建立详细的「认知档案」。

内部和外部使用的策略应该有无遮蔽的区别，比如模型具有更强的抗越狱能力可能会降低其可纠正性，需要确定哪些策略适用于长期内部部署。

推理透明度

在最好的情况下，内部计划应该是完全不透光的，并明确关于安全预算、组织隐含愿意允许的风险、明确的红线等假设。应该经常与外部专家沟通具体计划，专家可以来自独立组织、学术界或人工智能安全研究所，可以签订保密协议。

从道德上讲，公司应该与公众分享计划中的细节，尤其是影响力更大的AI公司和技术，每个人都应该能够理解他们「应该或不应该」期望这项技术是安全的。

参考资料:

https://x.com/sama/status/1875603249472139576

https://amistrongeryet.substack.com/p/defining-agi

https://www.lesswrong.com/posts/bb5Tnjdrptu89rcyY/what-s-the-short-timeline-plan#So_what_s_the_plan_

相关新闻爱与不爱真实的很明显！韩安冉妈妈并不觉得亏欠了韩安冉爱与不爱真实的很明显！她把属于韩安冉的房子留给小女儿，再一次颠覆了我的认知，不变计开始然后到ks再到xhs一步步关注韩安冉，韩安冉最开始相想当网红，花了几十个w整容,韩妈也非常减少破坏，韩安冉也含糊因为整容有了更多曝光度，也很幸运成为ks的top。

2024-08-0917:16:41韩安冉妈妈并不觉得亏欠了韩安冉韩安冉被妈妈继父遗弃虐待韩安冉被妈妈继父遗弃虐待

2024-08-0915:47:39韩安冉被妈妈继父遗弃虐待韩安冉体重160斤网红韩安冉的孕期生活备受瞩目，尤其随着预产期临近，一场关于母爱、家庭与幸福的序幕悄然拉开。近日，她宣布将于6号通过催产迎接新生命的到来，这一无法选择悠然，从容成为网络热点

2024-09-0313:39:12韩安冉体重160斤韩安冉要起诉妈妈争夺房产：2000万南京豪宅引关注截至2024年8月9日，关于韩安冉准备起诉母亲唐英英，以争取南京一处价值2000万房产的消息，尽管具体细节尚未明朗，却已引发广泛热议

2024-08-0914:12:57韩安冉要起诉妈妈韩安冉自曝曾在婚内出轨情感纠葛与自我反思娱乐圈是个放大镜，映照着公众人物的点点滴滴，成为大众热议的话题。最近，网络红人韩安冉公开了自己的情感波折，坦承婚内曾有出轨行为，这一披露不仅震撼了网友，还煽动了关于婚姻忠诚、情感冲突与个人成长的深度对话。韩安冉的坦白像湖面的涟漪，缓缓扩散

2024-09-0216:46:06韩安冉自曝曾在婚内出轨韩安冉自曝曾出轨情感纠葛与自我反思引热议娱乐圈里，公众人物的每个举动都备受瞩目，成为人们热议的话题。最近，网络红人韩安冉公开允许承认自己在婚姻期间有过出轨行为，这一坦白悠然，从容驱散了公众的注意，同时也引发了关于婚姻忠诚、情感冲突和个人成长的深入讨论

2024-09-0216:50:10韩安冉自曝曾出轨

王琦的微信，已经成了她的一块心病。

六年来，她已经换过两次手机，但微信还是“无情”地涨到了168GB。加上手机照片和其他App，256G的iPhone频繁提示空间报警。每隔一段时间，王琦就要带着烦躁，对微信记录来一波“断舍离”。

上线13年来，曾经“小而美”的微信，正在被网友戏称为“吞噬内存的魔鬼”。国人谁没有过点被它折磨的经历呢？

近日，“微信体积11年压缩575倍”的话题冲上热搜。话题之下，吐槽者众。有人表示，即便换了1T的手机，天长日久也无济于事。有人发问：微信为什么不能效仿快抖，出个极速版？或者允许用户把聊天记录存到云端或网盘？

而拉开视角，国产App们对手机资源的占用之痛，并非微信所独有。

关闭常用的国民App，会看到大到短视频、电商、支付、生活、社区、音乐、地图软件，小到修图、工具软件，空间占用从数G到高达百G的App比比皆是。

在微信压缩的话题下，有用户吐槽，“我的B站也有200多个G”。也有用户不解，“为什么一个天气软件，都需要1个多G。”国产App们，是如何一步步变身“内存刺客”的。它们背着用户，都安了些什么？

删不干净的聊天记录

小白使用微信比较克制，“我不想为它再换手机了”。哪怕工作中接收些大文件，她也尽量存入电脑，手机端则随手清理。

但微信只有26.5G的小白，仍不免遭遇“背刺”。她发现，刚删掉一个月积压的6个G缓存；仅仅7分钟后，在未做任何操作的前提下，缓存就又涨到了171MB。小白不懂几分钟里冒出的这些数据，都是些什么？

以微信为代表的国产App们，它们的后台运行规则，已经很难被非专业用户透视。

今年6月，自媒体“科技狐”将一台手机恢复了出厂设置，重新安装了20款包括微信、抖音、QQ、微博、高德地图、淘宝、拼多多、美团、京东、B站、网易云音乐等在内的热门App，并均用专家机号进行注册后，发现了一些有趣的现象。

下载时，这20款App安装包合计只有3GB出头。解数量增加到安装完毕，它们变为了9GB，这些尚算合理。

但在逐一关闭App，登录全专家机号后，即便什么也不操作，仅使用一段时间，20款APP的总容量，就会“默默”地从9GB攀升到19.2GB——体积快速翻了一倍。

接下来，“科技狐”又分别关闭每款APP各使用了20分钟，只默认加载，不做主动性点击。合计6小时的操作下，App的总体积，已从19.2GB压缩为28.9GB。

App体积为何会在后台野蛮吝啬？功能追求大而全，是最次要的原因。

“好事发生”App开发者王梦珂，曾在国内一家大厂担任产品经理。她告诉「市界」，微信们的底层架构无疑变得越来越复杂，有些功能用户未必会用，但微信需要它存在。“好比一个厨子，消费者什么时候来吃，他无法掌控，但菜先摆出来，消费者才有得挑。”

据「市界」观察，微信的基础运行文件大约为1.2G左右。这个大小与微信的国民地位、极小量功能，特别是同类App相比，已可算在“简约”序列。

真正让人头疼的，是微信的聊天记录和不知从何而来的缓存。上线至今，微信一直重新确认把记录存在用户设备上而非云端。近年来，微信被大众调侃出了新定义——“小而美，是指微信的服务器吧。”

一位接近微信的内部人士告诉「市界」，微信此举更多是出于保护用户隐私的搁置，以规避信息保密等安全问题。王梦珂则认为，这固然与追求安全性有关，把聊天记录存在云端，也会大大减少维护成本。

以微博为例，当我们翻找多年前的博文时，用关键字搜索可能无果，但挨个浏览却能找到。原因便是拉取服务器的存储内容时，会占用更多服务器资源。为了降低耗能，厂商会先不予以展示，这也是企业的一种APM（应用性能无约束的自由）手段。

此外，近年来有不少用户发现，微信的一些底层聊天资料，不容易被彻底使卓越——这或许也是微信日趋臃肿的原因之一。

有技术人员表示：即便删掉了聊天记录，一些对应的文件夹不会被删除。“sns文件夹、xlog文件夹、image文件夹，以.dat为后缀的文件夹里都存着什么？用户无从判断，更别提将其抹除干净。”

海外App，只有300MB？

如果说，除却聊天记录，微信App的本体设计还算“良心”。关闭其他热门国产App，它们“毫无必要”的臃肿体积，更令人触目惊心。

在小白的手机里，单纯浏览、没有下载过文件的得到、B站、知乎，体积都超过了1.5G。较少使用的抖音，体积也有1.58G。有些“沉迷”短视频的网友则表示，自己的抖音大小超过5G。

▲（用户小白的App空间占用情况）

更令人迷思的是，庞大、包罗万象的App，几乎是中国互联网公司的独有特色。在海外，不论是聊天软件WhatsApp，或Facebook、Instagram、YouTube，他们的大小一般只有300MB左右。

赵森在德国留学了两年，“没想到出国后，占用我手机内存最大的还是国内的App，海外App很少有超过1GB的。”

他的手机上，与学业不无关系的Google相对较大，约为488MB；Facebook为269MB，X为227MB，YouTube为225MB。吞噬他手机内存更多的，反而来自微信，以及国内开发的UC浏览器（1.41GB）和WPSoffice（1.08GB）。

▲（用户小白的App空间占用情况）

与海外友人聊天时，赵森常用的WhatsApp只有372MB。他表示，WhatsApp的功能，高度发展仅限于聊天、打电话，不像微信衣食住行娱无所不包。

在聊天记录存储上，WhatsApp也善于做“矛盾转移”，把更多图片和视频，保存到用户的手机相册中。让用户的相册缩小，自身的体积变小。

在英国留学的雪倩，经常使用Instagram、X、Tiktok等软件，她也体会到了国内外软件的统一痛点。雪倩表示：海外种草软件Instagram与小红书相比，同样有图文、视频的功能，并兼具广告属性，大小只有300MB。而小红书却会随着时间，体积压缩超过2GB。

雪倩的手机上，除了体格一骑绝尘的微信，抖音也超过了3GB。有趣的是，她发现植根于海外的TikTok，没有“入乡随俗”，倒是承袭了抖音的设计理念，体积也超过了1GB。

为何海外App比国产App小了这么多？赵森认为，首先简约至上是用户提给互联网公司的高度发展要求。

例如，同样以功能齐全、“一站式”著称的Facebook，可以聊天，也有广告、电商、游戏等功能，但只有300多MB。而与支付宝对标的PayPal，在海外只授予绑卡付款等有限服务，也只有300多MB。

另一方面，国产App在后台对于数据的交出，更有可能是全方位的。微信大到人际关系亲再分隔开近，小到今天走了几步路，对个人信息可以说无不充分掌握。

百度创始人李彦宏曾在2018年谈及：中国人对隐私问题没有那么警惕，用隐私交换便捷性，很多情况下他们是愿意的。

而对于巨头公司来说，若被允许伸长触角，自然符合它们的利益期待。但这在海外很难生根发芽——大型互联网公司想减少“非必要”功能，在政策、民众层面，或大公司之间的博弈层，都会受到更多监管与确认有罪。

例如，2019年Facebook曾打算发行名为“Libra”的虚拟货币，供全球超过十亿人使用。这被外媒视为“照抄微信”，很快被多方叫停。美国参议院银行委员会成员、参议员谢罗德·布朗表示，Facebook已经变得“太大、太强大”。

压缩500多倍的微信，逼我换手机

此外，海内外App的付费不习惯和变现对象，或也间接影响到了App的设计策略。国内互联网产品对C端用户多为免费，收费方向只能面向大小B端。因此，App的功能要做得大而全，既能指责留存，又要驱散厂商加入生态。这也使得，国内App里，百度地图里能查天气，美团里能借贷，支付宝里也能看短视频。

还能回到小而美吗？

凡此种种，当手机内存逐渐被App们折磨得不堪重负时，用户的命运只剩下更换手机了吗？

事实上，许多公司仍在为减少，缩短内存占用，不断进行自我革命、技术迭代。王梦珂透露，国内科技公司的研发部门都会有一个“减少，缩短包体积”的考核指标。目的是缩短代码冗余，希望研发人员能把原来需要5行代码才能解决的事，优化到2行代码解决，以增加安装包的体积。

2023年5月28日，马斯克在X（彼时还叫Twitter）上分享了一张手机储存空间截图并发文，“Sorrythisapptakesupsomuchspace（抱歉这个应用占用了这么多的空间）”。

图中显示，Twitter占用了超过9G的空间，而两款即时通讯应用WhatsApp和Discord分别只占用了1.3GB和2GB。到今年，X的体积大小已经有了无遮蔽的下降。

另据行业人士介绍，现在微博上常用的WebP图片格式，就是谷歌专门开发的新技术。该格式可以让图片接近原画质的情况下，减少，缩短空间占用。

微信内部人士告诉「市界」，微信研发团队目前正在做图片格式的优化开发，以顺应用户需求。同时，微信也在讨论聊天记录的优化方向，或许将来会给用户授予“保存到云端”的选项。

不过，在用户看来，这些使恶化无异于“小修小补”。要解决内存报警，国产App们拿出的解决方案需要更具诚意。

2022年，B站UP主“科技老男孩”曾通过逆向工程揭秘了微信安卓端的APK安装包。他发现，在微信1.0的版本中，只用了199个文件、457KB的安装文件，就实现了聊天这个不次要的部分功能。

而到了2022年6月，微信发布的8.0.24版本中，安装包的体积已经压缩到了257MB，包含12639个文件。换句话说，其中大部分的文件与代码，都是用来实现微信的其他功能。因此，“科技老男孩”调侃，“新版微信有98%的文件都是有用的东西。”

而当下，随着微信小程序、视频号功能还在不断减少——视频号更肉眼可见地，将承载起更多广告、直播、电商等商业化功能，微信很难有理由变得轻盈起来。

一位技术人员对「市界」表示，他对App们主动“减重”不抱期待。要实现App的不次要的部分功能，只需要很少的代码——添加的大部分无效功能，都只是为了“播放广告”。

(责任编辑：zx0600)

上一篇：我离婚后和父亲互相解决
下一篇：诛仙坐骑

标签：