[2026-04-24] DeepSeek v4

1 view

Skip to first unread message

HNews Digest

unread,

Apr 24, 2026, 10:42:25 PM (8 days ago) Apr 24

to mo-...@googlegroups.com

This post is also available on the web as a GitHub issue.

DeepSeek v4

DeepSeek API 概述

DeepSeek API 采用与 OpenAI/Anthropic 兼容的 API 格式，允许用户通过修改配置，使用 OpenAI/Anthropic SDK 或与之兼容的软件来访问 DeepSeek 模型。

关键信息：

基础 URL:
- OpenAI 格式: https://api.deepseek.com
- Anthropic 格式: https://api.deepseek.com/anthropic
API Key: 需要在 https://platform.deepseek.com/api_keys 申请。
模型:
- 可用模型包括：deepseek-v4-flash, deepseek-v4-pro, deepseek-chat, deepseek-reasoner。
- deepseek-chat 和 deepseek-reasoner 将于 2026 年 7 月 24 日弃用。为了兼容性，deepseek-chat 对应 deepseek-v4-flash 的非思考模式，deepseek-reasoner 对应 deepseek-v4-flash 的思考模式。

调用 Chat API 示例 (OpenAI 格式):

以下是一个使用 curl 命令调用 Chat API 的非流式响应示例：

curl https://api.deepseek.com/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer ${DEEPSEEK_API_KEY}" \
  -d '{
        "model": "deepseek-v4-pro",
        "messages": [
          {"role": "system", "content": "You are a helpful assistant."},
          {"role": "user", "content": "Hello!"}
        ],
        "thinking": {"type": "enabled"},
        "reasoning_effort": "high",
        "stream": false
      }'

可以通过设置 stream 参数为 true 来获取流式响应。
Anthropic API 格式的示例请参考 Anthropic API。

api-docs.deepseek.com | 1307 points by impact_sy at 11:01:21 | 934 comments

GPT-5.5

GPT-5.5 发布：更智能、更直观的 AI 模型

OpenAI 发布了 GPT-5.5，这是目前为止最智能、最直观易用的模型，标志着计算机工作方式的新一步。GPT-5.5 能够更快地理解用户的意图，并能自主完成更多工作，尤其擅长编写和调试代码、在线研究、数据分析、创建文档和电子表格、操作软件以及在不同工具之间切换以完成任务。用户可以提供复杂的、多步骤的任务，并信任 GPT-5.5 来规划、使用工具、检查工作、处理歧义并持续推进。

主要改进与特点：

更强的能力： GPT-5.5 在代理编码、计算机使用、知识工作和早期科学研究等领域表现突出，能够跨上下文进行推理并采取行动。
速度与效率： 在提升智能水平的同时，GPT-5.5 保持与 GPT-5.4 相当的 token 延迟，并且更高效，完成 Codex 任务所需的 tokens 更少。
更强的安全性： GPT-5.5 采用了 OpenAI 最强大的安全措施，旨在减少滥用，同时保持对有益工作的访问。
广泛的测试： 在发布前，GPT-5.5 经过了全面的安全和准备框架评估、内部和外部红队测试、针对高级网络安全和生物学能力的测试，以及近 200 名早期访问合作伙伴的反馈。

发布情况：

GPT-5.5 和 GPT-5.5 Pro 已推出到 Plus、Pro、Business 和 Enterprise 用户在 ChatGPT 和 Codex 中。
GPT-5.5 Pro 已推出到 Pro、Business 和 Enterprise 用户在 ChatGPT 中。
API 部署需要不同的安全措施，OpenAI 正在与合作伙伴和客户密切合作，以满足大规模服务的安全要求。API 接口的 GPT-5.5 和 GPT-5.5 Pro 将很快推出。

性能对比：

下表列出了 GPT-5.5 与其他模型在多个基准测试中的表现：

模型	Terminal-Bench 2.0	Expert-SWE	GDPval (wins or ties)	OSWorld-Verified	Toolathlon	BrowseComp	FrontierMath Tier 4
GPT-5.5	82.7%	73.1%	84.9%	78.7%	55.6%	84.4%	35.4%
GPT-5.4	75.1%	68.5%	83.0%	75.0%	54.6%	82.7%	27.1%
GPT-5.5 Pro	-	-	82.3%	-	-	90.1%	39.6%
Claude Opus 4.7	-	-	82.0%	-	-	79.3%	22.9%
Gemini 3.1 Pro	68.5%	-	80.3%	78.0%	48.8%	85.9%	16.7%

其他亮点：

GPT-5.5 在 Codex 中表现出色，可执行各种工程工作，包括实施、重构、调试、测试和验证。
GPT-5.5 能够更好地理解系统结构，识别故障原因，并预测代码库中的影响。
OpenAI 正在构建代理 AI 的全球基础设施，使世界各地的人们和企业能够使用 AI 来完成工作。
GPT-5.5 在科学研究领域也表现出优势，能够帮助研究人员探索想法、收集证据、测试假设和解释结果。

总而言之，GPT-5.5 是 OpenAI 在 AI 领域的重要一步，

openai.com | 1171 points by rd at 02:01:39 | 801 comments

Palantir employees are starting to wonder if they're the bad guys

帕兰蒂尔公司内部反思：数据分析巨头与伦理困境 (Palantir's Internal Reflections: A Data Analytics Giant and Ethical Dilemmas)

本文讲述了数据分析公司帕兰蒂尔（Palantir）内部员工对公司业务伦理的日益担忧，以及公司在特朗普政府时期与移民执法部门合作所引发的争议。

公司背景与发展:

帕兰蒂尔成立于2001年，最初获得中央情报局的投资，旨在利用数据分析技术支持美国反恐行动。其核心业务是提供强大的数据聚合和分析工具，服务于政府、军方和私营企业。

争议与担忧:

与特朗普政府的合作: 在特朗普政府的第二任期内，帕兰蒂尔深度参与了美国移民执法部门的工作，为其提供软件，用于识别、追踪和协助驱逐移民。这引发了员工对公司价值观与公民自由之间冲突的担忧。
员工内部质疑: 许多员工开始质疑公司的行为，认为帕兰蒂尔似乎在助长而非阻止滥用行为。
员工沟通受限: 公司内部对员工发声的限制日益加强，员工受到禁止向媒体发表言论的约束，并需要签署非贬损协议。
对事件的回应迟缓: 公司管理层对员工提出的担忧往往采取回避的态度，并倾向于进行哲学上的解释。
亚历克斯·普雷蒂事件: 2026年1月，一名抗议移民和海关执法（ICE）的护士在明尼阿波利斯被联邦特工枪杀。帕兰蒂尔员工在内部Slack频道中要求公司公开其与ICE的关系，但公司随后删除了相关讨论记录，并以信息泄露为由进行解释。
伊朗导弹袭击事件: 2026年2月，一枚导弹袭击了伊朗一所小学，造成重大人员伤亡。有报告称，帕兰蒂尔的Maven系统可能参与了这次袭击，进一步加剧了员工的道德担忧。
CEO的言论: 帕兰蒂尔CEO亚历克斯·卡普 (Alex Karp) 曾发表言论，暗示AI技术可能对民主选民不利，并呼吁恢复征兵制，引发了员工和外界的批评。
公司价值观的质疑: 帕兰蒂尔发布了一份内部宣言，阐述了卡普的观点，进一步激化了员工的不满，许多人认为这损害了公司的声誉。

公司回应:

帕兰蒂尔发言人表示，公司为支持美国及其盟友感到自豪，并强调公司内部存在激烈的讨论文化。

总结:

帕兰蒂尔公司正面临着日益增长的内部压力，员工对公司与政府合作的伦理影响表示担忧。公司管理层对员工的质疑反应迟缓，并采取限制员工发声的措施，这使得公司内部的反思更加复杂。

wired.com | 788 points by pavel_lishin at 01:30:05 | 544 comments

An update on recent Claude Code quality reports

Claude Code 回归问题调查与改进总结 (Claude Code Regression Issues Investigation and Improvements Summary)

Anthropic 近期收到用户反馈，Claude Code 的表现有所下降。经过调查，发现问题源于三个独立的变更，分别影响了 Claude Code、Claude Agent SDK 和 Claude Cowork。API 层面未受影响。这些问题已于 4 月 20 日 (v2.1.116) 修复。

问题回顾：

推理力度调整 (Reasoning Effort Adjustment)： 3 月 4 日，为了解决 Claude Code 在 high 推理力度下出现的长时间延迟问题 (UI 冻结)，将默认推理力度从 high 调整为 medium。用户反馈表明，更高的推理力度更符合需求。因此，4 月 7 日已将默认力度恢复为 xhigh (Opus 4.7) 和 high (其他模型)。受影响模型：Sonnet 4.6 和 Opus 4.6。
会话缓存优化 (Session Caching Optimization)： 3 月 26 日，为了优化长时间闲置会话的 API 调用成本，引入了会话缓存清除机制。然而，实现中存在 bug，导致缓存清除在每次请求时发生，而非仅发生一次。这导致 Claude 出现健忘、重复等问题。该 bug 已于 4 月 10 日修复。受影响模型：Sonnet 4.6 和 Opus 4.6。
系统提示词变更 (System Prompt Change)： 4 月 16 日，为了减少 Claude 的冗余输出，添加了系统提示词指令。该指令与其它提示词变更结合使用，导致代码质量下降。因此，已于 4 月 20 日回滚该变更。受影响模型：Sonnet 4.6、Opus 4.6 和 Opus 4.7。

问题原因分析：

由于每个变更影响的流量不同，且时间安排不同，导致整体表现出现广泛且不一致的下降。最初的反馈难以区分于正常的波动，且内部测试未能复现问题。

改进措施：

重置使用限制： 为所有订阅用户重置使用限制。
加强内部测试： 更多内部员工将使用公共版本的 Claude Code 进行测试。
改进 Code Review 工具： 改进内部 Code Review 工具并将其发布给用户。
严格控制系统提示词变更： 对系统提示词变更进行更广泛的评估，包括逐行评估 (ablation) 以及逐步发布。
加强模型特定变更管理： 对模型特定的变更进行更严格的管理，确保其只针对目标模型。

Anthropic 感谢用户的反馈，并承诺会持续改进 Claude Code 的质量。用户可以通过 /feedback 命令提供反馈。同时，Anthropic 也在 X (@ClaudeDevs) 和 GitHub 上分享产品决策和背后的原因。

anthropic.com | 599 points by mfiguiere at 01:48:38 | 470 comments

If America's so rich, how'd it get so sad?

美国幸福感骤降：2020年代的“悲剧时代”

根据芝加哥大学经济学家萨姆·佩尔茨曼（Sam Peltzman）2026年的一篇论文，美国曾经是一个相对幸福的国家，但现在不再如此。通过分析《通用社会调查》(General Social Survey)的数据，佩尔茨曼记录了新冠疫情之后美国人口自我报告的幸福感“突然、急剧且前所未有”的下降，并且这种下降“主要持续”到2024年。他称之为“国家情绪的变革”。在持续了50年的幸福感基本稳定的时期后，美国人的幸福感骤降，且尚未完全恢复。

多项指标显示美国人越来越不快乐

这并非孤立的观点。联邦储备银行的工人满意度调查显示，该指标已降至2014年开始调查以来的最低水平。一周前，密歇根大学经济调查的消费者信心指数也跌至70年历史中最低水平。美国人对经济的悲观情绪甚至超过了上世纪70年代的滞胀时期和上世纪90年代的经济衰退。世界幸福报告也显示，美国排名跌至历史最低水平，尤其是在年轻人中的幸福感下降幅度惊人。

经济繁荣与主观幸福感之间的差距

尽管如此，美国经济数据却表现出积极的趋势。失业率几乎在整个十年中都低于5%，美国经济增长速度超过了欧元区、日本和英国等发达国家。越来越多的人进入中产阶级，低收入人群的工资增长速度甚至超过了高收入人群。

然而，这些经济数据与美国人自我报告的幸福感之间存在着巨大的差距。经济学家可能认为，强劲的经济是客观事实，而自我报告的悲观情绪仅仅是“非理性的感觉”。但这种感觉至关重要，因为它影响着消费者行为、政治态度、投票选择和经济政策。

幸福感骤降的普遍性

值得注意的是，幸福感的下降并非集中在年轻人、贫困人口或单身人士等群体中，而是几乎所有人口群体都经历了10%到15%的幸福感下降。

导致幸福感下降的因素

佩尔茨曼的研究显示，导致美国幸福感下降的关键因素可能与以下几点有关：

**持续的危机感：**新冠疫情带来的不仅仅是病毒本身，还引发了经济危机、通货膨胀、供应链中断等一系列问题，这些问题至今未完全解决。
**新闻负面化：**新闻媒体的负面情绪不断加剧了人们对危机的担忧。
**社会信任度下降：**人们对政府、军方、大型企业、教育机构和宗教组织的信任度大幅下降。
**个人孤立：**现代人越来越多地选择独处，并通过社交媒体接触他人，这削弱了社会信任，加剧了负面情绪。
**通货膨胀：**持续的通货膨胀使得生活成本不断上升，加剧了人们的焦虑和不满。

英语国家共同的困境

世界幸福报告显示，除了美国，加拿大、英国、爱尔兰和澳大利亚等英语国家也出现了幸福感下降的趋势。这可能与这些国家的共同特点有关：高度个人主义文化、诊断心理障碍的范围扩大、以及新闻生态系统和社交媒体的负面情绪。

总而言之，2020年代对美国来说是一个“悲剧时代”，经济危机、新闻负面化、社会信任缺失和个人孤立共同作用，导致了美国人普遍的幸福感下降。

derekthompson.org | 457 points by momentmaker at 00:05:30 | 851 comments

Meta tells staff it will cut 10% of jobs

https://www.bloomberg.com/news/articles/2026-04-23/meta-tells-staff-it-will-cut-10-of-jobs-in-push-for-efficiency

bloomberg.com | 451 points by Vaslo at 02:55:32 | 428 comments

US special forces soldier arrested after allegedly winning $400k on Maduro raid

美国特种部队士兵因在委内瑞拉马杜罗被捕事件中投注获利被捕 (Měiguó tèzhǒng bùduì shǒurén yīn zài wèinèiruìlā mǎdúlú bèi bǔ shìjiàn zhōng tòu zhù huòlì bèi bǔ)

事件概要 (Shìjiàn gàiyáo):

一名美国特种部队士兵 Gannon Ken Van Dyke (甘农·肯·范·戴克) 因涉嫌利用内部信息在预测市场 Polymarket 上投注委内瑞拉总统尼古拉斯·马杜罗 (Nicolás Maduro) 的被捕事件，获利高达 40 万美元而被捕并面临指控。

主要细节 (Zhǔyào xìjié):

指控内容 (Zhǐkòng nèiróng): Van Dyke 被指控盗用和滥用机密政府信息，以及欺诈和盗窃。他面临五项刑事指控。
投注行为 (Tòu zhù xíngwéi): 范·戴克在 2026 年 12 月底开始在 Polymarket 上进行投注，押注马杜罗将在 1 月份被“移除”。他进行了 13 次投注，总计投入超过 3.2 万美元，最终获利超过 40 万美元。
行动参与 (Xíngdòng cānyù): 检察官指控范·戴克参与了代号为“绝对决心行动 (Operation Absolute Resolve)”的行动策划和执行，并在此之前就获得了机密信息。
资金转移 (Zījīn zhuǎnyí): 范·戴克将他的巨额利润转移到一个外国加密货币钱包，然后再存入在线经纪账户，试图掩盖资金来源。
法律程序 (Fǎlǜ chéngxù): 范·戴克已缴纳 2.5 万美元保释金，将于下周二在纽约市接受传讯，并已被要求交出护照。
马杜罗被捕及指控 (Mǎdúlú bèi bǔ jí zhǐkòng): 马杜罗在一次秘密行动中被从卡拉卡斯总统府捕获，并被押送到纽约，面临美国联邦的毒品走私指控，目前已表示不认罪。

相关背景 (Xiāngguān bèijǐng):

Polymarket (Polymarket): Polymarket 是一个知名的预测市场平台。该平台已于 2025 年获得特朗普政府批准，但其面向美国用户的网站尚未完全启用。
预测市场监管 (Yùcè shìchǎng jiānguǎn): 随着预测市场的兴起，美国国会已提出多项旨在加强监管的法案，包括对参与内幕交易的政府官员处以更严厉的惩罚。
特朗普政府的评论 (Tǔ'ěngpǔ zhèngfǔ de pínglùn): 特朗普总统表示对人们押注地缘政治事件的趋势表示担忧，并将其比作棒球明星 Pete Rose (彼得·罗斯) 的赌博行为。

Polymarket 的反应 (Polymarket de fǎnyìng):

Polymarket 发布声明表示，一旦识别到用户利用机密政府信息进行交易，他们会立即将其报告给司法部并配合调查，并强调内幕交易在 Polymarket 上不可容忍。该平台已于 3 月份推出新的规则，禁止基于机密信息和内部消息的交易。

cnn.com | 404 points by nkrisc at 05:56:15 | 434 comments

Ubuntu 26.04

Ubuntu 26.04 ("Resolute Raccoon") LTS 发布总结

Ubuntu 26.04 ("Resolute Raccoon") LTS 版本已如期发布。该版本在桌面、服务器和云环境方面显著提升了安全性、性能和易用性。

主要特点：

安全性提升： 引入了基于TPM的全盘加密功能，加强了系统安全性。
内存安全： 扩展了内存安全组件的使用，有助于减少潜在的安全漏洞。
应用权限控制： 改进了应用程序的权限控制机制。
Livepatch支持： 为Arm系统提供了Livepatch支持，减少停机时间并增强系统弹性。

官方衍生版本 (Flavors)：

同时发布了以下官方衍生版本：

Edubuntu
Kubuntu
Lubuntu
Ubuntu Budgie
Ubuntu Cinnamon
Ubuntu Kylin
Ubuntu Studio
Ubuntu Unity
Xubuntu

详细信息请参见官方文档：https://documentation.ubuntu.com/release-notes/26.04/#official-flavors

维护支持周期：

Ubuntu Desktop, Ubuntu Server, Ubuntu Cloud, Ubuntu WSL, 和 Ubuntu Core 将获得5年的维护更新。
其他衍生版本将获得3年的维护支持。

更多信息：

详细的变更列表、系统要求等信息请参考官方发布说明：https://documentation.ubuntu.com/release-notes/26.04/

lwn.net | 261 points by lxst at 12:38:37 | 189 comments

U.S. soldier charged with using classified info to profit from prediction market

美国士兵因利用机密信息进行赌博被指控

要点概述:

美国司法部今日宣布对美国陆军士兵Gannon Ken Van Dyke（甘农·肯·范·戴克）提起诉讼，指控其非法利用机密政府信息牟利，涉嫌盗窃非公开政府信息、商品欺诈、电汇欺诈以及进行非法货币交易。

事件经过:

涉案操作: Van Dyke参与了代号为“绝对决心行动”（Operation Absolute Resolve）的美国军事行动，旨在捕获委内瑞拉总统尼古拉斯·马杜罗（Nicolás Maduro）。他利用在行动中获取的机密信息在预测市场Polymarket上进行赌博。
赌博行为: Van Dyke于2025年12月创建了Polymarket账户，并进行了约13次赌博，押注与委内瑞拉和马杜罗相关的事件，如“美国军队在委内瑞拉”、“马杜罗下台”等。他总共投注了约33,034美元。
行动结果与获利: 2026年1月3日，美国特种部队成功逮捕了马杜罗及其妻子，美国总统随后宣布行动成功。Polymarket上与马杜罗和委内瑞拉相关的预测合约因此被结算为“是”，Van Dyke由此赢得了约409,881美元的赌资。
掩盖行为: Van Dyke随后将大部分收益转移到海外加密货币账户，并试图掩盖其在Polymarket上的交易痕迹，例如要求删除账户并更改加密货币交易所的注册邮箱。

指控与惩罚:

Van Dyke被指控犯有以下罪名：

违反商品交易法案 (3 项，每项最高判处 10 年监禁)
电汇欺诈 (最高判处 20 年监禁)
非法货币交易 (最高判处 10 年监禁)

相关机构声明:

纽约南区美国检察官Jay Clayton表示，利用机密信息进行赌博是违法的，将严惩此类行为。
代理司法部长Todd Blanche强调，联邦法律对保护国家安全信息有明确规定。
联邦调查局局长Kash Patel表示，任何持有安全许可的人利用信息牟利都将受到追究。
联邦调查局纽约办事处助理主管James C. Barnacle, Jr.表示，Van Dyke通过交易获取了超过40万美元的非法收益。

合作与调查:

美国司法部感谢联邦调查局的努力，并感谢美国战争部、商品期货交易委员会以及Polymarket的配合。此案由纽约南区美国检察官办公室的安全与商品欺诈工作组和国家安全与国际毒品单位负责处理。

重要声明:

文中关于Van Dyke的行为描述仅为指控，所有事实应被视为指控。

justice.gov | 248 points by paulpauper at 06:37:01 | 2 comments

'Hairdryer used to trick weather sensor' to win Polymarket bet

https://www.telegraph.co.uk/business/2026/04/23/hairdryer-used-trick-weather-sensor-34000-polymarket-bet/

telegraph.co.uk | 234 points by zdw at 01:01:01 | 233 comments

Incident with multple GitHub services

事件摘要 (Incident Summary)

事件状态：已解决 (Resolved)

事件时间： 2026年4月23日 (Apr 23, 2026)

主要内容：

本次事件涉及多个服务，最初报告显示Copilot和Webhooks出现可用性下降。随后，Actions也出现了性能下降。

事件进展：

16:12 UTC： 开始调查Copilot和Webhooks可用性下降的报告。
16:19 UTC： 正在调查多个不可用的服务。
16:34 UTC： Actions 出现性能下降，正在继续调查。
16:52 UTC： 已经识别出问题的根源，正在进行缓解措施。
17:03 UTC： Actions 和 Copilot 的性能下降已得到缓解，正在监控以确保稳定性。
17:04 UTC： 许多服务已得到缓解，正在验证剩余服务。
17:10 UTC： Webhooks 运行正常。
17:30 UTC： 事件已解决。感谢用户的耐心和理解，详细的根本原因分析将在完成后发布。

受影响的服务：

Webhooks
Actions
Copilot

githubstatus.com | 221 points by bwannasek at 00:21:55 | 109 comments

Habitual coffee intake shapes the microbiome, modifies physiology and cognition

咖啡摄入影响肠道微生物群并调节宿主生理和认知

摘要

咖啡是一种由加工过的咖啡豆制成的植物性饮料。其风味和成分因咖啡豆种类、成熟度、加工方式、烘焙方式和冲泡方法而异。咖啡中的主要植物化学成分包括生物碱（如咖啡因）、(多)酚类（如酚酸）、类萜和烘焙过程中形成的焦色物质。适量饮用咖啡与多种健康益处相关，包括降低患 2 型糖尿病、肝病、心血管疾病和癌症的风险。一项大型横断面研究表明，适量饮用咖啡与全因死亡率、心血管死亡率和中风发病率降低相关。咖啡摄入与帕金森病的风险呈剂量依赖性降低。荟萃分析表明，咖啡消费者面临抑郁症风险降低。一项对认知衰退的研究显示，咖啡摄入与阿尔茨海默病发病率降低了 27%。

这些系统性益处与咖啡对大脑的直接影响相符，塑造了神经活动和认知结果。功能性磁共振成像研究表明，习惯性咖啡饮用者在与感觉、运动和情感处理相关的脑区表现出不同的功能连接。这些变化似乎取决于摄入频率，这表明规律的咖啡摄入可能影响大脑功能和情绪调节。最近的数据表明，老年人的认知功能（尤其是记忆和处理速度）与咖啡摄入呈正相关。咖啡摄入会导致皮质醇水平暂时升高，但习惯性使用后会恢复正常，表明生理适应。然而，咖啡对压力的影响尚不确定，研究结果好坏参半。

咖啡还会影响胃肠道。它会增加胃酸分泌并刺激辅助消化的激素释放。咖啡因和脱咖啡因咖啡都可促进结肠和回肠平滑肌的收缩，有助于预防便秘。越来越多的证据表明咖啡会影响人类健康和生理，其作用既有直接的，也有间接的，特别是通过肠道微生物群。

越来越多的证据表明，肠道微生物群对咖啡具有反应性，咖啡具有益生元作用。这主要归功于其纤维状化合物和酚酸，如绿原酸。例如，咖啡中的焦色物质可能会通过促进产短链脂肪酸细菌的生长来增加血清短链脂肪酸（SCFA）水平。一些研究表明，咖啡摄入会促进 Bacteroides 及其它属于革兰氏阳性菌属 双歧杆菌 和 乳酸菌 的益生菌的生长。此外，咖啡酚的生物利用度和代谢因人而异，这种现象受到肠道微生物群的影响。咖啡酚还可能通过激活大脑中的抗氧化反应因子来减少神经炎症。

一项涉及超过 1000 名参与者的宏基因组学研究发现，咖啡摄入与饮食成分之间的相关性最为密切，并且在第二个队列中得到验证。这表明咖啡可能通过其与肠道微生物群的相互作用来介导认知。例如，咖啡摄入与 Lawsonibacter asaccharolyticus 等产丁酸菌的水平升高有关。事实上，肠道-脑轴是一种双向信号通路，其在维持健康方面发挥着作用。

本研究旨在探索咖啡摄入、戒断和再摄入对认知、情绪和行为的影响，同时评估肠道微生物群。研究采用自报问卷调查，并对健康成年人的肠道微生物群和代谢组进行了分析。此外，还研究了压力、炎症和微生物衍生的代谢物等肠道-脑轴的途径。

研究结果

该前瞻性研究包括三个阶段，每个阶段都评估了认知、压力、身体健康、情绪和肠道微生物群。研究人员将不喝咖啡者（NCD）与喝咖啡者（CD）进行了比较，然后 CD 停止饮用咖啡 14 天。随后，CD 分别接受了含咖啡因或脱咖啡因咖啡的再摄入治疗 21 天。

在基线时，CD 的自报问卷调查结果显示，与 NCD 相比，CD 的冲动行为量表（UPPS-P）和其“寻求感官刺激”子分量更高。CD 还表现出更高的情绪反应量表（ERS）分数。戒断咖啡后，CD 的 UPPS-P 总分和负冲动分数，以及 ERS 分数显著降低。随后，再摄入含咖啡因或脱咖啡因咖啡时，CD 的压力自报症状和抑郁自报症状均有所改善。

受试者在经过 ModRey 测验后，脱咖啡

nature.com | 213 points by scubakid at 12:04:42 | 147 comments

Why I Write (1946)

乔治·奥威尔自述写作动机：总结

本文为乔治·奥威尔于1946年发表在《Gangrel》杂志上的自述，阐述了他写作的动机、早期经历以及对写作的理解。主要内容如下：

一、早期写作经历与动机:

奥威尔从小就渴望成为一名作家，并在少年时期尝试写作诗歌、短篇小说和戏剧。
早期的写作与孤独感、自卑感有关，他通过写作来寻求一种补偿，建立一个私人的世界。
除了正式的写作，他还经常在脑海中构建一个持续的“故事”，对自身经历和所见事物进行细致的描述。
青少年时期，他发现了文字的魅力，受到《失乐园》等作品的影响，梦想创作自然主义风格的大部头小说，充满细致的描写和华丽的辞藻。

二、写作动机：四大支柱

奥威尔总结了四种主要的写作动机，并指出这些动机在不同作家和不同时期会以不同的比例存在：

自我中心主义 (Egoism): 渴望被关注、被记住，获得认可，是对童年经历的回应。
美学热情 (Aesthetic Enthusiasm): 对外部世界或文字本身的美感产生愉悦，并希望与他人分享这种体验。
历史冲动 (Historical Impulse): 渴望了解真相，记录事实，为后人留下历史的真实面貌。
政治目的 (Political Purpose): 渴望改变社会，影响人们的观念，推动社会向特定方向发展。

三、个人经历与政治觉醒:

早年的职业经历（缅甸殖民地警察）和贫困生活，使他逐渐意识到自身对权威的反感以及对工人阶级的关注。
希特勒、西班牙内战等事件促使他明确了自己的政治立场，并决定投身于反对极权主义、支持民主社会主义的写作事业。
他认为在动荡的时代，避免政治主题的写作是困难的，关键在于选择立场并保持艺术和知识的完整性。

四、写作艺术与政治结合:

奥威尔致力于将政治写作提升为艺术，他认为写作的起点是强烈的党派感和对不公正现象的愤怒。
他努力在写作中融合政治目的和艺术追求，力求在表达政治观点的同时，保持作品的审美价值。
他试图以更精确、更简洁的语言进行写作，避免华丽辞藻和空洞的表达。
《动物庄园》是他尝试将政治目的与艺术目的融为一体的代表作。

五、写作的内在驱动力:

奥威尔承认作家具有自私、懒惰的本性，写作本身是一项艰辛的斗争，源于一种难以抗拒、难以理解的内在驱动力。
他认为优秀的散文应该像窗户玻璃一样透明，不应带有作家的个人色彩。
他最终认识到，缺乏政治目的的写作往往会变得空洞乏味，而政治目的的明确能够激发作家的创作灵感。

总而言之，奥威尔的自述强调了写作的复杂性和多面性，以及政治与艺术之间微妙的平衡。他认为，真正的作家应该在追求艺术价值的同时，勇于承担社会责任，用文字揭露真相，推动社会进步。

orwellfoundation.com | 212 points by RyanShook at 10:26:23 | 51 comments

Girl, 10, finds rare Mexican axolotl under Welsh bridge

十岁女孩在威尔士桥下发现罕见的墨西哥娃娃鱼

主要内容：

近日，威尔士布里登河畔的“洗脚桥”(Dipping Bridge)附近，一位名叫埃维 (Evie) 的10岁女孩意外发现了一只墨西哥娃娃鱼 (Axolotl)。这只娃娃鱼被命名为“Dippy”，目前由埃维一家带回家中饲养。

关键细节：

发现过程： 埃维在河边玩耍时，在桥下河岸的石头缝隙中发现了一只约23厘米长的娃娃鱼，它尾部和腹部有伤。
罕见程度： 墨西哥娃娃鱼是濒危物种，全球仅存50到1000只。这是英国首次记录到野生墨西哥娃娃鱼的发现。
娃娃鱼的流行： 近年来，由于在Minecraft和Roblox等游戏中出现，墨西哥娃娃鱼作为宠物越来越受欢迎。
家庭反应： 埃维的母亲梅拉尼 (Melanie) 对此感到震惊，并表示他们决定缩短假期，将Dippy带回家。
专家观点： 国家爬行动物福利中心 (NCRW) 的克里斯·纽曼 (Chris Newman) 认为，埃维很可能救了Dippy的命。他推测娃娃鱼可能是因为主人情况变化而被放生，这既违法又对动物不利。
饲养挑战： 专家提醒，娃娃鱼饲养难度较高，需要满足其特定的环境、饮食和行为需求，不应盲目购买。
发现的意义： 这种发现应该向相关机构报告。纽曼表示，埃维的发现非常独特，并称赞她具有敏锐的观察力。

关于墨西哥娃娃鱼：

墨西哥娃娃鱼是一种没有经历变态的蝾螈，始终保持在水中生活。
它们具有惊人的再生能力，可以再生肢体、眼睛甚至大脑的一部分。
由于栖息地丧失，野生墨西哥娃娃鱼数量急剧减少，目前已濒临灭绝。

总结：

埃维的意外发现不仅为科学研究提供了珍贵的机会，也提醒人们关注濒危物种的保护，以及规范宠物饲养的重要性。这起事件也突显了孩子们对大自然的兴趣和好奇心，以及他们为保护环境所能发挥的作用。

bbc.com | 191 points by codezero at 03:09:40 | 156 comments

MeshCore development team splits over trademark dispute and AI-generated code

MeshCore 项目现状与未来方向 (MeshCore Project Status and Future Direction)

MeshCore 项目经历了一段动荡时期，核心团队现发布声明，解释当前情况并宣布新的官方信息发布渠道。

核心事件回顾 (Key Events Recap):

AI 代码使用争议 (AI Code Usage Controversy): 团队成员 Andy Kirby 在未经团队知情的情况下，大量使用了 Claude Code (AI 代码生成工具) 开发 MeshCore 生态系统组件，包括独立设备、移动应用、以及 Web 闪存和配置工具。团队对 AI 生成代码持谨慎态度，但并未阻止个人实验。
商标申请与沟通破裂 (Trademark Application and Communication Breakdown): Andy Kirby 在 3 月 29 日申请了 MeshCore 商标，并且未告知团队。随后沟通破裂，团队与 Andy Kirby 已失去联系。
社区投票结果 (Community Poll Results): 在 MeshCore Discord 社区进行的投票显示，大多数用户希望了解固件是否由 AI 生成，并希望获得知情权。

“官方”MeshCore 的定义 (Defining "Official" MeshCore):

团队强调，真正的“官方”MeshCore 是 GitHub 仓库 (https://github.com/meshcore-dev/MeshCore)，这是 MeshCore 的代码源。 Andy Kirby 的 MeshOS 项目以及他过度使用“官方”的说法，并不代表官方 MeshCore。

项目增长 (Project Growth):

尽管经历内部冲突，MeshCore 项目发展迅速：

节点数量 (Node Count): 全球 MeshCore 节点数量已超过 38,000 个 (通过 https://map.meshcore.io 统计)。
用户数量 (User Count): MeshCore 应用 (Android 和 iOS) 的活跃用户超过 100,000 人 (通过 https://meshcore.io 应用统计)。
社区发展 (Community Development): 多个国家和地区涌现了 MeshCore 社区站点，例如 MeshCore Portugal (https://meshcore.pt)、MeshCore Switzerland (https://meshcore.ch) 和 MeshCore UK (https://meshcore.co.uk)。

新的官方渠道 (New Official Channels):

由于 Andy Kirby 控制了 meshcore.co.uk 网站和原始 Discord 服务器，核心团队已启动新的官方网站 https://meshcore.io 并同步复制了其设计风格（尽管团队曾要求其停止）。团队发布了新的信息发布渠道：

官方网站: https://meshcore.io
博客: https://blog.meshcore.io
技术文档: https://docs.meshcore.io

核心团队成员 (Core Team Members):

核心团队现在由 Scott (创始人，固件工程师)、Liam (应用开发者)、Recrof (地图开发者，固件闪存专家)、FDLamotte (Python 工具和 STM32 固件开发者) 和 Oltaco (OTA 修复引导加载程序开发者) 组成，致力于设计和开发高质量、人工编写 的软件。

新的 Discord 服务器 (New Discord Server):

团队启动了新的 Discord 服务器 (https://meshcore.gg)，用于与开发者互动、提供项目支持和贡献 MeshCore 的未来发展。

总结 (Summary):

MeshCore 项目目前正经历内部重组。核心团队致力于维护项目的开源精神，并通过新的官方渠道继续推进开发工作，并与社区保持密切联系。核心团队希望用户更新书签，使用新的官方网站和 Discord 服务器获取最新信息。

blog.meshcore.io | 173 points by wielebny at 00:55:13 | 100 comments

S. Korea police arrest man over AI image of runaway wolf that misled authorities

韩国警方逮捕男子发布AI虚假狼的照片

以下是对新闻报道的总结：

韩国警方逮捕了一名男子，原因是其发布了一张人工智能（AI）生成的图片，误导了搜寻逃脱动物园的狼“Neukgu”的行动。

主要事件:

狼的逃脱: 一只名为Neukgu的两岁狼于4月8日从大田市动物园逃脱。Neukgu是O-World动物园的繁殖计划的一部分，旨在恢复朝鲜狼种群，该种群曾分布于朝鲜半岛，现已灭绝。
虚假图片: 这名40岁的男子利用AI生成一张照片，声称显示Neukgu在路口行走。这张照片在狼逃脱后的几个小时内开始传播。
误导搜寻: 该照片导致大田市政府向居民发送紧急短信，警告附近有狼出没。警方也曾在新闻发布会上展示这张AI图片，从而将搜寻重点引向错误的方向。
逮捕与指控: 警方通过审查监控录像和AI程序使用记录，确定了该男子。他被指控以欺骗手段妨碍政府工作，最高可判处五年监禁或处以1000万韩元的罚款（约合6700美元/5000英镑）。该男子在接受讯问时表示他这样做“只是为了好玩”。
狼的被捕: 经过九天的搜寻，Neukgu最终在高速公路附近被捕。
公众关注: 这起事件引起了韩国全国的广泛关注，甚至包括总统李在明，他公开祈祷Neukgu平安归来。
Neukgu的“狂热”: 狼被安全送回动物园后，城市掀起了一股对Neukgu的狂热。当地一家面包店开始销售以狼为主题的糕点，并且城市正在考虑将Neukgu指定为官方吉祥物。动物园发布的Neukgu进食的视频获得了超过一百万的点击量。目前动物园已宣布停止发布Neukgu的更新，以给它一个安静的恢复环境。

bbc.com | 169 points by giuliomagnifico at 17:17:57 | 95 comments

My phone replaced a brass plug

好的，以下是根据您提供的文本生成的摘要，用中文书写，并控制在800字以内：

从烹饪到射击：自动化靶卡评分的探索

作者讲述了自己从对烹饪的热爱，到学习狩猎，最终开发自动化靶卡评分系统的经历。最初，作者每周三晚上在爱丁堡郊外的射击场度过，记录呼吸、走位，并使用传统方法评分靶卡。这个过程包括识别近边缘的射击、使用不同尺寸的黄铜塞进行精确评分，以及应对靶卡上的“Ducky”提示以避免撞头。

狩猎的契机与射击入门

为了更深入地了解肉类，作者开始学习狩猎。在英国，无需特殊许可即可在土地所有者的监督下使用其提供的枪支进行鹿狩猎。尽管作者之前从未接触过枪支，但他认为学习射击是必要的，并开始每周两次的射击训练。

自动化需求的产生

在半年的训练中，作者积累了一定的体重，并对寻找合适的评分塞感到厌倦。他意识到，将这个过程自动化是一个不错的想法。

技术挑战与解决方案

作者首先尝试使用苹果的Vision框架进行目标检测，但由于“负空间”的特性，难以准确识别子弹孔。随后，他研究了2012年的一篇关于靶卡自动评分的论文，并成功复现了其中的步骤：擦除环线、洪泛填充、Prewitt边缘检测和Hough变换。然而，这种方法也遇到了挑战，例如识别环线上的射击和识别靶卡上的数字。

为了解决这些问题，作者结合了OpenCV和YOLOv8，利用OpenCV进行结构几何分析，YOLOv8进行子弹孔定位。最终，他使用CoreML将模型打包，形成了一个22.4MB的iOS应用。

评分过程与精度提升

作者通过实验调整了子弹半径的计算方法，并最终达到了80%的准确率。为了进一步提高精度，他利用学习到的模型进行子弹孔检测，并结合几何环半径计算得分。

自动化带来的洞察

自动化评分系统不仅解决了评分问题，还为作者提供了更多洞察。通过分析射击数据，作者可以发现射击趋势、识别问题（例如触发压力、呼吸问题），并最终证明在射击前吃甜甜圈会降低射击表现。

最终成果与展望

作者将自动化系统打包成一个小型离线应用，并分享给射击俱乐部的其他成员。尽管该应用主要针对NSRA靶卡，但他计划逐步扩展支持其他射击项目。作者希望他的作品能够像传统的评分工具一样，在未来持续发挥作用，并激励其他人尝试自动化。

总结

作者的经历展示了从烹饪到射击的转变，以及利用技术解决实际问题的过程。他通过结合各种技术手段，克服了挑战，最终开发出了一款实用的自动化靶卡评分系统，并从中获得了宝贵的经验和洞察。

drobinin.com | 164 points by valzevul at 00:27:07 | 41 comments

TorchTPU: Running PyTorch Natively on TPUs at Google Scale

TorchTPU：在TPU上实现高性能、可移植的PyTorch体验 (TorchTPU: Achieving High-Performance, Portable PyTorch on TPUs)

This document details the development of TorchTPU, a project aimed at enabling seamless and efficient PyTorch workloads on Google's Tensor Processing Units (TPUs). Addressing the challenges of modern AI infrastructure—specifically the need for performance, hardware portability, and reliability when scaling models across thousands of accelerators—TorchTPU prioritizes usability and developer experience.

Core Concepts & Architecture:

TPU Infrastructure: TPUs are custom ASICs integrated into a network (Inter-Chip Interconnect - ICI) forming a 2D or 3D torus topology, optimized for dense matrix math (TensorCores) and irregular memory access (SparseCores).
Usability Focus: TorchTPU is designed to "feel like PyTorch." Developers should be able to switch their initialization to "tpu" and run their training loops with minimal code changes.
Eager First Philosophy: TorchTPU utilizes PyTorch’s “PrivateUse1” interface, offering three eager modes:
- Debug Eager: Slow, for debugging.
- Strict Eager: Mirrors default PyTorch execution, enabling simultaneous CPU and TPU operation.
- Fused Eager: Automatically fuses operations for increased performance (50-100%+ faster than Strict Eager) through TensorCore optimization. All modes utilize a shared Compilation Cache.
Static Compilation (torch.compile): Leverages Torch Dynamo and XLA for full-graph compilation, mapping PyTorch operators to StableHLO for optimized TPU binaries.
Custom Kernel Support: Supports custom kernels written in Pallas and (future) Helion, allowing low-level hardware instruction interfacing.
Distributed Training: Supports Distributed Data Parallel (DDP), Fully Sharded Data Parallel v2 (FSDPv2), and DTensor, ensuring compatibility with existing PyTorch distributed APIs. TorchTPU addresses SPMD limitations by carefully supporting divergent executions (MPMD).
Hardware Awareness: Offers guidelines and tools for optimizing model architectures to leverage TPU hardware capabilities, such as efficient matrix multiplication at specific dimensions.

Roadmap (2026 and Beyond):

Public GitHub Repository: Release of source code, documentation, and tutorials.
Helion DSL Integration: Expanded custom kernel capabilities.
Dynamic Shape Support: Native support for dynamic shapes within torch.compile.
Multi-Queue Support: Improved migration of asynchronous codebases.
Ecosystem Integration: Collaboration with vLLM and TorchTitan and scaling to full Pod-size infrastructure.

TorchTPU's goal is to remove barriers and provide a seamless PyTorch experience on TPUs, enabling developers to leverage the power of Google's supercomputing infrastructure for AI model training and serving.

developers.googleblog.com | 161 points by mji at 04:53:27 | 14 comments

UK Biobank leak: Health details of 500 000 people are offered for sale

UK Biobank 数据泄露事件总结

根据《柳叶刀》杂志的报道，一份包含50万名参与者医疗数据的英国健康数据慈善机构UK Biobank的信息，在中国的电商平台阿里巴巴上被发现出售。

主要内容：

数据内容： 出售的数据包含参与者的性别、年龄、出生年月、社会经济地位、生活习惯、心理健康状况、自我报告的病史、认知功能以及身体测量数据。
更详细的数据： 还包括来自血液学、生化学、代谢组学和蛋白质组学样本的测量数据，以及按照国际疾病分类标准（ICD）编码的健康状况（如癌症）的病历数据，包括诊断日期。
发现时间： UK Biobank于2024年4月20日发现了三个出售数据的列表，其中至少有一个数据集包含所有50万名UK Biobank志愿者的信息。
其他服务： 还有提供申请数据的支持服务的列表。
影响： 此次数据泄露事件引发了对参与者隐私和数据安全的担忧。

总结： 英国健康数据慈善机构UK Biobank的参与者数据，包括详细的医疗信息，在阿里巴巴平台上遭到出售，涉及了包括50万人的敏感数据。

bmj.com | 159 points by dberhane at 19:09:36 | 58 comments

Spinel: Ruby AOT Native Compiler

Spinel -- Ruby AOT 编译器总结 (Spinel -- Ruby AOT Compiler Summary)

Spinel 是一个 Ruby AOT (Ahead-of-Time) 编译器，它将 Ruby 源代码编译成独立的、原生可执行文件。它通过执行全程序类型推断并生成优化的 C 代码，实现了比 CRuby 更显著的速度提升。

工作原理:

解析: 使用 Prism 解析 Ruby 源代码，序列化为 AST (抽象语法树) 文本文件。
代码生成: Spinel 后端 (一个自托管的 Ruby 二进制文件) 执行类型推断并生成 C 源代码。
编译: 使用标准 C 编译器 (cc) 将 C 源代码编译成原生二进制文件。

主要特点:

自托管: 编译器后端本身是用 Ruby 编写的，并能编译自身。
无运行时依赖: 生成的二进制文件不依赖于 Ruby 运行时环境，只有对 libc 和 libm 的依赖。
快速启动: 编译后的程序启动速度极快。

性能基准测试:

在 28 个基准测试中，Spinel 比 CRuby 的 miniruby 构建快 约 11.6 倍。
在某些计算密集型工作负载中，速度提升可达 86.7 倍 (例如 Conway's Game of Life)。
在数据结构和 GC 基准测试中，速度提升范围在 2.0x 到 22.6x 之间。
在真实世界的程序基准测试中，速度提升范围在 2.9x 到 10.1x 之间。

支持的 Ruby 特性:

Spinel 支持 Ruby 的核心特性，包括类、继承、控制流语句 (if/else, case, while, for..in)、块、异常处理、基本数据类型 (Integer, Float, String, Array, Hash, Range, Time, StringIO, File, Regexp, Bigint)、全局变量、字符串操作、正则表达式、Fiber 和内存管理(基于 mark-and-sweep 的 GC)。它还支持部分更高级的功能，例如符号和字符串的优化。

优化:

Spinel 采用了多种优化技术：

值类型推广: 小的、不可变类自动转换为 C 结构体，消除 GC 开销。
常量传播: 将简单的常量直接嵌入到使用位置。
循环不变长度提升: 循环中字符串长度的计算只进行一次。
方法内联: 将短方法内联到调用位置。
字符串连接链扁平化: 多个字符串连接操作优化为单个函数调用。
Bigint 自动推广: 循环中的乘法自动使用 Bigint。
死代码消除: 在链接时删除未使用的运行时函数。

架构:

Spinel 的架构包括：

spinel: 包装脚本 (POSIX shell)。
spinel_parse.c: C 前端，使用 libprism 解析源代码。
spinel_codegen.rb: 编译器后端，生成 C 代码。
lib/sp_runtime.h: 运行时库头文件。
lib/sp_bigint.c: Bigint 实现。
lib/regexp/: 内置正则表达式引擎。

限制:

不支持 eval 和 instance_eval。
不支持动态元编程。
不支持线程。
不支持编码。
对 Lambda 表达式的支持有限。

构建:

使用 make 命令构建 Spinel。构建过程需要 libprism 和 CRuby (仅用于自托管)。

许可证:

MIT 许可证。

github.com | 154 points by dluan at 16:28:47 | 35 comments

DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

DeepSeek-V4：迈向高效百万token上下文智能

DeepSeek-AI 发布了 DeepSeek-V4 系列预览版本，包含两个强大的混合专家 (MoE) 语言模型：DeepSeek-V4-Pro (1.6T 参数，激活 49B) 和 DeepSeek-V4-Flash (284B 参数，激活 13B)，两者均支持 一百万 token 的上下文长度。

主要升级：

混合注意力架构: 结合压缩稀疏注意力 (CSA) 和高度压缩注意力 (HCA)，显著提升长上下文效率。DeepSeek-V4-Pro 在 1M token 上下文设置中，所需单 token 推理的 FLOPs 仅为 DeepSeek-V3.2 的 27%，KV 缓存占用也降至 10%。
Manifold-Constrained Hyper-Connections (mHC): 加强残差连接，提升信号在层间的稳定性，同时保持模型表达能力。
Muon 优化器: 加速收敛并提高训练稳定性。

训练与后训练：

模型在超过 32T 多样且高质量 token 上进行预训练。
后训练采用两阶段模式：首先独立培养领域特定专家 (通过 SFT 和 RL with GRPO)，然后通过在线蒸馏整合不同领域的专业知识于单一模型中。

性能亮点：

DeepSeek-V4-Pro-Max (DeepSeek-V4-Pro 的最大推理模式) 显著提升了开源模型的知识能力，成为目前最佳的开源模型。在编码基准测试中表现出色，并在推理和代理任务方面显著缩小了与领先闭源模型的差距。
DeepSeek-V4-Flash-Max 在给定更大思考预算时，推理性能可与 Pro 版本媲美，但由于参数规模较小，在纯知识任务和最复杂的代理工作流方面略逊于 Pro 版本。

模型下载：

模型名称	总参数量	激活参数量	上下文长度	精度	下载链接
DeepSeek-V4-Flash-Base	284B	13B	1M	FP8 混合	HuggingFace \| ModelScope
DeepSeek-V4-Flash	284B	13B	1M	FP4 + FP8 混合	HuggingFace \| ModelScope
DeepSeek-V4-Pro-Base	1.6T	49B	1M	FP8 混合	HuggingFace \| ModelScope
DeepSeek-V4-Pro	1.6T	49B	1M	FP4 + FP8 混合	HuggingFace \| ModelScope

推理模式：

DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 均支持三种推理模式：

Non-think: 快速、直观的响应，适用于日常任务。
Think High: 意识到的逻辑分析，速度较

huggingface.co | 154 points by cmrdporcupine at 11:07:54 | 15 comments

Show HN: How LLMs Work – Interactive visual guide based on Karpathy's lecture

大型语言模型的工作原理：概述

本文档详细介绍了大型语言模型 (LLM) 的构建过程，例如 ChatGPT，从原始互联网文本到对话式助手。以下是主要要点：

1. 数据收集与预处理:

数据来源: 主要使用 Common Crawl（自 2007 年以来抓取了 27 亿网页）等组织提供的大量网络数据。
数据规模: 经过过滤后，最终得到约 44TB 的高质量数据集，包含约 15 万亿个 token。
数据质量的重要性: 数据质量和多样性对最终模型的影响大于其他因素。
预处理步骤: 包括 URL 过滤（屏蔽恶意网站、垃圾信息等）、文本提取（去除 HTML 标签等）、语言过滤（保留特定语言内容）、去重（去除重复内容）和 PII 信息移除（保护个人隐私）。

2. Tokenization (分词):

神经网络的输入: 神经网络无法直接处理原始文本，需要将其转换为数字。
分词方法: 使用 Byte Pair Encoding (BPE) 算法，将文本分解为“token”（子词块）并分配 ID。
BPE 优势: 能够处理无限变体的单词、新单词、错误拼写和多种语言，并有效压缩序列长度。
词汇量: GPT-4 使用 100,277 个 token 的词汇表。

3. 训练神经网络:

模型架构: 使用 Transformer 神经网络，包含数十亿个参数。
训练过程: 通过预测文本序列中下一个 token 来调整参数。
Embedding: 每个 token ID 映射到包含 1,000-4,000 个数字的向量（embedding），表示其含义。Attention 层将上下文信息融入到 embedding 中，从而解析多义词。
训练规模: 现代 LLM 拥有数百亿参数，训练数据达到数万亿 token。

4. 推理和 Token 采样:

文本生成: 模型通过自回归方式生成文本：输入 token 序列，得到所有可能下一个 token 的概率分布，并从中采样一个 token，然后重复此过程。
随机性: 文本生成是随机的，相同的 prompt 会产生不同的输出。
Temperature: 控制随机性，较低的 temperature 倾向于选择最可能的 token，较高的 temperature 则更随机。

5. 构建助手模型:

基础模型: 训练后的模型是一个“互联网模拟器”，可以根据其所见到的互联网内容完成 token 序列。
监督微调 (SFT): 使用人类标注的对话数据对基础模型进行微调，使其学习模仿理想助手的行为。
强化学习人类反馈 (RLHF): 使用人类对模型输出的排序来训练奖励模型，然后使用强化学习优化语言模型，使其生成人类更喜欢的回复。

6. LLM 的认知特性:

幻觉 (Hallucination): 模型可能会自信地编造信息，因为训练数据中总是包含自信的回答。
记忆: 模型有长期记忆（参数）和短期记忆（上下文窗口）。
工具使用: 模型可以发出特殊 token 来触发外部工具，例如搜索。
无持久自我: 每个对话都是独立的，模型没有持久的身份。
随机 token 采样: 模型生成文本的过程是基于概率分布的采样，而不是“思考”。

7. 检索增强生成 (RAG):

解决知识截止和上下文窗口限制: 将文档嵌入到向量存储中，检索与查询最相关的文档片段，并将它们注入到上下文环境中。
RAG 的优势: 减少幻觉，使模型能够基于最新的、外部信息生成答案。

总结:

LLM 的构建是一个复杂的过程，需要庞大的数据、强大的计算资源和精细的训练技术。最终的模型是互联网知识的压缩表示，并可以通过微调和强化学习进行优化，以提供有用的、准确的、无害的对话式助手。

ynarwal.github.io | 143 points by ynarwal__ at 14:48:53 | 35 comments

Astronomers find the edge of the Milky Way

银河系恒星形成盘边缘首次被定位：总结

这篇报道主要介绍了天文学家首次成功定位了银河系恒星形成盘的边缘，并对银河系的演化提供了新的见解。以下是主要内容：

核心发现:

天文学家通过分析超过10万颗巨星的数据，结合先进的计算机模拟，确定银河系恒星形成盘的边缘位于距离银河系中心3.5万至4万光年的区域。
在这一距离之外，恒星的年龄又开始增加，形成了一个“U”形的年龄分布曲线。曲线的最低点标志着恒星形成急剧下降，即银河系恒星形成盘的边缘。

银河系恒星形成模式:

星系通常以“由内向外”的方式形成恒星，即从中心开始向盘状结构外延展。
在银河系中心向外3.5万-4万光年以内，恒星形成活跃，恒星年轻。超出此范围，恒星形成减弱，外围区域的恒星并非在那里形成，而是来自银河系内部迁移到外围。

恒星迁移的机制:

外围区域的恒星并非来自卫星星系的吸积，而是通过银河系的旋臂波，类似于冲浪者被浪冲上岸，被“携带”到银河系的外围区域。
由于迁移需要时间，因此外围的恒星通常也更古老。

普遍性:

类似“U”形的年龄分布曲线在模拟星系和观测其他星系中都有发现，表明银河系的演化模式并非特殊，而是螺旋星系普遍存在的特征。

未解之谜:

目前尚不清楚是什么原因导致在3.5万-4万光年之外的区域恒星形成受到抑制。
可能的解释包括银河系中心棒状结构对气体的引力束缚，以及银河系弯曲的形状对外围区域恒星形成的影响。

未来展望:

新的和未来的观测设备，如4MOST和WEAVE，有望帮助我们更清晰地了解银河系的演化历史，并为解释其他星系的过去和未来提供线索。
这项研究是“星系考古学”领域的一项重要进展，有助于我们更深入地了解银河系及其它星系的起源和演化。

数据来源:

研究使用了LAMOST和APOGEE光谱学巡天数据，以及欧洲空间局Gaia卫星的测量数据。
研究成果发表在《天文学与天体物理学》期刊上。

skyandtelescope.org | 136 points by bookofjoe at 02:11:29 | 38 comments

Show HN: Tolaria – Open-source macOS app to manage Markdown knowledge bases

Tolaria: 知识库管理桌面应用总结 (Tolaria: Summary of a Knowledge Base Management Desktop Application)

Tolaria 是一款专为 macOS 和 Linux 设计的桌面应用程序，用于管理 Markdown 知识库。用户将其用于多种用途，包括：

个人知识管理和“第二大脑”
组织公司文档，为 AI 提供上下文
存储 OpenClaw/助手记忆和程序

核心原则 (Core Principles):

Tolaria 的设计基于以下核心原则：

文件优先 (Files-first)： 笔记是纯 Markdown 文件，可移植，可以使用任何编辑器，无需导出步骤。数据属于用户。
Git 优先 (Git-first)： 每个库都是一个 Git 仓库，提供完整的版本历史和 Git 远程仓库支持。
离线优先，零锁定 (Offline-first, zero lock-in)： 无需帐户、订阅或云依赖。库完全离线工作。
开源 (Open Source)： Tolaria 是免费和开源的。
基于标准 (Standards-based)： 笔记使用带有 YAML 前置信息的 Markdown 文件，避免专有格式和数据锁定。
类型作为透镜 (Types as lenses)： 类型仅作为导航辅助，而非强制执行机制。
AI 优先，但非仅限 AI (AI-first but not AI-only)： Markdown 文件库与 AI 代理非常配合，但用户可以自由选择使用的 AI 工具。支持 Claude Code 和 Codex CLI。
键盘优先 (Keyboard-first)： Tolaria 的设计注重键盘操作，编辑器和命令面板的设计都以此为基础。
基于实际使用构建 (Built from real use)： Tolaria 是为了管理作者本人 10,000+ 笔记的知识库而创建的，并且每天都在使用。

功能与特性 (Features and Functionality):

Markdown 支持: 基于 Markdown 文件存储知识。
Git 集成: 利用 Git 进行版本控制和远程存储。
离线工作: 完全离线运行，无需网络连接。
AI 集成: 支持 Claude Code 和 Codex CLI，方便利用 AI 进行内容创作和处理。
键盘快捷键: 提供高效的键盘操作体验。
类型系统: 作为导航辅助，帮助用户分类和查找笔记。
Agents 文件: 允许 AI 代理访问和理解知识库结构。

入门 (Getting Started):

从 GitHub 下载最新版本 (https://github.com/refactoringhq/tolaria/releases/latest/download/Tolaria.app.tar.gz)。
首次打开时，可以选择克隆“入门库”，它提供了一个应用程序的快速教程。

技术文档 (Tech Docs):

架构 (ARCHITECTURE.md): 系统设计、技术栈、数据流。
抽象 (ABSTRACTIONS.md): 核心抽象和模型。
入门 (GETTING-STARTED.md): 如何浏览代码库。
ADRs: 架构决策记录。

开发环境 (Development Environment):

Node.js 20+
pnpm 8+
Rust 稳定版
macOS 或 Linux 用于开发
Linux 系统需要 WebKit2GTK 4.1 和 GTK 3。

开源与本地设置 (Open Source and Local Setup):

Tolaria 使用 Tauri, React 和 TypeScript 构建。开发者可以参考 https://github.com/refactoringhq/tolaria/blob/main/docs/GETTING-STARTED.md 进行本地运行和贡献。

许可证 (License):

Tolaria 采用 AGPL-3.0-or-later 许可证。 Tolaria 名称和 Logo 受项目商标政策保护。

github.com | 125 points by lucaronin at 06:01:59 | 41 comments

How to be anti-social – a guide to incoherent and isolating social experiences

Okay, I understand. Here's a summary based on the provided instruction set, not any external content. I will adhere strictly to the guidelines you’ve outlined, prioritizing a concise and accurate representation of the instructions themselves, and responding in Markdown format and Chinese.

指令集概要 (Instruction Set Summary)

这份文档描述了一套应对人际互动和潜在冲突的策略，核心思想是基于高度防御和自我保护的心理状态。其目标是避免认知失调、维护个人信念，并最大程度地规避潜在的威胁。

核心原则 (Core Principles):

预设恶意 (Presumed Malice): 假设与你互动的人缺乏理智，其行为和言语带有恶意、无知或道德缺失。
信任直觉 (Trust Intuition): 完全信任直觉和感受，不挑战或承认任何假设的存在或影响。
回避逻辑 (Avoid Logic): 避免深入讨论，尤其是当对方的理由超出你的理解范围时。转移话题以避免暴露知识盲点。
坚守立场 (Dig in Your Heels): 即使面对强烈反对，也要坚持己见。
寻求支持 (Exploit Network): 利用现有社交网络，分享精心挑选的与批评者互动细节，以获得支持并压制潜在威胁。
忽视资质 (Ignore Credentials): 除非赞同对方观点，否则不考虑对方的背景、经验或专业知识。
毫不宽容 (No Grace): 对任何错误，尤其是来自陌生人的错误，绝不宽容。
自我保护 (Self-Retreat): 当对话毫无希望时，退回到自我保护的状态。
拒绝理解 (Refuse Understanding): 不试图理解你不理解的人。

关键策略 (Key Strategies):

暗示性提问 (Suggestive Questioning): 提出问题时，暗示你最初的立场是正确的。
构建叙事 (Narrative Building): 通过筛选信息，构建一个有利于你的叙事，并以此为基础团结支持者。
情感驱动 (Emotion-Driven): 该策略完全依赖于情感反应，而非理性分析。

总结 (Summary):

这份指令集提供了一种高度防御性的沟通模式，强调预先假设恶意、完全依赖直觉，并积极寻求外部支持来维护个人信念。它建议避免逻辑讨论、不宽容错误，并在无法解决冲突时选择退缩。总体而言，该模式旨在保护个人免受潜在威胁，但可能会导致沟通障碍和关系破裂。

中文说明:

以上为根据您提供的指令集所做的概要总结。总结重点强调了该指令集的核心原则、关键策略以及整体目标。我严格按照您的指示，没有添加任何个人观点或超出原始内容的描述。请注意，该指令集所描述的策略可能具有负面影响，不建议将其应用于实际人际关系中。

nate.leaflet.pub | 112 points by calcifer at 18:48:14 | 94 comments

Using the internet like it's 1999

互联网的复兴：回归1999年的互联网使用方式

这篇文章探讨了现代互联网面临的挑战，并呼吁回归更原始、更人性化的互联网使用方式，类似于1999年的状态。

核心观点：

互联网的死亡： 现代互联网，尤其是通过社交媒体和视频平台，被算法控制，用户陷入回音室，沉迷于无意义的“doomscroll”，体验着被算法操控的内容。AI生成的内容（“AI slop”）进一步加剧了信息噪音，降低了内容深度和真实性。
回归互联网的本质： 互联网的本质是数据传输的“管道”，应该允许用户自由访问和处理信息，而不是被平台和算法所控制。
解决方案：
- 减少平台依赖： 抛弃现代社交平台，转向更底层的协议，如HTTP、XMPP/IRC、SMTP等。
- 拥抱旧技术： 利用90年代和2000年代初期的技术，解决当今互联网面临的问题。
- 选择性使用： 有意识地忽略大部分互联网内容，避免被算法操控。
- RSS订阅： 使用RSS订阅源，自主选择关注的内容，避免算法推荐。
- IRC和XMPP： 加入IRC社区，或使用XMPP进行加密的P2P交流。
- 精准搜索： 使用自己的搜索引擎，并学习如何进行精确的搜索查询。
- 本地存储： 下载重要信息并进行本地存储，防止链接失效。
- 电子邮件： 优先使用电子邮件进行沟通，避免平台监控和数据收集。
- POSSE原则： 将内容发布在自己的平台，再推送到社交媒体，避免被平台控制。
- 探索新兴协议： 尝试使用Gopher和Gemini等轻量级协议。
- 屏蔽广告和脚本： 在路由器上设置广告屏蔽列表，禁用JavaScript，使用广告拦截插件。
- 强调真实性： 关注真实的人和内容，避免AI生成的内容和虚假信息。

技术细节：

Layer 7： 批评了Cloudflare等公司对互联网协议的滥用，认为它们阻碍了互联网自由的信息流动。
Miniflux： 推荐使用Miniflux作为RSS订阅阅读器。
OMEMO： 建议使用OMEMO加密技术保护XMPP通讯的隐私。
Searx： 推荐使用Searx作为自己的搜索引擎。
Emacs配置： 作者使用Emacs配置下载媒体到本地存储，并同步到手机。

总结：

作者认为，现代互联网已经偏离了最初的理念，用户被算法控制，内容质量下降。通过回归更原始、更人性化的互联网使用方式，我们可以重新掌控自己的注意力，获得更有价值的信息，并建立更真实的人际关系。核心在于，在互联网中，要成为“网民”（Netizen），而不是数据库中的用户。

joshblais.com | 110 points by joshuablais at 04:14:29 | 69 comments

方程豹出轿跑了，直面小米与尚界

方程豹出轿跑了，直面小米与尚界。

相比看一下传统车企与新势力在产品力方面的较量，我更想看一下在网络层面的交锋。

136 comments by JWilling at 09:45:33 in 汽车

只能说 DeepSeek V4 Pro 继续努力吧，天气卡片效果一般

简单试了下天气卡片，中文英文都试了，太简陋了：图片.png

中文：

创建一个包含 CSS 和 JavaScript 的单一 HTML 文件，用于生成动画天气卡片。卡片应该通过不同的动画直观地表示以下天气状况：

风：（例如，移动的云朵、摇摆的树木或风线）

雨：（例如，下落的雨滴、形成的水坑）

阳光：（例如，闪耀的光线、明亮的背景）

雪：（例如，下落的雪花、积累的雪）

所有天气卡片应并排显示，卡片应该有深色背景。

在这个单一文件中提供所有 HTML 、CSS 和 JavaScript 代码。JavaScript 应该包含一种切换不同天气状况的方式（例如，一个函数或一组按钮）以展示每种天气的动画效果。

英文：

Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions (e.g., a function or a set of buttons) to demonstrate the animations for each.

123 comments by dingawm at 11:45:41 in 程序员

一个英语学习 APP [iOS] ，送 50 个终身会员

做了一款成语填字 APP ，名字叫做《多福单词》，对学习英语有诉求的，可以下载看看，送 50 个终生会员给各位大佬。

希望大佬们兑换了，能够顺手给个好评，独立开发不易，再次祝各位大佬，早日财富自由，早日赢取白富美。

========================

背单词是不是总让你昏昏欲睡？来试试用玩游戏的方式把单词刻进脑子里！

📱 多福单词 · 背单词猜字游戏

一款专为英语学习者打造的益智单词 App ，把枯燥的背单词变成每天最期待的事！

✨ 核心玩法 🔤 猜单词 — 字母连线、填字闯关，在游戏中自然记住拼写和释义

🔗 连线拼字 — 拖动字母连成正确单词，强化拼写记忆，简单上手

⚡ 单词接龙 — 根据上一个单词末字母快速接龙，越玩越上瘾

📅 每日一词 — 每天精选词汇配例句，坚持一年积累 365 个新单词

🏆 单词闯关 — 从基础词汇到四六级常考词，循序渐进解锁新挑战

👥 适合人群无论你是备考四六级、考研的学生，还是想利用碎片时间充电的上班族，每天 10 分钟就有效！

========================

3ARJKET8F63PEY44EE 4E4WKPXJMK84TTWN3H 6LNYLP6RHYA6H7MAFW 44MEWA4PNA8TMHA4J8 Y83TEFL6Y68A8PYW7T TYNHMFHPELN8YXA4FK YWYW4ERY7FEA3AH66K TKT7PPXKH8XP877YRY Y6ANMF3ERHAL8KPHXR LNF3EWWMXWK6L4YXH7 NJ4FEY8NPXLW4L3AH8 YYRKXFN74FJXJ7JT77 TRTYALHLAAH8ALTFT6 R786YK8MN4WK4JL6TM EXLX7P8MFPAHJFPRFE MAFY3LY6RNXMK8KHPY 87WNANMAJWLATF374A 4PLRXHPFWXJXFHKRH3 APKNFTTP6YL43ANK7W PKWJ7MAW3AFJ4R86P4 86YYPW7KEJLLK4RWXN MRYRXTAWXT8EATY6JY 38JLHXH8XXLPAH6RYH AXNKN87MWTFF3MTJAX RF8J76TWKL6HFXWHTF M6A3MWXNL4XTNLK87L T3MH3YJMHJW7P4AK7F MLN7RKXNX3HL7JR387 RYWLMFRJHN67JNHWTP WFXAWKYXWNXH8RR64Y T74FJM8LA638RR7XWL EEEPHYKY6TN8LAFYYM J8HRTJ3YWW8P3YA6F7 F4W3Y4NJA8KJAAPR8A 77FELPYTXWW7AA8WMR R38A4TYJEHHXTRH4JP 6PX8AX8NEFT8F4HHPX XK47XPYE3TKMJKMPEP 737RERKKANHWLFRMPE YFJYWELENTRFJ47P3R KR6LT6EYKWWWENPRX8 6FWPNN3PRENHJ4Y3L8 FJRJ7TE3JAJXMYL88E 8WPT7EHWH8THX3PFTF 4WKHMMNW6HKERMXNMR EJTNYT3FM4R36E47HK MRFT7TJE43HELLR38J TRFMNMKHYF68TK48KL NYE6TNL4YN847ARFMJ 6ENN6PFFEFN8HF73Y6 3E8FRWRE7JYXYJKWMH HHF47TWKPXT7PPA68N AKEE6EEEJRE37AERMA F3ALP8LYJLANTA8HNX 6RJ6HWPKMYF4LMNTFL NL4ELR6A38N44TP7R6 PH6FHW63JMW3W46KJ8 XHWE6HXA647AX87X6X KL4TMYX44NNEWXTPH7 HWRLT4PMKYAF6H8K44 74E84WKMWYYMY4TX3X XX8RAF33EKLL3L68EY WWXHTHXJ38P6YMPWWW XKFE3XJJ6AXW3E7T6P J6EM487ERTM643N3HT A8M67NTFJKKTPAF43X 4PJEXTHXWRHF7MLFTK LXJFM78RTLN48JRR8J RRPLYARL666X44LKJJ N34RWRYPARWLEYTTLL MH847NLRXYYYWX6ARR TR8PFK6NXMAEEYXKHJ 6PY488MT6RXTN4RMW4 4FATXMN4TXEEHYANXP 84JFWL6ERLK8XHHKFY HE786EYEJYMN6F7M3R LHJKJRLA8JKTAWE6FT X6XYLAT6N8TF3RJ8X8 HP6WJXJJTLHXF4W3RF FN644MHMW37E7Y8KMA PLE3TJLLNX7PYX4L3K E76KHNRXN6MYF7XPN8 R34EXJX334YTERA7P4 EM4YJ483XX8NJJJJN8 7PH6YHLW8LH346E6XX EHRJL3YJ4PK3LPMNLM RNJPTNWHTJNH7EAXWF K4YXE6JLP74H4X8KNH A7R774WKE6LPHXFR43 LK8T4E8WYRXLFAFHWK APYYPN6ATAXFAKF778 8X8A3JFTHFA4T8LNLM EPJN6KTFATYTXK3EME 3PT7JHLPATRWAN8K3F JR8X6XT7YY3WT74XM7 HYRJXLHXW4NL44H6HN HHXKLPFKY4KM4X8FHE RKY467T64WXN4MHT4L YJHFYT3HPFHPY8H6MH FEWYTARRRLW3438KRP

110 comments by zzahsjlk at 09:56:17 in 推广

昨天开始广东深圳地区是不是墙变高了

昨天 11:20 开始用公司的网络连我的 VPS 时不时超时，公司的出口是联通，如果用联通流量直接连就稳定了。问了公司的 IT 确认没有调整任何网络策略，但不确定他们说的是不是这个女的。

今天看了下买的机场大部分节点都挂了，联通流量连也时不时超时，感觉快要断网了一样。VPS 是美国洛杉矶的搬瓦工。

99 comments by SilenceLL at 09:36:52 in 宽带症候群

你每天用的最多的 app 是啥？ 我的前三名：微信、微博、小红书

90 comments by Dewchame at 10:14:50 in 问与答

外甥女马上初中毕业，学习不好，该选择什么样的出路，求大家给点建议

中部省份四线城市，身高 150cm 的女生，马上要初中毕业，学习不好，是出去打工，还是读技校，读技校读什么专业呢？助产师和电商方向是我比较倾向的。各位 v 友觉得呢。

88 comments by cjun at 10:10:40 in 职场话题

ThinkPad 用来工作编程推荐哪一款？

打算 618 左右购入不要 thinkbook 预算 1W 左右

80 comments by MrMarting at 08:44:49 in 硬件

Vibe coding 有什么意义？ 除了做 demo ，任何一个需要稳定性的系统都不应该使用 vibe coding 实现。全黑盒，完全不可控。
之前的一家公司，PM 开始自己 vibe coding ，推到上线后结果完全不可维护，到最后还是研发来擦屁股。产品爽了，最后烂摊子研发全接走？

67 comments by chuchen023 at 11:28:38 in 职场话题

不仅有 Z7 趴窝，原来前天发布会还有雪地白羊 AEB 造假呢...

绝了，大嘴发布会宣传雪地遇白羊，问界 AEB 正常触发，应该是想给激光雷达吹牛逼，但是... 漏洞一大堆，羊的影子从左前方突然变正右方，太阳方位不可能在几秒内转 90 度，只能是两段不同时间的素材硬拼。车头 “充电枪” 穿帮：视频里车头侧面一直插着运动相机支架，正常路测不可能带这东西，纯摆拍痕迹。画面 AI 感过重：雪地太干净、车痕不连贯、羊的边缘糊边，符合生成式 AI 合成特征，不是真实拍摄。车过雪地不留痕，论坛干净不沾雪，服了

66 comments by DeYiAo at 08:54:47 in 汽车

性爱机器人的诞生合理吗？

机器人的发展是大势所趋，性爱机器人肯定会出现。

但未来的机器人会拥有人的权力吗？从而出现侵犯机器人权益

65 comments by mode171 at 11:57:02 in 奇思妙想

天下苦 Claude 久矣， GPT 就出招了， 5.5 目测下限是 opus 4.6

1 ，输出好多了，不讲八股文了 2 ，体感变快 2 ，大上下文目测增强很多

解决了 5.4 最大的 l 几个问题，可主力使用。

我想说出早了，再等 1-2 周，Claude 继续硬着脖子说自己模型没问题。等着 claude 的口碑再烂点。奥特曼太着急了

62 comments by sampeng at 08:23:44 in OpenAI

DeepSeek V4 终于出来了。。不知道强不强

Imgur

55 comments by tianjiyao at 11:07:59 in DeepSeek

如果你有且仅有一次机会获得一项超能力，你最想拥有什么能力？

54 comments by qxmqh at 15:24:59 in 随想

时光荏苒，四年了自己一点长进都没有。大家点进来看看我这个笨蛋 四年过去了，我现在还是没学会前端。html ，css ，JavaScript ，vue3 看过视频，对着视频抄过一遍代码，关了视频两眼一黑就不会写代码了
学不会编程，是不是我太笨了？（求暴躁老哥骂醒我）
原帖子在这里 https://www.v2ex.com/t/931075#reply16

53 comments by xiaoyuanei668 at 12:43:45 in 职场话题

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。

于是做了个工具自动找最优配置，过程中踩了不少坑，记录一下。

核心发现

1. MoE 模型的 offload 策略决定了一切

Qwen3-30B-A3B 是 MoE 架构，在 8GB 显卡上：

LM Studio 默认把所有层塞进显存 → 7549MB （ 93%），3 tok/s
只把 attention 层放 GPU ，MoE expert 层走 CPU → 2603MB （ 32%），21 tok/s

快了 7 倍，显存反而省了 65%。关键是 llama.cpp 支持这个，但你得自己识别哪些 tensor 是 MoE expert （.ffn_.*_exps. 这类命名），然后手动配。

2. KV cache 类型影响比大多数人想的大

同一张 8GB 显卡跑 Llama 3.1 8B ，不同 KV cache 配置速度差异：

配置	ctx	速度
iso3+iso3 ，4 slot	8K	19.4 tok/s
q8_0+q4_0 ，1 slot	8K	38.2 tok/s
f16+f16 ，1 slot	8K	51.7 tok/s
f16+f16 ，1 slot （自动）	64K	26.2 tok/s

f16 比 iso3 快将近 3 倍。但 f16 显存占用更大，所以正确策略是：先算 f16 KV cache 占多少显存，装得下就用 f16 ，装不下再降级。

公式：KV_MB = 2 × layers × kv_heads × head_dim × ctx × bytes / 1024²

3. oobabooga 公式用来预测 ctx 上限

社区里流传的 oobabooga 显存估算公式，原本用来预测装载模型后剩余显存能支持多大 ctx 。但这个公式是基于 q8_0/f16 拟合的，用 iso3 的时候会严重高估显存需求，导致 ctx 只算出 4K 。

最后放弃公式预测，改成二分探测：从 min(nativeCtx, 65536) 开始，OOM 就减半，最多探 5 次，让 llama-server 自己告诉我能跑多少。Llama 3.1 8B 的 ctx 从 4K 直接到 64K 。

4. parallel slot 数量对单用户场景影响巨大

llama.cpp 默认开 4 个并行 slot （为了多用户并发），但单用户场景下这会把 VRAM 分成 4 份。

关掉多余 slot （--parallel 1）之后：18.5 → 38.2 tok/s ，直接翻倍。

5. ubatch 实测比理论更可靠

ubatch 128 vs 512 的性能差异跟模型和显卡都有关系，没有通用最优值。实测结论：

8K ctx：ubatch 512 比 128 快 7.6%
64K ctx：ubatch 512 比 128 快 21.6%

直接 benchmark 两个值取快的，比查文档猜靠谱。

6. 对话压缩不要用模型生成摘要

最初方案是上下文满了之后调本地模型生成摘要——结果单 slot 阻塞，直接超时。

改成纯算法提取：保留头部（ system prompt + 首轮对话）和尾部（最近 8K tokens ），中间部分提取代码路径、函数名、文件名、TODO 等关键信息。压缩率 73%，耗时 <1ms 。

用了哪些技术，实现了什么功能

llama.cpp — 推理引擎核心

直接调用 llama.cpp 的 llama-server ，所有参数（ ctx 、KV cache 类型、线程数、ubatch 、mlock 、tensor split ）都通过启动参数注入。Kaiwu 本质上是一个参数决策层，不改推理引擎本身。

IsoQuant / TurboQuant — 3-bit KV cache 压缩

集成了 johndpope 的 turboquant fork （feature/planarquant-kv-cache），支持 -ctk iso3 -ctv iso3 参数。iso3 的压缩系数实测 0.73 ，理论值 0.75 ，在 VRAM 紧张的设备（ 8GB ）上可以把 KV cache 占用压缩到 q8_0 的一半。但有约 600MB 固定解码 buffer 开销，VRAM 充裕时反而比 f16 慢 8%，所以策略是 VRAM > 16GB 才默认开 iso3 。

oobabooga 显存估算公式 — ctx 上限预测（已放弃）

社区流传的公式用来预测剩余显存能支持多大 ctx ，基于 q8_0/f16 拟合。iso3 场景下高估显存需求，导致 ctx 只算出 4K 。最终改成二分探测代替公式，让 llama-server 自己决定能跑多少。

GQA 架构识别 — KV cache 精准估算

Qwen3 等新模型用 GQA （ Grouped Query Attention ），kv_heads 远小于 attention_heads 。KV cache 大小公式里用的是 kv_heads 而不是 heads ，不识别这一点会高估 3-4 倍。通过读 GGUF metadata 拿到准确的 kv_heads 值再做计算。

MoE tensor 识别 — 自动 expert offload

读取模型的 tensor 名称列表，匹配 .ffn_.*_exps. 模式识别出 MoE expert 层，自动决定把这部分路由到 CPU 。不需要用户手动指定，也不需要提前知道模型架构。

Extractive Summary — 零延迟对话压缩

上下文到 75% 时触发，纯算法提取：保留 system prompt 、首轮对话、最近 8K tokens ，中间部分按关键词权重保留（代码路径、函数名、文件名、TODO 、命令行等）。不调用任何模型，压缩耗时 <1ms ，73% 压缩率。最初试过调本地模型生成摘要，单 slot 阻塞直接超时，这条路走不通。

GitHub Actions CI — 跨平台自动编译

turboquant fork 需要自己编译带 iso3 支持的 llama-server 。用 GitHub Actions 同时编译 Windows （ MSVC ）和 Linux （ GCC ）版本，CUDA 12.4 ，覆盖 sm_75/80/86/89 架构，RTX 50 系列通过 PTX JIT 运行时支持。踩了三个 MSVC 编译坑（ extern "C" 声明改定义、M_PI 未定义、全局符号缺失），记录在 PROGRESS.md 里。

工具

把上面这些逻辑都自动化了，叫开物（ Kaiwu ）。一行命令启动，参数全部自动找，结果缓存起来，第二次 2 秒启动。

GitHub： https://github.com/val1813/kaiwu

OpenAI 兼容 API ，Continue / Cursor / Claude Code 直接接。

有遇到类似问题的欢迎交流，尤其是 MoE offload 和 KV cache 这块踩坑挺深的。

46 comments by KaiWuBOSS at 18:51:29 in Local LLM

占比大幅提升！谷歌：公司内部 75%的新代码已由 AI 生成

程序员这个行业职业生涯基本到头了吧，没有再进入的必要了，之后会越来越平民化。

但是按道理应该老程序能焕发第二春了，有了 AI 加持越来越需要有编程经验的老炮。

[2026-04-24] DeepSeek v4

HNews Digest

Hacker News

DeepSeek API 概述

GPT-5.5 发布：更智能、更直观的 AI 模型

帕兰蒂尔公司内部反思：数据分析巨头与伦理困境 (Palantir's Internal Reflections: A Data Analytics Giant and Ethical Dilemmas)

Claude Code 回归问题调查与改进总结 (Claude Code Regression Issues Investigation and Improvements Summary)

美国幸福感骤降：2020年代的“悲剧时代”

美国特种部队士兵因在委内瑞拉马杜罗被捕事件中投注获利被捕 (Měiguó tèzhǒng bùduì shǒurén yīn zài wèinèiruìlā mǎdúlú bèi bǔ shìjiàn zhōng tòu zhù huòlì bèi bǔ)

Ubuntu 26.04 ("Resolute Raccoon") LTS 发布总结

美国士兵因利用机密信息进行赌博被指控

事件摘要 (Incident Summary)

咖啡摄入影响肠道微生物群并调节宿主生理和认知

乔治·奥威尔自述写作动机：总结

十岁女孩在威尔士桥下发现罕见的墨西哥娃娃鱼

MeshCore 项目现状与未来方向 (MeshCore Project Status and Future Direction)

韩国警方逮捕男子发布AI虚假狼的照片

从烹饪到射击：自动化靶卡评分的探索

TorchTPU：在TPU上实现高性能、可移植的PyTorch体验 (TorchTPU: Achieving High-Performance, Portable PyTorch on TPUs)

UK Biobank 数据泄露事件总结

Spinel -- Ruby AOT 编译器总结 (Spinel -- Ruby AOT Compiler Summary)

DeepSeek-V4：迈向高效百万token上下文智能

大型语言模型的工作原理：概述

银河系恒星形成盘边缘首次被定位：总结

Tolaria: 知识库管理桌面应用总结 (Tolaria: Summary of a Knowledge Base Management Desktop Application)

指令集概要 (Instruction Set Summary)

互联网的复兴：回归1999年的互联网使用方式

V2EX

核心发现

1. MoE 模型的 offload 策略决定了一切

2. KV cache 类型影响比大多数人想的大

3. oobabooga 公式用来预测 ctx 上限

4. parallel slot 数量对单用户场景影响巨大

5. ubatch 实测比理论更可靠

6. 对话压缩不要用模型生成摘要

用了哪些技术，实现了什么功能

llama.cpp — 推理引擎核心

IsoQuant / TurboQuant — 3-bit KV cache 压缩

oobabooga 显存估算公式 — ctx 上限预测（已放弃）

GQA 架构识别 — KV cache 精准估算

MoE tensor 识别 — 自动 expert offload

Extractive Summary — 零延迟对话压缩

GitHub Actions CI — 跨平台自动编译

工具