Hacker News
|
Cloud VM benchmarks 2026
好的,以下是根据您提供的文本生成的中文摘要,内容简洁、准确,并符合您的要求:
2026 云虚拟机基准测试:性能与价格分析
发布日期: 2026年2月27日
作者: Dimitrios Kechagias
标签: #aws #googlecloud #cloud #devops
本文档对2026年各大云服务提供商的虚拟机性能与价格进行了全面比较,测试覆盖44种虚拟机类型,并扩展了测试区域,以获得更真实、更全面的性能数据。
主要发现:
- AMD EPYC Turin CPU 崭露头角: AMD 的 EPYC Turin 处理器在高端性能测试中表现突出,明显领先于以往的 CPU。
- 测试范围扩大: 除了测试更多虚拟机类型(44种),还增加了测试区域,以反映不同区域性能的差异。
- ARM 架构崛起: Google Axion、Azure Cobalt 100 和 Ampere AmpereOne 等新的 ARM 解决方案表现强劲。
- 传统巨头: AWS、Google Cloud 和 Azure 依然是主流选择,但价格和性能方面各有优劣。
- 性价比之选: Hetzner 和 Oracle Cloud Infrastructure (OCI) 在性价比方面表现出色,特别是 OCI 提供的免费资源非常吸引人。
- 共享 CPU 的价值: Akamai (Linode) 和 DigitalOcean 的共享 CPU 实例仍然提供具有竞争力的价格。
关键点:
- 测试重点: 本次测试主要关注通用 CPU 性能,特别是每美元所能获得的计算能力。不包含爆发式实例。
- 测试配置: 主要以 2 vCPU 配置进行测试,以反映实际应用场景的最低配置要求。
- CPU 世代: 强调使用较新的 CPU 世代,因为旧款 CPU 在效率和成本方面表现不佳。
- 价格参考: 价格基于美国或欧洲地区的最低价格,并分别列出了按需、1 年和 3 年预付费的价格。
各云服务提供商表现:
- Amazon Web Services (AWS): 拥有丰富的实例类型,但价格相对较高。新的 C8a 系列搭载 Turin 处理器,性能强劲。
- Google Cloud Platform (GCP): 提供了灵活的配置选项,但需要注意设置
min_cpu_platform 以确保获得最佳性能。
- Microsoft Azure: 提供广泛的服务,但配置略显复杂。
- Oracle Cloud Infrastructure (OCI): 提供的免费资源非常具有吸引力,性价比高。
- Akamai (Linode): 共享 CPU 实例具有成本效益,但性能可能因负载而异。
- DigitalOcean: 价格实惠,但硬件相对较旧。
- Hetzner: 价格非常有竞争力,但区域选择有限。
结论与建议:
- 选择建议: 根据实际需求,可以选择不同类型的虚拟机。对于追求极致性能,AMD EPYC Turin 是最佳选择。对于预算有限的用户,Hetzner 和 Oracle Cloud Infrastructure 是不错的选择。
- 注意事项: 了解不同 CPU 架构的差异(Intel、AMD、ARM),并根据工作负载选择合适的虚拟机类型。
- 持续关注: 云服务市场的变化迅速,建议定期关注最新的基准测试结果,以便做出明智的决策。
总而言之,本文档提供了全面的云虚拟机性能与价格比较,帮助用户选择最适合自己需求的云服务。
(原文链接:https://dev.to/dkechag/cloud-vm-benchmarks-2026-performance-price-1i1m)
|
Put the zip code first
总结:立即将邮政编码放在表单的首位!
本文强烈批评了许多网站和应用程序在地址表单设计中存在的低效设计。作者认为,在2026年,仍然让用户手动输入地址信息,并且将邮政编码(ZIP code,美国5位数字代码)放在表单的末尾,是一种浪费时间和精力的行为。
核心观点:
- 邮政编码蕴含大量信息: 5位邮政编码能够确定城市、州和国家,这些信息完全可以自动填充,无需用户手动输入。
- 技术可行且成本低廉: 自动填充这些信息所需的技术已经存在,并且可以通过几行代码的API调用实现。作者提供了使用
zippopotam.us API的示例代码。
- 提升用户体验和数据质量: 利用邮政编码自动填充信息可以减少用户输入量,提高数据准确性,并加快地址自动补全速度。
- 行业普遍存在的问题: 许多大型公司(如亚马逊、Target、Walmart)也存在类似问题,这反映出一种普遍的、缺乏创新的表单设计模式。
批评等级 (Hall of Shame):
- 第一级: 将邮政编码放在表单底部。
- 第二级: 收集邮政编码却不利用它。
- 第三级: 使用滚动选择国家/地区的下拉菜单,缺乏搜索功能。
- 第四级: 表单返回时数据丢失。
其他建议:
- 使用正确的键盘: 在需要输入邮政编码时,使用数字键盘。
- 配合浏览器自动填充功能: 使用正确的
autocomplete属性(如postal-code, address-line1, country)来配合浏览器的自动填充功能。
- 如果需要,可以先选择国家/地区: 虽然邮政编码并非全球唯一,但可以先根据IP地址预填国家/地区,再让用户输入邮政编码。
总结: 作者呼吁开发者和产品经理重新审视地址表单的设计,将邮政编码放在表单的首位,并充分利用现有的技术和浏览器功能,以提升用户体验,并简化数据输入流程。 这是一个简单易行且能带来显著效益的改进。
|
Effort to prevent government officials from engaging in prediction markets
美国参议员发起立法,禁止政府官员参与预测市场交易
华盛顿特区 – 俄勒冈州参议员杰夫·默克利 (Jeff Merkley) 和明尼苏达州参议员艾米·克洛布查 (Amy Klobuchar) 今天联合发起了一项新的举措,旨在禁止最高级别的政府官员参与预测市场,从而打击潜在的内幕交易行为。
背景:
此举是在多份报告揭露个人在伊朗袭击和委内瑞拉军事行动前夕,在预测市场上异常获利后发起的。这些报告引发了人们对预测市场日益增长的影响以及潜在腐败风险的担忧。
立法内容:
他们推出了名为《结束预测市场腐败法案》(End Prediction Market Corruption Act) 的新法案,该法案将禁止总统、副总统、国会议员和其他公共官员交易事件合约。该法案旨在确保联邦民选官员恪守其为人民服务的宣誓义务,防止其利用通过职务获得的信息进行交易。
主要观点:
- 打击腐败: 默克利表示,当公职人员利用非公开信息进行赌注,就会破坏公众对政府官员为公共利益而非个人利润服务的信念。
- 加强监管: 克洛布查强调,随着预测市场的快速发展,不当行为的报告也越来越多。该立法将加强商品期货交易委员会 (CFTC) 打击不法行为的能力,并为防止掌握保密政府或政策信息者利用其特权获取经济利益提供规则。
- 广泛支持: 该法案由其他几位参议员联合赞助,包括克里斯·范霍伦 (Chris Van Hollen)、亚当·希夫 (Adam Schiff) 和 Kirsten Gillibrand。
- 组织支持: 公民组织(Public Citizen)、公民责任与道德华盛顿组织 (CREW) 和政府监督项目 (POGO) 等机构也支持该法案,认为其有助于维护政府官员的道德标准,防止滥用职权谋取私利。
默克利以往行动:
默克利长期致力于结束公共腐败,曾积极推动打击选举赌博和政治上的暗款,防止立法者进行股票交易,以及禁止对最高级别联邦政府官员的加密货币相关腐败行为。
更多信息:
《结束预测市场腐败法案》的全文可在 此链接 找到。
|
A decade of Docker containers
Docker 技术解析与未来展望 (Docker Technology Analysis and Future Prospects)
Docker 是一款广泛使用的开发工具,其核心功能包括简化应用程序堆栈的构建 (docker build)、快速分发构建后的可执行文件和数据 (docker push),以及在同一台机器上隔离运行多个应用程序 (docker run)。开发者可以使用 Dockerfile 编写自定义镜像,并复用已发布的镜像,从而实现跨多种编程语言和应用程序堆栈的打包共享。
自 2013 年发布以来,Docker 得到了迅速普及,应用于各行各业,例如 Proxima Fusion 的稳态器模拟、Netflix 的流媒体服务,以及 BalenaOS 在太空中的软件部署。Stack Overflow 社区将其评为“最受欢迎”和“最常用”的开发工具,体现了其受欢迎程度。Docker Hub 托管了超过 1400 万个应用程序镜像,每月镜像拉取量超过 110 亿次。
Docker 的流行源于其解决了许多开发者面临的长期问题:如何开发和部署微服务,这些微服务通常使用多种语言编写。它已成为管理 Kubernetes 等多租户平台的云原生应用程序的事实标准,并为可重现的科学研究设定了更高的标准。
技术起源
在 2000 年代初,手动安装包含大量依赖项的 Linux 发行版,并手动编译和配置软件以在新机器上运行是常见做法。 2010 年,随着云计算的兴起,这种过程变得更加复杂,因为应用程序需要在具有不同资源需求的多个虚拟机上运行。Docker 通过将应用程序及其所有依赖项打包成一系列文件系统镜像(即“容器”)来简化此过程,这些容器可以在安装了 Docker 的任何机器上运行。 与虚拟机相比,Docker 只需要几个命令即可启动并运行。
典型的工作流程:
开发者使用 Dockerfile 描述如何构建应用程序,Dockerfile 使用类似于 shell 的语法,并逐步描述构建过程。 例如,基于 Python 的网站的 Dockerfile 如下:
FROM python:3
COPY requirements.txt /app/requirements.txt
WORKDIR /app
RUN pip install -r requirements.txt
COPY . /app
EXPOSE 80
CMD ["python", "app.py"]
然后,开发者运行 docker build 创建 Docker 容器镜像,并使用 docker push 将镜像推送到 Docker Hub 等中央镜像仓库。
Docker 内部原理
Docker 容器建立在 Linux 操作系统内核的基础之上,利用了内核提供的资源隔离功能。传统的虚拟机需要安装完整的操作系统,而 Docker 容器则共享宿主机的内核,仅隔离应用程序的进程内存空间,并共享其他系统资源。
Linux 内核支持七种不同的命名空间,这些命名空间可以组合使用,为进程提供资源隔离的灵活性。Docker 利用命名空间技术,允许每个容器拥有独立的文件系统视图,进程间通信机制,以及网络配置。
Docker 的客户端-服务器架构简化了容器的管理。 Docker 守护进程 (dockerd) 负责创建和管理容器、镜像、网络和存储等系统资源。开发者通过 Docker 命令行界面 (CLI) 向守护进程发送 API 请求。
技术演进
Docker 的发展经历了以下关键阶段:
- Linux 容器基础: 利用 Linux 命名空间、控制组 (cgroups) 等技术实现资源隔离。
- 跨平台支持: 通过 HyperKit 和 WSL2 等技术,将 Docker 容器带到 macOS 和 Windows 平台上。
- 多架构支持: 利用
binfmt_misc 和 QEMU 实现跨架构镜像构建。
- 安全增强: 集成 TEE 技术,提升容器安全性。
- GPU 支持: 通过容器设备接口 (CDI) 实现 GPU 资源管理。
未来展望
随着 AI 工作负载的兴起,Docker 将继续适应并支持异构硬件,例如 GPGPU 和 FPGA。未来的 Docker 开发方向包括:
- 集成 AI 辅助编码: 将 AI 辅助编码工具整合到开发流程中。
- 增强安全性: 持续提升容器安全性,例如通过利用 TEE 技术。
- 简化 GPU 资源管理: 提供更灵活和安全的 GPU 资源管理方案。
总而言之,Docker 凭借其强大的功能和持续的创新,已成为现代软件开发不可或缺的一部分,并将在未来继续推动云原生应用的发展。
|
How to run Qwen 3.5 locally
阿里巴巴 Qwen3.5 模型系列概述
阿里的 Qwen3.5 是一系列新的大型语言模型 (LLM),包含多个版本,旨在提供强大的性能和广泛的功能。
模型版本:
- 大型模型: Qwen3.5-35B-A3B, 27B, 122B-A10B, 397B-A17B
- 小型模型: Qwen3.5-0.8B, 2B, 4B, 9B
主要特点:
- 多模态混合推理: 这些模型在同等大小的模型中表现出色。
- 超长上下文窗口: 支持 256K 上下文长度,可通过 YaRN 技术扩展至 1M。
- 思维与非思维模式: 支持“思维”和“非思维”两种模式,以适应不同的任务需求。
- 广泛应用: 擅长代理编码、视觉理解、聊天和处理长上下文任务。
- 设备要求: 35B 和 27B 模型可以在 22GB 的 Mac/RAM 设备上运行。
更新内容 (3 月 5 日):
- 对 35B, 27B, 122B 和 397B 模型进行了更新,改进了量化算法。
- 使用新的 imatrix 数据,提高了聊天、编码、长上下文和工具调用方面的性能。
- 修复了工具调用聊天模板中的问题,该修复对所有 Qwen3.5 格式和上传者都有效。
- 已弃用部分 MXFP4 层。
技术细节与使用指南:
- 量化: 使用 Unsloth Dynamic 2.0 进行 SOTA 量化,4 位量化可能需要将部分层提升到 8 或 16 位。
- 最佳性能: 确保可用内存 (VRAM + 系统 RAM) 大于下载的量化模型文件大小。
- 模型选择:
- 27B 模型适用于需要更高准确度且设备内存有限的情况。
- 35B-A3B 模型适用于需要更快推理的情况。
- 参数调整:
presence_penalty 范围为 0.0 到 2.0,默认关闭,可用于减少重复,但可能略微降低性能。
- 建议的输出长度为 32,768 个 token。
- 思维/非思维模式: 通过调整
temperature, top_p, top_k, min_p 和 presence_penalty 参数来控制。
- 禁用思维/推理: 使用
--chat-template-kwargs '{"enable_thinking":false}'。
- 启用思维/推理(Qwen3.5 0.8B, 2B, 4B 和 9B 默认禁用): 使用
--chat-template-kwargs '{"enable_thinking":true}'。
硬件需求 (单位:总内存:RAM + VRAM 或统一内存):
| 内存(GB) |
| 3 |
| 3.5 |
| 5 |
| 7.5 |
| 9 |
| 4.5 |
| 5.5 |
| 7 |
| 10 |
| 14 |
| 5.5 |
| 6.5 |
| 9 |
| 13 |
| 19 |
| 14 |
| 17 |
| 24 |
| 30 |
| 54 |
| 17 |
| 22 |
| 30 |
| 38 |
| 70 |
| 60 |
| 70 |
| 106 |
| 132 |
| 245 |
| 180 |
| 214 |
| 340 |
| 512 |
| 810 |
部署与工具:
- 可以使用
llama.cpp 进行快速本地推理,尤其是在没有 GPU 的情况下。
- 可以使用 LM Studio 进行统一的 UI 界面操作
|
Warn about PyPy being unmaintained
总结:关于 uv 项目更新 (2026年1月-3月)
以下是对 uv 项目更新的总结,内容涵盖了文档改进、版本更新以及相关讨论。
1. PyPy 的维护状态警告:
- uv 项目的文档中新增了一条警告,提醒用户注意 PyPy 已经不再积极开发,并且 numpy 项目也已停止对 PyPy 的支持。这旨在避免用户对 PyPy 作为 Python 完整支持的发行版产生误解。
2. uv 项目版本更新:v0.9.27
- 该版本于 2026 年 1 月 26 日发布,包含以下主要更新:
- Python 相关: 升级 Pyodide 到 0.29.2 和 GraalPy 到 25.0.2。
- 增强功能:
uv pip 子命令中添加了 -t 短选项,用于 --target 参数。
- 支持 ROCm 7.0 和 7.1 加速器后端。
- 改进了与 free-threading ABI 不兼容的错误提示。
- 实现了
uv pip freeze --exclude 标志。
- 改进了
uv venv 中 --system 和 --no-system 参数的警告信息。
uv pip compile 命令尝试根据指定的 --python-version 下载 Python。
- 支持通过 pyx 实现 Trusted Publishing。
- 修复了
exclude-newer-package JSON 模式中的问题。
- 预览功能:
- 改进了对冲突包的检测。
- 在
uv python upgrade 中,根据过时的构建版本进行升级。
- Bug 修复:
- 修复了 chocolatey 系统测试中 uv 使用错误 Python 的问题。
- 修复了当
SSL_CERT_FILE 是目录时出现的无限循环问题。
- 文档更新:
- 更新了 CONTRIBUTING 指南,添加了 cargo-xwin。
- 修复了 UV_PUBLISH_INDEX 文档中的拼写错误。
- 将 MSRV 移动到平台支持部分。
- 更新了 CONTRIBUTING 指南中的测试说明。
- 在指南中使用了
--locked 安装 cargo-xwin。
- 更正了
.gitlab-ci.yml 文件名。
- 其他:
3. 项目维护与自动化:
- 该项目使用 Renovate Bot 进行自动化更新和合并。
- 项目的合并流程需要手动操作,而非自动合并。
4. 其他:
- Konstin 修改了标题,从 "Warn about PyPy being unmaintained" 改为 "Warn about PyPy being not actively developed",更加准确地描述了 PyPy 的现状。
|
CasNum
CasNum 项目总结 (CasNum 项目摘要)
CasNum 是一个库,它使用圆规和直尺作图实现任意精度算术。该项目集成了功能强大的 Game Boy 模拟器,其中每个 ALU 指令都完全通过几何作图实现。
主要特点与功能:
- 基于圆规和直尺作图: CasNum 的核心是一个圆规和直尺作图引擎,它从两个点(原点和单位点)开始,并支持以下基本作图操作:
- 通过两点作直线
- 以一点为圆心,另一点为半径作圆
- 两条非平行线交点
- 直线与圆的交点
- 两圆的交点
- 任意精度算术:
CasNum 类使用平面上的点 (x, 0) 表示数字 x,通过几何作图实现加、减、乘、除等算术和逻辑运算。
- Game Boy 模拟器集成: CasNum 成功集成到 PyBoy 模拟器中,实现了完全基于圆规和直尺作图的 Game Boy 模拟器。
- 优化: 项目作者通过优化算法来提高性能,例如针对特定运算(如乘以 2 或模运算)进行优化。
- 可视化: 包含一个查看器 (
casnum/cas/viewer.py),用于显示圆规和直尺作图过程。
可能的用途:
- 简单的 RSA 程序
- Game Boy 模拟器集成
- 其他自定义算术应用
运行方法:
- 克隆仓库:
git clone --recursive g...@github.com:0xmer/CasNum.git
- 安装依赖:
pip install -r requirements.txt
- 运行示例:
python3 -m examples.basic 或 python3 -m examples.rsa
- 运行 Game Boy 模拟器:需要一个 ROM 文件(例如 2048.gb),将 ROM 放在
examples/PyBoy 目录下,然后运行 PYTHONPATH=../.. python。
哲学:
CasNum 旨在让开发者体验到算术运算背后的过程,而不是简单地使用 a + b。
性能:
- 利用
lru_cache 缓存计算结果以提高性能。
- 由于使用了大量的几何计算,时间和空间复杂度较高。
- 首次启动 Game Boy 模拟器可能需要 15 分钟,后续运行速度约为 0.5-1 FPS。
依赖项:
- sympy
- pyglet (可选,用于可视化)
- pytest-lazy-fixtures
- pycryptodome (仅用于 RSA 示例)
常见问题:
- Q: 它可以运行 DOOM 吗? A: 它是一个数字库,不能直接运行程序。
- Q: 它快吗? A: 相比于手动复制欧几里得算法,速度快很多。
- Q: 为什么要创建这个项目? A: 为了体验算术运算的过程,并“感受一些东西”。
许可证:
CasNum 代码使用 MIT 许可证。 PyBoy 模拟器使用 GNU Lesser General Public License (LGPL) v3.0。 2048.gb ROM 文件使用 zlib 许可证。
|
War prediction markets are a national-security threat
波利市场:一场潜在的国家安全危机 (Polymarket: A Potential National Security Crisis)
本文探讨了预测市场平台 Polymarket 及其可能带来的国家安全风险。以下是主要内容:
事件背景:
- 伊朗领导人遇袭: 伊朗最高领袖哈梅内伊在 Tehran 遭到袭击,导致其遇难。袭击前,Polymarket 上一个名为“magamyman”的用户以约 2 万美元的赌注,押注哈梅内伊将在 3 月底前失去权力,最终获利超过 12 万美元。
- 委内瑞拉事件: 在美国军事行动成功将尼古拉斯·马杜罗从委内瑞拉安全转移后,Polymarket 上的一位用户通过一系列精准的赌注,获得了超过 400,000 美元的收益。
Polymarket 的运作模式与风险:
- 匿名交易: Polymarket 允许用户使用加密货币进行匿名交易,这使得追踪内幕交易变得困难。
- 内幕交易疑云: Polymarket 上存在大量可疑的赌注,暗示可能存在内幕交易行为,例如以色列军事预备役人员利用机密信息进行投注。
- 易于利用: 任何拥有特权信息的人都可以通过 Polymarket 轻松获利。
- 误导情报: 恶意行为者可以通过少量资金操纵 Polymarket 上的赔率,造成恐慌和猜疑。
- 扭曲战争动机: 即使是低收入的个人,也可能通过对战争事件进行投注来获取经济利益,这可能导致他们做出不利于自身军队的决策。
更广泛的影响:
- 情报机构的关注: 国际情报机构已经开始关注 Polymarket,并可能利用其数据来预测安全威胁。
- 传统媒体的合作: Substack 等媒体平台已经与 Polymarket 合作,将预测市场数据融入新闻报道,进一步扩大了 Polymarket 的影响力。
- 战争市场泛滥: Polymarket 持续推出新的战争相关市场,例如美国是否会袭击伊拉克、以色列是否会袭击贝鲁特等,增加了潜在的风险。
- 潜在的灾难性后果: 过去在委内瑞拉和伊朗事件中幸免于难,但未来类似的内幕交易行为可能导致更严重的后果,例如引发军事冲突。
总结:
Polymarket 作为一个预测市场平台,在提供信息和预测的同时,也带来了潜在的国家安全风险,尤其是在战争等敏感事件上。匿名性、易于利用和可能误导情报的特性,使得 Polymarket 成为一个需要密切关注和监管的平台。
波利市场:一场潜在的国家安全危机 (Polymarket: A Potential National Security Crisis)
本文探讨了预测市场平台 Polymarket 及其可能带来的国家安全风险。以下是主要内容:
事件背景:
- 伊朗领导人遇袭: 伊朗最高领袖哈梅内伊在 Tehran 遭到袭击,导致其遇难。袭击前,Polymarket 上一个名为“magamyman”的用户以约 2 万美元的赌注,押注哈梅内伊将在 3 月底前失去权力,最终获利超过 12 万美元。
- 委内瑞拉事件: 在美国军事行动成功将尼古拉斯·马杜罗从委内瑞拉安全转移后,Polymarket 上的一位用户通过一系列精准的赌注,获得了超过 400,000 美元的收益。
Polymarket 的运作模式与风险:
- 匿名交易: Polymarket 允许用户使用加密货币进行匿名交易,这使得追踪内幕交易变得困难。
- 内幕交易疑云: Polymarket 上存在大量可疑的赌注,暗示可能存在内幕交易行为,例如以色列军事预备役人员利用机密信息进行投注。
- 易于利用: 任何拥有特权信息的人都可以通过 Polymarket 轻松获利。
- 误导情报: 恶意行为者可以通过少量资金操纵 Polymarket 上的赔率,造成恐慌和猜疑。
- 扭曲战争动机: 即使是低收入的个人,也可能通过对战争事件进行投注来获取经济利益,这可能导致他们做出不利于自身军队的决策。
更广泛的影响:
- 情报机构的关注: 国际情报机构已经开始关注 Polymarket,并可能利用其数据来预测安全威胁。
|
Training students to prove they're not robots is pushing them to use more AI
AI 检测工具的反噬:扼杀创造力,反而激励学生使用 AI (AI Detection's Backfire: Stifling Creativity, Ironically Incentivizing AI Use)
这篇文章探讨了 AI 检测工具在教育领域带来的意想不到的负面影响。最初,这些工具旨在防止学生作弊,但结果却适得其反,反而激励了学生使用 AI 工具。
核心问题:
- 惩罚优秀写作: AI 检测工具对“过于优秀”的写作进行标记,导致学生被迫使用更简单的词汇和更保守的写作风格,以避免被误判为使用 AI 生成。这与 哈里森·贝哲隆 (Harrison Bergeron) 所警示的社会,通过压制卓越来追求“平等”的讽刺性相似。
- 防御性使用 AI: 为了避免被错误地指控使用 AI,一些学生开始使用 AI 工具来检查自己的写作,确保其风格不会触发检测器。这是一种“防御性”使用,而非为了作弊。
- “眼镜蛇效应”: 类似于英国殖民政府在印度试图消灭眼镜蛇而适得其反的案例,AI 检测工具本意是减少 AI 使用,结果却反而激励了其使用。
- 误判与自我审查: 优秀学生为了避免被指控作弊,不得不学习 AI 检测工具的工作原理,并花费大量时间修改自己的作品,以避免触发检测器。这导致他们感到自己像是在作弊,并最终选择保持沉默,避免进一步的怀疑。
- 时间浪费与教学扭曲: 学生被迫花费大量时间修改自己的原创作品,以避免被算法标记,这牺牲了他们学习、工作和提升写作能力的时间。更重要的是,这些工具传递了一种错误的信号:写作的目的是为了看起来平庸,而不是为了表达原创思想。
作者的解决方案:
一位写作教师 Dadland Maye 停止要求学生披露 AI 使用情况,转而将重点放在教授学生如何负责任地使用 AI 工具,以及如何辨别 AI 工具的优缺点。这种转变带来了积极的改变:学生开始主动寻求关于 AI 工具的指导,并参与到更具教育意义的讨论中。
总结:
作者认为,AI 检测工具的过度使用,不仅浪费了学生的时间,还扭曲了他们对写作的理解。作者呼吁教育者改变策略,将 AI 视为一个教育问题,而不是一个需要严格监管的作弊问题。 应该教导学生如何批判性地思考 AI 工具,并负责任地使用它们,而不是通过算法来限制学生的创造力。
|
The surprising whimsy of the Time Zone Database
IANA 时区数据库:一个充满历史和趣味的资源
这篇文章探讨了 IANA 时区数据库,以及它记录了世界各地复杂且不断变化的各种时区历史。文章主要讲述了以下几个要点:
1. 时区管理的复杂性与开源解决方案:
文章引用了 Computerphile 的视频,强调了处理时区问题的复杂性,建议开发者不要自己编写代码,而是利用已经存在的开源解决方案,并感谢那些为之付出的人。
2. 不列颠哥伦比亚永久夏令时更新:
作者关注到加拿大不列颠哥伦比亚省计划永久采用夏令时,并成功在 IANA 时区数据库的 GitHub 仓库中找到了相关的更新记录(commit:https://github.com/eggert/tz/commit/8b46071fd85a7a9434d63894bac64d30362cc16d)。
3. 历史事件的记录:
IANA 时区数据库不仅记录了时区变更,还记录了许多有趣的或具有历史意义的事件,例如:
- 二战期间英国采用“双夏令时”,夏季增加两小时,冬季增加一小时。
- 1947 年,加拿大知识分子罗伯特·戴维斯对夏令时的批判。
- 20 世纪 50 年代纳什维尔市公共时钟的“双面”设计,分别显示保守派和自由派的时间。
- 1883 年纽约市“两正午日”事件,标志着标准化时区的采用。
- 关于北极圈以北 Resolute Bay 社区时间区的历史侦探故事。
4. 数据库的趣味性:
尽管 IANA 时区数据库是许多软件依赖的重要资源,但它也包含着大量充满人情味的趣味性内容,反映了人类对时间观念的理解和变化。
总而言之,文章强调了 IANA 时区数据库作为记录世界各地时间变化历史的重要资源,它不仅包含技术信息,还蕴含着丰富的历史和文化内涵。
|
Autoresearch: Agents researching on single-GPU nanochat training automatically
自动研究项目总结 (Zìdòng Yánjiū Xiàngmù Zǒngjié) - Autonomous Research Project Summary
This project explores a novel approach to AI research using autonomous AI agents. The core idea is to provide an AI agent with a small LLM training setup and allow it to experiment and modify the code automatically.
核心概念 (Héxīn Gàiniàn) - Core Concepts:
- 自主研究 (Zìzhǔ Yánjiū) - Autonomous Research: AI agents autonomously modify and train code, iteratively improving a language model.
- 简化设置 (Jiǎnhuà Shèzhì) - Simplified Setup: The project utilizes a simplified, single-GPU implementation of
nanochat, focusing on a minimal codebase for ease of experimentation.
program.md 指令 (program.md Zhǐlìng) - program.md Instructions: Human researchers primarily interact by modifying the program.md file, which provides instructions and context for the AI agents, rather than directly editing the training code. This is the "research org code" that guides the agents.
- 固定时间预算 (Gùdìng Shíjiān Yùsuàn) - Fixed Time Budget: Each training run is limited to a fixed 5-minute time budget, ensuring comparability and encouraging the agent to optimize for the given compute resources.
val_bpb 指标 (val_bpb Zhǐbiāo) - val_bpb Metric: The primary performance metric is "validation bits per byte" (val_bpb), with lower values indicating better performance. This metric is independent of vocabulary size.
项目结构 (Xiàngmù Jiégòu) - Project Structure:
The project consists of three key files:
prepare.py: Contains constants, data preparation (downloading data and training a BPE tokenizer), and runtime utilities. Not modified by the agent.
train.py: The single file that the AI agent edits. Contains the entire GPT model, optimizer (Muon + AdamW), and training loop. All aspects of the model are potentially modifiable.
program.md: Baseline instructions for the AI agent. Human researchers modify this file to guide the research process.
快速开始 (Kuàisù Kāishǐ) - Quick Start:
- 安装
uv: 使用 curl 安装 uv 项目管理器。
- 安装依赖 (Ānzhuāng Yīlài) - Install Dependencies: 使用
uv sync 安装项目依赖。
- 下载数据和训练分词器 (Xiàzài Shùjù hé Xùnliàn Fēncíqì) - Download Data and Train Tokenizer: 使用
uv run prepare.py 下载数据并训练分词器 (一次性操作,约 2 分钟)。
- 运行单个训练实验 (Yúnxíng Dāngè Xùnliàn Shíyàn) - Run a Single Training Experiment: 使用
uv run train.py 运行单个训练实验 (约 5 分钟)。
运行 AI 代理 (Yúnxíng AI Dàilǐ) - Running the AI Agent:
可以使用像 Claude 或 Codex 这样的 AI 代理,并将其配置为在仓库中运行,禁用所有权限。 可以向代理发送提示,例如:“Hi, 看看 program.md,让我们启动一个新的实验!先来设置一下。”
设计选择 (Shèjì Xuǎnzé) - Design Choices:
- 单文件修改: 代理只修改
train.py 文件,以保持范围可控。
- 固定时间预算: 确保实验可比性,并鼓励代理针对特定平台进行优化。
- 自包含: 减少外部依赖,简化配置。
平台支持 (Píngtái Zhīchí) - Platform Support:
当前代码需要一个 NVIDIA GPU。虽然理论上可以支持其他平台 (CPU, MPS),但会增加代码复杂性。 作者建议参考 nanochat 仓库以获取更广泛的平台支持。
可关注的分支 (Kě Guānzhù de Fēnzhī) - Notable Forks:
许可证 (Xǔkězhèng) - License:
MIT
|
I resigned from OpenAI
总结:关于x.com (Twitter) 访问问题的提示
这段内容提供了一个简短的提示,说明在访问x.com (前身为Twitter) 时可能遇到的问题以及解决方案。
主要内容:
- 问题: 访问x.com可能出现问题。
- 原因: 某些与隐私相关的浏览器扩展程序可能导致此问题。
- 解决方案: 建议禁用这些隐私扩展程序,然后重新尝试访问。
总结: 如果访问x.com遇到问题,请尝试禁用浏览器中的隐私扩展程序。
|
Lawmakers Want DoD Investigated for Biblical 'Armageddon' Claims
民主党众议员要求对国防部内部宗教宣传进行调查 (Mínzhǔ Dǎng Zhòngyìyuán Yāoqiú Duì Guófángbù Nèi bù Zōngjiào Xuānchuán Jìn Xíng Diàochá)
概述 (Gàishù):
超过二十四名民主党众议员正要求美国国防部(DOD)进行内部调查,以回应军方人员的指控,称指挥官将当前伊朗战争描述为根植于基督教圣经预言的冲突。 这些指控引发了对美国宪法和国防部规定的担忧。
主要内容 (Zhǔyào Nèiróng):
- 指控内容 (Zhǐkòng Nèiróng): 一名匿名军官向军事宗教自由基金会(MRFF)提交的投诉称,军官被告知伊朗战争是上帝的计划的一部分,并且前总统唐纳德·特朗普“被耶稣膏抹,点燃伊朗的信号火,引发世界末日并标志着他重返地球”。 MRFF在周六至周二下午期间记录了来自50个军事机构的200多份类似投诉,涵盖了军队的各个军种。
- 背景 (Bèijǐng): 这些指控在国防部日益公开地拥抱基督教的背景下出现,包括每月举行的祈祷会以及国防部长彼特·海格塞思参加基督教主题活动的公开露面。
- 民主党众议员的行动 (Mínzhǔ Dǎng Zhòngyìyuán de Xíngdòng): 众议员贾里德·赫夫曼、杰米·拉斯金和克里斯西·胡拉汉领导了27名民主党同事,致函国防部监察长普拉特·B·莫林三世,要求进行调查。他们认为,如果指控属实,这些言论可能违反了宪法、国防部规定,并违反了军事领导人的专业标准。
- 调查要求 (Diàochá Yāoqiú): 民主党众议员提出了六项调查要求,包括:
- 调查指挥官是否向下属宣称美国对伊朗的军事行动是宗教预言的一部分。
- 评估此类言论是否违反了国防部的宗教中立政策。
- 确定国防部收到的关于宗教框架信息范围和地理分布。
- 调查举报此类问题的人员是否遭受报复或担心报复。
- 评估现有的培训、指导和监督,以确保指挥官在正式场合保持宗教中立。
- 确定是否需要额外的指导或行动来确保人员。
- 担忧 (Dānyōu): 民主党人还担心国防部长彼特·海格塞思的宗教言论可能导致军队中类似信息传播,并呼吁调查海格塞思的言论是否已在指挥链中蔓延,违反了宪法保护、部门规则和专业军事规范。
- 投诉人的背景 (Tóusùrén de Bèijǐng): 投诉人是一名军官,其单位目前不在伊朗战区,但可能被部署到那里。 他代表了15名军人,包括至少11名基督徒、一名穆斯林和一名犹太人。
总结 (Zǒngjié):
此次调查呼吁反映了对国防部内部宗教宣传的担忧,以及对这些宣传可能对军人和美国宪法的影响的担忧。 民主党人要求对这些指控进行全面调查,以确保军队的宗教中立和专业主义。
|
Verification debt: the hidden cost of AI-generated code
总结:AI 在软件开发中的转变与挑战 (Summary: The Shift and Challenges of AI in Software Development)
这篇文章探讨了人工智能 (AI) 在软件开发领域日益增长的影响,从最初的“脑盒”阶段到如今的生产环境应用。作者 Lars Janssen 观察到,AI 正在改变软件开发的流程,但同时也带来了新的挑战。
主要观点:
- 从“脑盒”到协作助手: 早期的 ChatGPT 仅仅是一个强大的推理引擎,缺乏与外部世界的连接,如同一个没有网络的 iPhone。如今,通过工具集成,AI 已经能够与实际系统交互,例如连接到 Snowflake 数据仓库,成为分析师的助手,并能主动发现潜在的洞见。
- AI 效率提升与验证债务 (Verification Debt): AI 能够以极快的速度生成代码,但同时也带来了“验证债务”的问题。即生成代码的速度远快于验证代码的速度,这可能导致开发者对代码的正确性产生虚假的安全感,最终构建出不符合用户实际需求的产品。
- 人类瓶颈的转移: AI 提高了工程师的效率,但并没有带来整体产出的大幅提升。相反,审查 (review) 变得更加重要,审查工作成为新的瓶颈。 AI 并没有消除认知负担,而是改变了它的形式。
- 技能转变,而非技能缩减: 如同 Google 的出现改变了人们获取信息的方式,AI 也将改变软件开发人员的技能。开发者需要转变技能,从记忆 API 签名转向解决更复杂的问题,而不是担心技能的萎缩。
- 未来展望: 作者认为 AI 的发展方向是不可逆转的。未来的重点将不再是“如何产生更多的代码”,而是“如何验证更多的代码”。 开发者需要认真审查 AI 生成的代码,并考虑其潜在的风险和假设。
核心挑战与建议:
- 验证代码: 开发者需要仔细验证 AI 生成的代码,确保其实现正确的逻辑,并考虑 AI 做的假设。
- 审查工作: 需要更加重视审查工作,确保代码的质量,并避免因为 AI 效率提升而忽略了潜在的风险。
- 理解领域知识: AI 无法代替人类对领域知识的理解,开发者需要保持批判性思维,并对 AI 生成的输出进行判断。
- 关注责任: AI 降低了代码的成本,但并没有降低责任的成本。 最终,对代码的责任仍然由人类承担。
总而言之,文章强调了 AI 在软件开发领域带来的巨大变化,以及开发者需要适应新的工作模式,并关注潜在的挑战和风险,才能充分利用 AI 的优势。
|
LLM Writing Tropes.md
AI写作套路规避清单总结 (Summary of AI Writing Tropes to Avoid)
这份文档旨在帮助人工智能助手避免常见的写作模式,提升文本质量。以下是核心要点总结:
一、用词选择 (Word Choice)
- 过度使用副词: 避免过度使用 "quietly"、"deeply"、"fundamentally" 等副词,以增强描述的力度。
- 滥用特定词汇: 避免过度使用 "delve"、"utilize"、"leverage"、"robust"、"streamline"、"harness" 等词汇。
- 华丽的抽象名词: 避免使用 "tapestry"、"landscape"、"paradigm"、"synergy"、"ecosystem"、"framework" 等过于抽象的词语。
- 使用迂回的表达: 避免用 "serves as"、"stands as" 等替代简单的 "is" 或 "are"。
二、句子结构 (Sentence Structure)
- 负面平行结构: 避免频繁使用 "It's not X -- it's Y" 模式,避免制造虚假的深刻性。
- 倒数式结构: 避免使用 "Not X. Not Y. Just Z." 模式,避免制造紧张感。
- 自问自答: 避免使用 "The X? A Y." 模式,避免制造戏剧性效果。
- 重复句式开头: 避免重复使用相同的句子开头,避免机械感。
- 三段式滥用: 避免过度使用三段式结构,避免模式化。
- 无意义的过渡: 避免使用 "It's worth noting"、"Importantly" 等无意义的过渡短语。
- 浅薄分析: 避免在句尾添加 "-ing" 形式的短语,以制造肤浅的分析。
- 虚假范围: 避免使用 "from X to Y" 结构,当 X 和 Y 之间缺乏实际的连续性时。
- 动名词列表: 避免使用不带主语的动名词短语串联成段落。
- 列表伪装成散文: 避免将列表用散文形式包裹,试图掩盖其列表本质。
三、语气与风格 (Tone)
- 预告式结尾: 避免使用 "Here's the kicker" 等短语,预告一个并不重要的结论。
- “把它想象成…”: 避免使用 "Think of it as..." 等表达,以简化概念。
- 想象未来世界: 避免使用 "Imagine a world where..." 等表达,过度渲染未来愿景。
- 虚假的坦诚: 避免使用假装自省或承认偏见的表达,制造虚假的真实感。
- 夸大问题的重要性: 避免将所有论点都提升到关乎世界历史的地位。
- “让我们分解一下…”: 避免使用 "Let's break this down" 等表达,暗示读者需要手把手指导。
- 模糊的引用: 避免引用未明确来源的专家或报告,增加可信度。
- 自造概念标签: 避免过度使用自造的复合概念标签,如“supervision paradox”。
- 重复总结: 避免在同一篇文档中重复总结内容。
- 死板的隐喻: 避免过度使用单一隐喻。
- 历史类比堆砌: 避免堆砌历史公司或技术革命,以增强说服力。
- 单一论点冗余: 避免将单一论点通过多种方式重复数千字。
- 内容重复: 避免出现完全相同的段落或句子。
- 结论预示: 避免使用 "In conclusion" 等短语,直接宣告结论。
- “尽管存在挑战…”: 避免使用 “Despite its challenges…” 模式。
四、格式 (Formatting)
- 过度使用破折号: 避免过度使用破折号。
- 粗体项目符号: 避免所有项目符号都以粗体开头。
- Unicode装饰: 避免使用Unicode箭头和特殊字符。
总而言之,这份清单旨在帮助AI助手避免过度模式化,写出更加自然、流畅、有洞察力的文本。 关键在于避免过度依赖模板,模仿人类写作风格,追求具体性和多样性。
|
$3T flows through U.S. nonprofits every year
全民都在争论联邦预算:对 IRS 990 表格申报的分析
本文分析了美国非营利组织的财务状况,揭示了其报告体系与上市公司之间的巨大差异,并探讨了这些差异对捐助者信任的影响。
主要发现:
- 庞大的资金流动: 美国非营利组织每年处理 3 万亿美元的资金,涵盖医院、大学、宗教组织以及传统的慈善机构。其中,真正流向慈善非营利组织的是约 5000 亿美元,其余部分主要用于医院和大学等其他税务豁免机构。
- 报告差距: 与上市公司需要每季度提交详细财务报告(Form 10-Q)和年度审计报告(Form 10-K)的情况不同,非营利组织只需每年提交一份 Form 990 表格,且需要 12-18 个月才能公开。此外,年收入低于 50,000 美元的非营利组织甚至无需提交表格。
- 慈善支出结构: 在慈善非营利组织中,仅有 36% 的资金用于项目支出,而 64% 用于运营、人员和管理费用。Form 990 表格无法区分项目支出和运营支出,难以评估资金的实际用途。
- 捐助者信任下降: 32% 的捐助者表示,他们对慈善机构的信任度比五年前有所下降,最主要的原因是担忧资金的使用方式。
- “非营利组织饥饿循环”: 资助者通常只关注新项目,很少资助后续监测,导致非营利组织为了控制管理费用在 15% 以内,不得不削减培训、维护和监控等方面的投入。2024 年,36% 的非营利组织以亏损收场,仅有 41% 的组织能够支付员工生活工资。
- 投资失效: 在乌干达随机抽查的 200 口水井中,45% 的水井已经损坏,只有 24% 的水井能够提供安全充足的水源。在撒哈拉以南非洲的农村地区,大约有 5 万个供水点已经失效,造成 2.15 亿至 3.6 亿美元的投资损失。
- 报告的自愿性: 虽然 Form 990 表格是公开的,但详细的报告仍然是自愿的。那些愿意提供更详细报告的组织很容易被识别出来。
- 数据透明度不足: 尽管存在卫星图像和实时仪表盘等工具,但这些工具在非营利组织领域的应用仍然有限。
结论:
本文强调了美国非营利组织报告体系的缺陷,以及这如何影响捐助者对慈善机构的信任。作者认为,这并非停止捐赠的理由,而是呼吁捐助者更深入地了解慈善机构的资金使用方式和影响评估方法。
|