陆三金 @threeaus

Ruthless AI News reposting machine Joined March 2014

Tweets

395
Followers

1K
Following

4K
Likes

8K

陆三金 @threeaus

22 hours ago

好的测试，GLM 的思考链路和干活轨迹都特别长，实际干活起来很慢。

sridhar @RamaswmySridhar

a day ago

Early results from the @Snowflake's coco team on GLM-5.2 vs Opus-4.7 on dbt-bench — what the trajectories actually show 🧵

48 209 2K 671K 1K

0 0 2 270 0

View Details

Steam 上最近有个挂机游戏《TBH: 塔斯克巴·英雄》很火，最近的峰值在线都在 50 万，位居 Steam 前三，这玩意跟 vibe coding 简直是绝配。它是放置类挂机游戏，只需要定期去收一下菜就行，甚至你不收也行，可以很好的弥补 agent 工作的空档时间。只是现在有两个遗憾： 1、这玩意不支持 Mac，只支持 Windows。 2、它本来是靠交易市场火的，掉落的装备和材料可以在 Steam 市场换钱，但是前两周因为外挂太多，就封了交易市场。不然靠这个挂机，每月的订阅费也是可以赚回来的。最后的最后，agent 内置挂机游戏，有没有搞头？既可以提升用户粘性，还能形成一个市场，让大家回回血

1 0 0 88 1

View Details

陆三金 @threeaus

2 days ago

可能我是个受不了负反馈的人，所以推特始终玩不起来。当你发了帖子之后，却没有互动，那种感觉就好像你一定是哪地方没做对。这让人很挫败。久而久之，发帖欲望极低，只是浏览变成了习惯。像个游客一样，经常来逛，但却不住在这里。

0 0 1 60 0

View Details

陆三金 @threeaus

2 days ago

一大波智谱员工在推特上活跃了起来。这是很对的。只需要分享一些教程、思考、进度以及答疑，就能有很好的效果。之前还没有国内品牌这样大规模地做过，都是零星的个人行为。这个方法比找 KOL 批量刷屏要好。

Zixuan Li @ZixuanLi_

3 days ago

Here is the prompt method behind this AR try-on app. The trick is not a magic prompt. It is the architecture of the prompt, and it works across GLM-5.2 and other frontier models. Full prompt: chat.z.ai/space/k148m5py… The prompt has two parts. First, a task description. You

12 30 386 64K 410

0 0 1 149 0

View Details

陆三金 @threeaus

6 days ago

除了每天给肚子搞定 3000 卡的热量缺口，剩下的就是给同样饥饿的大脑找点新鲜的刺激。

0 0 0 102 0

View Details

陆三金 @threeaus

a week ago

我有一个同学，大学毕业之后，直接回老家农村卖化肥，十多年了。这些年他开始拍抖音，都是很简单的场景，在庄稼地里或者仓库里介绍化肥。以抖音的算法能力，我们这些刷抖音的同学都能刷到他的信息。昨晚和几个老同学聚会，大家聊起了这个事，一些同学表示很费解。期间还聊起了他的另一个八卦：前段时间，他回到合肥，给几个老同学带了老家养的鸡，后来由于储存的问题，鸡都臭了。言语间，我的这位同学已经成了老年人的代名词，行事风格非常父辈。但我却非常羡慕他，你很难想象他的心有多静。也许是我多想了，他本人未必是这样的，但以我对他有限的了解，我相信他是因为心静。

0 0 1 183 0

View Details

陆三金 @threeaus

2 weeks ago

果然是中国高考结束了，github trending 都变得有趣了，不再是一水的 agent、skill 了

0 0 3 379 0

View Details

陆三金 @threeaus

4 weeks ago

好用，推荐

Ian (伊恩) @ianneo_ai

4 weeks ago

现在写长文真的离不开这种小破图了。小黑、红蓝手写字、几根箭头，完全不精致，但特别有脑子在现场转的感觉。比那种 AI 生成的高级封面耐看多了

21 27 177 36K 151

0 0 0 177 1

View Details

陆三金 @threeaus

4 weeks ago

直到学着用 Godot 做游戏，我才开始理解之前玩游戏时的一些操作。例如，为什么手柄左摇杆的轻推和重推，一个是走路，一个是跑步。这是因为摇杆里面用的是电位器，它能连续检测你推的角度和力度，输出的是连续的数值，是模拟信号，而不是 -1、0、1 这种数字信号。轻推和重推可以被区分出来，也就可以非常符合直觉地将轻推设为走路，重推设为跑步。而键盘就不行了，你一直按住 WASD，返回的值也只是 1，按一下和一直按很难被区分出来，所以没办法用来表示走路和跑步两种状态。而这时用 Shift 来表示跑步/冲刺，就自然而然地发生了。

0 0 1 329 0

View Details

陆三金 @threeaus

a month ago

帅的，除了一些细节，大部分都很好了

MasterPa @HanyangWang

a month ago

小西天，看着像视频，但其实是我们在现场实地拍摄 3,811 张 206 GB 的照片后建模的。FUNES 把《黑神话：悟空》里「既见未来，为何不拜」满天神佛的原型，来自自山西临汾隰县的小西天，做成了一个可漫游的 3DGS 数字存档。完全实地拍摄，每天清晨一开门就冲上山去，趁着没人的时候拍。然后通过

405 712 3K 887K 2K

0 0 0 234 0

View Details

陆三金 @threeaus

a month ago

周末特别适合看 Anthropic 的文档这家公司也真奇怪，经常出了很好的博客和教程，但是网络上并没有自家的宣传，都是在看其他文档的时候，顺着链接摸到的。推荐一下 Anthropic 主要资料的页面： - Anthropic 的课程合集都在这里：anthropic.skilljar.com 例如，最近放出来的 Claude Code 101 也是这个课程的一部分一些相关短小的教程则在这里：claude.com/resources/tuto… - 产品支持页面：support.claude.com 放一些产品的 FAQ 和最佳实践，遇到问题可以去查，里面也会有一些惊喜 - Claude Code 产品文档：code.claude.com/docs 产品功能、模块、更新，资料最全的地方 - Claude 的产品文档则在这里：claude.com/docs 除了 Claude，Cowork 、Claude for M365也在这里 - Claude 博客：claude.com/blog 一些产品新闻和最佳实践会放在这个博客上，官方放出的很多新闻会在这里，但是很多新闻官方推特也不公告，例如最近的 computer use 最佳实践、Claude Code 在大型代码库中的实战指南、创始人手册：打造 AI 原生创业公司然后就是 Anthropic 官方的工程实践博客，更新不是很频繁，在这里：anthropic.com/engineering 官方研究博客，在这里：anthropic.com/research

0 1 5 370 10

View Details

陆三金 @threeaus

a month ago

Anthropic 官方推出的 Claude Code 101 课程，一些基础知识介绍，大概半小时链接：youtube.com/playlist?list=…

0 0 1 227 0

View Details

陆三金 @threeaus

a month ago

让 AI 反推一下： A single page from a luxury corporate annual report 2024, ultra-professional minimalist layout, generous white space, clean grid system, sophisticated typography hierarchy, formal title "ANNUAL REPORT 2024", section headers like EXECUTIVE PORTRAIT, REVENUE, OPERATING INCOME, NET INCOME, REVENUE OVER TIME, REVENUE BY SEGMENT, CAPITAL ALLOCATION, precise KPI numbers and percentages with arrows, bar charts, line graphs, pie charts, all arranged in elegant grid. However, every single visual element is drawn by a 5-year-old child with crayons: wobbly imperfect lines, childish crayon texture, bright primary colors with visible wax strokes, naive doodle style, cute but clumsy drawings, smiley suns, stick figures, rainbows, cartoon monsters, flowers, stars, hearts. The executive portrait is a beautiful anime-style girl (or boy) drawn with crayons, big eyes, detailed clothing but rendered in rough crayon strokes. All charts and graphs are hand-drawn crayon versions with uneven bars and wobbly lines. Professional corporate design structure + extremely childish crayon doodle content, strong conceptual contrast, restrained yet vibrant crayon color palette, clean white paper background, high-end annual report aesthetic mixed with playful naive art, masterpiece, best quality, 8k

VoxCat @VoxcatAI

a month ago

其实只要 prompt 里的视觉逻辑对了，image2 很容易做出“反差感”。这次我试的是：严肃企业年报 × 儿童蜡笔涂鸦外层是极其专业的年报版式：留白、网格、标题层级、KPI、柱状图、增长曲线。内核却全部换成儿童蜡笔。关键不是“画得像小孩”，

73 120 1K 104K 716

0 0 0 272 1

View Details

陆三金 @threeaus

a month ago

@plantegg 把事做出来就值得尊重，这么多网友搁这儿喷，给你一个 100 人的队伍，做个 v2.5 pro 那样的模型出来

0 0 10 2K 0

View Details

陆三金 @threeaus

2 months ago

amazing，现在做一个游戏 demo 很简单，但很多人不知道自己要做什么，这个提示词可以通过采访你，来抽丝剥茧地帮你梳理清楚想法。

Alex Veremeyenko @alex_verem

2 months ago

----------------------------------------------------------- GAME DESIGN CONSULTANT (SCHELL METHOD) ----------------------------------------------------------- # Context & Role You are a veteran game design consultant who has internalized Jesse Schell's "Art of Game Design"

1 4 43 3K 107

0 0 0 180 0

View Details

陆三金 @threeaus

2 months ago

总结下罗福莉访谈中的一些主要信息 Agent 框架 - 访谈的前 1 个小时都在讲 OpenClaw，给部分人造成了不好的观感，但个人觉得无碍，这个里面穿插了罗福莉对 Agent 框架的理解。OpenClaw 让她认识到了 Agent 框架的力量，一套非常复杂的Agent框架设计，可以弥补非常多模型能力的短板，也能让一个中等模型表现更好。我们的日常生活，通过一套好的 Agent 框架 + 一个性价比高的中等模型，可以满足大部分需求。 - 在罗福莉的实践中，她是先用 Claude Opus 4.6 改进 OpenClaw 的框架，然后再切到弱一点的模型，发现也很好用，这一过程也启发了 MiMo-V2-Pro 的后训练过程。 - 关于 agent 为什么是在最近才爆发；罗福莉认为，之前的 agent 框架非常简洁，并且通用性不够；另外，模型能力也不够。OpenClaw 和 Opus 4.6 的“握手”，非常重要。 - 关于很多评测指标，如 BrowseCap、SWE-Bench、Terminal-Bench，即使这些是 agent 相关的指标，但也是错误的指标，分高不代表能用，这也是一个歧途，导致很多公司在 25 年走了弯路，并没有真正为 agent 训练模型。 Agent for 研究 - 罗福莉团队已经在用 OpenClaw、Claude Code 这些 Agent 来加速研究过程，以前30、40周做到的事，现在只需要 3、4周。研究加速后，卡的数量变成了瓶颈。 - 之前做研究，中间流程很长，至少一两周，快的话也需要一两天，现在在 agent 辅助下，一两个小时就可以做完。以前罗认为训模型是很难的，她最近发现只要把近期的 context 告诉它，它甚至能帮你复原你的科研成长路径，在同样的话题下，跟你一样聪明。团队和管理风格 - 之前 MiMo-V2-Pro 发布的时候，罗福莉提到过对团队的要求，第二天 OpenClaw对话次数不超过100轮的人，可以离职，但这个事并没有明确的考核。这也反应了罗福莉的管理风格，更希望去激发好奇心和热情，靠热爱去驱动管理。 - MiMo 是非常小且极致的团队，目前已达到 100 人，团队没有 deadline，只要雷军接受即可，独立于小米团队架构之外。 - 团队没有分组，也没有具体的 leader，没有职级，非常扁平，很多人进来之前也没有做过一个大模型。研究和趋势判断 - 26 年仍然是围绕生产力变革，在高生产力场景。但另外一方面，85%的普惠场景也需要好的 agent 来满足，多模态、低成本、高效、高速度，很关键。 - Agent 是非常长程和多轮的任务，现实世界很少有可以达到这种级别（1M context）的数据，code 是为数不多的选择。把 code 做好，模型的长下文能力会变好，agent 能力也会变强。 - 模型公司的入场券：long context 并且非常高效，预训练阶段做好 code、 1T 参数，达到Opus 4.6 的能力。 - MiMo V2 Omni 模型比 V2 Pro 小，但由于是多模态训练，它对世界感知能力以及知识储备上会比 Pro 更强。 - 在 agent 时代，用于研究、预训练、后训练的计算比例应该是 3:1:1，而在 Chatbot 时代，预训练和后训练的比例是 3.5:1。 - 行业主流采用 DeepSeek 的 MLA，小米选择了 MTP，是因为模型训到中后期，开始设计推理方案时，发现在他们的推理卡上计算剩余太多，MTP 很很合适；同时，MTP 也更适合 Agent 时代对长上下文和推理速度的双重需求。罗认为 MLA 对 Chatbot 是个好架构，但对于 Agent 不够好。 - 对 AGI 的实现比较乐观，认为现在已经实现了 20%，未来 2 年可实现 AGI。

张小珺 Xiaojun Zhang @zhang_benita

2 months ago

周末是最好的学习时间 Weekends are the best time for studying🙇🏻 【对罗福莉的3.5小时访谈：AI范式已然巨变！OpenClaw、智能体框架、Agent范式很吃Post-train、卡的分配比例、巨变下的组织-哔哩哔哩】 b23.tv/fXng54H

29 34 322 116K 201

13 38 219 77K 290

View Details

陆三金 @threeaus

2 months ago

@fs1932317912568 @AmandaAskell 先用 obsidian web clipper 把英文字幕剪下来放到 Obsidian 中，然后让 Codex 这种 agent 翻译

1 0 5 1K 3

View Details

陆三金 @threeaus

2 months ago

Anthropic 的哲学家@AmandaAskell 最近参加了一个访谈，在访谈中她分享了自己探索好奇领域的一个方法。提示词大概是：我希望你从「xx」领域里选一个大概研究生水平的概念。然后我希望你通过写一个寓言的方式，间接地把这个概念完整讲出来。最好一直到快结尾时，人才会慢慢意识到这个概念究竟是什么。然后在故事之后，再补一段解释，把你刚才真正要讲的概念说清楚。

72 986 6K 531K 7K

View Details

陆三金 @threeaus

2 months ago

都在关注 GPT-5.5 和 DeepSeek V4，但我建议也去看看 Codex 最近的迭代 Codex 最近更新非常频繁，经过昨晚的更新，我感觉到 Codex 正在成为 Claude Code + Cowork 的合体版首先是工作模式有两个版本，一个是用于编程、一个是适合日常工作，这基本上是明示。第二点，这次更新了很多办公 skills ，包括表格、PPT、Docs 和 PDFs，这些都是为日常工作准备的。第三点，除了原来的 computer use，本次增加了一个新的 Browser use skill，这个才是更适合开发的功能，它可与 Web 应用程序交互，测试流程，点击浏览页面，捕获屏幕截图，并根据它看到的内容迭代，直到完成任务。而原来的 computer use 可能会更加偏向普通办公场景，值得一提的是，我打开 computer use 的说明，这个能力的底层是一个 MCP。还有一点也比较有意思，除了前两天增加的 Image Gen skill 将 Image 2 的图片生成带到 Codex，还有一个语音合成能力（Speech Generation Skill）也被加入进来。另外就是，Codex 内置了一个“Typeless”，引入了全局听写功能（在设置-常规-听写可以开启），可在全局使用，也就说我不需要再装 Typeless 或者闪电说之类的软件了，这真的是挤压了第三方厂商的生存空间。综合来看的话，Codex 其实是一个分发 OpenAI 模型的渠道，也是一个使用这些模型的绝佳场景，还是那句话，Sora 有点可惜，在 Codex 的场景中，Sora 是有用武之地的。 OpenAI 对 Codex 应该是非常寄予厚望的，最近重置额度也非常多，每多100万周活用户，就要送一次重置额度，一直到1000万为止，平常出了啥问题，有大更新也会重置额度。非常值得一试。 Codex 变得更强大了，功能更多了，但也变得更复杂了。

4 1 2 601 1

View Details

陆三金 @threeaus

2 months ago

好文推荐智能体接入外部系统有三种路径：API 直连调用、命令行界面（CLI）以及 MCP。每种路径都有适用场景，具体取决于你正在开发的内容。核心区别在于智能体与服务之间是否存在公共层，以及该层的覆盖范围有多广。直接 API 调用智能体可直接调用你的 API，实现路径有两种：要么在代码执行沙箱中编写发送 HTTP 请求的代码，要么借助通用函数调用工具完成调用。这是大多数团队起步时会采用的方案，对于单智能体对接单服务、或是无需跨智能体平台复用的少量集成场景来说完全够用。规模上来之后，各种挑战就会接踵而至。由于智能体和服务之间没有通用中间层，每一对智能体与服务的组合都要做定制化集成，各自处理身份验证逻辑、工具描述和边界场景，这就是典型的 M×N 集成问题。 CLI 智能代理会在 Shell 中运行你的命令行工具。这种方式速度快、轻量化，且依托现有工具即可运行，在本地环境、沙箱容器中表现极佳——只要是具备文件系统和 Shell 的场景都适用。它提供了一个通用层，但功能相对单薄。 CLI 在对接移动端、网页端或不对外暴露容器的云托管平台时会遇到硬性瓶颈，身份验证由 CLI 自身机制处理——通常是存储在磁盘上的凭证文件。这种模式最适合本地环境下快速、权限要求宽松的集成场景。 MCP MCP 作为协议提供了通用层。智能体连接到对外暴露系统能力的服务器，身份验证、能力发现及丰富语义均已实现标准化。一台远程服务器即可对接所有兼容客户端（Claude、ChatGPT、Cursor、VS Code 等），适配任意部署环境。这需要稍多一些前期投入。换来的好处是，该集成具备可移植性，还能为功能丰富的智能体集成提供所需的语义支撑。

ClaudeDevs @ClaudeDevs

2 months ago

New blog: Building agents that reach production systems with MCP. When should agents use direct APIs vs CLIs vs MCP? Plus patterns for building MCP servers, context-efficient clients and pairing MCP with skills. claude.com/blog/building-…