2026年初的AI观察

2026年2月26日

前沿AI大模型及其成套工具，已经成为了可以无人工干预的独立工作体。

去岁

在2025年初研究AI的时候，我就发现这玩意太适合使用命令行了，典型的应用是aichat，warp等，可以使用自然语言来驱动各种工具。

在当时，我意识到AI具备完全操作电脑的能力，尤其是Linux，可以用CLI实现一切。尝试了几个简单的脚本编写，比如提取摄像头的录制文件并合并，即便是这样简单的任务，也是bug重重，风险多多。大模型的能力不足以一把过，还不如自己边查边写。

最终，只能当作辅助工具，省去了记忆和查询命令手册的时间精力。

当时比较火的编排方式是像Dify这样的，可视化的辅助编排，每次执行一个固定的流程，每一步把生成的结果处理后交给下一个AI模型或提示词智能体。

是的，当时的关键词就是，文本生成大模型，RAG本地知识库，还有IDE 中的代码补全。

我久不用IDE，方法更笨，直接对话，抄代码，调试-反馈给AI-再抄代码。

2025年2月，Claude code的第一个版本发布了，大部分人包括我对此一无所知。

在去年这个时候，我觉得AI很强，但取代的也只能是一些低端白领，说白了不具备应付复杂场景的能力。

今朝

现如今，用opencode，零配置，Claude Sonnet 4.6，小型的项目一气呵成。

用哪个IDE？想用哪个用哪个，看代码舒服就行，不想看也可以找个AI去看(explore)。

在过去12个月，大模型的能力上了几个台阶，美国的Claude，GPT，Gemini三巨头已经强到不可思议了，其中，Claude不愧香农之名，是唯一真神。

由于大模型的强大，编排工具回到了脚本配置，AI根据自然语言自己编排（写脚本，写技能），甚至有人开发出了oh-my-opencode这种，用一个AI当领导，带领好几个AI当团队，实现西西弗斯式的操作，一直把任务完成为止。

Opencode(oc)可以简单理解为Claude code(cc)的开源版本，因为美国的御三家已经把中国（包括港澳）全部封杀了，我弄了一天也没有实现稳定使用上，干脆放弃cc转投oc。

oc和cc都内置了bash和webfetch功能，能自主搜索不需要配置，这一点比cherry studio强。

这两个基础但超级的工具让oc无所不能，哪怕是在非软件工程的任务中。你说要写word，oc就能自动安装其python库并自主调用。

打开oc，选择sonnet 4.6，一句话，烧掉3万tokens写成一个ios原生简单游戏app，从架构、编码、xcode编译、打开模拟器里的app，全部不需要人工。

大模型的能力飞跃加上超级工具集的使用，所有的结构化的、非前沿科技研究的工作，我已经看不到人类的任何优势。

有说大模型负责干杂活，人类来当领导并做决策，实际上我看来，前沿大模型的决策能力，已经超出了大部分人。

我感觉，流浪地球电影里的自主设计、自主决策、自主建造机器人，真的不是一个梦，是必然可以实现的。

算力设施和机械能力限制了AI的能力，这就是通用机器人，包括人形机器人还发展不起来的原因。

脑型机器人（大模型）做白领和管理层，专业机器人干工业和规模化农业，人类能干的，除了前沿科技和设计，就剩吃喝拉撒睡相关的，加上娱乐、律师、医生、心理咨询、美业、理疗这些了。美国现在的消费主导的模式，才是人类的未来，如果不靠合适的分配制度导向这种模式，大部分第三世界的人类将没有未来，没事做也没钱消费。

国产模型这边，不论多么能做营销，跑分多sota，和美国前沿模型的差距是肉眼可见的。中国模型1/20到1/100的价格优势，其实并换不来真正的生产力，相比之下还需要太多人工干预。更令人担忧的是，暂时还没有看到中国模型有突破的迹象，停止在了不可用的这条线上。

华为的手机芯片停在了麒麟9000的水平，也就是2020年的水平，此后只是堆核心和微调。这可能意味着作为AI算力的基础设施也会停在这个水平上，靠堆核心续命。芯片的基础设施跟不上，电力的优势如何发挥呢？

龙虾

一般来说，普通人上豆包，程序员远程用cc或oc，就很好。单独弄一个电脑或虚拟机来值守、又开一个messenger来传递消息没必要，循环巨轮烧token也并不雅；能定时能主动发消息扮萌也不是新鲜事，酒馆里都有。

不过，这是一个很好的示范，展示了AI大模型结合CLI能做什么，我们可以在openclaw的基础上进行扩展和裁剪。

是的，核心就是AI+CLI。智能体就是那些markdown文件，AI读进来当作上下文。

如果能有稳定的秒级的信息输入、秒级的大模型响应，龙虾可以演进为一个实时的超级助手，人人成为钢铁侠。

更大的可能性是，操作系统吸收了这些能力，比如微软的copilot，要弄成龙虾太容易了。

接下来的软件开发，要有两层，一层是给ai的api接口，这样可以给AI直接赋能，另一层才是给人类的UI。

再未来，AI要学会像人类一样操作电脑，不论是虚拟的还是实体的。从人形机器人的发展来看，端盘菜上桌都很困难，机器人看不见、抓不住，证明全场景、实时的、视觉的处理真没那么容易，工业机器人、自动驾驶都是特定可大量重复的单一环境下的。从CLI驱动到图形GUI驱动，AI还需要更多的进化，且在训练和使用时需要更多的算力和电力。

补充：大模型订阅

Oc自带的bigpickle模型，据说是glm4.6特别调教版，还比较好用，但是有点慢，毕竟是免费的。

尝试了阿里的coding plan，包括了三小龙的模型kimik2.5、minimaxm2.5、glm5等，便宜是便宜，但没法用。三小龙又慢又会卡死，还会死循环重复输出，阿里根本没有认真对待这件事，而qwen3.5、qwen-coder，在对claude code或opencode的使用上，还不如三小龙。三小龙自家，也已经超售了，据说是因为华为的计算卡供应跟不上，在基础设施上遇到坎了。

Opencode Zen里有个go计划，三小龙模型打包是10美刀一个月。阿里是首月8元，正常价40元，如果这个价格还不用订阅opencode的，至少人家都是调好的能用的。

还有一个比较美的计划就是Github copilot，能调用美国御三家的先进模型，每个月也是10刀，唯一需要的就是IP地址不能在中国区，否则先进模型无法调用，只能调用落后一代的版本。gpt4.1免费无限次，每月300次的Claude sonnet 4.6。按次计费的好处就是，可以一次性写几万字，其中webfetch和问答选的项这些都不额外计费和计次，一次对话完成才算一次。300次的总token可以达到大几百到千万token。

国内的中转api，就是订阅分流，差不多1块钱人民币当1美元用，作为碎碎念对话的备用。

Deepseek其实还是很强的，百万tokens只要3元，长期采用。