跳转到内容

2026年初的AI观察

ai-review-at-early-2026

前沿AI大模型及其成套工具,已经成为了可以无人工干预的独立工作体。

在2025年初研究AI的时候,我就发现这玩意太适合使用命令行了,典型的应用是aichat,warp等,可以使用自然语言来驱动各种工具。

在当时,我意识到AI具备完全操作电脑的能力,尤其是Linux,可以用CLI实现一切。尝试了几个简单的脚本编写,比如提取摄像头的录制文件并合并,即便是这样简单的任务,也是bug重重,风险多多。大模型的能力不足以一把过,还不如自己边查边写。

最终,只能当作辅助工具,省去了记忆和查询命令手册的时间精力。

当时比较火的编排方式是像Dify这样的,可视化的辅助编排,每次执行一个固定的流程,每一步把生成的结果处理后交给下一个AI模型或提示词智能体。

是的,当时的关键词就是,文本生成大模型,RAG本地知识库,还有IDE 中的代码补全。

我久不用IDE,方法更笨,直接对话,抄代码,调试-反馈给AI-再抄代码。

2025年2月,Claude code的第一个版本发布了,大部分人包括我对此一无所知。

在去年这个时候,我觉得AI很强,但取代的也只能是一些低端白领,说白了不具备应付复杂场景的能力。

现如今,用opencode,零配置,Claude Sonnet 4.6,小型的项目一气呵成。

用哪个IDE?想用哪个用哪个,看代码舒服就行,不想看也可以找个AI去看(explore)。

在过去12个月,大模型的能力上了几个台阶,美国的Claude,GPT,Gemini三巨头已经强到不可思议了,其中,Claude不愧香农之名,是唯一真神。

由于大模型的强大,编排工具回到了脚本配置,AI根据自然语言自己编排(写脚本,写技能),甚至有人开发出了oh-my-opencode这种,用一个AI当领导,带领好几个AI当团队,实现西西弗斯式的操作,一直把任务完成为止。

Opencode(oc)可以简单理解为Claude code(cc)的开源版本,因为美国的御三家已经把中国(包括港澳)全部封杀了,我弄了一天也没有实现稳定使用上,干脆放弃cc转投oc。

oc和cc都内置了bash和webfetch功能,能自主搜索不需要配置,这一点比cherry studio强。

这两个基础但超级的工具让oc无所不能,哪怕是在非软件工程的任务中。你说要写word,oc就能自动安装其python库并自主调用。

打开oc,选择sonnet 4.6,一句话,烧掉3万tokens写成一个ios原生简单游戏app,从架构、编码、xcode编译、打开模拟器里的app,全部不需要人工。

大模型的能力飞跃加上超级工具集的使用,所有的结构化的、非前沿科技研究的工作,我已经看不到人类的任何优势。

有说大模型负责干杂活,人类来当领导并做决策,实际上我看来,前沿大模型的决策能力,已经超出了大部分人。

我感觉,流浪地球电影里的自主设计、自主决策、自主建造机器人,真的不是一个梦,是必然可以实现的。

算力设施和机械能力限制了AI的能力,这就是通用机器人,包括人形机器人还发展不起来的原因。

脑型机器人(大模型)做白领和管理层,专业机器人干工业和规模化农业,人类能干的,除了前沿科技和设计,就剩吃喝拉撒睡相关的,加上娱乐、律师、医生、心理咨询、美业、理疗这些了。美国现在的消费主导的模式,才是人类的未来,如果不靠合适的分配制度导向这种模式,大部分第三世界的人类将没有未来,没事做也没钱消费。

国产模型这边,不论多么能做营销,跑分多sota,和美国前沿模型的差距是肉眼可见的。中国模型1/20到1/100的价格优势,其实并换不来真正的生产力,相比之下还需要太多人工干预。更令人担忧的是,暂时还没有看到中国模型有突破的迹象,停止在了不可用的这条线上。

华为的手机芯片停在了麒麟9000的水平,也就是2020年的水平,此后只是堆核心和微调。这可能意味着作为AI算力的基础设施也会停在这个水平上,靠堆核心续命。芯片的基础设施跟不上,电力的优势如何发挥呢?

一般来说,普通人上豆包,程序员远程用cc或oc,就很好。单独弄一个电脑或虚拟机来值守、又开一个messenger来传递消息没必要,循环巨轮烧token也并不雅;能定时能主动发消息扮萌也不是新鲜事,酒馆里都有。

不过,这是一个很好的示范,展示了AI大模型结合CLI能做什么,我们可以在openclaw的基础上进行扩展和裁剪。

是的,核心就是AI+CLI。智能体就是那些markdown文件,AI读进来当作上下文。

如果能有稳定的秒级的信息输入、秒级的大模型响应,龙虾可以演进为一个实时的超级助手,人人成为钢铁侠。

更大的可能性是,操作系统吸收了这些能力,比如微软的copilot,要弄成龙虾太容易了。

接下来的软件开发,要有两层,一层是给ai的api接口,这样可以给AI直接赋能,另一层才是给人类的UI。

再未来,AI要学会像人类一样操作电脑,不论是虚拟的还是实体的。从人形机器人的发展来看,端盘菜上桌都很困难,机器人看不见、抓不住,证明全场景、实时的、视觉的处理真没那么容易,工业机器人、自动驾驶都是特定可大量重复的单一环境下的。从CLI驱动到图形GUI驱动,AI还需要更多的进化,且在训练和使用时需要更多的算力和电力。

Oc自带的bigpickle模型,据说是glm4.6特别调教版,还比较好用,但是有点慢,毕竟是免费的。

尝试了阿里的coding plan,包括了三小龙的模型kimik2.5、minimaxm2.5、glm5等,便宜是便宜,但没法用。三小龙又慢又会卡死,还会死循环重复输出,阿里根本没有认真对待这件事,而qwen3.5、qwen-coder,在对claude code或opencode的使用上,还不如三小龙。三小龙自家,也已经超售了,据说是因为华为的计算卡供应跟不上,在基础设施上遇到坎了。

Opencode Zen里有个go计划,三小龙模型打包是10美刀一个月。阿里是首月8元,正常价40元,如果这个价格还不用订阅opencode的,至少人家都是调好的能用的。

还有一个比较美的计划就是Github copilot,能调用美国御三家的先进模型,每个月也是10刀,唯一需要的就是IP地址不能在中国区,否则先进模型无法调用,只能调用落后一代的版本。gpt4.1免费无限次,每月300次的Claude sonnet 4.6。按次计费的好处就是,可以一次性写几万字,其中webfetch和问答选的项这些都不额外计费和计次,一次对话完成才算一次。300次的总token可以达到大几百到千万token。

国内的中转api,就是订阅分流,差不多1块钱人民币当1美元用,作为碎碎念对话的备用。

Deepseek其实还是很强的,百万tokens只要3元,长期采用。