世界杯官方认证平台 马斯克开源𝕏最新算法!全网缔造者逐行拆解


新智元报谈
裁剪:好困
【新智元导读】马斯克又搞大事!𝕏把酬酢平台王人备不会公开的两样东西「告白」和「审查」,连磨灭个能胜仗跑的保举模子,邻接全推上了GitHub。6亿东谈主每天刷到什么,当今是Grok说了算。
就在刚刚,马斯克把𝕏最新版的算法给开源了!
老马的官宣唯唯独句话,但须臾就引来了超2700万网友的围不雅。

之是以这样炸,是因为酬酢平台有两样东西是毫不成给外东谈主看的:
第一,告白注入系统,也便是「印钞机」。
第二,试验审查管线,也便是「死活簿」。
而𝕏把这两样的源码,连磨灭个3GB大小的保举模子,邻接全放到了GitHub上!

仓库地址:https://github.com/xai-org/x-algorithm


不是,𝕏连告白代码都给了?
1月19日,𝕏第一次把保举算法开源。
那时公开的是Phoenix名次模子和Thunder信息流引擎,也便是是「你盛开For You看到什么」的有贪图逻辑。
但告白系统的代码,一个字都莫得。
这回,全给了。

新增的home-mixer/ads/目次里,有四个相干的Rust文献。
partition_organic_blender.rs,隆重把告白和当然试验混在一谈
safe_gap_blender.rs,隆重限制两条告白之间至少隔几条当然帖子
ads_brand_safety_hydrator.rs + ads_brand_safety_vf_hydrator.rs,隆重管品牌安全,确保告白不会出当今暴力或色情试验驾驭
谛视这里的要津词,blender,夹杂器。
也便是说,告白不是硬插的,是跟你发的帖子、你慈祥的东谈主发的帖子一谈列队、一谈打分、然后按法规夹杂的。
你刷到的每一条告白,都是「赢」了驾驭那几条当然试验才出当今阿谁位置的。


有个审帖用具,名字叫「deluxe」
另一个从未公开过的组件是grox/目次。
它专管帖子发出之后、插足保举之前的那谈「审查活水线」。
六个分类器各管一摊:
spam.py,隆重垃圾试验检测
post_safety_screen_deluxe.py,隆重安全审查(「豪华版」这个定名,很𝕏)
safety_ptos.py,隆重平台办事条件政策查验
banger_initial_screen.py,隆重爆款初筛,判断一条帖子是否「够炸」
reply_ranking.py,隆重回答排序
classifier.py,隆重通用试验分类
这里最有趣味的是banger_initial_screen。banger,爆款。
也便是说,𝕏的算法里迥殊有一个分类器在判断「这条帖子炸不炸」,炸的优先往前排。

整套Grox管线用Python写成,跟Rust写的保举系统主体造成了分层。
其中,世界杯官方认证平台Rust跑毫秒级排序,Python管「这条试验该不该存在」。
配套的还有Kafka数据加载器、ASR语音识别照应、帖子选录生成器,以及一个迤逦引擎把这些任务编排成不同的「plan」跑起来。

3GB模子给你,拿去胜仗跑
本事圈最欢叫的可能是第三个变化。
畴前开源保举算法,你看得回逻辑但跑不起来。莫得模子权重,代码便是一堆空壳。
这回𝕏胜仗塞了一个预西席好的mini Phoenix模子:
Mini Phoenix Model├── 镶嵌维度: 256├── 谛视力头: 4├── Transformer层数: 2├── 模子体积: ~3 GB(Git LFS分发)└── 推理进口: python run_pipeline.py(检索→排序,一溜跑通)
一溜大喊世界杯官方认证平台,从检索到排序的好意思满推理过程就能跑通,pipeline结构跟分娩环境一模雷同。

虽然,mini模子的参数畛域远小于线上阿谁。
但这依然是酬酢平台历史上,第一次有东谈主把「能跑的模子」和「分娩级代码」打包在一谈给出来。


一条帖子的死活,15个概率说了算
告白、审查、模子是此次最炸的三个新组件。但它们各自填进了保举pipeline的具体位置。
1月那一版,pipeline六步里大部分唯独骨架代码。
此次补全之后,每一步都有了好意思满的Rust或Python结束。
从2个候选源到7个以上,从0个用户画像hydrator到17个。
胜仗把整条pipeline从「能看」变成了「能跑」。

整条pipeline的灵魂在第5步打分。
Phoenix的Grok Transformer给每条帖子打分时,会同期策划15种用户行径的概率。
银河游戏在线娱乐中国官网最终得分的评判如下:
Final Score = Σ (weight_i × P(action_i))
正向行径 → 正权重(加分)负向行径 → 负权重(重扣)
15谈磨砺,11谈加分题,4谈送死题。
你的帖子每一条都要走这样一遍。
We have eliminated every single hand-engineered feature and most heuristics from the system。
悉数手工法规全砍了,100%靠Transformer端到端学出来。

打分机制里还有一个假想叫Candidate Isolation,候选讳饰。
Transformer推理的时代,候选帖子之间彼此「看不见」。
每条帖子只可看到用户的历史行径,看不到磨灭批里有什么其他帖子。
为什么要这样作念?
因为要是候选帖子彼此影响,磨灭条帖子跟50条候选一谈送进去和跟500条一谈送进去,得分会不雷同。
而𝕏通过谛视力掩码把这个依赖透彻割断,每条帖子的分数沉寂、结识、可缓存。
换句话说,这15种策划,不是在猜「这个东谈主可爱什么」,是在判断你会作念什么、不会作念什么、以及作念完之后会不会后悔。

你的For You,当今是一册盛开的书
如今,大众主流酬酢平台里,𝕏是唯逐一个把保举算法、告白系统和试验审查管线都摊在GitHub上的。
你的For You怎么排序,告白怎么混进来,哪些试验会被干掉,当今都有一份Rust和Python写成的谜底。
何况这套保举系统依然100%切换到Grok Transformer脱手,手工法规全砍。
也便是说,xAI的模子智力依然从聊天机器东谈主,渗入到了6亿东谈主每天的信息破费有贪图里。
保举系统,可能是当下最有实权的AI愚弄场景。谁限制了排序,谁就限制了谛视力。
有兴致的不错git clone下来跑一把。
3GB模子,一溜大喊,你就能看到那15个概率是怎么决定你每天刷到什么的。