AI OS如何工作
架构、路由算法、数据丰富新鲜度、RAG检索和交易策略选择 — 内部发生了什么。
01
架构管道
五个外部数据源输入一个数据丰富管道。处理后的流经过LLM路由器和向量RAG存储,然后到达三个消费者:公共门户、管理仪表板和MCP服务器。
02
LLM路由算法
每个任务首先按类型分类,然后分派到在单位成本和延迟下最大化质量的后端。快速草稿发送到Groq;结构化提取和推理发送到OpenAI;批量任务发送到Runpod;嵌入和免费层工作发送到Ollama。
任务 → 后端分派表
SEO_DRAFT
→
Groq
快速、廉价
分类
→
Groq
快速、廉价
提取
→
OpenAI
结构化输出
推理
→
OpenAI
质量
批判
→
OpenAI
质量
计划
→
OpenAI
质量
批量
→
Runpod
自定义模型
本地生成
→
Ollama
免费
嵌入
→
Ollama
768维向量
成本优化公式
cost(task, backend) = price_per_token × estimated_tokens(task) latency(task, backend) = base_latency + tokens / throughput quality(task, backend) = exam_score(backend, task_type) route(task) = argmax( quality / (cost × √latency) )
03
丰富度新鲜度算法
每次丰富度定时任务都会根据其预期间隔和硬性SLA进行基准测试。随着经过时间的增长,健康状态通过三个区域下降——正常 → 降级 → 严重。
t = 0
1.5 × 预期
SLA
∞
health(cron) = 1 if last_run_age < 1.5 × expected_interval → OK 0.5 if last_run_age < SLA → degraded 0 otherwise → critical
04
代理效能评分
代理性能在五个维度上衡量,并汇总为一个单一效能评分 E 通过复杂度加权平均值。较重的任务对最终分数的贡献比例更大。
E = Σ(wᵢ × scoreᵢ) / Σ(wᵢ) where: wᵢ = complexity weight of task i scoreᵢ = outcome score (0 – 100) Axes (5 dimensions): Speed — task latency vs budget Cost — tokens × price per token Quality — exam score on task type Safety — guardrail pass rate Learning — hint reuse in context pack
05
RAG检索算法
每个查询被嵌入为768维向量,通过余弦相似度与LanceDB块匹配,按时间衰减重新排序,并打包到模型的上下文窗口中。
💬
查询
🔢
嵌入()
📐
余弦相似度
🎯
top-K
🕒
重新排序
📦
上下文打包
🤖
提示
query → embed(query) → cosine_similarity(query_vec, chunk_vecs)
→ top-K chunks → rerank by recency
→ context_pack → inject into prompt
06
交易策略选择矩阵
GOGA根据实时信号对当前市场状态进行分类,并选择合适的执行策略。每一行将检测到的条件映射到其指标集和采取的行动。
| 条件 | 指标 | 策略 |
|---|---|---|
| 泵入 | 1分钟Δ>0.5%, 成交量<2, 订单簿>1.5 | 向量/射击 |
| 逢低买入 | RSI<30, 15分钟Δ<-2% | DCA网格 |
| 波段持有 | PumpQ>60, 资金费率<0 | 模式/自适应 |
| 避免 | 成交量比>3, RSI>80 | 等待 |