Cómo funciona AI OS
Arquitectura, algoritmos de enrutamiento, frescura de enriquecimiento, recuperación RAG y selección de estrategias de trading — lo que sucede bajo el capó.
Pipeline de arquitectura
Cinco fuentes de datos externas alimentan un pipeline de enriquecimiento. El flujo procesado pasa a través de un enrutador LLM y un almacén RAG vectorial antes de llegar a tres consumidores: el portal público, el panel de administración y el servidor MCP.
Algoritmo de enrutamiento LLM
Cada tarea se clasifica primero por tipo, luego se envía al backend que maximiza la calidad por unidad de costo y latencia. Los borradores rápidos van a Groq; extracción estructurada y razonamiento a OpenAI; trabajos por lotes a Runpod; embeddings y trabajo de nivel gratuito a Ollama.
Tabla de despacho de tareas → backend
Fórmula de optimización de costos
cost(task, backend) = price_per_token × estimated_tokens(task) latency(task, backend) = base_latency + tokens / throughput quality(task, backend) = exam_score(backend, task_type) route(task) = argmax( quality / (cost × √latency) )
Algoritmo de frescura de enriquecimiento
Cada cron de enriquecimiento se compara con su intervalo esperado y un SLA estricto. La salud se degrada a través de tres zonas a medida que crece el tiempo transcurrido — OK → degradado → crítico.
health(cron) = 1 if last_run_age < 1.5 × expected_interval → OK 0.5 if last_run_age < SLA → degraded 0 otherwise → critical
Puntuación de efectividad del agente
El rendimiento del agente se mide en cinco ejes y se reduce a una única puntuación de efectividad E a través de una media ponderada por complejidad. Las tareas más pesadas contribuyen proporcionalmente más a la puntuación final.
E = Σ(wᵢ × scoreᵢ) / Σ(wᵢ) where: wᵢ = complexity weight of task i scoreᵢ = outcome score (0 – 100) Axes (5 dimensions): Speed — task latency vs budget Cost — tokens × price per token Quality — exam score on task type Safety — guardrail pass rate Learning — hint reuse in context pack
Algoritmo de recuperación RAG
Cada consulta se incrusta en un vector de 768 dimensiones, se compara con fragmentos de LanceDB mediante similitud coseno, se reordena por decaimiento de actualidad y se empaqueta en la ventana de contexto del modelo.
query → embed(query) → cosine_similarity(query_vec, chunk_vecs)
→ top-K chunks → rerank by recency
→ context_pack → inject into prompt
Matriz de Selección de Estrategias de Trading
GOGA clasifica el régimen de mercado actual a partir de señales en tiempo real y selecciona la estrategia de ejecución adecuada. Cada fila asigna una condición detectada a su conjunto de indicadores y la acción tomada.
| Condición | Indicadores | Estrategia |
|---|---|---|
| Entrada por Bomba | 1mΔ>0.5%, Vol<2, Book>1.5 | Vector/Disparo |
| Compra por Caída | RSI<30, 15mΔ<-2% | Cuadrícula DCA |
| Mantenimiento de Swing | PumpQ>60, Funding<0 | Patrón/Adaptativo |
| Evitar | VolRatio>3, RSI>80 | Esperar |