Как работает AI OS

Архитектура, алгоритмы маршрутизации, свежесть обогащения, RAG-поиск и выбор торговой стратегии — что происходит под капотом.

Пять внешних источников данных питают конвейер обогащения. Обработанный поток проходит через LLM-маршрутизатор и векторное RAG-хранилище, прежде чем достичь трех потребителей: публичного портала, панели администратора и MCP-сервера.

Каждая задача сначала классифицируется по типу, затем отправляется в бэкенд, который максимизирует качество на единицу стоимости и задержки. Быстрые черновики идут в Groq; структурированное извлечение и рассуждение — в OpenAI; пакетные задачи — в Runpod; встраивания и работа на бесплатном уровне — в Ollama.

Таблица диспетчеризации задач → бэкенд

SEO_DRAFT → Groq быстро, дешево

CLASSIFY → Groq быстро, дешево

EXTRACT → OpenAI структурированный вывод

REASONING → OpenAI качество

CRITIQUE → OpenAI качество

ПЛАН → OpenAI качество

BATCH → Runpod пользовательские модели

LOCAL_GEN → Ollama бесплатно

EMBEDDING → Ollama 768d векторы

Формула оптимизации затрат

cost(task, backend)    = price_per_token × estimated_tokens(task)
latency(task, backend) = base_latency + tokens / throughput
quality(task, backend) = exam_score(backend, task_type)

route(task) = argmax( quality / (cost × √latency) )

Каждый крон обогащения сравнивается с ожидаемым интервалом и жестким SLA. Состояние ухудшается через три зоны по мере увеличения прошедшего времени — OK → ухудшенное → критическое.

ухудшенное

критическое

t = 0 1.5 × ожидаемое SLA ∞

health(cron) =
  1   if last_run_age < 1.5 × expected_interval   → OK
  0.5 if last_run_age < SLA                        → degraded
  0   otherwise                                     → critical

Производительность агента измеряется по пяти осям и сводится к единой оценке эффективности E через средневзвешенное по сложности. Более тяжелые задачи вносят пропорционально больший вклад в итоговую оценку.

E = Σ(wᵢ × scoreᵢ) / Σ(wᵢ)

where:
  wᵢ      = complexity weight of task i
  scoreᵢ  = outcome score (0 – 100)

Axes (5 dimensions):
  Speed    — task latency vs budget
  Cost     — tokens × price per token
  Quality  — exam score on task type
  Safety   — guardrail pass rate
  Learning — hint reuse in context pack

Каждый запрос преобразуется в 768-мерный вектор, сопоставляется с фрагментами LanceDB по косинусному сходству, переранжируется по убыванию новизны и упаковывается в контекстное окно модели.

💬 запрос

🔢 embed()

📐 cos_sim

🎯 top-K

🕒 rerank

📦 ctx_pack

🤖 промпт

query → embed(query) → cosine_similarity(query_vec, chunk_vecs)
      → top-K chunks → rerank by recency
      → context_pack → inject into prompt

GOGA классифицирует текущий рыночный режим по сигналам в реальном времени и выбирает подходящую стратегию исполнения. Каждая строка сопоставляет обнаруженное условие с набором индикаторов и предпринятым действием.

Условие	Индикаторы	Стратегия
Pump Entry	1mΔ>0.5%, Vol<2, Book>1.5	Вектор/Шот
Дип-бай	RSI<30, 15mΔ<-2%	Сетка DCA
Свинг-холд	PumpQ>60, Funding<0	Паттерн/Адаптивный
Избегать	VolRatio>3, RSI>80	Ожидание

Аналитика и риск GOGA

Как работает AI OS

Конвейер архитектуры

Алгоритм маршрутизации LLM

Алгоритм свежести обогащения

Оценка эффективности агента

Алгоритм поиска RAG

Матрица выбора торговой стратегии