Retrieval-Augmented Generation

RAG self-hosted
pentru documente private

Generare augmentata prin recuperare in romana, fara cloud si fara costuri API. Cluster distribuit pe hardware propriu — pune intrebari despre contracte, jurnale, manuale tehnice sau orice corpus, cu raspunsuri citate exact din pagina.

5
workers cluster
30–90s
latency / query
100%
on-premises
RO
multilingual nativ
Problema

Cand intrebi ChatGPT despre documentele tale

Trimiti continut sensibil catre o platforma third-party. Pretul nu e doar in dolari.

  • 🚨 Privacy compromisa — continutul ajunge la third-party (training, log-uri, retentie incerta)
  • 💸 Cost scalabil — $0.13–$15 per 1M tokens, multiplicat la volum real
  • ⚖ GDPR / compliance — proces legal pentru fiecare flux de date externe
  • 🔒 Vendor lock-in — migrare costisitoare, dependenta de API stability
  • 🌐 Latency variabil — SLA-ul cloud nu e al tau
Nu poti intreba un LLM cloud despre: contractele firmei · jurnalele clientului · IP corporativ · date medicale · documente legale confidentiale.
Solutia

RAG complet, in reteaua ta

Web-ul orchestreaza, workers-ii fac inferenta. Comunicatie one-way: workers NU se conecteaza catre web (firewall-friendly, segment izolat).

+---------------------+ pull via SSE +---------------------+ | Web orchestrator | <------- one-way only --------| Worker pool | | FastAPI + Qdrant | | Linux x86 + Mac M1 | | Hybrid retriever | push: tasks (chunks/QA) | Ollama + bge-m3 | | MultiQuery | ------------------------> | + bge-reranker | +---------------------+ +---------------------+ | | v v browser UI / API systemd / launchd
Stack tehnologic

100% open-source, zero proprietary

Fiecare componenta e auditabila, schimbabila, rulabila local.

LayerTehnologieDe ce
LLMOllama + qwen2.5:14bLocal, multilingual, 14B params — balans calitate/RAM
Embeddingbge-m3 (1024d)Multilingual nativ, RO foarte bun, dense + sparse
Rerankerbge-reranker-v2-m3Cross-encoder multilingual, boost precizie top-k
Vector DBQdrantOpen-source, HNSW, fast, persistent
WebFastAPI + vanilla JSLight, no build step, async-native
PipelineLangChainHybrid retriever + MultiQuery decomposition
OCR / ParseLibreOffice + Tesseract + UnstructuredToate formatele — PDF, Office, imagini, scanari
Diferentiatori

Ce face produsul diferit

Cinci capabilitati care nu exista in alte solutii open-source comparabile.

1

Multi-OS workers cu auto-bootstrap

Adaugi worker in UI → click 📥 Bootstrap → gata

  • 🐧 Linux: apt + Ollama + systemd unit
  • 🍎 macOS: brew + Ollama + launchd plist
  • Detect OS automat (uname -s)
  • Streaming output live in UI — vezi brew install, ollama pull, pip install in timp real
✅ De la zero la operational in 15–25 min
2

Dispatcher cu prioritizare throughput

Algoritm de routare bazat pe performanta reala observata

idle_workers.sort(key=avg_chunks_per_sec, descending=True)
chosen = ranked[0] if in_flight[chosen] < MAX

Rezultate reale:

  • Mac M1 Metal: 25 chunks/s
  • Linux x86 CPU: 5 chunks/s
  • → Mac primeste 80% din workload automat
✅ Plus: TCP probe pe :11434 skip workers cu Ollama localhost-only
3

Observability built-in

Metrici, sparkline, alerte — din UI, fara stack extern

  • Prometheus /metrics — counter + gauge per worker
  • Sparkline live 24h — chunks / files / CPU / Mem / embed_avg
  • Alert engine — 4 reguli + webhook Slack/Telegram
  • Dashboard dedicat per worker (full-page mode TV/monitor)
  • SSE live update < 2s — modal Stats actualizat instant
🟢 active 3min 🔴 alerts 0 CPU avg 45% 1500 chunks/min
4

Cost economy real-time

Tab Cluster afiseaza in timp real cat economisesti vs cloud

💰 Embedding (vs OpenAI / Gemini / Voyage)

$X saved now

Saved/year extrapolat din volumul curent

💸 LLM Q&A (6 modele cloud)

vs gpt-4o, gpt-4o-mini, gemini, claude-haiku, claude-sonnet

Comparare la pretul oficial al fiecarui model

La 1000 queries/zi (volum mediu):

  • vs gpt-4o$2.500–5.000/an evitat
  • vs claude-sonnet-3.5$3.500–7.000/an evitat
5

Editor prompts in UI

Tab ✏ Prompt — modificari INSTANT, zero restart

  • Editor RAG_PROMPT + CONDENSE_PROMPT
  • Persistent in prompts.json
  • Status: EDITAT vs default

Hint-uri pe tip de document:

  • 📚 Literatura → «Sintetizeaza personaje / evenimente»
  • 🔧 Tehnic → «Citate exacte, parametri, pasi»
  • Juridic → «Articole exacte, NU interpreta»
  • 📊 Stiintific → «Metoda, rezultate, limitari»
Demo Q&A

Cum arata o intrebare reala

Intrebari specifice documentelor tale. Raspunsuri sintetizate cu citate de pagina.

«Ce zice contractul despre clauza de confidentialitate?»
«Care e procedura de troubleshooting pentru eroarea X?»
«Cine este personajul Y din cartea Z?»
Raspuns RAG (qwen2.5:14b · ~60s):
Sinteza coerenta din pasaje multiple, cu fapte concrete extrase direct din documentele tale, citate cu pagina exacta (p.X, p.Y, p.Z). Zero halucinare — recunoaste explicit daca contextul e insuficient.
⏱ 30–90s 🖥 worker_mac 100% local
Comparatie

vs Claude.ai · ChatGPT · Gemini

Nu inlocuiesc cloud-ul pentru cunostinte generale — il completeaza pe plan privat.

  RAG self-hosted Claude.ai / ChatGPT
Citare pagina exacta din editia ta✅ p.X, p.Y, p.Z❌ general
Privacy 100%✅ on-prem❌ cloud
Cost / query$0$0.01–0.10
Scalabil la 100k queries/zi$$$$
Calitate sinteza✅ Excelenta✅ Excelenta
Cunostinte generaleLimitat la docsLargi (training)
Documente PRIVATE (NDA)❌ NU trimit
Combo ideal: RAG pentru documente private + Claude/ChatGPT pentru general knowledge.
Performance reale

Cifre observate in productie

Apple Silicon Metal este 5–10× mai rapid pe LLM 8–14B vs CPU x86.

Indexare

OperatieLinux x86Mac M1 Metal
Embed 1500 chunks5–8 min50–90s
Reindex 25K chunks~1.5h15–20 min

Q&A

Tip queryCu MultiQueryFara MultiQuery
Cold (primul)3–5 min1–2 min
Warm30–90s20–60s
Hardware

Recomandari pentru fiecare buget

De la Mac M1 8GB la statie cu GPU NVIDIA — totul ruleaza local.

Setup LLM NUM_CTX Recomandat pentru
Mac M1 16GBqwen2.5:14b8192Recomandat (demo)
Mac M1 8GBllama3.1:8b4096Budget
Linux 16GB CPUllama3.1:8b8192Workhorse
Linux 32GB+ CPUqwen2.5:14b8192Mid-range
GPU NVIDIA 24GB+qwen2.5:14b / 70b32768Enterprise
Critic: Mac M1 16GB cu LLM_NUM_CTX=8192. Fara asta → swap intens, pana la 17min/query cu qwen2.5:14b.
Use cases

Unde isi gaseste locul

Oriunde documentele sunt valoroase si sensibilitatea contextului e critica.

🏛

Carti / literatura

Biblioteci private digitale, sinteze de personaje si evenimente.

Contracte legale

Reglementari, jurisprudenta — anti-halucinare critica.

🔧

Documentatii tehnice

Manuale, RFC-uri, runbook-uri, baza de cunostinte.

🔬

Cercetare stiintifica

Papers, datasets, sinteze cu citare exacta.

📓

Note personale

Jurnale, knowledge workers, second brain.

🏢

Date business confidentiale

Reports interne, customer journey, IP corporativ.