RAG self-hosted – Fladi International Grup

Problema

Cand intrebi ChatGPT despre documentele tale

Trimiti continut sensibil catre o platforma third-party. Pretul nu e doar in dolari.

🚨 Privacy compromisa — continutul ajunge la third-party (training, log-uri, retentie incerta)
💸 Cost scalabil — $0.13–$15 per 1M tokens, multiplicat la volum real
⚖ GDPR / compliance — proces legal pentru fiecare flux de date externe
🔒 Vendor lock-in — migrare costisitoare, dependenta de API stability
🌐 Latency variabil — SLA-ul cloud nu e al tau

Nu poti intreba un LLM cloud despre: contractele firmei · jurnalele clientului · IP corporativ · date medicale · documente legale confidentiale.

Solutia

RAG complet, in reteaua ta

Web-ul orchestreaza, workers-ii fac inferenta. Comunicatie one-way: workers NU se conecteaza catre web (firewall-friendly, segment izolat).

+---------------------+ pull via SSE +---------------------+ | Web orchestrator | <------- one-way only --------| Worker pool | | FastAPI + Qdrant | | Linux x86 + Mac M1 | | Hybrid retriever | push: tasks (chunks/QA) | Ollama + bge-m3 | | MultiQuery | ------------------------> | + bge-reranker | +---------------------+ +---------------------+ | | v v browser UI / API systemd / launchd

Stack tehnologic

100% open-source, zero proprietary

Fiecare componenta e auditabila, schimbabila, rulabila local.

Layer	Tehnologie	De ce
LLM	Ollama + qwen2.5:14b	Local, multilingual, 14B params — balans calitate/RAM
Embedding	bge-m3 (1024d)	Multilingual nativ, RO foarte bun, dense + sparse
Reranker	bge-reranker-v2-m3	Cross-encoder multilingual, boost precizie top-k
Vector DB	Qdrant	Open-source, HNSW, fast, persistent
Web	FastAPI + vanilla JS	Light, no build step, async-native
Pipeline	LangChain	Hybrid retriever + MultiQuery decomposition
OCR / Parse	LibreOffice + Tesseract + Unstructured	Toate formatele — PDF, Office, imagini, scanari

Diferentiatori

Ce face produsul diferit

Cinci capabilitati care nu exista in alte solutii open-source comparabile.

1

Multi-OS workers cu auto-bootstrap

Adaugi worker in UI → click 📥 Bootstrap → gata

🐧 Linux: apt + Ollama + systemd unit
🍎 macOS: brew + Ollama + launchd plist
Detect OS automat (uname -s)
Streaming output live in UI — vezi brew install, ollama pull, pip install in timp real

✅ De la zero la operational in 15–25 min

2

Dispatcher cu prioritizare throughput

Algoritm de routare bazat pe performanta reala observata

idle_workers.sort(key=avg_chunks_per_sec, descending=True)
chosen = ranked[0] if in_flight[chosen] < MAX

Rezultate reale:

Mac M1 Metal: 25 chunks/s
Linux x86 CPU: 5 chunks/s
→ Mac primeste 80% din workload automat

✅ Plus: TCP probe pe :11434 skip workers cu Ollama localhost-only

3

Observability built-in

Metrici, sparkline, alerte — din UI, fara stack extern

Prometheus /metrics — counter + gauge per worker
Sparkline live 24h — chunks / files / CPU / Mem / embed_avg
Alert engine — 4 reguli + webhook Slack/Telegram
Dashboard dedicat per worker (full-page mode TV/monitor)
SSE live update < 2s — modal Stats actualizat instant

🟢 active 3min 🔴 alerts 0 CPU avg 45% 1500 chunks/min

4

Cost economy real-time

Tab Cluster afiseaza in timp real cat economisesti vs cloud

💰 Embedding (vs OpenAI / Gemini / Voyage)

$X saved now

Saved/year extrapolat din volumul curent

💸 LLM Q&A (6 modele cloud)

vs gpt-4o, gpt-4o-mini, gemini, claude-haiku, claude-sonnet

Comparare la pretul oficial al fiecarui model

La 1000 queries/zi (volum mediu):

vs gpt-4o → $2.500–5.000/an evitat
vs claude-sonnet-3.5 → $3.500–7.000/an evitat

5

Editor prompts in UI

Tab ✏ Prompt — modificari INSTANT, zero restart

Editor RAG_PROMPT + CONDENSE_PROMPT
Persistent in prompts.json
Status: EDITAT vs default

Hint-uri pe tip de document:

📚 Literatura → «Sintetizeaza personaje / evenimente»
🔧 Tehnic → «Citate exacte, parametri, pasi»
⚖ Juridic → «Articole exacte, NU interpreta»
📊 Stiintific → «Metoda, rezultate, limitari»

Demo Q&A

Cum arata o intrebare reala

Intrebari specifice documentelor tale. Raspunsuri sintetizate cu citate de pagina.

«Ce zice contractul despre clauza de confidentialitate?»

«Care e procedura de troubleshooting pentru eroarea X?»

«Cine este personajul Y din cartea Z?»

Raspuns RAG (qwen2.5:14b · ~60s):
Sinteza coerenta din pasaje multiple, cu fapte concrete extrase direct din documentele tale, citate cu pagina exacta (p.X, p.Y, p.Z). Zero halucinare — recunoaste explicit daca contextul e insuficient.

⏱ 30–90s 🖥 worker_mac 100% local

Comparatie

vs Claude.ai · ChatGPT · Gemini

Nu inlocuiesc cloud-ul pentru cunostinte generale — il completeaza pe plan privat.

	RAG self-hosted	Claude.ai / ChatGPT
Citare pagina exacta din editia ta	✅ p.X, p.Y, p.Z	❌ general
Privacy 100%	✅ on-prem	❌ cloud
Cost / query	$0	$0.01–0.10
Scalabil la 100k queries/zi	✅	$$$$
Calitate sinteza	✅ Excelenta	✅ Excelenta
Cunostinte generale	Limitat la docs	Largi (training)
Documente PRIVATE (NDA)	✅	❌ NU trimit

Combo ideal: RAG pentru documente private + Claude/ChatGPT pentru general knowledge.

Performance reale

Cifre observate in productie

Apple Silicon Metal este 5–10× mai rapid pe LLM 8–14B vs CPU x86.

Indexare

Operatie	Linux x86	Mac M1 Metal
Embed 1500 chunks	5–8 min	50–90s
Reindex 25K chunks	~1.5h	15–20 min

Q&A

Tip query	Cu MultiQuery	Fara MultiQuery
Cold (primul)	3–5 min	1–2 min
Warm	30–90s	20–60s

Hardware

Recomandari pentru fiecare buget

De la Mac M1 8GB la statie cu GPU NVIDIA — totul ruleaza local.

Setup	LLM	NUM_CTX	Recomandat pentru
Mac M1 16GB	qwen2.5:14b	8192	Recomandat (demo)
Mac M1 8GB	llama3.1:8b	4096	Budget
Linux 16GB CPU	llama3.1:8b	8192	Workhorse
Linux 32GB+ CPU	qwen2.5:14b	8192	Mid-range
GPU NVIDIA 24GB+	qwen2.5:14b / 70b	32768	Enterprise

Critic: Mac M1 16GB cu LLM_NUM_CTX=8192. Fara asta → swap intens, pana la 17min/query cu qwen2.5:14b.

Use cases

Unde isi gaseste locul

Oriunde documentele sunt valoroase si sensibilitatea contextului e critica.

🏛

Carti / literatura

Biblioteci private digitale, sinteze de personaje si evenimente.

⚖

Contracte legale

Reglementari, jurisprudenta — anti-halucinare critica.

🔧

Documentatii tehnice

Manuale, RFC-uri, runbook-uri, baza de cunostinte.

🔬

Cercetare stiintifica

Papers, datasets, sinteze cu citare exacta.

📓

Note personale

Jurnale, knowledge workers, second brain.

🏢

Date business confidentiale

Reports interne, customer journey, IP corporativ.

RAG self-hostedpentru documente private