Instalace Presidio

Vaše webová appka posílá citlivá data OpenAI. Takhle to zastavíte a zůstanete škálovatelní.
Průměrná SaaS aplikace odešle přes API volání do OpenAI asi 2,3 MB uživatelských dat za hodinu. Jména, e-maily, interní firemní dokumenty — všechno letí v plaintextu do cloudu v Iowě. Většina vývojářů to řeší až ve chvíli, kdy jim právní oddělení pošle mail s předmětem "GDPR incident". Jenže existuje způsob, jak to vyřešit předem, škálovat do milionů requestů a neutratit při tom majlant.
Co je vlastně ten Privacy Filter
OpenAI v únoru 2026 spustil Privacy API — middleware vrstvu, která sedí mezi vaší aplikací a GPT modelem. Funguje jako proxy: přijme váš request, automaticky detekuje a maskuje PII (personally identifiable information), pošle sanitizovaný prompt do modelu a v odpovědi provede zpětnou substituci. Vy dostanete výsledek, model nikdy neviděl reálná data.
Zní to jednoduše. V praxi je to složitější.
Privacy Filter rozpoznává 47 typů entit — od rodných čísel přes IBAN po české DIČ. Latence? Přidá 40–80 ms na request. Při tisícovce souběžných uživatelů to začnete cítit. A hlavně: stojí to peníze. OpenAI účtuje Privacy API tier za $0,002 na tisíc tokenů navíc k běžné ceně modelu.
Architektura, která škáluje
Pojďme k masu. Takhle vypadá stack, který v produkci zvládne 10 000+ RPM (requests per minute) s privacy filtrem:
Vrstva 1: Edge proxy (Cloudflare Workers / Fastly Compute) Request přijde na edge. Tady uděláte první pre-filtering — odstraníte zjevné PII ještě před odesláním na váš backend. Regex na rodná čísla, e-maily, telefonní čísla. Cena: prakticky nula na free tieru.
Vrstva 2: Váš backend (Node.js / Python FastAPI) Request jde do queue. Neposílejte synchronně do OpenAI — při špičce vám to shodí celý backend. Redis queue + worker pool. Každý worker volá Privacy API endpoint.
Vrstva 3: OpenAI Privacy API Worker pošle request přes `POST /v1/chat/completions` s hlavičkou `X-Privacy-Filter: strict`. OpenAI provede NER detekci, maskování, inference a demaskování. Zpět dostanete odpověď s metadaty o tom, co bylo maskováno.
```javascript const response = await openai.chat.completions.create({ model: "gpt-4o", messages: [{ role: "user", content: userInput }], // Privacy filter konfigurace privacy: { mode: "strict", entity_types: ["person_name", "email", "phone", "national_id"], locale: "cs_CZ" } }); ```
Vrstva 4: Cache (Redis + embedding similarity) Tohle je klíč ke škálování. Podobné dotazy nemusíte posílat znovu. Semantic cache přes embeddingy ušetří 30–60 % API volání. `gpt-4o-mini` embedding stojí $0,00002 za tisíc tokenů — směšná částka oproti opakované inferenci.
Kolik to celé stojí
Reálné čísla z produkce, SaaS s 5 000 aktivními uživateli denně:
| Položka | Měsíční náklad | |---------|---------------| | OpenAI GPT-4o inference | $420 | | Privacy API příplatek | $85 | | Redis (Upstash Pro) | $30 | | Cloudflare Workers | $5 | | Celkem | $540 (~12 500 Kč) |
Bez semantic cache by inference stál $1 100. Cache vám ušetří skoro polovinu.
Open-source alternativa: udělejte si vlastní
Nechcete platit OpenAI příplatek? Presidio od Microsoftu je open-source NER engine na detekci PII. Běží lokálně. Kombinace s Ollama vám dá kompletní self-hosted stack.
```bash pip install presidio-analyzer presidio-anonymizer
# Ollama s Granite 4.1 modelem (IBM, Apache 2.0 licence) ollama pull granite3.1-dense:8b ```
IBM právě vydal Granite 4.1 — rodina LLM modelů trénovaných specificky na enterprise úlohy. Osmimiliardová varianta běží na RTX 4060 (8 GB VRAM) a zvládá reasoning na úrovni srovnatelné s GPT-4o-mini. Najdete ji na Hugging Face, odkud ji stáhnete jedním příkazem. DeepInfra ji navíc nabízí jako inference provider přímo přes HF API — platíte jen za tokeny, žádný vlastní hardware.
Self-hosted stack vyjde na cenu VPS. Hetzner CX42 (8 vCPU, 16 GB RAM) za €15 měsíčně zvládne Presidio + menší model. Pro GPU inferenci potřebujete dedikovaný server — Hetzner GEX44 s RTX 4000 za €80/měsíc, nebo Vast.ai od $0,15/h za A10G.
Proč na tom záleží víc, než si myslíte
Amazon v březnu 2026 řešil měsíce oprav po útocích drony na svá datová centra. Fyzická bezpečnost cloudové infrastruktury najednou přestala být teoretický problém. Když vaše aplikace posílá nezašifrovaná osobní data do jednoho cloudu a ten cloud má výpadek — nebo hůř, breach — máte problém vy, ne Amazon.
Distribuovaná architektura s privacy filtrem vás chrání dvojnásobně. Za prvé: model nikdy nevidí reálná data, takže i při kompromitaci OpenAI neuniknou vaše zákaznická data. Za druhé: semantic cache znamená, že část odpovědí servírujete lokálně, bez závislosti na externím API.
Pro firmy provozující kritickou infrastrukturu — energetiku, zdravotnictví, výrobu — to není luxus, ale nutnost. Systémy jako SmartEnergyShare, které řídí spotřebu energie a optimalizují bateriová úložiště pomocí AI, musí garantovat, že provozní data o spotřebě a výrobě neopustí kontrolovanou infrastrukturu. Privacy filter na úrovni API je minimum.
Pět chyb, které všichni dělají
Synchronní volání. Váš request handler čeká na OpenAI response. Při 500ms latenci a 100 souběžných uživatelích potřebujete 100 threadů. Řešení: async queue.
Žádný fallback. OpenAI má výpadky. Granite 4.1 přes Ollama jako lokální fallback vám zachrání SLA.
Filtrování až na backendu. PII data už prošla vaším load balancerem, CDN, logováním. Filtrujte na edge.
Ignorování českých specifik. Rodné číslo, DIČ, číslo OP — defaultní NER modely je neznají. Presidio umožňuje custom recognizers. Napište si regex pro `/\d{6}\/?\d{3,4}/` a máte to.
Over-engineering. Ne každý request potřebuje privacy filter. Veřejný chatbot odpovídající na FAQ? Zbytečný overhead. Interní nástroj pracující s HR daty? Povinnost.
Co bude dál
Privacy filtry se stanou standardem. EU AI Act od srpna 2026 vyžaduje dokumentaci toku osobních dat přes AI systémy. Firmy, které to řeší teď, budou mít náskok. Firmy, které to ignorují, budou řešit pokuty.
Můj tip: nevsázejte všechno na jednoho providera. OpenAI Privacy API je pohodlné, ale vendor lock-in je reálné riziko. Presidio + lokální model jako fallback vás ochrání před výpadky i před cenovou politikou, kterou nemůžete ovlivnit. Granite 4.1 je pod Apache 2.0 — nikdo vám ho nezakáže používat.
Škálovatelná webová appka s ochranou soukromí není rocket science. Je to Redis, pár workerů, edge proxy a zdravý rozum. Ten poslední bod je tradičně ten nejtěžší.