AWS prodává AI bloky za miliony. Tady je, jak trénovat vlastní model za zlomek ceny

Trénink jednoho velkého jazykového modelu stojí přes 100 milionů dolarů. Google to přiznal u Gemini Ultra, OpenAI to tají, ale odhady mluví o podobných číslech. A teď si představte, že chcete takový model provozovat — ne trénovat, jen provozovat — na vlastní infrastruktuře. AWS vám rádo prodá instanci p5.48xlarge s osmi GPU H100 za 98 dolarů za hodinu. To je skoro dva tisíce korun. Za hodinu.

Jenže tady je háček: většina firem takový výkon nepotřebuje.

Velký omyl jménem „čím větší, tím lepší"

NVIDIA nedávno představila rodinu modelů Nemotron, které používají difuzní přístup k generování textu místo klasického autoregresivního dekódování. Výsledek? Až 4× rychlejší inference při srovnatelné kvalitě. Model s 15 miliardami parametrů generuje text rychlostí, která se blíží teoretickému limitu propustnosti hardware.

To je důležitý signál. Ne proto, že by difuzní jazykové modely zítra nahradily GPT-4. Ale proto, že ukazují směr — menší, specializované modely poráží ty obří v konkrétních úlohách. Studie z MIT potvrdila, co mnoho inženýrů tuší: specializace bije škálování. Model se 7 miliardami parametrů, dotrénovaný na doménových datech přes LoRA adaptéry, často překoná stokrát větší obecný model.

A přesně tady vstupuje do hry AWS se svými „building blocks".

Co AWS nabízí a co z toho reálně použijete

Amazon svůj AI stack rozdělil do tří vrstev. První je hardware — instance EC2 s čipy Trainium2 a Inferentia2, které jsou levnější alternativou k NVIDIA GPU. Trn2 instance vyjdou zhruba na třetinu ceny srovnatelného H100 setupu. Druhá vrstva je Amazon SageMaker pro trénink a deployment. Třetí je Amazon Bedrock — managed API pro hotové modely od Anthropicu, Meta nebo Mistral.

Pro většinu českých firem je relevantní jen ta třetí vrstva. Bedrock vám dá přístup k Claude, Llama nebo Mistral přes API za cenu tokenu. Žádný hardware, žádná správa. Zavoláte endpoint, dostanete odpověď, zaplatíte pár haléřů.

Ale co když máte citlivá data? Zdravotní záznamy, finanční reporty, energetická data z průmyslových sítí? Tady Bedrock nestačí — a začíná to být zajímavé.

Vlastní model: kdy to dává smysl

Pokud provozujete kritickou infrastrukturu — a patří sem i energetické systémy, SCADA řízení nebo IoT sítě pro chytré budovy — nechcete, aby vaše data tekla přes API třetí strany. Vzpomeňte na Chromecast. Google právě bez varování zabil první generaci zařízení, na kterých lidé záviseli. Miliony uživatelů zjistily, že jejich hardware je ze dne na den mrtvý. Když závisíte na cloudu někoho jiného, riskujete totéž s celým AI pipeline.

Alternativa existuje. A není tak drahá, jak by se zdálo.

Na HuggingFace najdete tisíce otevřených modelů. Llama 3.1 8B, Mistral 7B, Qwen2.5 — všechny volně ke stažení. S nástrojem Ollama je rozběhnete na vlastním serveru jedním příkazem:

``` ollama run llama3.1:8b ```

Celý setup běží na stroji s jednou NVIDIA RTX 4090 (cca 45 000 Kč). Inference modelu se 7–8 miliardami parametrů zvládne generovat 30–50 tokenů za sekundu. Pro firemní chatbota, analýzu dokumentů nebo klasifikaci bezpečnostních událostí to bohatě stačí.

Dotrénování na vlastních datech přes QLoRA adaptéry zabere pár hodin a vyžaduje 24 GB VRAM. Na AWS to samé uděláte na instanci g5.xlarge za 1,006 USD/hod — trénink typicky trvá 2–4 hodiny, takže mluvíme o nákladech pod sto korun.

Bezpečnostní rozměr, který nikdo neřeší

Tady se dostáváme k jádru problému. AWS nabízí šifrování dat at rest i in transit, VPC izolaci, IAM politiky. To je standard. Ale co model samotný?

Prompt injection útoky dokážou přimět jazykový model, aby ignoroval systémové instrukce a vyzradil interní data. Model poisoning — záměrné kontaminování trénovacích dat — může vytvořit backdoor, který se aktivuje specifickým vstupem. A supply chain útoky na open-source modely z HuggingFace už nejsou teorie. V roce 2024 výzkumníci z JFrog objevili na platformě desítky modelů s vloženým škodlivým kódem v pickle souborech.

Když si stáhnete model a nasadíte ho do produkce bez auditu, je to jako spustit neznámý binární soubor z internetu s root právy.

Základní hygiena pro nasazení AI modelu v bezpečnostně citlivém prostředí:

Skenujte modely nástrojem `picklescan` nebo `modelscan` před nasazením. Provozujte inferenci v izolovaném kontejneru bez přístupu k síti. Logujte všechny vstupy a výstupy — potřebujete audit trail. Omezte kontext window a zakažte modelu přístup k nástrojům, které nepotřebuje. Na AWS k tomu využijete SageMaker s VPC endpointy a CloudTrail logováním.

Kolik to reálně stojí

Srovnání tří přístupů pro firmu, která zpracuje milion dotazů měsíčně:

Bedrock API (Claude Haiku): Zhruba 200–400 USD měsíčně. Žádná správa, ale data opouští vaši infrastrukturu.

SageMaker s vlastním modelem (Llama 8B na ml.g5.xlarge): Kolem 750 USD měsíčně při nepřetržitém provozu. Data zůstávají ve vašem VPC. Musíte řešit správu, aktualizace, monitoring.

On-premise server (RTX 4090): Jednorázově 45 000 Kč za GPU + server, pak jen elektřina. Plná kontrola. Ale taky plná zodpovědnost za všechno — od chlazení po security patche.

Pro energetické firmy, které řeší predikci spotřeby, optimalizaci baterií nebo detekci anomálií v síti, třetí varianta často vychází nejlépe. Platformy jako SmartEnergyShare už dnes pracují s AI modely pro optimalizaci sdílení elektřiny — a citlivá energetická data z měničů a baterií zkrátka nechcete posílat přes půl světa.

Co z toho plyne

AWS building blocks jsou solidní infrastruktura. Trainium2 čipy reálně sráží cenu tréninku, Bedrock zjednodušuje prototypování, SageMaker dává kontrolu nad deployment pipeline. Ale nejsou to stavební bloky pro každého.

Trend je jasný: menší specializované modely, lokální inference, důraz na bezpečnost supply chainu. Éra, kdy jste potřebovali stamilionový rozpočet na cokoliv smysluplného s AI, skončila. Sedmimiliardový model dotrénovaný na vašich datech za pár stovek korun dokáže víc než GPT-4 v obecném režimu — a nikdo kromě vás nevidí, co se do něj posílá.

Jediná otázka je, jestli to uděláte dřív než vaše konkurence.