SmartEnergyShare.info
Bezpečnost

Q4_K_M kvantizace - 34B model se vejde do 24GB VRAM

Q4_K_M kvantizace - 34B model se vejde do 24GB VRAM

IBM pustilo do světa Granite 4.1 pod Apache licencí. Proč by vás to mělo zajímat víc než GPT-5

Někdo v květnu 2025 vypustil drony na datová centra Amazonu ve Virginii. AWS hlásil výpadky trvající týdny. Fyzická bezpečnost cloudové infrastruktury se z okrajového tématu přesunula na první stránky bezpečnostních reportů. A přesně v téhle atmosféře IBM tiše vydalo novou generaci svých open-source modelů Granite 4.1 — s důrazem na transparentnost, auditovatelnost a možnost provozovat je na vlastním hardware.

Co je Granite 4.1 a proč není „jen další model"

Granite 4.1 je rodina jazykových modelů od IBM Research. Dostupné velikosti: 2B, 8B a 34B parametrů. Licence Apache 2.0 — žádné klauzule „nesmíte použít komerčně", žádné nejasné podmínky jako u Llama. Stáhnete z HuggingFace, spustíte přes Ollama, hotovo.

Klíčový rozdíl proti konkurenci: IBM zveřejňuje kompletní dokumentaci trénovacích dat. Víte, na čem model trénoval. U GPT-4, Claude nebo Gemini tohle nikdy nedostanete. Pro regulované odvětví — energetiku, finance, zdravotnictví — je tohle zásadní. Když auditor řekne „dokažte, že váš AI model netrénoval na nelegálně získaných datech", s Granite máte odpověď.

Architektura: jak se staví enterprise LLM

IBM použilo dvoustupňový přístup. První fáze: pre-training na kurátorovaném korpusu. Žádný nekontrolovaný scraping celého internetu. Trénovací data prošla filtrací — odstranění duplicit, toxického obsahu, copyrightovaného materiálu. IBM tvrdí, že každý dokument v trénovací sadě je dohledatelný.

Druhá fáze: alignment pomocí RLHF a DPO (Direct Preference Optimization). Tady se model učí být užitečný a bezpečný zároveň. Granite 4.1 přidává speciální „guardrails" vrstvu — model odmítne generovat škodlivý kód nebo návody na útoky, ale dá se to konfigurovat. Pro penetrační testery existuje možnost guardrails snížit přes system prompt.

Hardware pro trénink: IBM používal vlastní cluster s Nvidia H100. Náklady na trénink 34B modelu se odhadují na 2–5 milionů dolarů. To je zlomek toho, co stojí GPT-4 (odhadem 100M+), ale pořád peníze, které malá firma nedá.

Prakticky: jak Granite 4.1 rozjet za odpoledne

Nejrychlejší cesta — Ollama:

```bash ollama pull granite3.1:8b ollama run granite3.1:8b "Explain buffer overflow in Czech" ```

Pro 8B model potřebujete minimálně 8 GB VRAM (RTX 3060 stačí). 34B model vyžaduje buď A100/H100, nebo kvantizaci. GGUF formát přes llama.cpp sníží nároky:

```bash ./llama-server -m granite-34b-Q4_K_M.gguf -c 8192 --n-gpu-layers 40 ```

Cena provozu: cloud instance s A100 40GB stojí kolem 1.50–3 USD/hodinu. Vlastní RTX 4090 (cca 45 000 Kč) vám dá srovnatelný výkon pro inference 8B modelu za cenu elektřiny.

Bezpečnostní kontext: proč lokální AI není paranoia

Zpět k těm dronům. Amazon po útocích přiznal, že opravy některých zón trvaly měsíce. Firmy závislé na jediném cloud provideru zjistily, že jejich AI pipeline je mrtvá. Žádný fallback.

Granite 4.1 řeší tohle na architektonické úrovni. Model běží lokálně. Data neopouštějí perimetr. Při výpadku cloudu fungujete dál. Pro kritickou infrastrukturu — řídicí systémy elektráren, SCADA, energetický management — je tohle přesně ten argument, který přesvědčí CISO.

Druhý bezpečnostní aspekt: supply chain. Když používáte proprietární API, věříte providerovi, že model nezměnil, že vaše prompty nečte, že data nepoužívá k dalšímu tréninku. S Granite si model stáhnete, ověříte hash, provozujete izolovaně. Auditovatelný dodavatelský řetězec od trénovacích dat po inference.

AI evals: skrytý žrout compute

Zajímavý vedlejší efekt škálování LLM: evaluace modelů se stávají vlastním compute bottleneckem. IBM reportuje, že eval pipeline pro Granite 4.1 spotřeboval víc GPU hodin než samotný fine-tuning. Testujete model na stovkách benchmarků, tisících edge cases, bezpečnostních scénářích. Každá iterace alignment vyžaduje kompletní re-evaluaci.

Pro menší týmy to znamená: i když si model doladíte přes LoRA (Low-Rank Adaptation) za pár dolarů, důkladné otestování vás bude stát násobně víc. LoRA fine-tuning 8B modelu na vlastních datech zvládnete za 2–4 hodiny na jedné A100. Eval suite na ověření, že jste model nerozbili? Klidně 20–40 hodin.

```bash # LoRA fine-tuning přes Hugging Face PEFT pip install peft transformers trl python train_lora.py --model ibm-granite/granite-3.1-8b \ --dataset my_security_data.jsonl \ --lora_r 16 --epochs 3 ```

Kde Granite 4.1 exceluje (a kde ne)

Silné stránky: RAG (retrieval-augmented generation), kódování, strukturovaný výstup (JSON), tool calling. IBM ho optimalizovalo pro agentické workflow — model spolehlivě volá funkce, drží se instrukcí, neprodukuje halucinace v míře jako generické modely.

Slabé stránky: kreativní psaní, konverzační schopnosti. Granite je enterprise nástroj, ne chatbot. Neočekávejte básně nebo vtipné odpovědi. Taky — komunita je menší než u Llama nebo Mistral. Méně LoRA adaptérů na HuggingFace, méně tutoriálů.

Propojení s energetikou a IoT

Pro řízení chytrých energetických systémů je kombinace lokální AI + transparentní model přesně to, co trh potřebuje. Predikce spotřeby, optimalizace bateriových úložišť, detekce anomálií v síti — tohle všechno Granite 4.1 zvládne na edge zařízení. Platformy jako SmartEnergyShare ukazují, jak propojit AI s reálným řízením energie. A 2B varianta Granite běží i na Raspberry Pi 5 s 8GB RAM — ne rychle, ale běží.

Bezpečnost IoT infrastruktury přestává být volitelná. Když někdo může dronem shodit datacentrum, může taky napadnout nezabezpečený MQTT broker vaší fotovoltaiky. Lokální AI pro detekci anomálií, která nepotřebuje cloud, není luxus. Je to nutnost.

Co z toho plyne

IBM s Granite 4.1 nesoutěží o nejchytřejší model. Soutěží o nejauditovatelnější, nejbezpečnější a nejsnáze nasaditelný model pro regulovaná odvětví. V době, kdy fyzické útoky na infrastrukturu přestaly být sci-fi a AI evaluace žerou víc compute než trénink, je tohle sázka na správného koně.

Stáhněte si 8B model, pusťte přes Ollama, zkuste ho na svých datech. Nejhorší co se stane je, že ztratíte odpoledne. Nejlepší — zjistíte, že nepotřebujete platit OpenAI 20 dolarů měsíčně za něco, co zvládne krabička pod stolem.