SmartEnergyShare.info
Inovace

Harness, scaffold, agent — proč na slovech v AI záleží víc, než si myslíte (a proč nejlepší modely světa selhávají v kanceláři)

Harness, scaffold, agent — proč na slovech v AI záleží víc, než si myslíte (a proč nejlepší modely světa selhávají v kanceláři)

Harness, scaffold, agent — proč na slovech v AI záleží víc, než si myslíte (a proč nejlepší modely světa selhávají v kanceláři)

Frontier modely — Claude Opus, GPT-4o, Gemini Ultra — skórují pod 50 % na benchmarku firemního IT. Ne na nějakém akademickém torture testu z roku 2018. Na reálných úlohách jako "nastav CI/CD pipeline" nebo "oprav výpadek databáze". To je výsledek ITBench-AA, který společně zveřejnily Artificial Analysis a IBM v květnu 2026. A tenhle výsledek leccos vypovídá — jenže ne o tom, co si většina lidí myslí.

Problém totiž není v modelech samotných. Je v tom, jak je nasazujeme. A přesně tady vstupují na scénu pojmy jako harness, scaffold, nebo orchestrátor. Pojmy, které se v AI komunitě používají zaměnitelně, přičemž každý myslí něco jiného. Výsledek? Systémy, které vypadají chytře v demech, ale padají při první reálné iteraci.

Blue Origin to zažil doslova. Raketa New Glenn v červnu 2025 selhala při opakovaném startu kvůli chybě řídicího softwaru — ne kvůli hardwaru. Řídicí "scaffold" nedokázal správně propagovat stav systému mezi subsystémy. V AI agentství jde o identický problém: krásný model, špatná architektura kolem něj.


Co se vlastně skrývá za slovem "agent"

Termín AI agent si každý vykládá po svém. Pro OpenAI je agent cokoli, co volá nástroje. Pro Anthropic je to systém s pamětí, plánováním a zpětnou vazbou. Pro průměrného startupu je to GPT-4 s přístupem k internetu.

Technicky vzato, agent je systém, který: 1. přijme cíl (ne instrukci krok za krokem), 2. sám rozhoduje o posloupnosti akcí, 3. pracuje s externími nástroji nebo prostředím, 4. iteruje na základě výsledků.

To je zásadní rozdíl od klasického LLM volání, kde pošlete prompt a dostanete odpověď. Agent provede "pošli email" → zjistí, že SMTP selhal → zkusí alternativu → zaznamená výsledek → pokračuje dál. Nebo to celé odloží a zahlásí chybu. Záleží na tom, jak je navržen.

A právě tady začíná terminologické peklo. Systém kolem modelu — vrstva, která mu dává nástroje, spravuje kontext, loguje kroky — se nazývá různě. LangChain ji nazývá "chain". AutoGPT ji nazývá "loop". Microsoft v Semantic Kernel mluví o "planner". A komunita okolo open-source frameworku CrewAI ji nazývá "crew orchestration". Všichni ale myslí totéž: infrastrukturu kolem modelu.


Harness vs. scaffold — nejdůležitější rozdíl, který nikdo nevysvětluje

V softwarovém inženýrství má "test harness" jasný význam: prostředí, které spouští testy, sbírá výsledky a izoluje testovaný kód od okolního světa. V AI agentství se harness používá analogicky — je to runtime prostředí, které:

  • spouští model v kontrolovaných podmínkách,
  • řídí vstupy a výstupy,
  • zajišťuje, že agent nedělá nic, co nemá (bezpečnostní sandbox),
  • loguje každý krok pro audit nebo ladění.

Claude Code (nástroj, ve kterém čtete tenhle článek) má vlastní harness — systém hooků, který se spouští při každém volání nástroje. Například před tím, než model zapíše soubor, harness může zavolat vlastní skript, který zkontroluje, zda cílová cesta není v blacklistu.

Scaffold je jiná věc. Je to dočasná podpůrná struktura — stejně jako ve stavebnictví. V AI kontextu je scaffold prompt, šablona nebo pipeline, která modelovi říká, jak přistupovat k problému. Typický scaffold pro debugovací agenta vypadá takto:

``` 1. Zopakuj, co je problém. 2. Navrhni 3 možné příčiny. 3. Vyber nejpravděpodobnější. 4. Navrhni kroky k ověření. 5. Proveď kroky (použij nástroje). 6. Zhodnoť výsledek. ```

Scaffold je tedy metodologie vtisklá do promptu nebo kódu. Harness je prostředí, ve kterém agent běží. Míchat tyto pojmy vede k systémům, kde nikdo neví, co je zodpovědné za co — a při debugování agentu se člověk ztratí v padesáti vrstvách abstrakce.

LangGraph, open-source framework od autorů LangChain, tuto architekturu odděluje explicitně: grafy definují scaffold (tok rozhodnutí), zatímco runtime je harness. Výsledkem jsou systémy, které se dají ladit bez přepisování celé logiky.


ITBench-AA: proč frontier modely selhávají na firemním IT

Výsledky ITBench-AA jsou brutální. Claude Sonnet 3.7 dosáhl 47 %. GPT-4o: 43 %. Nejlépe si vedl model od IBM (surprise!), ale ani ten nepřekročil 55 %. Benchmark obsahuje 200 reálných IT scénářů: deployment aplikací v Kubernetes, analýza logů při incidentu, tvorba Terraform skriptů pro specifické cloudové prostředí.

Kde modely padají nejvíc? Na kontextové paměti a propagaci stavu. Kubernetes incident trvá desítky interakcí — agent musí pamatovat, co už vyzkoušel, jaké byly výsledky, a na základě toho neplánovat totéž znovu. Většina současných agentů tyto informace buď ztrácí (krátký kontext), nebo je ukládá nestrukturovaně (agent si "vzpomene" špatně).

Toto je přesně místo, kde scaffold rozhoduje. Systém, který po každém kroku strukturovaně zapíše stav (`krok 3: restart podu X → úspěch, pod Y → selhání, chyba: OOMKilled`) má dramaticky vyšší šanci iterovat správně. Systém, který to nechá na modelu volně "pamatovat si" v konverzaci, selže jakmile kontext přesáhne token limit.

Open-source nástroj HuggingFace Smolagents implementuje tento přístup — strukturované ukládání mezivýsledků, explicitní "working memory" odlišená od systémového promptu. Je zdarma, funguje s lokálními modely přes Ollama, a na HuggingFace (https://huggingface.co) najdete desítky předpřipravených agentních workflows.


NVIDIA Cosmos 3 a fyzické AI — jiná liga problémů

V květnu 2026 NVIDIA představila Cosmos 3: první open omni-model zaměřený na fyzické AI. Co to znamená v praxi? Model, který kombinuje vizuální vnímání, porozumění fyzikálním zákonům a plánování akcí pro roboty nebo autonomní systémy.

Proč je to relevantní pro diskusi o termínech? Protože u fyzických agentů se terminologie ještě více zamotává. Harness pro průmyslového robota musí řešit bezpečnostní stop (emergency halt), latenci v řádu milisekund a synchronizaci se senzory v reálném čase. Scaffold pro robota v logistickém skladu musí kódovat fyzické omezení — robot nemůže zdvihnout 500 kg, nemůže projít zdí, nesmí vstoupit do určené zóny.

Cosmos 3 je dostupný přes NVIDIA NGC jako open model — technicky si ho může spustit kdokoli s dostatečným GPU. Minimální požadavek pro rozumnou inference je A100 nebo H100; consumer karty jako RTX 4090 zvládnou menší varianty s kvantizací. Cena pronájmu A100 na cloud (Lambda Labs, RunPod) se pohybuje kolem 1,5–2,5 USD/hod. Jeden testovací den inference vás vyjde na zhruba 1 500–2 000 Kč — ne drahé na výzkum, ale ani zadarmo.

Klíčové: Cosmos 3 jako model je jen základ. Bez správného harnessu (řízení bezpečnosti, sensor fusion, state management) je to skvělá matematika v prázdném prostoru. Blue Origin to pochopil pozdě — jejich řídicí software neměl dostatečně robustní harness pro propagaci fault states mezi subsystémy. Model (řídicí algoritmus) byl v pořádku. Okolí selhalo.


Jak postavit agentní systém, který nepůjde na vzduch

Konkrétní stack pro rok 2026, bez placených API:

Lokální model: Ollama s `llama3:70b` nebo `qwen2.5:72b`. Na serveru s 32 GB RAM zvládnete quantizovanou verzi Q4. Inference: ~2–5 tokenů/sec, pro agentní úlohy dostatečné.

Framework: LangGraph (Python) nebo ElectricSQL + custom orchestrátor pro Node.js prostředí. LangGraph umožňuje definovat agent jako stavový automat — každý uzel je krok, každá hrana je podmínka přechodu.

Harness: Implementujte explicitní checkpoint systém. Po každém agentu kroce serializujte stav do JSON. Při restartu (model selhal, timeout, rate limit) načtěte poslední checkpoint a pokračujte. Tohle samo o sobě zvedne úspěšnost o 30–40 % na dlouhých úlohách.

Memory: Oddělte krátkodobou paměť (kontext aktuálního úkolu, ~4k tokenů) od dlouhodobé (vektorová DB — ChromaDB nebo Qdrant, lokálně zdarma). Agent vyhledává v dlouhodobé paměti embeddingy, ne celý kontext.

Bezpečnostní sandbox: Každé volání nástroje logujte. Implementujte whitelist povolených akcí. U destruktivních operací (smazání souboru, restart procesu) vyžadujte explicitní potvrzení nebo human-in-the-loop krok.

Cena celého stacku: hardware (pokud máte server) = 0 Kč/měsíc provoz. Elektřina pro inference na GPU serveru: přibližně 500–1 500 Kč/měsíc podle vytížení. A to je vše.

Pokud vás zajímá praktická implementace agentních systémů v kontextu energetiky a automatizace, podrobné návody najdete na ElectricShare.cz — včetně integrace s lokálními LLM pro predikci spotřeby a obchodování s flexibilitou.


Energetika a AI agenti: kde se to potkává

Možná si říkáte, co mají AI agenti společného s energetikou. Víc, než čekáte.

Systémy jako smartenergyshare.com pracují s bateriemi BESS v rozsahu 50–250 kW, obchodováním odchylek a regulační elektřinou. Každé z těchto oblastí je v podstatě agentní problém: systém musí sbírat data (ceny elektřiny, stav sítě, predikce výroby FVE), rozhodovat o akcích (nabít/vybít baterii, prodat kapacitu na regulačním trhu) a iterovat na základě výsledků.

Bez správného harnessu — tedy auditovatelného, bezpečného prostředí — nemůžete nasadit AI agenta do systému, který pohybuje desítkami megawatthodin denně. Chyba scaffoldu (špatná predikce, přesečení) může znamenat penalizaci od distributora v řádu statisíců korun.

Právě proto je terminologie důležitá: když váš dodavatel AI řešení řekne "postavíme vám agenta", potřebujete vědět, zda rozumí rozdílu mezi modelem, scaffoldem a harnessem. Pokud ne, dostanete demo, které vypadá skvěle — a produkci, která selže ve třetím týdnu.

Praktické kalkulace pro nasazení AI v energetice najdete také na ShareElectric.cz, kde jsou detailně rozebrány scénáře pro komunitní energetiku a flexibilitu.


Předpověď, která může být špatná (ale pravděpodobně není)

Do konce roku 2026 vznikne standardizovaná terminologie pro AI agentní systémy. Ne proto, že by se komunita shodla na konferenci. Ale proto, že enterprise zákazníci začnou vyžadovat SLA — a SLA potřebuje přesný popis toho, co systém dělá. "Máme agenta" nestačí. "Máme agentem řízenou pipeline s LangGraph scaffoldem, Qdrant memory a auditovatelným harnessem s checkpointy každých 10 kroků" — to je základ smlouvy.

ITBench-AA ukázal, že frontier modely nestačí samy o sobě. Blue Origin ukázal, že software kolem systému rozhoduje stejně jako systém samotný. A NVIDIA Cosmos 3 ukazuje, kde budeme za dva roky: fyzičtí agenti v průmyslu, energetice a logistice.

Otázka není, jestli agenti přijdou. Je to, jestli víte, co kupujete.


Zdroje

Obchodujete s batteriovými úložišti nebo hledáte partnera pro flexibilitu a day trading elektřiny? SmartEnergyShare nabízí kompletní řešení pro BESS projekty od 50 do 250 kW - obchodování odchylek, regulační elektřiny a intraday trading. Zjistěte víc na SmartEnergyShare.

Další články na toto téma najdete na: Share-Electric.cz - praktické návody a kalkulace Electric-Share.cz - legislativa a dotace