Konec falešných benchmarků: Hugging Face teď ukáže KAŽDÝ test, který váš model kdy absolvoval

Zkuste si vyhledat libovolný model na Hugging Face a spočítat, kolika benchmarky se chlubí na první obrazovce. Tak dva, tři. MMLU, možná HellaSwag, občas nějaké proprietární číslo od výrobce, které nikdo jinde nepoužívá. Realita je jiná – ten samý model prošel klidně padesáti testy, jenže výsledky, které se autorům nehodily, prostě zůstaly ve složce s logy. Hugging Face se rozhodl tuhle hru ukončit a na model card stránky přidává funkci, které se neoficiálně říká "Every Eval Ever" – kompletní historie všech veřejně dohledatelných eval běhů k danému modelu, včetně těch trapných.

Zní to jako nudná administrativní změna. Není. Je to první krok k tomu, že si člověk konečně ověří, jestli model, který si chce nasadit do produkce, skutečně umí to, co tvrdí marketingový slide.

Co přesně "Every Eval Ever" znamená

Hugging Face agreguje výsledky z veřejných evaluačních běhů – Open LLM Leaderboard (i po jeho oficiálním ukončení v dubnu 2025 zůstala data použitelná jako referenční baseline), komunitní submise přes `lm-evaluation-harness` od EleutherAI, a čerstvě i strukturovaná metadata, která si autoři modelů mohou sami připojit do model card YAML hlavičky pod klíčem `model-index`.

Výsledek: na stránce modelu uvidíte nejen tři vybrané metriky, ale timeline. Kdy byl model poprvé testován, jaké verze evaluačního harness se používaly (protože verze 0.4.2 dá jiná čísla než 0.3.0 – to není detail, to je běžný zdroj desítek procentních bodů rozdílu), a hlavně – jestli náhodou nezmizel nějaký starší, horší výsledek poté, co vyšla "opravená" verze modelu.

Pro člověka, který si vybírá model pro nasazení, je tohle zlato. Konečně vidíte kontaminaci dat (model, co náhodou "umí" testovací sadu nazpaměť, protože byla v tréninkovém korpusu), vidíte rozptyl mezi jednotlivými seedy, vidíte, jestli výrobce reportuje pass@1 nebo pass@10 a tiše doufá, že si toho nevšimnete.

Gemma 4 a Cerebras: hlas AI bez zpoždění

Souběžně s touhle transparentní revolucí Hugging Face oznámil partnerství s Cerebras na nasazení Gemma 4 pro real-time hlasovou AI. Cerebras vyrábí Wafer Scale Engine 3 – čip velký jako celá křemíková deska, ne standardní čtvereček. Výsledek je inferenční rychlost, o které GPU farmy jenom sní: přes 2000 tokenů za sekundu u modelů srovnatelné velikosti, což u hlasových asistentů znamená latenci pod 200 milisekund od konce věty uživatele po první slovo odpovědi.

To je hranice, pod kterou konverzace s AI přestává znít jako vysílačka a začíná znít jako telefonát s člověkem. Google DeepMind postavil Gemma 4 jako otevřenou váhu (weights) s licencí, která dovoluje komerční nasazení, a Cerebras nabízí hosting přes vlastní cloud i přes Hugging Face Inference Endpoints.

Prakticky to znamená: pokud stavíte hlasového asistenta a nechcete platit OpenAI za každý token, můžete si stáhnout Gemma 4 z huggingface.co přímo teď, spustit menší variantu lokálně přes Ollama (`ollama pull gemma3` – čtyřka v době psaní ještě doráží do repozitářů postupně) a otestovat na vlastním hardwaru. Cerebras verze je určena spíš pro firmy, co potřebují stovky souběžných hovorů a nechtějí řešit škálování GPU clusteru samy.

ScarfBench: když AI agent má opravit vaši Javu

Třetí novinka týdne je míň sexy, ale pro enterprise IT možná důležitější než hlasová AI. ScarfBench je nový benchmark zaměřený na jednu konkrétní bolest – migraci starých Java frameworků. Java Spring 4 na Spring 6, Struts na cokoliv modernějšího, JBoss na Quarkus. Tohle je práce, kterou firmy odkládají roky, protože je nudná, riskantní a nikdo senior ji nechce dělat.

ScarfBench testuje AI agenty přesně na tomhle: dostanou reálný (nebo realisticky syntetický) enterprise codebase s tisíci souborů, závislostmi na deprecated knihovnách a nutností zachovat funkční chování. Měří se, kolik testů projde po migraci, kolik regresí agent nechtěně způsobí, a jak dlouho mu to trvá.

Proč je to relevantní k Hugging Face eval transparentnosti? Protože tenhle typ benchmarku přesně ukazuje, proč obecné testy jako MMLU firmám nic neřeknou. Model, co exceluje v akademických otázkách, může být v reálné codebase naprosto k ničemu. ScarfBench je krok k tomu, že si CTO firmy bude moct vybrat agenta podle úlohy, kterou skutečně potřebuje vyřešit, ne podle skóre v obecné lize.

AI navrhuje weby vlády. Výsledek je grafický masakr

A pak je tu ta druhá strana AI hypu. Trumpova administrativa spustila plán na kompletní redesign všech .gov webů pomocí AI nástrojů – rychleji, levněji, bez dodavatelů. Výsledky, které začaly prosakovat ven, jsou podle všech zpráv vizuální katastrofa. Fialové gradienty tam, kde má být strohá byrokratická čitelnost. Fonty, co vypadají jako marketingová prezentace startupu, ne jako stránka, na které si senior občan hledá formulář k důchodu.

Tohle je přesně ten scénář, proti kterému stojí "Every Eval Ever" iniciativa. Když nemáte transparentní evaluaci – v tomhle případě third-party audit přístupnosti, použitelnosti, souladu se standardy jako WCAG – dostanete přesně tohle. AI, která optimalizuje na "vypadá to cool", ne na "funguje to pro 80letou paní, co neumí dvojklik".

Poučení je jednoduché: AI nástroj bez měřitelného, veřejně ověřitelného eval procesu je sázka do tmy. Ať děláte chatbota, nebo vládní portál.

Jak si eval spustit sami, levně

Nemusíte čekat na Hugging Face dashboard. `lm-evaluation-harness` je open-source, nainstalujete ho přes pip a spustíte proti libovolnému modelu, co běží lokálně přes Ollama nebo llama.cpp. Typický benchmark běh na běžné RTX 4090 (cena kolem 35 000 Kč) zvládne menší 7B model přes standardní sadu úloh za pár hodin.

Pokud chcete model doladit na vlastní data – třeba interní dokumentaci firmy – LoRA fine-tuning je pořád nejlevnější cesta. Adaptér pro 7B model se dá natrénovat na jedné grafické kartě za pár stovek korun elektřiny, ne za statisíce jako plný fine-tuning. A tady je ta souvislost, co se často přehlíží: každý trénovací běh i každý eval spotřebuje elektřinu, a s rostoucím počtem lokálních instalací roste i zátěž domácí sítě a účet za proud.

Pokud běžíte AI workloady doma nebo ve firmě na vlastním hardwaru, vyplatí se řešit, odkud ta elektřina jde a za kolik. Sdílení elektřiny mezi vlastní fotovoltaikou a spotřebou serverovny dává smysl i u menší AI stanice – detaily najdete na smartenergyshare.com/sdileni-elektriny. Firmy, co provozují víc GPU strojů najednou, by měly mrknout na nabídku pro firmy, kde se řeší i obchodování flexibility výkonu – relevantní, pokud AI trénink běží nárazově a spotřeba kolísá. A kdo chce vědět, kdy je proud nejlevnější pro noční trénovací běh, najde spotové ceny na smartenergyshare.com/spotova-cena-elektriny-denni-trh.

Co to znamená pro vývojáře a firmy

Shrnutí týdne je jasné: éra "věřte nám na slovo" u AI benchmarků končí. Hugging Face tlačí na transparentnost, Cerebras a Google ukazují, že real-time hlasová AI je teď otázka měsíců, ne let, a ScarfBench dokazuje, že specializované benchmarky pro konkrétní enterprise problémy jsou budoucnost, ne akademická MMLU tabulka.

Moje predikce, se kterou možná někdo nebude souhlasit: do konce roku uvidíme první případ, kdy firma zažaluje AI vendora za zavádějící benchmark čísla, protože teď už existuje veřejně dohledatelný důkazní materiál. "Every Eval Ever" není jenom feature na model card stránce. Je to začátek právní odpovědnosti za to, co AI firmy tvrdí o svých modelech.

Kdo chce vidět, jak podobná transparentnost a chytré řízení spotřeby funguje mimo svět AI, konkrétně u energetiky, najde inspiraci na ShareElectric.cz nebo na sdilenienergie.info, kde se komunitní energetika řeší podobně otevřeně jako teď eval data u AI modelů.

Zdroje

Obchodujete s batteriovými úložišti nebo hledáte partnera pro flexibilitu a day trading elektřiny? SmartEnergyShare nabízí kompletní řešení pro BESS projekty od 50 do 250 kW — obchodování flexibility, SVR služby a IoT monitoring. Zjistěte víc →

Další články na toto téma najdete na: ElectricShare.cz Největší větrný park USA zahajuje provoz: Energie pro mil... Vice o olmo-eval: an