Jak funguje mozek digitálního monstra: Od monolitů k EMO

Tenhle trik s AI modely ušetří miliardy za hardware. Jmenuje se EMO a změní všechno.

Představte si, že stavíte obří knihovnu. Můžete mít jednoho knihovníka, který ví úplně všechno, ale než se prokouše miliony svazků, zestárne o deset let a vy mezitím zapomenete, na co jste se ptali. Nebo můžete mít armádu specialistů – jeden rozumí jen středověké poezii, druhý jaderné fyzice a třetí návodům na pračky. Když se pak zeptáte na rozpad atomu, nebudíte celé osazenstvo, ale jen toho jednoho experta. Tohle je v kostce princip Mixture of Experts (MoE), technologie, na které běží ty největší AI modely dneška, včetně GPT-4 nebo Mixtralu. Jenže dosud jsme tyhle "experty" do modelů rvali tak trochu naslepo. Nový výzkum s názvem EMO (Pretraining mixture of experts for emergent modularity) ale ukazuje, že když se na to jde chytře už od začátku, model si svou vnitřní specializaci vybuduje sám a mnohem efektivněji.

Jak funguje mozek digitálního monstra: Od monolitů k EMO

Většina starších AI modelů jsou takzvané monolity. Máte miliardy parametrů a při každém slovu, které model vyplivne, se musí protočit úplně všechny. Je to energetický i výpočetní masakr. MoE to změnilo tím, že aktivuje jen část sítě (tzv. sparse activation). Problém ale vždycky byl v tom, jak ty experty vytrénovat tak, aby se skutečně specializovali. Často se stávalo, že jeden nebo dva experti "brali všechno", zatímco zbytek týmu se jen flákal v křemíkovém nebi.

Metoda EMO na to jde jinak. Zaměřuje se na fázi pre-trainingu, tedy na ten moment, kdy model poprvé nasává data z internetu. Místo toho, aby inženýři natvrdo definovali, kdo bude expert na co, nechávají modularitu "vyplynout" (emergent modularity). Klíčem je speciální směs dat a tréninkových algoritmů, které nutí model k vnitřní dělbě práce. Výsledek? Model se stejným počtem parametrů jako jeho monolitický kolega běží na zlomku výpočetního výkonu, ale přitom je chytřejší.

Proč by nás to mělo zajímat v Česku? Protože provozovat tyhle modely stojí majlant. Pokud se podaří díky EMO snížit hardwarové nároky na polovinu, znamená to, že si lokální LLM (Large Language Model) spustíte i na ojeté RTX 3090 z bazaru, místo abyste platili tisíce dolarů měsíčně za cloud u Microsoftu. A když už mluvíme o efektivitě, tohle není jen o softwaru. Je to o celém ekosystému, kde hraje roli i to, jak tyhle výpočetní bestie krmíme energií. Ostatně, podívejte se na sdilenienergie.info, jak se dnes řeší komunitní energetika, protože ty datacentra prostě nebudou mít kde brát.

Starship pro AI: Proč infrastruktura nestíhá software?

Zatímco my v Evropě řešíme regulace, v USA se čeká na Starship od SpaceX. Proč to zmiňuji v článku o AI? Protože Starship je pro americký vesmírný a technologický program přesně to, co EMO pro umělou inteligenci. Jde o škálování. Potřebujeme dostat nahoru víc satelitů, víc výpočetního výkonu a víc senzorů za nižší cenu. Elon Musk ví, že pokud Starship nedoručí slibovanou nosnost, celý sen o globálním Starlinku a vesmírné dominanci padne.

V AI světě je naší "raketou" hardware od Nvidie. Ale i ty nejvýkonnější čipy H100 mají své limity – spotřebu a cenu. EMO je v podstatě optimalizace aerodynamiky téhle rakety. Pokud dokážeme vytvořit modely, které jsou modulární už z výroby, nepotřebujeme jich "vystřelit" tolik. Efektivní MoE modely jsou cestou, jak se vyhnout energetickému kolapsu datacenter. Už dnes se uvažuje o tom, že velká AI centra budou muset mít vlastní jaderné reaktory.

Realita je taková, že software (AI modely) momentálně drtí možnosti hardwaru. Proto se tolik tlačí na open-source alternativy na HuggingFace. Tam komunita zkouší, co se stane, když se takový EMO model "ořeže" pomocí kvantizace na 4 bity. Najednou zjistíte, že model, který měl původně běžet na clusteru za miliony korun, vám odpovídá na notebooku v kavárně. To je ta skutečná revoluce.

PaddleOCR 3.5 a cesta k totálnímu pochopení dokumentů

Teorie o MoE je sice hezká, ale pojďme do praxe. Jeden z největších oříšků pro AI nebyla nikdy poezie, ale blbá naskenovaná faktura z roku 1995. PaddleOCR ve verzi 3.5 právě teď ukazuje, kam směřuje moderní vytěžování dat. Přechod na Transformers backend znamená, že už to není jen tupé rozpoznávání znaků, ale skutečné "pochopení" struktury dokumentu.

Dřív jste na OCR potřebovali hromadu specifických algoritmů na čištění obrazu, detekci řádků a pak teprve rozpoznávání textu. PaddleOCR 3.5 to všechno smrskne do jednoho workflow, které využívá podobné principy jako výše zmíněné MoE modely. Dokáže se adaptovat na to, jestli mu předložíte technický výkres, nebo účtenku z hospody.

A co víc, díky integraci s modely jako EMO se otevírá cesta k tzv. Document Parsing úkolům v reálném čase. Představte si firmu, která dostává tisíce dokumentů denně. Místo armády brigádníků nasadí model, který díky modularitě aktivuje jen ty části mozku, které rozumí účetnictví, a zbytek výkonu šetří na další dokument. Tohle je přesně to, co odlišuje vítěze od poražených na The Open Agent Leaderboard – schopnost pracovat rychle, přesně a s minimálními náklady.

Skrytý náklad: Kolik stojí jeden "prompt" v elektřině?

Tady končí legrace. Každý dotaz na ChatGPT nebo lokální Llama model něco stojí. Nejen v dolarech, ale v kilowatthodinách. Velké jazykové modely jsou největšími žrouty elektřiny v historii softwaru. Pokud provozujete vlastní server pro firmu a pustíte na něm 70B model bez optimalizace, vaše účty za elektřinu vás brzy vyprovodí z kanceláře.

Tady přichází na scénu Smart Energy Share. Proč? Protože pokud máte datové centrum (nebo jen pár racků s GPU), musíte začít uvažovat jako energetický obchodník. Flexibilita je klíčem. Když svítí slunce a elektřina na spotu stojí nulu (nebo je dokonce v záporu), je čas trénovat modely a "pálit" výpočty. Když je špička, musíte se buď vypnout, nebo jet z baterek.

SmartEnergyShare nabízí přesně ty nástroje, které provozovatelé moderní infrastruktury potřebují: sdílení energie mezi objekty, day trading elektřiny pro optimalizaci nákladů a hlavně řízení velkých bateriových úložišť (BESS 50-250 kW). Pokud vaše AI firma vlastní takovou baterii, může profitovat z obchodování odchylek a regulační elektřiny v době, kdy model zrovna nepracuje. Je to symbióza: AI pomáhá optimalizovat síť a síť financuje provoz AI. Více o legislativních aspektech tohoto propojení najdete na electric-share.cz.

Hardware, ceny a realita: Co si koupit pod stůl?

Dost bylo filozofování, co si má běžný vývojář nebo majitel menší firmy pořídit? Pokud chcete experimentovat s modely typu EMO nebo novými MoE verzemi, zapomeňte na běžné herní notebooky. Klíčem je VRAM (video paměť). - Low-end: Jedna nebo dvě bazarové RTX 3090 (24 GB VRAM každá). Celkem 48 GB VRAM vám umožní spustit rozumně kvantizované 70B modely přes Ollama. Cena: cca 40 000 – 50 000 Kč. - Mid-range: Apple Mac Studio s M2 Ultra a 128 GB unifikované paměti. Není to sice Nvidia, ale pro inference (běh modelu) je to díky obří paměti geniální stroj. Cena: 120 000+ Kč. - High-end: Pronájem H100 v cloudu (Lambda Labs, RunPod). Stojí to kolem 2-4 dolarů za hodinu na jednu kartu. Na trénink vlastního EMO modelu jich budete potřebovat aspoň osm.

Úskalí? Teplo a hluk. Dvě 3090 v zátěži topí jako přímotop. Pokud to nemáte v klimatizované serverovně, v létě se u toho uvaříte. Tady se opět vracíme k energetice – ten odpadní tepelný výkon je obrovský. Chytré firmy ho využívají k vytápění skladů nebo ohřevu vody, což je další úroveň "smart energy" přístupu.

Verdikt: Smrt monolitů je nevyhnutelná

Svět AI se mění. Éra, kdy se prostě jen "přidalo víc parametrů a víc dat", končí. Narazili jsme na fyzikální a ekonomické limity. Modely jako EMO ukazují, že budoucnost patří specializaci a modularitě. Stejně jako Starship změní dostupnost vesmíru, efektivní MoE modely změní dostupnost inteligence. Už to nebude výsada pár tech-gigantů s neomezeným rozpočtem na elektřinu.

Díky open-source komunitě a nástrojům pro sdílení energie se karta obrací. Můžete mít vlastní, necenzurovaný a vysoce efektivní model, který běží na vašem hardwaru, napájený z vaší fotovoltaiky a optimalizovaný přes Smart Energy Share. Je to cesta k digitální i energetické svobodě. A kdo tuhle vlnu nezachytí teď, bude za pár let jen smutně koukat na účty za cloudové služby, které mu sežerou veškerý zisk.

Pokud vás zajímají inovace v této oblasti, sledujte electricshare.cz, kde se často rozebírají nové trendy v AI i energetice. Budoucnost je modulární, decentralizovaná a zatraceně rychlá. Tak u toho buďte taky.

Zdroje

- EMO: Pretraining mixture of experts for emergent modularity (Research Paper) - PaddleOCR 3.5 Documentation - The Open Agent Leaderboard - Smart Energy Share - oficiální stránky - oEnergetice.cz - novinky z trhu s elektřinou - OTE - operátor trhu s elektřinou