Fine-tuning přes LoRA na vlastních datech

PaddleOCR 3.5 přečte vaše faktury za elektřinu rychleji než vy. A stojí nula korun.

Kolik hodin týdně strávíte ručním přepisováním dat z papírových faktur, dodacích listů nebo technických výkresů? Průměrná česká firma to odhaduje na 6–12 hodin měsíčně. PaddleOCR 3.5, čerstvá verze open-source OCR enginu od Baidu, teď přichází s Transformers backendem a slibuje, že tenhle čas srazí na minuty. Bez cloudu, bez měsíčních poplatků, bez odesílání citlivých dokumentů na cizí servery.

Co se vlastně změnilo

PaddleOCR není nováček. Verze 2.x a 3.0 běžely na PaddlePaddle frameworku, což v praxi znamenalo instalační peklo — zvlášť na Windows a starších GPU. Verze 3.5 tohle řeší radikálně. Nový Transformers backend umožňuje spouštět modely přímo přes HuggingFace ekosystém, tedy přes PyTorch. Žádné exotické závislosti, žádné kompilování CUDA kernelů z roku 2019.

Prakticky to vypadá takhle:

```bash pip install paddleocr[transformers] paddleocr --image faktura.pdf --lang cs --backend transformers ```

Dva řádky. Hotovo. Engine zvládne detekci textu, rozpoznání znaků i strukturální analýzu dokumentu — tabulky, layouty, razítka. Česká diakritika funguje rovnou, bez dalšího ladění.

Čísla, která stojí za pozornost

PaddleOCR 3.5 s Transformers backendem na RTX 4060 (GPU za cca 8 000 Kč) zpracuje A4 stránku s hustým textem za 0,8 sekundy. Na CPU (Ryzen 5 5600) je to kolem 3,5 sekundy. Pro srovnání — Tesseract, stále nejrozšířenější open-source OCR, potřebuje na stejný dokument 6–9 sekund a s českou diakritikou se pere jako s dračím bosem v Dark Souls.

Přesnost na standardním benchmarku ICDAR 2019 dosahuje 82,4 % F1-score pro detekci textu a 79,1 % pro rozpoznání — to jsou čísla srovnatelná s komerčními řešeními typu ABBYY FineReader, který stojí od 5 000 Kč ročně výš.

Nový PP-DocLayout model v 3.5 navíc umí parsovat složité dokumenty: rozezná záhlaví od těla, identifikuje tabulky, oddělí obrázky od textu. Tohle dřív vyžadovalo separátní pipeline nebo drahý cloud API.

Proč Transformers backend mění hru

Přechod na Transformers není jen technický detail. Otevírá dveře k celému ekosystému HuggingFace — tisíce předtrénovaných modelů, LoRA adaptéry pro doménové fine-tuning, kvantizace přes bitsandbytes. Chcete OCR model specializovaný na energetické faktury? Vezmete base model, natrénujete LoRA adaptér na 200 anotovaných fakturách a máte řešení s přesností přes 95 %.

```bash paddleocr train --model PP-OCRv5 --data ./moje_faktury/ \ --backend transformers --lora --epochs 50 ```

Tohle je přesně ten princip, který popisuje nedávná studie o tom, že specializace poráží škálu. Malý, cíleně dotrénovaný model s 50M parametry na konkrétní doméně spolehlivě překoná generický model s miliardami parametrů. Neplatíte za výkon, který nepotřebujete.

Praktický návod: OCR pipeline pro faktury za elektřinu

Řekněme, že provozujete firmu a chcete automaticky vytahovat data z příchozích faktur — dodavatel, částka, datum splatnosti, spotřeba v kWh.

Hardware minimum: Jakýkoli počítač s 8 GB RAM. GPU zrychlí zpracování 4×, ale není nutné.

Krok 1 — Instalace: ```bash pip install paddleocr[transformers] pdf2image ```

Krok 2 — Skript pro batch zpracování: ```python from paddleocr import PaddleOCR import json, glob

ocr = PaddleOCR(lang='cs', backend='transformers', use_doc_layout=True)

for pdf in glob.glob('faktury/*.pdf'): result = ocr.ocr(pdf) tables = [r for r in result if r['type'] == 'table'] print(json.dumps(tables, ensure_ascii=False, indent=2)) ```

Krok 3 — Integrace: Výstup je strukturovaný JSON. Napojíte ho na účetní systém, ERP, nebo třeba na vlastní energetický dashboard.

Firmy jako SmartEnergyShare tenhle typ automatizace už aktivně využívají — OCR parsování energetických dat z různých zdrojů je základ pro chytré řízení spotřeby a optimalizaci nákladů na elektřinu.

Srovnání s alternativami

| Řešení | Cena | Přesnost (CZ) | Offline | Fine-tuning | |--------|------|---------------|---------|-------------| | PaddleOCR 3.5 | zdarma | 79 % | ano | ano (LoRA) | | Tesseract 5 | zdarma | 61 % | ano | obtížný | | ABBYY FineReader | 5 000 Kč/rok | 85 % | ano | ne | | Google Cloud Vision | ~0,40 Kč/strana | 88 % | ne | ne | | Azure AI Document | ~0,50 Kč/strana | 87 % | ne | ano |

Pokud zpracováváte 500 stránek měsíčně přes cloudové API, platíte kolem 2 500–3 000 Kč ročně. PaddleOCR vám tu částku ušetří a data zůstanou na vašem stroji. Po fine-tuningu na vlastní doméně se přesnost dostane na úroveň cloudových služeb.

Co nefunguje (zatím)

Buďme féroví. PaddleOCR 3.5 má svoje mouchy.

Ručně psaný text v češtině rozpoznává mizerně — kolem 35 % přesnosti. Pokud potřebujete číst rukou psané poznámky, sáhněte po TrOCR od Microsoftu na HuggingFace.

Dokumenty s komplexním layoutem (třísloupcový tisk, překrývající se elementy) občas zkolabují parser. PP-DocLayout je výrazně lepší než předchozí verze, ale na úrovni Adobe Acrobat Pro zatím není.

A instalace na Apple Silicon M1/M2 vyžaduje trpělivost. Oficiální podpora existuje, ale PyTorch MPS backend občas hází nečekané chyby při inferenci.

Širší kontext: proč záleží na offline OCR

Google právě odpojil první generaci Chromecastů — miliony zařízení ze dne na den přestaly fungovat. Připomínka, že cloud služby nejsou věčné. Vaše OCR pipeline postavená na Google Cloud Vision API může zítra zdražit, pozítří změnit podmínky, za rok skončit.

Lokální OCR engine jako PaddleOCR je pojistka. Běží na vašem hardwaru, nepotřebuje internet, data neopouštějí vaši síť. V době, kdy difuzní jazykové modely typu Nemotron od NVIDIA slibují generování textu rychlostí světla, je paradoxně právě offline zpracování dokumentů tou nejpraktičtější AI aplikací, kterou můžete nasadit ještě dnes.

Verdikt

PaddleOCR 3.5 s Transformers backendem je poprvé skutečně použitelná open-source alternativa ke komerčním OCR řešením. Instalace trvá minutu, česká diakritika funguje, fine-tuning přes LoRA je dostupný každému s pár stovkami anotovaných dokumentů.

Jestli vaše firma stále přepisuje data z faktur ručně, nemáte výmluvu. Tenhle nástroj je zdarma a běží na hardwaru, který už pravděpodobně máte.