Tokenová ekonomika: Jak optimalizovat trénovací data pro LLM a proč je Markdown klíčový - AI-agent.cz

Pokud se pohybujete ve světě velkých jazykových modelů (LLM), pravděpodobně jste už narazili na pojem „tokenová ekonomika“. Neznamená to nic menšího než efektivní hospodaření s jednotkami textu, nad kterými tyto modely pracují. Token není totéž co slovo; je to menší segment, který může představovat část slova, celé slovo, interpunkci nebo dokonce skupinu bajtů. Proč je to tak důležité? Protože každý token má trojí dopad: výpočetní náklad (více tokenů = více operací), finanční náklad (infrastruktura se účtuje dle tokenů) a kapacitní náklad (omezené kontextové okno modelu).

Jak tokenizér vidí text

Většina LLM, včetně GPT, Llama a Mistral, používá varianty tokenizace zvané Byte-Pair Encoding (BPE). Tento algoritmus postupně slučuje nejčastější páry bajtů do nových tokenů, čímž vytváří slovník. Klíčové je, že slovník tokenizéru je specifický pro každý model, a proto se stejný text může u různých modelů rozložit na jiný počet tokenů. Zajímavým detailem je, že různé typy textu mají různou tokenovou hustotu. Zatímco běžná angličtina se pohybuje kolem 4 znaků na token, odborný žargon, právní texty nebo HTML kód jsou méně efektivní, protože obsahují vzácnější výrazy.

Pro češtinu s její diakritikou je tokenizace ještě náročnější. Starší modely (např. GPT-2 až 4) byly trénovány převážně na anglických datech, takže české znaky jako „č“, „ž“, „ř“ se v jejich slovnících nevyskytovaly dostatečně často, aby se efektivně sloučily. Slovo „kočka“ se tak mohlo rozpadnout na více tokenů (např. „ko“, „č“, „ka“), zatímco novější modely (např. GPT-5) jsou v tomto ohledu úspornější a mohou jej zpracovat na méně tokenů (např. „ko“, „čka“).

Datová krize a hodnota kvalitních dat

Podle výzkumu organizace Epoch AI by mohl celkový fond kvalitních veřejně dostupných textových dat dosáhnout vyčerpání mezi lety 2026 a 2032. Tato situace je označována za „datovou krizi“, a je ještě dramatičtější pro neanglická data. Anglický obsah tvoří přes 56 % webu, zatímco všechny ostatní jazyky dohromady pouhých 44 %. Pro češtinu je tento podíl ještě menší, což znamená, že každý kvalitní český text má pro trénink modelů neproporcionálně velkou hodnotu.

V této éře platí mantra LLM komunity: „lepší data porazí lepší algoritmy.“ Specializované modely, jako BioGPT nebo Med-PaLM, ukazují, že s pečlivě kurátovanými daty stačí desítky miliard tokenů k tomu, aby doménový model překonal obecný model trénovaný na bilionech tokenů v jeho specifické oblasti.

HTML jako žrout tokenů

Když webový crawler sbírá data pro trénovací korpus, často získává zdrojový kód HTML stránek. Problém je, že typická webová stránka obsahuje obrovské množství značek, atributů, tříd a metadat, které nenesou pro jazykový model žádnou sémantickou informaci. Navigační lišty, patičky, cookie bannery a reklamní bloky spotřebovávají drahocenné tokeny, aniž by modelu přidávaly hodnotu.

Uvažte například fragment <p class="text-base leading-relaxed text-gray-700 dark:text-gray-300">Obsah odstavce…</p>. Atributy jako class, id, nebo data-* jsou určeny pro prohlížeč a JavaScript, nikoli pro sémantické pochopení. Přesto všechny tyto řetězce spotřebovávají tokeny. V měřítku se ztráty rychle akumulují; jediný neefektivně serializovaný záznam může ztratit stovky tokenů, a při milionech dotazů se jedná o značné náklady.

Markdown: Záchrana pro LLM

Převod HTML na Markdown představuje jednu z nejefektivnějších strategií pro zvýšení tokenové efektivity trénovacích dat. Markdown zachovává sémantickou strukturu dokumentu – nadpisy zůstanou nadpisy, odkazy odkazy – ale bez desítek nadbytečných atributů. Oborové benchmarky potvrzují, že konverze HTML do Markdown snižuje tokenovou spotřebu o 20–30 % u běžných stránek a až o 95 % u složitých e-commerce stránek.

Markdown není jen úspornější; LLM jsou na Markdown přímo trénovány, protože velká část kvalitních trénovacích dat pochází z GitHubu, Stack Overflow a technické dokumentace. Navíc poskytuje sémantické kotvy, které model dokáže využít: nadpisy označené symbolem # explicitně definují hierarchii myšlenek, tabulky pomocí pipe znaku | umožňují sloupcové uvažování.

Další cesty k efektivitě

JSON a CSV

Pro tabulková data je často výhodnější použít JSON namísto HTML tabulek. Zplostění vnořených JSON struktur a extrakce pouze relevantních polí dokáže snížit tokenovou spotřebu až o 69 %. CSV pak překonává JSON o 40 až 50 % v tokenové efektivitě pro tabulková data.

Preciznost čísel

Malý, ale účinný trik spočívá v optimalizaci přesnosti číselných hodnot. Zaokrouhlení čísel na potřebnou přesnost dokáže snížit tokenovou spotřebu číselných hodnot o 30 až 40 %.

Dopad na trénink modelů

Optimalizace tokenové spotřeby přináší několik klíčových výhod pro trénink LLM:

Vyšší informační hustota

Kratší reprezentace se stejným významem znamená vyšší informační hustotu. Při stejném rozpočtu tokenů tak lze do datasetu zahrnout více různých příkladů, což vede k robustnějšímu a komplexnějšímu učení.

Lepší poměr signálu k šumu

Dlouhý text často obsahuje redundanci, stylistickou výplň nebo odbočky. Stručná formulace redukuje balast a zvyšuje poměr signálu k šumu, což umožňuje modelu soustředit se na podstatné informace.

Snížení nákladů

Ekonomický dopad je okamžitý. Případová studie ukazuje, že finetuning modelu Mistral-7B jako náhrady GPT-3.5 vedl k 85% snížení nákladů, protože finetunovaný model vyžadoval kratší prompty a produkoval stručnější výstupy, čímž se snížila tokenová spotřeba na obou stranách.

Od mobile-first k AI-first: Nová éra webu

Pamatujete na éru „mobile-first“? Weby se začaly přizpůsobovat mobilním zařízením, protože se změnil způsob konzumace obsahu. Srovnatelná transformace probíhá právě teď, kdy jsou novými primárními konzumenty AI agenti a velké jazykové modely. Web, navržený pro lidské čtenáře s grafickými prohlížeči, obsahuje mnoho vizuálních a navigačních prvků, které jsou pro modely zbytečné.

Většina současných AI pipeline proto zavádí mezikrok, v němž se HTML převádí na Markdown. Tato konverze odstraňuje prezentační vrstvu a zachovává kompaktní, sémanticky strukturovanou textovou reprezentaci vhodnou pro strojové zpracování. Otázka ale zní: proč Markdown generovat až „po cestě“, když jej server může vrátit přímo?

Cloudflare v únoru 2026 představil mechanismus nazvaný Markdown for Agents, který umožňuje serverům vracet Markdown přímo prostřednictvím standardní HTTP content negotiation. Když klient zahrne do požadavku hlavičku Accept: text/markdown, síť Cloudflare automaticky převede HTML stránku na Markdown a doručí ji místo HTML. Aktivace vyžaduje pouze konfigurační změnu v dashboardu, bez nutnosti přepisování šablon nebo úprav aplikačního kódu.

Výsledky jsou přesvědčivé: u vlastního blogu Cloudflare klesla tokenová spotřeba z 16 180 tokenů v HTML na 3 150 v Markdown, tedy úspora 80 %. Odpověď navíc obsahuje hlavičku x-markdown-tokens s odhadovaným počtem tokenů, takže agent může dopředu plánovat strategii chunkování a využití kontextového okna. Populární kódovací agenti jako Claude Code a OpenCode již hlavičku Accept: text/markdown aktivně odesílají.

Pro organizace, které Cloudflare nepoužívají, nabízí tento vývoj širší designový princip: aplikace budou stále častěji potřebovat vystavit alternativní, LLM-orientovanou reprezentaci svého obsahu, optimalizovanou pro strukturovanou strojovou konzumaci namísto vizuálního vykreslování. Open-source projekt php-markdown-mirror například řeší tento problém pro PHP aplikace, kdy middleware zachytí výstup a na základě hlavičky Accept: text/markdown vrátí čistou Markdown reprezentaci. Doplněním je přístup Joosta de Valka (tvůrce Yoast SEO), jehož WordPress plugin přidává na stránky tag <link rel="alternate" type="text/markdown"> a vytváří dedikované .md URL pro každý příspěvek. Tyto přístupy se vzájemně doplňují a ukazují směr, kterým se web ubírá.

Doporučení pro praxi

Při práci s daty pro LLM zvažte následující doporučení:

Konverze HTML na Markdown: Při sběru dat z webu vždy konvertujte HTML na Markdown ještě před uložením do korpusu. Zachováte sémantickou strukturu a minimalizujete tokenový šum.
Formát pro tabulková data: Pro tabulková data preferujte CSV před JSON a JSON před HTML. Rozdíl v tokenové spotřebě může být 40–50 %.
Sledujte tokenovou efektivitu: Berte ji jako klíčovou metriku vedle přesnosti a latence.
Optimalizace přesnosti čísel: Testujte a zaokrouhlujte číselné hodnoty na potřebnou přesnost; zbytečně přesná čísla zvětšují tokenový otisk bez přínosu.
Různé kompresní profily: Udržujte různé kompresní profily pro různé případy použití, například pro agentické workflow a RAG pipeline.

Tokenová ekonomika není abstraktní koncept. Je to reálný ekonomický parametr, který rozhoduje o tom, kolik znalostí se vejde do daného rozpočtu, jak kvalitní budou trénovací data a kolik bude stát provoz modelu. Volba formátu podkladových dat má přímý dopad na všechny tři nákladové dimenze: výpočet, finance i kapacitu. Jednoduché pravidlo zní: když máte pevný rozpočet na počet tokenů, vyplatí se zapisovat fakta co nejúsporněji, pokud se neztratí význam. Méně tokenů za stejný obsah znamená více prostoru pro jiné znalosti, nižší náklady a čistší trénovací data, což v konečném důsledku vede k výkonnějším a dostupnějším jazykovým modelům.