Když se genetika potká s algoritmy: Přesné šlechtění třešní s AI potenciálem

V dnešní době se hodně mluví o umělé inteligenci a jejím potenciálu, ale skutečná hodnota se ukrývá v konkrétních aplikacích, které přinášejí hmatatelné výsledky. Jedním z takových příkladů je inovativní projekt, který vznikl ve spolupráci s Výzkumným a šlechtitelským ústavem ovocnářským v Holovousech. Namísto pouhých teoretických diskusí o AI jsme se zaměřili na vytvoření praktického nástroje – výpočetního modelu, který transformuje proces šlechtění třešní a pomáhá vědcům vybírat ty nejvhodnější rodičovské kombinace.

Proč je tradiční šlechtění výzvou?

Šlechtění plodin je komplexní proces, který vyžaduje obrovské množství zkušeností a intuice. Šlechtitelské týmy často pracují s desítkami až stovkami odrůd, pro každou z nich mají detailní genotypová data a jasnou představu o žádoucích molekulárních markerech. Problém nastává, když se počet odrůd zvyšuje. Počet možných křížení exponenciálně roste a rychle dosahuje desítek, ba i stovek tisíc kombinací. Ruční výběr, byť podpořený hlubokými znalostmi, se stává nejen nepohodlným, ale prakticky nerealizovatelným, pokud má být založen na datech a ne pouze na odhadu.

Marker-assisted selection (MAS) jako základ

Náš přístup vychází z principů marker-assisted selection (MAS), kde se pozornost neupírá jen na vnější vzhled (fenotyp), ale matematicky se modeluje pravděpodobnost přenosu konkrétních alel. Cílem projektu bylo vyvinout model, který dokáže každé možné křížení dvou odrůd numericky vyhodnotit z genetického hlediska. Šlechtitel tak dostane seřazený seznam variant, má plnou kontrolu nad výpočtem skóre a zároveň je model připraven pro budoucí napojení na učení z reálných dat.

Jak model funguje: Od genotypu k pravděpodobnosti

Základem modelu jsou genotypová data jednotlivých odrůd. Pro každý molekulární marker je genotyp zapsán ve formátu jako „0|0“, „0|1“, „1|0“ nebo „1|1“, kde „1“ představuje příznivou alelu a „0“ nepříznivou. Markery jsou dále rozděleny do skupin, které souvisejí s určitými vlastnostmi výsledného plodu, a každý marker má přiřazenou váhu, která určuje jeho vliv na danou vlastnost. Alela je specifická varianta genu, a protože plod obvykle zdědí dvě alely (jednu od každého rodiče), rozlišujeme homozygoty (dvě stejné alely, např. 0|0 nebo 1|1) a heterozygoty (dvě rozdílné alely, např. 0|1).

Mendelovská segregace v praxi

Náš model nejde cestou jednoduchých pravidel typu „když je 1|1, přičti X bodů“. Místo toho využívá principy Mendelovské segregace alel. Algoritmus počítá s pravděpodobností, s jakou se konkrétní alely přenesou do potomstva F1 (první generace). Homozygot 0|0 předá vždy alelu „0“ (pravděpodobnost „jedničky“ je 0), homozygot 1|1 vždy alelu „1“ (pravděpodobnost „jedničky“ je 1), zatímco heterozygot 0|1 předá „0“ nebo „1“ s pravděpodobností přibližně 0,5. Tímto způsobem získáme pro každý marker a každou odrůdu jednoduché číslo p(1) mezi 0 a 1.

Když se spojí dva rodiče, tyto pravděpodobnosti se kombinují. Model detailně vypočítává, jak často v F1 potomstvu vznikne genotyp se dvěma příznivými alelami, jak často se smíšeným genotypem a jak často se dvěma nepříznivými alelami. Tento výpočet se provádí samostatně pro každý marker, což vede k detailnímu pravděpodobnostnímu rozdělení genotypů u potomků, nikoli jen k hrubému odhadu.

Skórování a interpretace křížení

Získaná genetická realita je následně zhuštěna do sady čísel, se kterými lze efektivně pracovat. Pro každý marker jsou tři možné genotypové situace v potomstvu ohodnoceny: potomci se dvěma příznivými alelami získávají plné hodnocení, heterozygoti střední a potomci se dvěma nepříznivými alelami nulové. Z pravděpodobností jednotlivých genotypů se spočítá očekávaná hodnota pro daný marker, která se následně vynásobí jeho váhou a sečte přes všechny markery související s danou vlastností plodu.

Výsledkem pro každé křížení je sada užitečných čísel:

  • Souhrnné skóre pro jednotlivé vlastnosti, založené na očekávané kvalitě F1.
  • Varianty těchto skóre, které se zaměřují více na „fixaci“, tedy preferují kombinace s vysokou šancí na zafixování příznivých genotypů.
  • Souhrnný index, který kombinuje sledované vlastnosti podle předem zadaných vah.

Celý výpočet kombinuje efektivní generování kombinací s vektorovými operacemi nad genotypy. Pro n odrůd a m markerů má výpočet složitost řádově n²·m. To znamená, že i pro desítky odrůd model projde všechny dvojice rodičů během několika sekund, což šlechtitelům poskytuje prakticky okamžitou odezvu a umožňuje efektivní prozkoumávání široké škály možností.

Od skriptu k dennímu nástroji

Základem celého systému je sice Python skript, který slouží jako výpočetní jádro, ale pro praktické využití v každodenní práci je potřeba více než jen jednorázová analýza. Proto jsme na model navázali dvě uživatelské vrstvy: export do tabulkového formátu (Excel) a lehké aplikační rozhraní.

Excelový výstup není jen surový seznam desítek tisíc řádků. Nad hodnotami pro jednotlivé vlastnosti a souhrnný index aplikujeme barevné škály, takzvané „heatmapy“. Šlechtitel tak nemusí složitě číst čísla, ale okamžitě vizuálně identifikuje nejlepší kombinace a průměrné výsledky. Tím se analytický výsledek stává intuitivním vizuálním nástrojem.

Další krok představuje webová aplikace postavená na Streamlitu, která umožňuje interaktivní práci se stejnými daty. Uživatel si může vybrat konkrétní odrůdu jako potenciálního rodiče a nástroj mu okamžitě vrátí seřazený seznam jejích nejvhodnějších partnerů. Tabulka není omezena na jedno skóre, ale detailně ukazuje rozpad na příspěvky pro jednotlivé vlastnosti, odhad „fixace“ a odhad průměrné úrovně potomstva. Odrůdy lze filtrovat podle minimální hodnoty indexu, počtu zobrazených kandidátů a dalších parametrů. Model tak nesoupeří se šlechtitelskou intuicí, ale doplňuje ji – poskytuje expertnímu šlechtiteli kandidátní seznam, ze kterého si pak vybírá, s čím bude dál pracovat přímo v terénu.

Jaký typ „inteligence“ se zde uplatňuje?

Je důležité upřímně přiznat, že samotný model v jeho současné podobě není strojové učení (AI) v pravém slova smyslu. Nejde o systém, který by se učil z dat, nemá neurální síť ani jiné adaptivní jádro. Je to čistě pravděpodobnostní výpočetní model, který využívá principů Mendelovské dědičnosti a vážené agregace. Hodnota tohoto řešení nespočívá v módních slovech, ale v tom, jak efektivně a jednoduše propojuje genetický přístup šlechtitelů s pokročilou výpočetní kapacitou.

Nicméně, model byl navržen s ohledem na budoucí integraci s AI. Váhy markerů, které jsou dnes získávány z genetických analýz a expertních odhadů, mohou být v budoucnu nahrazeny vrstvou, která je odhaduje z reálných dat o potomstvu. Jakmile bude k dispozici dostatečné množství pozorování (genotyp + fenotyp u potomků z různých křížení), může nastoupit regresní nebo bayesovský model, případně vhodně zvolený algoritmus strojového učení. Ten bude hledat vztah mezi genotypem a fenotypem a váhy markerů aktualizovat tak, aby co nejlépe odpovídaly skutečně naměřeným výsledkům v daných podmínkách. Současná verze tak stojí na pomezí klasické kvantitativní genetiky a plně datově řízeného přístupu, odstraňuje zdlouhavou mechanickou práci a standardizuje genetickou část rozhodování. Zároveň vytváří čisté, strukturované rozhraní, na které lze časem připojit adaptivní vrstvu, pokud se rozhodnete do sběru a využití dat investovat.

Z pohledu šlechtitele se díky tomuto nástroji mění několik zásadních věcí. Místo ručního procházení nekonečných kombinací rodičů má nyní k dispozici systém, který systematicky ohodnotí všechny dvojice odrůd, seřadí je podle geneticky definovaného indexu a vizuálně zvýrazní ty nejperspektivnější. Může snadno pracovat s desetitisíci potenciálních křížení, ale v praxi se zaměřuje jen na úzký výběr těch nejlepších. Navíc okamžitě vidí, odkud pramení jejich genetická výhoda – zda je to díky markerům spojeným s konkrétní žádanou vlastností, nebo zda jde o kombinovaný přínos více pozitivních rysů. Pro nás to není jen další „AI demo“, ale přesvědčivá ukázka toho, jak lze s pomocí výpočetní matematiky a promyšleného návrhu algoritmu efektivně převést šlechtitelskou expertízu do škálovatelného nástroje, který je připraven na další vrstvy analýzy, jakmile budou dostupné datové sady vhodné pro plné využití strojového učení.