Evaluace AI aplikací, ne jen modelů.

Evals.cz je pražský meetup pro lidi, kteří staví nebo zkoumají AI‑poháněné produkty. Zaměřujeme se na evaluaci na aplikační vrstvě – RAG systémy, agenti, LLM funkce – a na to, jak evaly zapadají do softwarového vývojového cyklu (SDLC).

Chceme se bavit o tom, jestli systém opravdu funguje v praxi: jak měřit kvalitu, jak chytat regrese před releasem a jak kombinovat automatické a lidské vyhodnocování.

PrahaAI evaluaceRAG, agenti, LLM

Chci být u dalšího meetupu

Co nás zajímá

Kvalita RAG systemů a retrievalu
Regrese v produkci
Human-in-the-loop evaluace

O meetupu

Evals.cz je malý, technický meetup v Praze zaměřený na evaluaci AI systémů v reálném nasazení.

Méně nás zajímají benchmarky modelů na leaderboardech, více:

jak hodnotit konkrétní RAG pipeline,
jak poznat, že agent dělá to, co má, a nezasekává se nebo nehalucinuje,
jak zapojit evaly do CI/CD a vývoje tak, aby vám pomáhaly, ne překážely.

Oceníte ho, pokud:

integrujete LLM nebo RAG do existujícího produktu,
provozujete AI systém v produkci a řešíte jeho kvalitu, spolehlivost a bezpečnost,
děláte výzkum v oblasti evaluací, bezpečnosti nebo spolehlivosti AI,
přemýšlíte, jak udělat z „AI prototypu" skutečný produkt.

Atmosféra: neformální, přátelská, praktická. Spíš "tady je, co nám spadlo v produkcí, a jak jsme to opravili", než prodejní keynote.

Místo

Praha (přesné venue bude upřesněno)

Formát

1–2 kratší přednášky + diskuse

Jazyk

převážně angličtina

Témata

Společný jmenovatel: jak zjistit, že náš AI systém opravdu funguje.

Příklady témat, která nás zajímají:

Evaluace RAG systémů – kvalita retrievalu, grounding, halucinace
Jak navrhovat task‑specifické eval sady pro LLM funkce a workflowy
Offline vs. online evaluace, A/B testy, uživatelské metriky
Golden datasety, hodnotící rubriky, lidské anotace a human‑in‑the‑loop
Evaluace tool‑using / agentic systémů – bezpečnost, robustnost, failure modes
Evals jako součást SDLC – jak je dostat do CI/CD a běžných testovacích procesů

Nástroje a infrastruktura okolo:

eval harnessy a test runnery

promptové regresní testy

guardrails a policy checks

observabilita, logging a monitoring

verzování datasetů

sledování kvality v produkci

Pokud vaše práce nějak souvisí s otázkou „Jak víme, že tenhle AI systém funguje?", pravděpodobně sem patří.

Pro koho je meetup určený

Cílíme na mix praktiků a akademiků, například:

ML / AI inženýry, kteří nasazují modely do produkce

backend / software inženýry integrující LLM nebo RAG

data scientisty a MLOps inženýry

produktové manažery AI‑poháněných produktů

výzkumníky v oblasti evaluací, bezpečnosti a spolehlivosti AI

studenty s praktickými projekty v této oblasti

Začátečníci jsou vítaní, pokud mají zájem o konkrétní systémy a praxi, nejen o high‑level hype.

Hledáme speakery

Hledáme praktiky i akademiky, kteří:

staví nebo provozují AI systémy v reálném světě, nebo
se věnují výzkumu evaluací, bezpečnosti či spolehlivosti,

…a jsou ochotní otevřeně sdílet, co fungovalo, co selhalo a co stále neví.

Jaké typy přednášek si představujeme:

Case study

Jak hodnotíte konkrétní RAG systém, agenta nebo LLM funkci ve vašem produktu. Jaké metriky používáte, jak vypadá vaše eval pipeline, jaké byly největší bolesti.

Deep dive do nástroje nebo pipeline

Představení frameworku, interního nástroje nebo infrastruktury pro evaluace, testování, monitoring nebo logging AI systémů.

Výzkumné a experimentální výsledky

Prezentace výzkumu (paper, interní report, experimenty) s důrazem na to, co z toho plyne pro lidi, kteří staví systémy v praxi.

Otevřené problémy

Místa, kde dnešní eval nástroje nestačí, typické blind spoty, nápady na nové metriky nebo přístupy.

Chci přednášet

Krátce napište:

o čem by vaše talk byla (2–3 věty),
pro koho je relevantní,
odkaz na vaše materiály (GitHub, článek, produkt, paper, blog…).

Kontakt: simon@podhajsky.net

Zůstaňte v obraze

Chcete vědět o příštím meetupu (datum, místo, speakery) a pomoci nám odhadnout kapacitu?

Praktické informace:

Meetup probíhá v Praze, přesné místo a termíny budou upřesněny podle zájmu a kapacity.
Formát: 1–2 kratší přednášky + diskuse
Jazyk: převážně angličtina (s českým / evropským přesahem)
Frekvence: podle zájmu, zhruba jednou za několik týdnů / měsíců

Vyplnit formulář

Použijeme váš email jen k informování o této meetup sérii. Žádný spam, žádné sdílení kontaktů třetím stranám.

Spoluorganizace & venue

Pokud:

máte prostor v Praze, kde by se meetup mohl konat,
chcete se zapojit do organizace nebo komunikace,
nebo máte nápad na společnou akci (např. workshop, hackday),

napište nám – rádi se spojíme:

Kontaktovat organizátory