Evaluace AI aplikací, ne jen modelů.
Evals.cz je pražský meetup pro lidi, kteří staví nebo zkoumají AI‑poháněné produkty. Zaměřujeme se na evaluaci na aplikační vrstvě – RAG systémy, agenti, LLM funkce – a na to, jak evaly zapadají do softwarového vývojového cyklu (SDLC).
Chceme se bavit o tom, jestli systém opravdu funguje v praxi: jak měřit kvalitu, jak chytat regrese před releasem a jak kombinovat automatické a lidské vyhodnocování.
Co nás zajímá
- Kvalita RAG systemů a retrievalu
- Regrese v produkci
- Human-in-the-loop evaluace
O meetupu
Evals.cz je malý, technický meetup v Praze zaměřený na evaluaci AI systémů v reálném nasazení.
Méně nás zajímají benchmarky modelů na leaderboardech, více:
- jak hodnotit konkrétní RAG pipeline,
- jak poznat, že agent dělá to, co má, a nezasekává se nebo nehalucinuje,
- jak zapojit evaly do CI/CD a vývoje tak, aby vám pomáhaly, ne překážely.
Oceníte ho, pokud:
- integrujete LLM nebo RAG do existujícího produktu,
- provozujete AI systém v produkci a řešíte jeho kvalitu, spolehlivost a bezpečnost,
- děláte výzkum v oblasti evaluací, bezpečnosti nebo spolehlivosti AI,
- přemýšlíte, jak udělat z „AI prototypu" skutečný produkt.
Atmosféra: neformální, přátelská, praktická. Spíš "tady je, co nám spadlo v produkcí, a jak jsme to opravili", než prodejní keynote.
Místo
Praha (přesné venue bude upřesněno)
Formát
1–2 kratší přednášky + diskuse
Jazyk
převážně angličtina
Témata
Společný jmenovatel: jak zjistit, že náš AI systém opravdu funguje.
Příklady témat, která nás zajímají:
- Evaluace RAG systémů – kvalita retrievalu, grounding, halucinace
- Jak navrhovat task‑specifické eval sady pro LLM funkce a workflowy
- Offline vs. online evaluace, A/B testy, uživatelské metriky
- Golden datasety, hodnotící rubriky, lidské anotace a human‑in‑the‑loop
- Evaluace tool‑using / agentic systémů – bezpečnost, robustnost, failure modes
- Evals jako součást SDLC – jak je dostat do CI/CD a běžných testovacích procesů
Nástroje a infrastruktura okolo:
Pokud vaše práce nějak souvisí s otázkou „Jak víme, že tenhle AI systém funguje?", pravděpodobně sem patří.
Pro koho je meetup určený
Cílíme na mix praktiků a akademiků, například:
Začátečníci jsou vítaní, pokud mají zájem o konkrétní systémy a praxi, nejen o high‑level hype.
Hledáme speakery
Hledáme praktiky i akademiky, kteří:
- staví nebo provozují AI systémy v reálném světě, nebo
- se věnují výzkumu evaluací, bezpečnosti či spolehlivosti,
…a jsou ochotní otevřeně sdílet, co fungovalo, co selhalo a co stále neví.
Jaké typy přednášek si představujeme:
Case study
Jak hodnotíte konkrétní RAG systém, agenta nebo LLM funkci ve vašem produktu. Jaké metriky používáte, jak vypadá vaše eval pipeline, jaké byly největší bolesti.
Deep dive do nástroje nebo pipeline
Představení frameworku, interního nástroje nebo infrastruktury pro evaluace, testování, monitoring nebo logging AI systémů.
Výzkumné a experimentální výsledky
Prezentace výzkumu (paper, interní report, experimenty) s důrazem na to, co z toho plyne pro lidi, kteří staví systémy v praxi.
Otevřené problémy
Místa, kde dnešní eval nástroje nestačí, typické blind spoty, nápady na nové metriky nebo přístupy.
Chci přednášet
Krátce napište:
- o čem by vaše talk byla (2–3 věty),
- pro koho je relevantní,
- odkaz na vaše materiály (GitHub, článek, produkt, paper, blog…).
Kontakt: simon@podhajsky.net
Zůstaňte v obraze
Chcete vědět o příštím meetupu (datum, místo, speakery) a pomoci nám odhadnout kapacitu?
Praktické informace:
- Meetup probíhá v Praze, přesné místo a termíny budou upřesněny podle zájmu a kapacity.
- Formát: 1–2 kratší přednášky + diskuse
- Jazyk: převážně angličtina (s českým / evropským přesahem)
- Frekvence: podle zájmu, zhruba jednou za několik týdnů / měsíců
Použijeme váš email jen k informování o této meetup sérii. Žádný spam, žádné sdílení kontaktů třetím stranám.
Spoluorganizace & venue
Pokud:
- máte prostor v Praze, kde by se meetup mohl konat,
- chcete se zapojit do organizace nebo komunikace,
- nebo máte nápad na společnou akci (např. workshop, hackday),
napište nám – rádi se spojíme:
Kontaktovat organizátory