Evaluace AI aplikací, ne jen modelů.

Evals.cz je pražský meetup pro lidi, kteří staví nebo zkoumají AI‑poháněné produkty. Zaměřujeme se na evaluaci na aplikační vrstvě – RAG systémy, agenti, LLM funkce – a na to, jak evaly zapadají do softwarového vývojového cyklu (SDLC).

Chceme se bavit o tom, jestli systém opravdu funguje v praxi: jak měřit kvalitu, jak chytat regrese před releasem a jak kombinovat automatické a lidské vyhodnocování.

PrahaAI evaluaceRAG, agenti, LLM

Co nás zajímá

  • Kvalita RAG systemů a retrievalu
  • Regrese v produkci
  • Human-in-the-loop evaluace

O meetupu

Evals.cz je malý, technický meetup v Praze zaměřený na evaluaci AI systémů v reálném nasazení.

Méně nás zajímají benchmarky modelů na leaderboardech, více:

  • jak hodnotit konkrétní RAG pipeline,
  • jak poznat, že agent dělá to, co má, a nezasekává se nebo nehalucinuje,
  • jak zapojit evaly do CI/CD a vývoje tak, aby vám pomáhaly, ne překážely.

Oceníte ho, pokud:

  • integrujete LLM nebo RAG do existujícího produktu,
  • provozujete AI systém v produkci a řešíte jeho kvalitu, spolehlivost a bezpečnost,
  • děláte výzkum v oblasti evaluací, bezpečnosti nebo spolehlivosti AI,
  • přemýšlíte, jak udělat z „AI prototypu" skutečný produkt.

Atmosféra: neformální, přátelská, praktická. Spíš "tady je, co nám spadlo v produkcí, a jak jsme to opravili", než prodejní keynote.

Místo

Praha (přesné venue bude upřesněno)

Formát

1–2 kratší přednášky + diskuse

Jazyk

převážně angličtina

Témata

Společný jmenovatel: jak zjistit, že náš AI systém opravdu funguje.

Příklady témat, která nás zajímají:

  • Evaluace RAG systémů – kvalita retrievalu, grounding, halucinace
  • Jak navrhovat task‑specifické eval sady pro LLM funkce a workflowy
  • Offline vs. online evaluace, A/B testy, uživatelské metriky
  • Golden datasety, hodnotící rubriky, lidské anotace a human‑in‑the‑loop
  • Evaluace tool‑using / agentic systémů – bezpečnost, robustnost, failure modes
  • Evals jako součást SDLC – jak je dostat do CI/CD a běžných testovacích procesů

Nástroje a infrastruktura okolo:

eval harnessy a test runnery
promptové regresní testy
guardrails a policy checks
observabilita, logging a monitoring
verzování datasetů
sledování kvality v produkci

Pokud vaše práce nějak souvisí s otázkou „Jak víme, že tenhle AI systém funguje?", pravděpodobně sem patří.

Pro koho je meetup určený

Cílíme na mix praktiků a akademiků, například:

ML / AI inženýry, kteří nasazují modely do produkce
backend / software inženýry integrující LLM nebo RAG
data scientisty a MLOps inženýry
produktové manažery AI‑poháněných produktů
výzkumníky v oblasti evaluací, bezpečnosti a spolehlivosti AI
studenty s praktickými projekty v této oblasti

Začátečníci jsou vítaní, pokud mají zájem o konkrétní systémy a praxi, nejen o high‑level hype.

Hledáme speakery

Hledáme praktiky i akademiky, kteří:

  • staví nebo provozují AI systémy v reálném světě, nebo
  • se věnují výzkumu evaluací, bezpečnosti či spolehlivosti,

…a jsou ochotní otevřeně sdílet, co fungovalo, co selhalo a co stále neví.

Jaké typy přednášek si představujeme:

Case study

Jak hodnotíte konkrétní RAG systém, agenta nebo LLM funkci ve vašem produktu. Jaké metriky používáte, jak vypadá vaše eval pipeline, jaké byly největší bolesti.

Deep dive do nástroje nebo pipeline

Představení frameworku, interního nástroje nebo infrastruktury pro evaluace, testování, monitoring nebo logging AI systémů.

Výzkumné a experimentální výsledky

Prezentace výzkumu (paper, interní report, experimenty) s důrazem na to, co z toho plyne pro lidi, kteří staví systémy v praxi.

Otevřené problémy

Místa, kde dnešní eval nástroje nestačí, typické blind spoty, nápady na nové metriky nebo přístupy.

Chci přednášet

Krátce napište:

  • o čem by vaše talk byla (2–3 věty),
  • pro koho je relevantní,
  • odkaz na vaše materiály (GitHub, článek, produkt, paper, blog…).

Kontakt: simon@podhajsky.net

Zůstaňte v obraze

Chcete vědět o příštím meetupu (datum, místo, speakery) a pomoci nám odhadnout kapacitu?

Praktické informace:

  • Meetup probíhá v Praze, přesné místo a termíny budou upřesněny podle zájmu a kapacity.
  • Formát: 1–2 kratší přednášky + diskuse
  • Jazyk: převážně angličtina (s českým / evropským přesahem)
  • Frekvence: podle zájmu, zhruba jednou za několik týdnů / měsíců
Vyplnit formulář

Použijeme váš email jen k informování o této meetup sérii. Žádný spam, žádné sdílení kontaktů třetím stranám.

Spoluorganizace & venue

Pokud:

  • máte prostor v Praze, kde by se meetup mohl konat,
  • chcete se zapojit do organizace nebo komunikace,
  • nebo máte nápad na společnou akci (např. workshop, hackday),

napište nám – rádi se spojíme:

Kontaktovat organizátory
Built with v0