Informace o předmětu
Stránky předmětu Data mining v cloudu (4iz569) vyučovaného na VŠE v Praze. Předmět poskytuje přehled vybraných algoritmů pro strojové učení a optimalizaci. Důraz je kladen na aktuální cloudové platformy pro dobývání dat (data mining) a strojové učení, zejm. pro klasifikační úlohu.
Obsah
Během kurzu se studenti seznámí s několika cloudovými platformami, budou pokryty následující oblasti:
- Předzpracování tabulkových dat (čištění, nerovnoměrně rozdělená data, dummy proměnné)
- Předzpracování textových data (identifikace entit, lematizace, stemování)
- Velké datasety (sub sampling)
- Modelovací algoritmy, manuální a automatická optimalizace parametrů
- Evaluace a srovnání modelů
- Pokročilé a nová témata (plně automatická workflow, optimalizace)
- Nasazení modelů (web services, MOJOs, executable models)
- Integrace mezi cloudovými službami a vybranými programovacími jazyky (Python, R), frameworky (např. Scikit-learn) a vývojovými prostředími (jako např. R studio)
Předmět nemá dělení na přednášky a cvičení. Typická hodina vypadá tak, že v první části je probrána teorie, jejíž implementace je následně předvedena v části cvičení na konkrétní platformě.