Stránky předmětu Data mining v cloudu (4iz569) vyučovaného na VŠE v Praze. Předmět poskytuje přehled vybraných algoritmů pro strojové učení a optimalizaci. Důraz je kladen na aktuální cloudové platformy pro dobývání dat (data mining) a strojové učení, zejm. pro klasifikační úlohu.

Obsah

Během kurzu se studenti seznámí s několika cloudovými platformami, budou pokryty následující oblasti:

  • Předzpracování tabulkových dat (čištění, nerovnoměrně rozdělená data, dummy proměnné)
  • Předzpracování textových data (identifikace entit, lematizace, stemování)
  • Velké datasety (sub sampling)
  • Modelovací algoritmy, manuální a automatická optimalizace parametrů
  • Evaluace a srovnání modelů
  • Pokročilé a nová témata (plně automatická workflow, optimalizace)
  • Nasazení modelů (web services, MOJOs, executable models)
  • Integrace mezi cloudovými službami a vybranými programovacími jazyky (Python, R), frameworky (např. Scikit-learn) a vývojovými prostředími (jako např. R studio)


Předmět nemá dělení na přednášky a cvičení. Typická hodina vypadá tak, že v první části je probrána teorie, jejíž implementace je následně předvedena v části cvičení na konkrétní platformě.