A legjobb AutoML keretrendszer kiválasztása

Négy automatikus gépi tanulási keret 87 fejlett adat összehasonlítása.

Adithya Balaji és Alexander Allen

Bevezetés

Az automatikus gépi tanulás (AutoML) sokkal nagyobb közönség számára elérhetővé teheti az AI-t. Eszközök sorozatát kínálja, amelyek segítenek az eltérő tapasztalattal rendelkező adattudományi csoportoknak felgyorsítani az adattudományi folyamatot. Ez az oka annak, hogy az AutoML-t az AI demokratizálásának megoldására hívják fel. Még egy tapasztalt csapattal is használhatja az AutoML-t, hogy a legtöbbet hozhassa ki a korlátozott erőforrásokból. Noha vannak olyan védett megoldások, amelyek szolgáltatásként gépi tanulást nyújtanak, érdemes megnézni a jelenlegi nyílt forráskódú megoldásokat, amelyek ezt a szükségletet kielégítik.

Az előző cikkünkben feltártuk az AutoML tájat és kiemeltünk néhány olyan csomagot, amelyek az adattudományi csapatok számára működhetnek. Ebben a részben megvizsgáljuk a négy említett „teljes csővezeték” megoldást: auto_ml, auto-sklearn, TPOT és H2O AutoML megoldása.

Az egyes csomagok erősségeit és gyengeségeit részletesen, „Automatikus gépi tanulási keretek összehasonlító referenciaértékei” című cikkünkben ismertetjük. A cikk további információkat tartalmaz a módszertanról és néhány további eredményről.

Módszertan

A pontos és valós értékelés érdekében 87 nyitott adatkészletet, 30 regressziót és 57 osztályozást választottak az OpenML-ből, amely egy szabványos gépi tanulási adatkészlet online tárolója, amelyet egy REST API-val egységes módon mutatnak ki. Az adatkészletek megoszlása ​​olyan táblázatos adatkészletek széles mintáját nyújtja, amelyek megtalálhatók egy üzleti gépi tanulási problémában. Nagyon nagy figyelmet szenteltek az adatkészletek megválasztásának, hogy megakadályozzuk a validációs készletek szennyeződését. Például az auto-sklearn melegindítást használ, amelyet már megtanítottak egy OpenML-adatkészlet halmazán. Az ilyen adattáblákat kerüljük.

A négy keret mindegyikét, az auto_ml, az auto-sklearn, a TPOT és a H2O-t teszteltük a javasolt paraméterekkel, adatsoronként 10 véletlenszerű magon keresztül. Az F1 pontszámot (súlyozott) és az átlagos négyzet hibát választottuk ki a besorolási és regressziós problémák értékelési kritériumaként.

3 órás korlátozást alkalmaztak arra, hogy minden AutoML módszert olyan időtartamra korlátozzanak, amely tükrözi a sok adattudományi csoport által elvégzett kezdeti feltáró kutatást. Ennek eredményeként a becsült számítási idő 10 440 óra. Ennek eredményeként úgy döntöttünk, hogy az AWS kötegelt szolgáltatását használó modelleket kiértékeljük ennek a feladatnak a párhuzamosításához C4 számításra optimalizált EC2 példányok felhasználásával, amelyek 2 vCPU-t és 4 GB memóriát foglalnak el futásonként.

Minden erőfeszítés megközelítését alkalmaztuk annak biztosítására, hogy minden teszt befejeződjön, és hogy minden tesztnek legalább 3 esélye van a sikerre a 3 órás határon belül. Bizonyos esetekben az AWS Batch számítási környezete és dokkoló alapú erőforrás-kezelése kiszámíthatatlan viselkedést eredményezett. Ennek kiküszöbölésére kifejlesztettünk egy egyéni „csupasz fém” megközelítést az AWS kötegek replikálására EC2 példányokon, finomabb ellenőrzéssel az egyes folyamatok memóriakezelése felett. Pontosabban, a dokkoló memóriakezelője gyilkos jelet küldött a benchmarking folyamathoz, ha a folyamat felhasznált memória meghaladja a Batch által kiosztott mennyiséget. Ez a kemény határ nem változtatható meg anélkül, hogy futtatásonként jelentősen megnövelné a példányszámot. Ugyanazokkal a számítási korlátozásokkal teszteltük a futtatásokat, amelyek ezekben a nagyon speciális körülmények között kudarcot valltak a szokásos „csupasz fém” megvalósításunk során.

Ezen tesztek futtatása során is javítottunk néhány hibát a nyílt forráskódú keretekben, amelyeket a teljes cikkünkben ismertetünk. E javítások után az egyik adatkészlet egyenesen sem sikerült. Ezeket a hibákat általában a napi használat eltakarta, de az elvégzett tesztelés során megmutatkoztak.

Eredmények

Az 1. ábra a választott adatkészletek sokféleségét mutatja be. Láthatja, hogy a besorolás tipikusan bináris, és a regressziós sorok száma viszonylag egyenletes, míg a besorolási sorok száma 1000 sor körül álló adatkészletek felé van ferde. A regressziós és osztályozási központok jellemzőinek száma körülbelül 10 olyan tulajdonsággal rendelkezik, amelyek osztályozása kissé 100-ra esik. Úgy gondoljuk, hogy ez az adatcsoport reprezentatív mintát képvisel az általános adattudományi problémákról, amelyekkel sok adattudós szembesül.

1. ábra: A nyers adatkészlet jellemzői megosztva az osztályozás és a regressziós problémák között

Néhány keret bizonyos időpontokban kifogyott az egyes magokon és kereteknél. Összesen 29 futási kombinációt (adatkészlet és mag) hagytak ki. Ezeket a futási kombinációkat az összes keretrendszerben elhagyták az egyes keretek összehasonlíthatóságának megőrzése érdekében. Ez a folyamat összesen 132 adatpontot eredményez (29 * 4), amelyet elvesztettek, ami összességében körülbelül 3% (116/3480 futás).

2. ábra: Keretek közötti fej átlagos teljesítmény a besorolási adatkészletek között

3. ábra: A keret közötti fej átlagos teljesítmény a regressziós adatkészletek között

Mindegyik keretet a fent említett regressziós és osztályozási adatkészletekkel egyaránt kiértékeljük. Teljesítményüket úgy számították ki, hogy a súlyozott F1 pontszámot és az MSE pontszámot az adatkészletek között keretrendszer szerint összesítették. Az egyes mutatókat adatkészletenként egységesítettük keretek között, és 0-tól 1-ig skáláztuk. Az MSE esetében ezeket az értékeket invertáltuk, ami azt jelenti, hogy a nagyobb értékek jobb eredményeket képviselnek, így a grafikonok konzisztensek maradnak az osztályozás és a regressziós megjelenítések között. A 10 kiértékelt vetőmag átlaga a keret teljesítményét mutatja egy adott adatkészletnél. A 2. és 3. ábrán a sötétebb árnyalatok nagyobb teljesítménybeli különbségeket mutatnak.

4. ábra: A keretteljesítmény az összes osztályozási adatkészletben

5. ábra: A keretteljesítmény az összes regressziós adatkészletben

A 4. és 5. ábrán itt boxbox-okkal mutattuk be a keretteljesítményt. A box-grafikonok bemetszései a mediánok konfidencia intervallumát képviselik. Az 1. táblázatban szereplő átlagok és szórások mutatják a pontos különbségeket.

1. táblázat: Pontos eredmények keretenként

Következtetés és értelmezés

Összességében minden megjelenítés és értelmezés ugyanazt a képet mutatja be. Az automatikus sklearn a legjobban teljesíti a besorolási adatkészleteket, a TPOT pedig a legjobban a regressziós adatkészleteket. Fontos észrevenni, hogy a kísérlet kvantitatív eredményei rendkívül nagy eltérésekkel bírnak, és mint ilyen, valószínűleg sokkal fontosabb, ha nem az önálló teljesítmény. Ezen tényezők, valamint az egyes közösségeinkkel való kölcsönhatásunk miatt az elemzésen dolgozó idő során mind a TPOT, mind az automatikus leolvasást ajánljuk.

Mindegyik csomag (Auto-sklearn, TPOT, H2O, Auto_ml), a teljes papír és a benchmarking megvalósítása összekapcsolódik itt.