Ha olyan fejlesztő vagy, aki áttér az adattudományra, itt áll a legjobb forrás

Úgy tűnik, hogy manapság mindenki adattudós akar lenni - a doktoranduszoktól az adatelemzőktől a régi kollégiumi szobatársáig, aki Linkedinnek üzenetet küld arra, hogy „megragadjon kávét”.

Talán ugyanaz a kívánságod volt, hogy legalább fel kell fedeznie néhány adattudományi pozíciót, és meg kell néznie, hogy mi a hype. Talán már olyan cikkeket láttál, mint a Vicki Boykis Data Science, amely más, most kimondja:

Nyilvánvalóvá válik, hogy a hype ciklus késői szakaszában az adattudomány asimptotikusan közeledik a mérnöki munkához, és az adattudósok továbbfejlesztéséhez szükséges készségek kevésbé vannak a vizualizáción és a statisztikán alapulnak, és jobban megfelelnek a hagyományos informatika tudományának. ...:
Az olyan koncepciók, mint például az egység tesztelése és a folyamatos integráció, gyorsan megtalálják a zsargonba és az eszközkészletbe, amelyet az ML mérnöki munkáján dolgozó adattudós és numerikus tudós általában használ.

vagy olyan tweetek, mint Tim Hopper:

Nem világos, hogy miként lehet felhasználni szoftvermérnökként szerzett tapasztalatait adattudományi pozícióba. Néhány további kérdés, amelyek felmerülhetnek:

Mit kellene priorizálnom a tanuláshoz?

Vannak olyan bevált gyakorlatok vagy eszközök, amelyek eltérnek az adattudósok számára?

A jelenlegi készségem átveszi-e az adattudományi szerepet?

Ez a cikk ismerteti az adattudós szerepének hátterét és annak hátterét, hogy miért felelhet meg jobban háttérének az adattudomány számára, valamint kézzelfogható lépésekkel, amelyeket fejlesztőként megtehetsz az adattudomány felgyorsítása érdekében.

Szeretné megtekinteni a legfrissebb adattudományi szerepeket? Iratkozzon fel kéthetente az ML Jobs hírlevelére a beérkező levelek mappájában található új tudományos állásokra.

Data Scientist és Data Engineer

Először is különbséget kell tennünk két egymást kiegészítő szerep között: Data Scientist és Data Engineer. Noha ezek a szerepek mind a gépi tanulási modelleket kezelik, e modellekkel való kölcsönhatásuk, valamint az adattudósok és az adatmérnökök munkájának követelményei és jellege nagyban különböznek.

Megjegyzés: A gépi tanulásra szakosodott adatmérnök szerepe a munkaleírásokban is megjelenhet, mint „szoftvermérnök, gépi tanulás” vagy „gépi tanulásmérnök”.

A gépi tanulási munkafolyamat részeként az adattudós elvégzi a szükséges statisztikai elemzést annak meghatározásához, hogy melyik gépi tanulási megközelítést alkalmazza, majd megkezdi a prototípus készítését és ezen modellek kiépítését.

A gépi tanulási mérnökök gyakran együttműködnek az adattudósokkal a modellezési folyamat előtt és után: (1) adatcsatornák felépítése az adatok e modellekbe történő beillesztésére és (2) egy mérnöki rendszer megtervezése, amely ezeket a modelleket szolgálja a folyamatos modell egészségének biztosítása érdekében.

Az alábbi ábra az egyik módja a készségek folyamatosságának megtekintéséhez:

Nagyon sok online forrás található az adattudósok és az adatmérnökök közötti különbségről - feltétlenül nézd meg:

  • Panoply: Mi a különbség az adatmérnök és az adattudós között?
  • Ugródeszka: Gépi tanulási mérnök vs adattudós
  • O’Reilly: Adatmérnökök és adattudósok

Jogi nyilatkozatként ez a cikk elsősorban az Data Scientist szerepére vonatkozik, némi bólintással a Machine Learning Engineering oldalához (különösen akkor, ha egy kisebb vállalat pozíciójára számít, ahol esetleg mindkettőként szolgálhat). Ha érdekli, hogyan lehet áttérni adatmérnökként vagy gépi tanulási mérnökként, tudassa velünk az alábbi megjegyzésekben!

Az Ön előnye fejlesztőként

Mindenki hátrányára nézve, a gépi tanulás körüli órák, például a „Bevezetés az adattudományba a Pythonban” vagy az Andrew Ng Coursera tanfolyamai, nem terjednek ki a szoftverfejlesztés koncepcióinak és bevált gyakorlatainak, mint például az egység tesztelése, moduláris újrafelhasználható kódok írása, CI / CD vagy verzióvezérlés. Még a legfejlettebb gépi tanulási csapatok még mindig nem használják ezeket a gyakorlatokat gépi tanulási kódjukhoz, ami zavaró tendenciához vezet…

Pete Warden ezt a tendenciát „gépi tanulás reprodukálhatóságának válságának” nevezte:

továbbra is visszatértünk a sötét korokba, amikor a változások nyomon követésére és a modellek újból felépítésére van szükség. Olyan rossz, hogy időnként visszalépni ahhoz, hogy forrásvezérlés nélkül kódoljunk.

Noha valószínűleg nem látja ezeket a „szoftverfejlesztési” készségeket az adattudományi tudósítói munkaköri leírásban kifejezetten kimondottan, ezeknek a készségeknek a háttérként való megragadása már tízszeresére segíti az adattudósok munkáját. Sőt, akkor kerülnek alkalmazásra, amikor itt az ideje válaszolni ezekre a programozási kérdésekre az adattudományi interjú során.

A másik oldalról érdekes szempontból nézd meg Trey Causey „Az adattudósok szoftverfejlesztési készségei” című részét azon készségekről, amelyeket az adattudósoknak azt javasolnak, hogy megtanuljanak „jobb kód írását, jobb együttműködést a szoftverfejlesztőkkel, és végül időt takaríthat meg és fejfájást”.

Felkelt az adattudományban

Nagyszerű, hogy jó alapokkal rendelkezik a szoftverfejlesztési háttérrel, de mi a következő lépés az adattudósává válás felé? Megdöbbentően Josh Will nyelve-in-arc-csipogása az adattudós meghatározásáról:

Arra utal az egyik témára, amelyet fel kell vennie, ha adattudós szerepét vagy karrierjét érdekli: statisztikák. Ebben a következő szakaszban nagyszerű forrásokat fedezünk fel:

  • ML-specifikus ismeretek kiépítése
  • Építőipar ismeretek
  • Szerszámok az ML veremben
  • Készségek és képesítések

ML-specifikus ismeretek kiépítése

A leghatékonyabb az elmélet-alapú ismeretek kombinációjának felépítése a valószínűség és a statisztika körül, valamint az alkalmazott készségek olyan dolgokban, mint például az adatkezelés vagy a GPU-k / elosztott számítástechnika gyakorlati modelljei.

Az elsajátítandó ismeretek körvonalazásának egyik módja annak összehasonlítása a gépi tanulás munkafolyamatával.

A gépi tanulási munkafolyamat egyszerűsített nézete
Lásd a Skymind AI részletes munkafolyamatát

Itt felsoroljuk a gépi tanulás során megtalálható legjobb forrásokat. Lehetetlen lenne kimerítő lista lenni, és helymegtakarítást (és az olvasási időt) nem említenénk olyan népszerű forrásokról, mint Andrew Ng Coursera tanfolyam vagy Kaggle.

Tanfolyamok:

  • Fast.ai MOOC (ingyenes tanfolyamok, amelyek nagyon jól alkalmazható készségeket tanítanak a kódolók gyakorlati oktatásához, az élvonalbeli tanuláshoz a kódolókhoz, a számítási lineáris algebra, és a géptanulás bevezetése a kódolókhoz)
  • Khan Akadémia
  • 3Blue1Brown és matematikaimonk youtube csatorna
  • Udacity tanfolyamok (beleértve a Python gépi tanulásának előkészítését)
  • Springboard AI / ML-specifikus pálya

Tankönyvek: * ezek többségére megpróbált online ingyenes PDF-fájlokat találni *

  • Probabilisztikus programozás és bayes-módszer a hackerek számára
  • Valószínűség és véletlenszerű folyamatok
  • A statisztikai tanulás elemei
  • Jobbra kész lineáris algebra
  • Bevezetés a lineáris algebrába
  • Algoritmus kialakítása

útmutatók:

  • Google fejlesztői gépi tanulási útmutató
  • Gépi tanulás elsajátítási útmutatói (jó kiindulási ponthoz lásd a Python gépi tanulás ezen mini tanfolyamát)
  • Pyimagesearch (számítógépes látáshoz)

Meetups: * elsősorban NYC-alapú *

  • Papers We Love
  • NYC mesterséges intelligencia és gépi tanulás
  • DataCouncil.ai
  • NY mesterséges intelligencia
A hűvös kiindulási ponthoz nézze meg Will Wolf „Nyílt forráskódú gépi tanulási mestereit”, amelyben megtudhatja, hogyan szerkesztheti idejét az egyes témák tanulmányozása és projektek kidolgozása során, hogy bemutassa a szakértelemét olcsó, távoli helyen.

Építőipar-specifikus ismeretek

Ha van egy hozzászólása, hogy szeretne egy speciális iparág lenni, mint például az egészségügy, a pénzügyi szolgáltatások, a fogyasztási cikkek, a kiskereskedelem stb., Akkor felbecsülhetetlen értékű felzárkózni az iparág fájdalmi pontjain és fejleményeiben, mivel az adatokkal és gépekkel kapcsolatos tanulás.

Egy profi tipp = átvizsgálhatja a függőleges specifikus AI induló vállalkozások weboldalait, és megnézheti, hogyan pozicionálják értékjavaslataikat, és hol játszanak gépi tanulást. Ez ötleteket ad a tanulmányozni kívánt gépi tanulás konkrét területeire, valamint a munkáinak bemutatására szolgáló projektek témáit.

Sétálhatunk egy példán keresztül: tegyük fel, hogy érdekel az egészségügyi munka.

  1. A „gépi tanulásos egészségügy” gyors google keresésén keresztül megtaláltam a Healthcareweekly.com webhelyen ezt a listát a „Legjobb 2019-ben figyelni kívánt egészségügyi vállalkozók számára” cím alatt.
Gyors kereséseket is végezhet a Crunchbase-en vagy az AngelList-en, kulcsszóként az „egészségügy”

2. Vegyük példa a listán szereplő vállalatok egyikét, a BenevolentAI-t.

3. A BenevolentAI honlapja kimondja:

AI vállalat vagyunk, amely teljes körű képességgel rendelkezik a korai gyógyszer-felfedezéstől a késői stádiumú klinikai fejlesztésig. A BenevolentAI ötvözi a számítástechnika és a fejlett AI erejét a nyílt rendszerek és a felhőalapú számítástechnika alapelveivel, hogy átalakítsa a gyógyszerek tervezésének, fejlesztésének, tesztelésének és forgalomba hozatalának módját.
Felépítettük a Jóindulatú Platformot, hogy jobban megértsük a betegségeket, és új gyógyászati ​​terveket dolgozzunk ki, és javítsuk a meglévő kezeléseket, hatalmas mennyiségű orvosbiológiai információból. Hisszük, hogy technológiánk felhatalmazza a tudósokat a gyógyszerek gyorsabb és költséghatékonyabb kifejlesztésére.
30 másodpercenként megjelenik egy új kutatási cikk, ám a tudósok jelenleg a rendelkezésre álló ismereteknek csak egy töredékét használják a betegség okának megértésére és új kezelési javaslatokra. Platformunk hatalmas mennyiségű információt vesz be, „olvasta” és kontekstualizálja az írásbeli dokumentumokból, adatbázisokból és a kísérleti eredményekből. Végtelenül több következtetést és következtetést képes levonni ezen különálló, összetett adatforrások között, meghatározva és létrehozva kapcsolatokat, trendeket és mintákat, amelyeket az ember nem tudna önmagában megtenni.

4. Azonnal láthatja, hogy a BenevolentAI a természetes nyelvfeldolgozást (NLP) használja, és valószínűleg néhány tudás grafikonnal dolgozik, ha azonosítja a betegségek és a kezelési kutatások közötti összefüggéseket.

5. Ha megnézi a BenevolentAI karrier oldalát, láthatja, hogy felvesznek egy Senior Machine Learning kutatót. Ez egy magas rangú szerep, tehát nem tökéletes példa, de az alábbiakban nézzük meg az általuk igényelt készségeket és képesítéseket:

Jegyzet:

  • természetes nyelvfeldolgozás, tudás gráf következtetés, aktív tanulás és biokémiai modellezés
  • strukturált és nem strukturált adatforrások
  • bayesi modell megközelítések
  • a modern eszközök ismerete az ML számára

Ennek megadnia kell néhány lépést a következő megközelítéshez:

  • strukturált adatokkal való munka
  • strukturálatlan adatokkal való munka
  • a kapcsolatok osztályozása a tudás gráfokban (itt talál egy jó forrást)
  • bayes-es valószínűség tanulása és modellezési megközelítések
  • dolgozzon egy NLP projekten (tehát szöveges adatok)

Nem azt javasoljuk, hogy forduljon azokhoz a vállalatokhoz, amelyeket a keresés során talált, hanem inkább azt, hogy megnézze, hogyan írják le ügyfeleik fájdalmi pontjait, vállalkozásaik értékbeli javaslatait, és milyen készségeket sorolnak fel munkaköri leírásukban a kutatás irányításához.

Szerszámok az ML veremben

A BenevolentAI Senior Machine Learning kutató munkaköri leírásában „az ML modern eszközeinek, például a Tensorflow, PyTorch stb. Ismereteit kérik”.

Ezeknek a modern eszközöknek az elsajátítása az ML számára félelmetesnek tűnhet, mivel a tér mindig változik. A tanulási folyamat kezelhető részekre bontásához ne felejtse el fentről rögzíteni a gépi tanulási munkafolyamat körüli gondolkodást - „Milyen eszköz segíthet nekem a munkafolyamat ezen részében?”

Ha meg szeretné tudni, hogy mely eszközök kísérik a gépi tanulási munkafolyamat egyes lépéseit, olvassa el Roger Huang „Bevezetés a gépi tanulási verembe” című részét, amely olyan eszközöket fed le, mint a Docker, a Comet.ml és a dask-ml.

Taktikai szempontból a Python és az R a leggyakoribb programozási nyelv, amelyet az tudósok használnak, és találkozhat adatkutatási alkalmazásokhoz tervezett kiegészítő csomagokkal, mint például a NumPy és SciPy, valamint a matplotlib. Ezeket a nyelveket inkább értelmezik, mint összeállítják, így az adattudós szabadon hagyhatja, hogy a nyelv árnyalatainak helyett a problémára összpontosítson. Érdemes befektetni az idő-tanulás objektum-orientált programozását, hogy megértsük az adatszerkezetek osztályokban történő megvalósítását.

Az ML-keretek felzárkóztatásához, mint például a Tensorflow, a Keras és a PyTorch, feltétlenül keresse meg a dokumentációjukat, és próbálja meg megvalósítani az oktatóanyagokat a végpontokig.

A nap végén meg kell győződnie arról, hogy olyan projekteket épít ki, amelyek bemutatják ezeket a modern eszközöket az adatgyűjtéshez és -csempészéshez, a gépi tanulási kísérletkezeléshez és a modellezéshez.

A projektjeinek inspirációja érdekében nézze meg Edouard Harris „A hidegindítási probléma: hogyan kell felépíteni gépi tanulási portfólióját” című részét.

Készségek és képesítések

Ezt a részt utolsóként hagytuk, mivel az előző szakaszok nagy részét összesíti, de kifejezetten az adattudományi interjú előkészítésére irányul. Az adattudós interjú során hat fő téma van:

  1. Coding
  2. Termék
  3. SQL
  4. A / B tesztelés
  5. Gépi tanulás
  6. Valószínűség (itt talál egy jó meghatározást vs. statisztika)

Észre fogja venni, hogy ezeknek a témáknak az egyike nem olyan, mint a többi (Termék). Az adattudományi pozíciók szempontjából elengedhetetlen a kommunikáció a műszaki koncepciókról és eredményekről, valamint az üzleti mutatókról és a hatásról.

Az adattudományi interjú kérdéseinek néhány hasznos összesítése:
https://github.com/kojino/120-Data-Science-Interview-Questions
https: //github.com/iamtodor/data-science-interview-questions-and-answers
https://hookedondata.org/red-flags-in-data-science-interviews/
https://medium.com/@XiaohanZeng/i-interviewed-at-five-top-companies-in-silicon-valley-in-five-days-and-luckily-got-five-job-job-offers25178cf74e0f

Észre fogja venni, hogy beillesztettük a Hooked on Data című darabot a „Vörös zászlók az adattudományi interjúkba” című részből - amikor szerepekkel készít interjút, olyan vállalkozásokkal találkozhat, amelyek még fejlesztik az adatinfrastruktúrát, vagy esetleg nem rendelkeznek szilárd ismeretekkel arról, hogy adattudományi csapata illeszkedik a nagyobb vállalati értékhez.

Lehet, hogy ezek a vállalatok továbbra is felmásznak az igények ezen hierarchiáján.

Monica Rogati népszerű AI szükséglet-hierarchiája

Az adattudományos interjúk körüli várakozási körülményekhez javasolnám Tim Hopper 'Néhány gondolkodásmódot a sok adattudományi munka lemondásának visszautasítása' című részét.

Köszönöm, hogy elolvasta! Reméljük, hogy ez az útmutató segít megérteni, hogy az adattudomány karrierje-e, amelyet figyelembe kell vennie, és hogyan kezdje meg ezt az utazást!

Szeretné megtekinteni a legfrissebb adattudományi szerepeket? Iratkozzon fel kéthetente az ML Jobs hírlevelére a beérkező levelek mappájában található új adattudományi állásokra: