Mašininis mokymasis 101: prižiūrimas, neprižiūrimas, sustiprinimas ir ne tik

Mašinų mokymasis yra esminė būties dalis Duomenų mokslininkas . Paprasčiau tariant, mašininis mokymasis naudojaalgoritmai, leidžiantys atrasti modelius ir numatyti prognozes.Tai vienas iš populiaresnių metodų, naudojamų dideliems neapdorotų duomenų kiekiams apdoroti, ir tik didės populiarumas, nes vis daugiau įmonių bandys priimti duomenimis pagrįstus sprendimus.

Mašininis mokymasis apima daugybę idėjų, įrankių ir metodų, kuriuos naudoja duomenų mokslininkai ir kiti profesionalai. Mes paaiškinome šias sąvokas plačiau , bet šį kartą pažiūrėkimekai kuriuose konkrečiuose komponentuose irkaip jas galima panaudoti sprendžiant problemas.



Prižiūrimas mašininis mokymasis

Paprasčiausios užduotys patenka į skėtį prižiūrimas mokymasis .



Mokydamiesi prižiūrint, turime prieigą prie teisingų įvesties-išvesties porų pavyzdžių, kuriuos galime parodyti mašinai mokymo etape. Įprastas rašysenos atpažinimo pavyzdys paprastai traktuojamas kaip prižiūrima mokymosi užduotis. Rodome kompiuteriui daugybę ranka rašytų skaitmenų vaizdų kartu su teisingomis tų skaitmenų etiketėmis, o kompiuteris išmoksta šablonus, susiejančius vaizdus su jų etiketėmis.

Išmokti atlikti užduotis tokiu būdu, naudojant aiškų pavyzdį, yra gana lengva suprasti ir nesudėtinga įgyvendinti, tačiau yra esminė užduotis: galime tai padaryti tik turėdami prieigą prie teisingų įvesties ir išvesties porų duomenų rinkinio. Rašymo ranka pavyzdyje tai reiškia, kad tam tikru momentu turime nusiųsti žmogų, kad jis klasifikuotų vaizdus mokymo rinkinyje. Tai sunkus darbas ir dažnai neįgyvendinamas, tačiau ten, kur yra duomenų, prižiūrimi mokymosi algoritmai gali būti itin veiksmingi atliekant įvairias užduotis.



Regresija ir klasifikacija

Prižiūrimas mašininio mokymosi užduotis galima iš esmės suskirstyti į du pogrupius: regresija ir klasifikacija . Regresija yra nuolatinio dydžio įvertinimo arba numatymo problema. Kokia bus S&P 500 vertė praėjus mėnesiui nuo šiandien? Kokio ūgio vaikas bus suaugęs? Kiek mūsų klientų šiais metais išvyks pas konkurentą? Tai klausimų, kurie patenka į regresijos skėtį, pavyzdžiai. Norėdami išspręsti šias problemas prižiūrimoje mašininio mokymosi sistemoje, surinktume ankstesnių teisingų atsakymų įvesties / išvesties porų, kurios sprendžia tą pačią problemą, pavyzdžius. Dėl įvesties mes nustatytume funkcijos kurie, mūsų manymu, nuspės norimus nuspėti rezultatus.

Dėl pirmosios problemos galime pabandyti kaip ypatybes surinkti istorines akcijų kainas pagal S&P 500 tam tikromis dienomis kartu su S&P 500 verte po mėnesio. Tai sudarytų mūsų mokymo rinkinį, iš kurio mašina bandytų nustatyti funkcinį ryšį tarp funkcijų ir galimų S&P 500 verčių.

klasifikacija nagrinėja stebėjimų priskyrimą atskiroms kategorijoms, o ne nuolatinių dydžių įvertinimui. Paprasčiausiu atveju galimos dvi kategorijos; šis atvejis žinomas kaip dvejetainė klasifikacija . Daugelį svarbių klausimų galima suformuluoti dvejetaine klasifikacija. Ar tam tikras klientas paliks mus dėl konkurento? Ar tam tikras pacientas serga vėžiu? Ar pateiktame paveikslėlyje yra dešrainis? Dvejetainės klasifikacijos atlikimo algoritmai yra ypač svarbūs, nes daugelis algoritmų, skirtų atlikti bendresnį klasifikavimą, kai yra savavališkos etiketės, yra tiesiog krūva dvejetainių klasifikatorių, veikiančių kartu. Pavyzdžiui, paprastas rašysenos atpažinimo problemos sprendimas yra tiesiog išmokyti daugybę dvejetainių klasifikatorių: 0 detektorių, 1 detektorių, 2 detektorių ir tt, kurie išduoda tikrumą, kad vaizdas yra jų atitinkamas skaitmuo. Klasifikatorius tiesiog išveda skaitmenį, kurio klasifikatorius turi didžiausią tikrumą.



Kita vertus, yra visiškai kitokia užduočių klasė, vadinama mokymasis be priežiūros . Prižiūrimos mokymosi užduotys randa modelius, kuriuose turime teisingų atsakymų duomenų rinkinį, iš kurio galime mokytis. Neprižiūrimos mokymosi užduotys randa modelius ten, kur mes ne. Taip gali būti dėl to, kad teisingų atsakymų nepastebima arba neįmanoma gauti, o gal dėl konkrečios problemos net nėra teisingo atsakymo per se.

Klasterizavimas ir generacinis modeliavimas

Didelis neprižiūrimų užduočių poklasis yra problema grupavimas . Klasterizavimas reiškia stebėjimų grupavimą taip, kad bendros grupės nariai būtų panašūs vienas į kitą ir skiriasi nuo kitų grupių narių. Dažnas pritaikymas yra rinkodaroje, kur norime identifikuoti klientų segmentus arba potencialius klientus, turinčius panašių pageidavimų ar pirkimo įpročių. Pagrindinis klasterizacijos iššūkis yra tai, kad dažnai sunku arba neįmanoma žinoti, kiek grupių turėtų egzistuoti arba kaip jos turėtų atrodyti.

mašininis mokymasis

Labai įdomi nekontroliuojamų užduočių klasė generatyvinis modeliavimas . Generatyvieji modeliai yra modeliai, imituojantys procesą, kuris generuoja mokymo duomenis. Geras generacinis modelis galėtų generuoti naujus duomenis, kurie tam tikra prasme būtų panašūs į mokymo duomenis. Šio tipo mokymasis yra neprižiūrimas, nes procesas kuris generuoja duomenis, nėra tiesiogiai stebimas – stebimi tik patys duomenys.



Naujausi pokyčiai šioje srityje lėmė stulbinančią ir kartais siaubingą pažangą kuriant įvaizdį. Vaizdas čia sukurtas mokant tam tikrą neprižiūrimą mokymosi modelį, vadinamą Deep Convolutional Generalized Adversarial Network modeliu, kad būtų galima generuoti veidų vaizdus ir paprašyti besišypsančio vyro atvaizdų.

Mokymasis, hibridai ir kt

Naujesnio tipo mokymosi problema, kuri pastaruoju metu įgavo daug traukos, vadinama pastiprinimo mokymasis . Sustiprindami mokymąsi, mes nepateikiame mašinai teisingų įvesties ir išvesties porų pavyzdžių, tačiau pateikiame metodą, kuriuo mašina gali kiekybiškai įvertinti savo našumą. atlygio signalas . Sustiprinimo mokymosi metodai panašūs į tai, kaip mokosi žmonės ir gyvūnai: mašina išbando daugybę skirtingų dalykų ir yra apdovanota, kai ką nors padaro gerai.

Sustiprinimo mokymasis yra naudingas tais atvejais, kai sprendimų erdvė yra didžiulė arba begalinė, ir paprastai taikoma tais atvejais, kai mašina gali būti laikoma agentu, sąveikaujančiu su aplinka. Viena iš pirmųjų didelių tokio tipo modelių sėkmės istorijų buvo nedidelė komanda, kuriparengė sustiprinimo mokymosi modelį žaisti Atari vaizdo žaidimus naudojant tik žaidimo pikselių išvestį kaip įvestį. Galiausiai modelis sugebėjo pranokti žaidėjus trijuose žaidimuose ir modelį sukūrusią įmonę„Google“ įsigijo už daugiau nei 500 mln. USDtrumpai po to.

Norint įgyvendinti prižiūrimą „Atari“ vaizdo žaidimų problemos mokymąsi, mums reikės duomenų rinkinio, kuriame būtų milijonai ar milijardai žaidimų, kuriuos žaidžia tikri žmonės, pavyzdžių, kad mašina galėtų mokytis. Priešingai, sustiprinimo mokymasis veikia suteikiant mašinai atlygį pagal tai, kaip gerai ji atlieka savo užduotį. Paprasti vaizdo žaidimai puikiai tinka tokio tipo užduotims, nes rezultatas puikiai veikia kaip atlygis. Mašina imituodama mokosi, kurie modeliai padidina jo atlygį.

Dažnai hibridiniai metodai duoda gerų rezultatų. Pavyzdžiui, kai kuriose srityse svarbi užduotis yra užduotis anomalijų aptikimas . Anomalijų aptikimo algoritmas stebi tam tikrą signalą ir nurodo, kada kažkas keista atsitinka. Puikus pavyzdys yra sukčiavimo nustatymas. Norime algoritmo, kuris stebi kreditinių kortelių operacijų srautą ir žymi keistas. Bet ką reiškia keista? Ši problema tinka tam tikram hibridiniam prižiūrimam / neprižiūrėtam metodui. Tikrai yra keletas žinomų modelių, kuriuos norėtume, kad algoritmas galėtų aptikti, ir mes galime parengti prižiūrimą mokymosi modelį, rodydami jam žinomų sukčiavimo modelių pavyzdžius. Tačiau taip pat norime aptikti anksčiau nežinomus galimo sukčiavimo ar kitokios nenormalios veiklos pavyzdžius, kurie gali būti pasiekti naudojant neprižiūrimo mokymosi metodus.

Mašininio mokymosi pagrindai gali turėti didelį poveikį

Daugeliui pažangiausių įrankių reikia daug sudėtingų žinių apie pažangią matematiką, statistiką ir programinės įrangos inžineriją. Pradedančiajam, norinčiam pradėti, tai gali atrodyti neįtikėtina, ypač jei norite dirbti su kai kuriais įdomiais naujais modeliais.

Geros naujienos yra tai, kad galite daug nuveikti naudodami pagrindinius dalykus, kurie yra plačiai prieinami. Įvairių prižiūrimų ir neprižiūrimų mokymosi modelių yra įdiegta R ir Python, kurie yra laisvai prieinami ir nesudėtingi nustatyti savo kompiuteryje, o netgi paprasti modeliai, tokie kaip tiesinė ar logistinė regresija, gali būti naudojami atliekant įdomias ir svarbias mašininio mokymosi užduotis.

Peržiūrėkite mūsų Mašininio mokymosi sertifikato kursas išmokti pagrindus ir pradėti. Jei nori daugiau, kreiptis dabar į „BrainStation“. Duomenų mokslo diplomo programa.


Kategori: Duomenų Mokslas