Mecanismul prin care neuronii învaţă prin recompense şi pedepse, descoperit la Cluj
Cluj-Napoca
Un cercetător clujean a descoperit un mecanism prin care o reţea de neuroni simulaţi pe calculator poate să înveţe să aibă un anumit comportament, doar pe baza recompenselor şi pedepselor primite de la cel care antrenează reţeaua.
Învăţarea prin recompense şi pedepse este tipul de învăţare prin care, de exemplu, se dresează un animal. Chiar dacă un câine nu înţelege iniţial care este sensul unei comenzi, dacă execută din întâmplare comanda şi este apoi recompensat cu o bomboană, va învăţa ulterior să facă lucrul cerut doar auzind comanda. Analog, dacă un animal sau un copil este pedepsit pentru că a făcut un anumit lucru, comportamentul respectiv va fi făcut mai rar în viitor. Mecanismul descoperit de Răzvan Florian, de la Centrul de Cercetări Cognitive şi Neuronale (Coneural) din Cluj, elucidează modul în care această învăţare poate avea loc prin modificarea tăriei conexiunilor dintre neuroni (celulele din creier). Modificarea tăriei unei conexiuni (sinapse) depinde de intervalele de timp dintre pulsurile emise de cei doi neuroni conectaţi şi de mărimea recompenselor, respectiv a pedepselor primite.
Mecanismul a fost descoperit prin deducţie matematică şi eficacitatea lui a fost demonstrată ulterior prin simulări pe calculator. De exemplu, un vierme simulat pe calculator a învăţat pe baza acestui mecanism să găsească o sursă de mâncare. Mecanismul foloseşte componente deja observate de neurologi în creier, şi este deci foarte probabil ca să funcţioneze şi în creierul nostru.
Articolul care prezintă această descoperire a apărut în revista Neural Computation, cea mai importantă revistă ştiinţifică din domeniul reţelelor neuronale, revistă editată de prestigiosul Massachusetts Institute of Technology (MIT) din SUA. Este pentru prima dată când un articol din România este acceptat spre publicare în această revistă, înfiinţată acum 18 ani.
Cercetătorii clujeni vor folosi în viitor metoda de învăţare descoperită pentru instruirea roboţilor. „Prin acest tip de învăţare, roboţii ar putea fi instruiţi de către orice utilizator, şi ar putea să îndeplinească o gamă variată de sarcini, spre deosebire de roboţii care pot avea doar comportamente stereotipe, implementate de programatori înainte de livrarea roboţilor către utilizatorii finali�, spune Florian.
Capacitatea de a învăţa permanent, în interacţiune cu mediul, este crucială pentru ca roboţii să poată fi folosiţi în medii ale căror caracteristici se schimbă tot timpul, aşa cum sunt o banală bucătărie, în care permanent apar schimbări în poziţiile obiectelor sau obiecte noi. Mecanismele de învăţare de genul celui descoperit de Răzvan Florian sunt deci elemente critice pentru ca să putem avea în viitor roboţi care să facă curăţenie sau de mâncare în casă. Conform fondatorului Microsoft, Bill Gates, robotica va fi în următorii ani cel mai „fierbinte� domeniu al tehnologiei, urmând ca roboţii să fie din ce în ce mai prezenţi în viaţa noastră, în domenii cum ar fi asistenţa pentru oamenii în vârstă sau cu dizabilităţi sau industria construcţiilor.
Articolul ştiinţific în care a fost publicată descoperirea:
R. V. Florian (2007), Reinforcement learning through modulation of spike-timing-dependent synaptic plasticity. Neural Computation 19 (6), pp. 1468-1502.
http://www.mitpressjournals.org/doi/abs/10.1162/neco.2007.19.6.1468



