How We Teach Computers to Understand Pictures - Fei fei li - Ted talks

Fordító: Zsuzsa Vida Lektor: Csaba Lóki Engedjék meg, hogy mutassak önöknek valamit. (Videó) Kislány: Oké, az egy macska, amely egy ágyon ül. A fiú cirógatja az elefántot. Azok az emberek mennek egy repülőgéphez. Az egy nagy repülőgép. Fei-Fei Li: Ez egy hároméves gyermek leírása arról, amit egy sor fotón lát. Lehet, hogy sokat kell még tanulnia a világról, de már szakértője egy nagyon fontos feladatnak: annak, hogy megértse, amit lát. Társadalmunk technológiailag fejlettebb, mint valaha. Embereket küldünk a Holdra, telefonokat készítünk, melyek beszélnek, vagy rádióállomásokat állítunk be a saját zenei ízlésünknek megfelelően. Mégis a legfejlettebb gépeink és számítógépeink csak küszködnek ezzel a feladattal. Azért vagyok ma itt, hogy jelentést adjak önöknek a számítógépes képfelismerés legújabb kutatási eredményeiről, a számítástechnika egyik valószínűleg legforradalmibb technológiai területéről. Igen, vannak olyan prototípus autóink, amelyek képesek önmagukat vezetni, de tökéletes látás nélkül, nem tudnak igazán megkülönböztetni egy összegyűrt papírtasakot az úton, amelyen áthajthatunk, egy ugyanolyan méretű kődarabtól, amelyet el kellene kerülni. Mesés megapixeles kameráink vannak, de nem segítünk látni a vakoknak. A drónok képesek hatalmas területeket berepülni, de nincs megfelelő látási technológiájuk ahhoz, hogy segítsenek nyomon követni az esőerdők változásait. Biztonsági kamerák vannak mindenhol, de nem figyelmeztetnek minket, amikor egy gyerek beleesik az úszómedencébe. A fotók és videók szerves részévé váltak az életnek. Olyan ütemben keletkeznek, ami messze túl van azon, amit az ember vagy embercsoportok remélhetnének látni. Önök és én ezen a TED-en most közreműködhetünk ebben. Még a legfejlettebb szoftvereink is csak küzdenek ennek a hatalmas tartalomnak a megértésével és kezelésével. Más szavakkal, együttesen, egy közösségként szinte teljesen vakok vagyunk, mert a legokosabb gépeink még vakok. "Miért olyan nehéz ez?" - kérdezhetik. A kamerák képesek ilyen képeket készíteni, a fényeket kétdimenziós számsorokba konvertálják, az úgynevezett pixelekbe, de ezek csak élettelen számok. Ezek nem hordoznak magukban jelentést. Éppen úgy, ahogy nem ugyanaz a hallani, mint a hallgatni, képet készíteni sem ugyanaz, mint látni, és a látás alatt tulajdonképpen a megértést értjük. Valójában, az Anyatermészet kemény munkát végez 540 millió éve, ennek a feladatnak az elvégzésével, és rengeteg fáradozásba került az agyunk vizuális feldolgozással foglalkozó részének a kifejlesztése, nem a szemek maguk. A látás a szemekkel kezdődik, de valójában az agyban megy végbe. 15 éve már, hogy a Caltechnél a Ph.D-mtől kezdve, majd a Stanford Látóképeséggel foglalkozó laborját vezetve, a mentoraimmal, munkatársaimmal és tanítványaimmal azon dolgozom, hogy megtanítsam a számítógépeket látni. Kutatási területünk a számítógépes látás és gépi tanulás. Ez a mesterséges intelligencia tudományának a része. Végső soron meg akarjuk tanítani a gépeket úgy látni, ahogy mi látunk: tárgyak megnevezése, emberek azonosítása, következtetés a tárgyak 3D-s alakjára, a kapcsolatok, érzések, tevékenységek és szándékok megértése. Önök és én egész történeteket szövünk együtt emberekről, helyekről és dolgokról abban a pillanatban, amikor rájuk pillantunk. Az első lépés a cél felé, hogy megtanítjuk a számítógépeket a tárgyakat, a képi világ építőköveit látni. A legegyszerűbben kifejezve, képzeljék el ennek a tanításnak a folyamatát: mutatunk a számítógépeknek néhány gyakorló képet egy bizonyos dologról, mondjuk a macskákról és tervezünk egy modellt, amely tanul ezekből a gyakorló képekből. Milyen nehéz lehet ez? Végül is, egy macska csak színek és formák gyűjteménye, és ez az, amit a dolgok modellezésének első napjaiban csináltunk. Matematikai nyelven mondtuk el a számítógépes algoritmusnak, hogy egy macskának egy kerek arca, pufók ***, két hegyes füle és egy hosszú farka van, és úgy tűnt, hogy minden rendben. De mit szólnak ehhez a macskához? (Nevetés) Ez teljesen ki van csavarodva. Most hozzá kell tenniük egy egész más formát és nézőpontot a dolog modelljéhez. De mi van, ha a macskák elbújnak? Mit szólnak ezekhez a bolond macskákhoz? Elmondom a véleményemet. Még ha valami olyan egyszerű is, mint egy háziállat, végtelen sok modellvariációt képes felvonultatni, és ez csak egyetlen objektum. Így kb. 8 évvel ezelőtt egy nagyon és mély megfigyelés megváltoztatta a gondolkodásomat. Senki nem mondja meg egy gyermeknek, hogy hogyan lásson, különösen az első években. A valós világ tapasztalatain és példáin keresztül tanulják ezt meg. Ha egy gyermek szemeit egy pár biológiai kamerának tekintjük, ezek körülbelül 200 ezredmásod- percenként készítenek egy képet, ez az átlagos időtartama egy szemmozdulatnak. Így hároméves korára egy gyermek több száz millió képet lát a valós világról. Az rengeteg gyakorló példa. Így a kizárólag az egyre jobb algoritmusokra koncentrálás helyett, úgy éreztem, hogy az adatok begyakorlására alkalmas algoritmusokat kellene adnom, ahogy egy gyermeknek, a tapasztalatokon keresztül minőségben és mennyiségben egyaránt. Amint ezt felismertük, rögtön tudtuk, hogy gyűjtenünk kell egy adathalmazt, ami sokkal több képet fog tartalmazni, mint amennyivel valaha is rendelkeztünk, talán több ezerszer többet, és Kai Li professzorral közösen a Princeton Egyetemen, 2007-ben elindítottuk az ImageNet projektet. Szerencsére nem kellett egy kamerát szerelnünk a fejünkre, és évekig várni. Felmentünk az Internetre, a képek legnagyobb tárházára, amit az emberek valaha létrehoztak. Majdnem egymilliárd képet töltöttünk le és az Amazon Mechanical Turk crowdsourcing technológiát használva felcímkéztük ezeket a képeket. A csúcson az ImageNet volt a Mechanical Turk egyik legnagyobb foglalkoztatója: együttesen, majdnem 50 000 dolgozó a világ 167 országából segített nekünk kitisztítani, rendszerezni és felcímkézni majdnem egymilliárd kijelölt képet. Ilyen sok erőfeszítésbe került csak egy töredékét rögzíteni annak a képanyagnak, amit egy gyermek agya a fejlődésének első éveiben befogad. Utólag a "big data" használatának az ötlete a számítógépes algoritmusok tanítására már nyilvánvalónak tűnhet, de 2007-ben ez nem volt olyan kézenfekvő. Meglehetősen egyedül voltunk ezen az úton egy jó darabig. Néhány kedves kollégám azt tanácsolta, hogy hasznosabb dologgal töltsem az időmet és állandóan harcoltunk a kutatási támogatásért. Egyszer még azt is mondtam viccesen a végzős diákjaimnak, hogy újranyitnám a ruhatisztító boltomat, hogy az ImageNet-et támogassam. Végül is, így finanszíroztam a főiskolai éveimet. Tehát folytattuk. 2009-ben az ImageNet egy 15 millió képből álló adatbázist adott át, az objektumokat és dolgokat 22 000 osztályba sorolva, mindennapos angol szavak szerint elrendezve. Minőségben és mennyiségben egyaránt példátlan méretű. Például a macskák esetében, több mint 62 000 képünk volt mindenféle külsejű és pózoló minden fajta házi- és vadmacskákról. Le voltunk nyűgözve, hogy együtt létrehoztuk az ImageNet-et, és azt akartuk, hogy az egész kutatási világ profitáljon ebből, így a TED módszerével hozzáférhetővé tettük az egész adatállományt. az egész világ kutató közösségének, ingyenesen. (Taps) Most, hogy már vannak adataink, amit betápláljunk a számítógépeink agyába, készen állunk arra, hogy visszatérjünk magukhoz az algoritmusokhoz. Mint kiderült, az ImageNet által biztosított információ értéke tökéletesen illeszkedett a gépi tanulási algoritmusok egy bizonyos osztályához, amit konvolúciós neurális hálónak hívunk, és aminek Kunihiko Fukushima, Geoff Hinton és Yann LeCun voltak az úttörői régen az 1970-es és '80-as években. Ahogyan az agyban egymáshoz szorosan kapcsolódó idegsejtek milliárdjai vannak, ugyanúgy egy neurális háló operációs alapegysége egy neuronszerű csomópont. Ez bemenő adatokat fogad más csomópontoktól és kimenő adatokat küld a többinek. Ezen kívül, ez a több százezer vagy akár több millió csomópont hierarchikus rétegekbe szerveződött, az agyhoz hasonlóan. A tárgyfelismerési modellünk tanítására használt tipikus hálózat 24 millió csomópontot, 140 millió paramétert és 15 milliárd kapcsolatot tartalmaz. Ez egy hatalmas modell. E hatalmas modell tanításához használt óriási ImageNet-es adatmennyiségnek, valamint a modern processzoroknak köszönhetően a konvolúciós neurális háló senki által nem remélt iramban fejlődött. Ez lett a nyerő architektúra, ami izgalmas új eredményeket hozott az objektumfelismerésben. Ez egy számítógép, amely megmondja nekünk, hogy ezen a képen egy macska látható és hogy a macska hol van. Természetesen ott nem csak macskák vannak, ezért itt van egy számítógépes algoritmus, ami megmondja, hogy a képen egy fiú és egy teddy maci is van; egy kutya, egy ember, és egy kicsi papírsárkány a háttérben; vagy nagyon mozgalmas dolgoknak egy képe mint egy férfi, egy gördeszka, korlátok, egy lámpaoszlop és így tovább. Néha, amikor a számítógép nem biztos benne, hogy mit lát, megtanítottuk arra, hogy kellő biztonsággal válaszoljon, anélkül, hogy túl határozott lenne, éppúgy, ahogy mi tennénk Máskor viszont az algoritmusunk figyelemre méltó pontossággal közli. hogy milyen tárgyakat lát, mint az autók gyártmánya, modellje, évjárata. Ezt az algoritmust alkalmaztuk a Google több millió utcaképére amerikai városok százairól és valami igazán érdekeset tapasztaltunk: először is, alátámasztotta a mindennapi bölcsességünket, hogy a kocsiárak nagyon szoros összefüggésben vannak a háztartási jövedelmekkel. De meglepő módon, szoros összefüggésben vannak a bűnözési rátával a városokban, valamint az irányítószámok szerinti szavazási mintákkal. Na, álljunk csak meg egy percre!. Mi történik itt? A számítógép már elérte vagy még felül is múlta az emberi képességeket? Azért csak lassan a testtel! Mindeddig, csak azt tanítottuk meg a számítógépeknek, hogy lássák a tárgyakat. Ez olyan, mint amikor egy kis gyermek megtanul kimondani néhány főnevet. Ez egy hihetetlen teljesítmény, de csak az első lépés. Nemsokára elérünk a fejlődés egy másik mérföldkövéhez, és a gyerekek elkezdenek mondatokban kommunikálni. Így ahelyett, hogy "ez egy macska a képen", már azt hallották a kislánytól, hogy "egy macska fekszik egy ágyon". Ahhoz, hogy egy számítógépet megtanítsunk képeket látni és mondatokat alkotni, a big data technika és a gépi tanulási algoritmusok együttesének eggyel tovább kell lépnie. A számítógépnek képesnek kell lennie mind képekből, mind pedig emberek által alkotott természetes nyelvi mondatokból tanulni. Annak mintájára, ahogy az agy egyesíti a látást a nyelvvel, kifejlesztettünk egy modellt, ami összekapcsolja a látható dolgok részeit vizuális töredékekként, szavakkal és kifejezésekkel a mondatokban. Körülbelül négy hónappal ezelőtt végül mindezt összekötöttük és megalkottuk az első számítógép látómodellek egyikét, amely képes létrehozni egy emberihez hasonló mondatot, amikor először lát egy képet. Nos, készen állok bemutatni önöknek, hogy mit mond a számítógép, amikor látja a képet amit a kislány látott az előadás elején. (Video) Számítógép: Egy férfi áll egy elefánt mellett. Egy nagy repülőgép ül egy reptéri kifutópálya tetején. FFL: Természetesen még sokat kell dolgoznunk az algoritmusunk fejlesztésén, és ez még sokat fog tanulni. (Taps) A számítógép még követ el hibákat. (Videó) Számítógép: Egy macska fekszik egy ágyon egy takaróban. FFL: Így természetesen, amikor túl sok macskát lát, azt gondolja, hogy minden hasonlít egy macskára. (Videó) Számítógép: Egy fiatal fiú tart egy baseball ütőt. (Nevetés) FFL: Vagy, ha ez még nem látott fogkefét, összetéveszti egy baseballütővel. (Videó) Számítógép: Egy férfi lovagol lenn az utcán egy épület mellett. (Nevetés) FFL: Még nem tanítottunk meg a művészet alapjait a számítógépeknek. (Videó) Számítógép: Egy zebra áll egy füves mezőn. FFL: És ez nem tanulta meg értékelni a természet lenyűgöző szépségét mint önök és én. Nos, ez egy hosszú út volt. Nehéz volt eljutni a nullától a három éves korig. Az igazi kihívás a háromtól a tizenháromig jutni és annak a határain is túl. Hadd emlékeztessem önöket a fiúnak és a tortának erre képére. Mindez idáig, megtanítottuk a számítógépet a tárgyakat látni vagy még egyszerű történeteket mondani nekünk, mikor egy meglát egy képet. (Videó) Számítógép: Egy ember ül egy asztalnál egy tortával. FFL: Azonban sokkal több látható ezen a képen, nemcsak egy ember és egy torta. Amit a számítógép nem lát az az, hogy ez egy különleges olasz torta, amit csak Húsvétkor szolgálnak fel. A fiú a kedvenc pólóját viseli, amit apukájától kapott ajándékba egy Sydney-i kirándulás után, és hogy önök és én mindannyian meg látjuk, hogy milyen boldog, és hogy pontosan mi járt a fejében abban a pillanatban. Ez a fiam Leo. A vizuális megértés utáni kutatásom során állandóan Leora gondolok, és a jövőbeni világra, amiben élni fog. Amikor a gépek képesek lesznek látni, az orvosoknak és az ápolóknak lesz egy plusz fáradhatatlan szempárjuk, amely segíteni fog a diagnózisban és a betegeket ellátásában. Az autók intelligensebben és biztonságosabban fognak haladni az úton. A robotok, nem csak az emberek, segíteni fognak nekünk katasztrófák helyszínén a csapdába esettek és sérültek mentésében. Új fajokat, jobb anyagokat fogunk felfedezni, és felfedezünk ismeretlen határterületeket a gépek segítségével. Lassanként, látóképességet adunk a gépeknek. Először megtanítjuk őket látni. Azután ők segítenek nekünk jobban látni. Első alkalommal, nem az emberi szemek lesznek az egyetlenek, melyek elmerengenek és felfedezik a világot. Nem csak az intelligenciájukért fogjuk használni a gépeket, olyan módon is együtt fogunk működni velük, amit még el sem tudunk képzelni. Ez az én küldetésem: vizuális intelligenciát adni a számítógépeknek, és egy jobb jövőt teremteni Leo és világ számára. Köszönöm. (Taps)