Veliki podatki lahko pomagajo računalnikom ID Čustva, vezana na slike
Priljubljena spletna mesta, kot sta Twitter in Facebook ter drugi kanali, so zdaj napolnjena s slikami, ki človeku pomagajo bolje izražati misli in občutke. Nove raziskave kažejo, da lahko "velike podatke" - vsako tako veliko ali zapleteno zbirko podatkov, ki jo je težko obdelati z uporabo tradicionalnih aplikacij za obdelavo podatkov - uporabimo za učenje računalnikov pri interpretaciji vsebine in občutkov, povezanih s slikami.
Dr. Jiebo Luo, profesor računalništva na Univerzi v Rochesterju, je v sodelovanju z raziskovalci pri Adobe Research nedavno na konferenci Ameriškega združenja za umetno inteligenco (AAAI) predstavil članek, ki opisuje postopno usposabljanje globokih konvolucijskih nevronskih mrež (CNN). .
Nato se s pomočjo usposobljenega računalnika lahko določi, kakšne občutke bodo te slike verjetno vzbudile. Luo pravi, da bi bile te informacije lahko koristne za tako raznolike stvari, kot so merjenje ekonomskih kazalcev ali napovedovanje volitev.
Naloga pa je zapletena. Računalniška analiza sentimenta besedila je sama po sebi zahtevna naloga. V družabnih medijih je analiza sentimenta bolj zapletena, ker se veliko ljudi izraža s slikami in videoposnetki, ki jih računalnik težje razume.
Na primer, med politično kampanjo volivci pogosto delijo svoja stališča s slikami.
Dve različni sliki lahko prikazujeta istega kandidata, morda pa dajeta zelo različne politične izjave. Človek lahko enega prepozna kot pozitiven portret kandidata (npr. Kandidat se nasmehne in dvigne roke), drugega pa negativnega (npr. Slika kandidata, ki je videti poražen).
Toda noben človek ni mogel pogledati vsake slike, ki jo delijo v družabnih omrežjih - to so resnično "veliki podatki". Da bi lahko informirani ugibali o priljubljenosti kandidata, je treba računalnike usposobiti za prebavo teh podatkov, kar lahko Luo in pristop njegovih sodelavcev naredijo natančneje, kot je bilo mogoče do zdaj.
Raziskovalci nalogo pridobivanja čustev iz slik obravnavajo kot problem klasifikacije slik. To pomeni, da je treba nekako analizirati vsako sliko in nanjo nalepiti nalepke.
Za začetek procesa usposabljanja so Luo in njegovi sodelavci uporabili ogromno slik Flickr, ki jih je strojni algoritem s posebnimi občutki ohlapno označil v obstoječi bazi podatkov, znani kot SentiBank (ki jo je razvila skupina dr. Shih-Fu Chang iz Kolumbije Univerza).
To daje računalniku izhodišče, da začne razumeti, kaj lahko sporočajo nekatere slike.
Toda strojno ustvarjene nalepke vključujejo tudi verjetnost, da je ta nalepka resnična, torej koliko je računalnik prepričan, da je nalepka pravilna?
Ključni korak vadbenega procesa je naslednji, ko zavržejo vse slike, za katere sentiment ali čustva, s katerimi so bili označeni, morda ne držijo. Zato za nadaljnje usposabljanje v okviru močne konvolucijske nevronske mreže uporabljajo samo "bolje" označene slike za nadaljnje usposabljanje.
Resaercher je ugotovil, da je ta dodatni korak bistveno izboljšal natančnost občutkov, s katerimi je označena vsaka slika.
Ta motor za analizo sentimenta so prilagodili tudi z nekaj slikami, pridobljenimi s Twitterja. V tem primeru so uporabili "množično inteligenco", pri čemer je več ljudi pomagalo kategorizirati slike prek platforme Amazon Mechanical Turk.
Za natančno uglaševanje računalnika so uporabili le majhno število slik, vendar so z uporabo tega postopka prilagajanja domene pokazali, da lahko izboljšajo trenutno najsodobnejše metode za analizo sentimenta na Twitter slikah.
Presenetljiva ugotovitev je, da je natančnost klasifikacije sentimenta slike presegla točnost klasifikacije besedilnih sentimentov v istih sporočilih na Twitterju.
Vir: Univerza v Rochesterju