Dr. Epstein, Politična pristranskost in rezultati iskanja v Googlu

Nekoliko me zmedejo trditve dr. Roberta Epsteina in njegova trditev, ki temelji na eni sami študiji 95 udeležencev, da je Google nekako namerno pristransko kazal rezultate pred ameriškimi predsedniškimi volitvami leta 2016. Zato je verjetno vplival na same volilne rezultate.

To je a ogromno trditev. Upali bi, da bo cenjeni raziskovalec, kot je dr. Epstein, imel znanstvene podatke, da jih bo podkrepil. Na žalost tega ne vidim.

Znanost je objektivna le do trenutka, ko znanstvenik prizna in objavi svoje lastne pristranskosti. Znanost ne temelji na vnaprej določenem dnevnem redu ali poskusu poravnave rezultata. Nisem prepričan, da je dr. Epstein v svojem navideznem lovu na čarovnice obdržal lastne pristranskosti, da bi uničil Google zaradi ponujanja "pristranskih" rezultatov iskanja.

Iskalniki so bili vedno pristranski

Google je vedno ponudil pristranske rezultate iskanja. Če tega ne razumete ima v primeru katerega koli iskalnika boste morda potrebovali kratek osvežitveni tečaj o delovanju iskalnikov.

Nepristranski rezultati iskanja ne obstajajo. Vsi iskalniki uporabljajo lastniške algoritme s poslovno skrivnostjo, da si zagotovite, da vidite, kaj podjetje, ki meni, da iskalniki omogoča najboljše rezultate. "Best" je - od začetka spletnih iskalnikov v zgodnjih devetdesetih letih - vedno bil subjektivni izraz. Ni enotne ciljne razvrstitve spletnih mest, ki pravi: "Vedno najprej prikaži to spletno mesto za to iskalno poizvedbo, ker je to očitno najboljši rezultat."

In uganite kaj - ljudje imajo radi to! Zato je Google na vrhu kupa iskalnikov, saj res ponuja rezultate, ki so očitno najbolj pomembni za večino ljudi. V trenutku, ko Google neha ponujati tako ustrezne rezultate, bo novi iskalnik lahko in bo zasedel njegovo mesto. (Se kdo spomni Alte Viste, Excite ali celo Yahooja? [In ne, Yahoo ne išče več - njegove rezultate zagotavlja Bing.])

Kako je videti pristranskost v rezultatih iskalnikov?

Številni ne vedo, da iskalniki ne prikažejo enakih rezultatov na isto poizvedbo, ki sta jo postavili dve različni osebi. Večina iskalnikov, vključno z Googlom, uporablja zapletene dejavnike personalizacije in psihografski profil, da bi nadalje razvrščala in predstavila rezultate, za katere meni, da so za vas najpomembnejše.

V praksi to pomeni, da lahko moje iskanje »simptomov depresije« vrne drugačen nabor rezultatov kot vaše iskanje z enakimi izrazi. Če tega v svoji metodologiji ne boste natančno nadzorovali, bodo vaši rezultati nesmiselni in umazani.

Epstein in Robertson (2015) sta v seriji laboratorijskih (ne iz resničnih) eksperimentov ugotovila, da so lahko v kratkem času, ko so umetno manipulirali z rezultati strani iskalnikov, vplivali na volilne želje subjektov. Ni raziskal nobene dejanske strani iskalnika. In ni upošteval postavitve in sestave sodobnih strani z rezultati iskalnikov. Prave strani z rezultati iskanja imajo več oglasov (ki jih lahko kupi vsak) na vrhu strani pred kakršnimi koli organskimi rezultati.

Rezultati teh raziskovalcev niso presenetljivi, saj odmevajo, kar bi vam povedal vsak strokovnjak za optimizacijo iskalnikov - postavite zadeve na stran z rezultati iskalnika. Spletna mesta dobijo na tone več prometa, če so na 1. strani, 2. ali 3. v primerjavi s št. 9 - ali še slabše, na drugi strani z rezultati.

V drugem laboratorijskem poskusu je isti raziskovalec demonstriral metode (spet z uporabo povsem lažnega iskalnika - ne Googla), pri katerem bi lahko učinek, ki so ga ustvarili - učinek iskalnega mehanizma (SEME) - zatrli (s pravočasnimi opozorili, prikazanimi uporabnikom ).

Google pomagal Hillary zmagati?

Leta 2017 se Epstein in Robertson nista več zadovoljila z dokazovanjem očitnega - da so uvrstitvena mesta pomembna na straneh z rezultati iskalnikov. Naredili so še korak naprej in leta 2016 izvedli študijo 95 Američanov (le 21 jih je bilo na prihajajočih predsedniških volitvah opredeljenih kot "neodločenih") in njihovih iskalnih navad.

V beli knjigi, objavljeni samo na njihovi spletni strani, Epstein & Robertson izredno trdi:

[… W] Ugotovili smo, da so bili rezultati iskanja, prikazani kot odgovor na široko paleto iskalnih izrazov, povezanih z volitvami, med majem in novembrom 2016 v povprečju pristranski v prid gospe Clinton na vseh 10 položajih z rezultati iskanja.

Objavljeno kot "bela knjiga" in ne kot recenzirana študija revije, je to vzbudilo kup rdečih zastav.1

V študiji je bilo malo pojasnjeno o metodologiji. To ne vključuje nobenih informacij o tem, kaj je bilo storjeno za omejitev personalizacije rezultatov iskanja (ker želite nadzorovati to neodvisno spremenljivko), niti o tem, katere iskalne izraze so dejansko uporabili.Pravzaprav ob branju dveh prejšnjih študij, ki so jih objavili ti raziskovalci, sploh ni jasno, da se zavedajo, kako iskalniki delujejo glede na njihove strategije monetizacije, tedenske spremembe algoritmov, ki jih uporabljajo, in prilagajanje rezultatov iskanja.

Po mojem mnenju je v prizadevanjih raziskovalca tudi nekaj očitne površnosti. Za posebno 25-dnevno obdobje, ki so ga preučevali v študiji, ni utemeljitve glede na katero koli drugo časovno obdobje. In pravzaprav priznavajo, da v resnici niso pogledali vsega od blizu večino podatkovnih točk, ki so jih zbrali. Raziskovalci so prezrli sedemmesečne raziskovalne podatke, da bi se osredotočili le na tri tedne pred volitvami

Odločili so se tudi post-hoc, da bodo zaradi nepravilnosti v teh podatkih zavrgli vse podatke, ki temeljijo na Gmail.com. Te anomalije slučajno niso pokazale takšne pristranskosti, ki so jo pripisovali bodisi naboru "botov" ali - počakajte na to - namerni sabotaži s strani Googla.

Ker obstaja velika večina zakonitih uporabnikov, ki uporabljajo Gmail, se zdi, da so te utemeljitve za odstranjevanje vseh podatkov, pridobljenih iz storitve Gmail.com, v najboljšem primeru vprašljive. Po mojem mnenju je bila sprejeta grozljiva raziskovalna odločitev, toda tista, ki je po naključju tudi zagotovila, da so raziskovalci našli pomembnost v svojih podatkih.

Ampak tukaj je pravi udarec:

Izvleček iz matematike, predstavljene v tem poročilu, je v člankih, objavljenih februarja 2016, nato vodilni avtor študije PNAS napovedal, da bo proklintonovska pristranskost v Googlovih rezultatih iskanja sčasoma vsaj 2,6 milijona glasov preusmerila na Clintonovo.

V njihovi beli knjigi ni nič matematike. Tam so kup opisnih statističnih podatkov, vendar ti statistični podatki komaj govorijo o tem, kakšne postopke ali modeliranje so raziskovalci dejansko uporabljali, da so prišli do zaključkov, ki so jih storili.

"Dokazi sistematične pristranskosti na predsedniških volitvah leta 2016?" Majhno vzorčenje podatkov o modeliranju na podlagi 95 Američanov (minus uporabniki storitve Gmail.com, katerih podatke so pošiljali post-hoc).

Skratka, po mojem mnenju je to točno takšna nesramna, senčna, grozljivo zasnovana raziskava, ki je danes "dokaz". Zakaj bi raziskovalci izvedli tako na videz politično pristransko študijo in prišli do zaključkov, za katere nimajo dejanskih neposrednih dokazov? 3

Morda obstaja sekira za mletje?

Raziskovalci so ljudje. In ljudje imajo včasih sekiro za brušenje. Ni vam treba iti daleč, da bi našli eno od možnih Epsteinovih osi.

Pred letom 2012 Epstein ni kazal veliko zanimanja za iskalnike ali njihovo delovanje. Objavljal je najrazličnejše teme o psihologiji, odnosih in duševnem zdravju ter o njih pisal za običajne spletne strani.

Nato je bilo v začetku leta 2012 osebno spletno mesto Epsteina prejemnik opozorila o zlonamerni programski opremi, ki se je pojavilo, ko so uporabniki poskušali do njegovega spletnega mesta dostopati iz Googla. Google ta opozorila prikaže, da uporabnike usmerja stran od potencialno zlonamernih spletnih mest.

A ta incident se je Epsteinu očitno na nek način zlezel pod kožo, ker nenadoma jeseni 2012 piše več člankov o potrebi po regulaciji Googla. To od raziskovalca, ki še nikoli ni napisal niti ene besede o iskalnikih. Čas se mi zdi zanimiv.

Skratka, Epstein se zadnjih sedem let zavzema za ureditev zvezne vlade glede Googla. Ne bi si bilo težko predstavljati hipotetičnega raziskovalca, ki bi oblikoval študije, ki bi podprle njeno ali njegovo prepričanje.

Povzetek pristranskosti iskalnika

Iskalniki so bili vedno pristranski in vedno bodo, ker so subjektivna orodja, ki uporabnikom pomagajo pri informacijah ali zabavi. V trenutku, ko hoče velika vlada začeti nadzirati moje rezultate iskanja, se obrnem na iskalnik, kjer takšno vladno filtriranje ni izvedeno.

Prav tako pomaga imeti v mislih hipotetično vmešavanje v primerjavi z resničnim vmešavanjem v ameriško politiko. Medtem ko Epstein nakazuje, da Google manipulira s svojimi političnimi rezultati iskanja, da bi favoriziral kandidate, za katere želi, da so izvoljeni na funkcije, imamo dejanski dokaz, da Facebook manipulira s predsedniškimi volitvami leta 2016 prek organizacij, ki jih sponzorira Rusija, in kupuje milijone dolarjev lažnega oglaševanja na svoji platformi.

Zanimivo je, da se zdi, da Epsteina to ne zanima veliko. Morda je to zato, ker mu Facebook ni nikoli storil krivice, kot je nekoč Google.

Za več informacij

Politifact: Donald Trump se je pri Googlu zmotil pri manipulaciji z volilnimi rezultati

Reference

Epstein in Robertson. (2017). Zatiranje učinka manipulacije iskalnika (SEME). Proc. ACM Hum.-Comput. Interakcija., 1 (2), 42.

Epstein in Robertson. (2017). Metoda za odkrivanje pristranskosti na lestvici iskanja z dokazi o sistematični pristranskosti, povezani s predsedniškimi volitvami leta 2016. Bela knjiga, ki jo je objavila AIBRT, Epsteinova organizacija.

Epstein in Robertson. (2015). Učinek manipulacije z iskalniki (SEME) in njegov možni vpliv na izid volitev. PNAS, 10.1073 / str.1419828112

Opombe:

  1. Na vprašanje o pomanjkanju strokovno pregledanih študij mi je Epstein odgovoril: "Imam tudi tako nujne kot količinske težave: toliko različnih študij o novih oblikah spletnega vpliva sem zaključil ali jih že imam v teku (študiram sedem različnih vrst vpliva - SEME in šest drugih), da sem se odločil strniti svoje ugotovitve v konferenčnih prispevkih, belih knjigah in na neki točki tudi v knjižni obliki, namesto da bi porabil tisto malo časa, ki mi ostane boleče počasen proces akademskih publikacij. Ko naletim na drugo novo obliko spletnega vpliva, mi traja vsaj leto ali dve, da jo razumem in ovrednotim. (Nisem niti pričel s poskusi pol ducata novih oblik vpliva, ki jih poznam.) Dodati še eno leto ali dve temu postopku za objavo v reviji se zdi nesmiselno glede na mojo starost in glede na to, kako potencialno pomembna so ta odkritja za človeštvo. " [↩]
  2. Raziskovalci so trdili, da je to posledica tega, kar so po njihovem mnenju zaposlovali in izpopolnjevali svoje postopke. Kar postavlja vprašanje - ali ne bi bilo treba njihove postopke najprej izpopolniti v pilotski študiji, kot bi to storila večina raziskovalcev? [↩]
  3. Če pa želite biti pedantni, v 25 dneh imejte na voljo majhen dokaz, ki temelji na majhnem vzorcu le 95 iskanj uporabnikov - minus nekaj predmetov Gmail.com. [↩]

!-- GDPR -->