Moderování obsahu v roce 2019: Human vs AI

Internet i se všemi pozitivy může být velmi temným a znepokojujícím místem. Štít anonymity umožňuje lidem, aby se chovali určitým způsobem, který by jinak byla posmívat společnosti. Tento článek zkoumá, jaký je aktuální stav způsobů, jak zmírnit urážlivý obsah, a pomáhá vám přijímat informovanější rozhodnutí.

Je rok 2019 a nahráváme a spotřebováváme obsah rychleji než kdykoli předtím. Jen v roce 2017 bylo pořízeno 1,2 bilionu fotografií a on-line bylo sdíleno miliardy - to je v průměru ~ 200 fotografií na osobu za rok (za předpokladu světové populace 7 miliard). Facebook sám má ohromující poměr 300 milionů fotografií, které se každý den nahrávají, a armáda 7 500 moderátorů, kteří se snaží tento obsah moderovat.

Zdroj: BusinessInsider

Porno je všude

S tak obrovským bodcem došlo také k rychlému nárůstu počtu lidí, kteří nahrávají obsah pochybné povahy, a upřímně řečeno, snažíme se ho ovládat. Hlavní sociální sítě navzdory tomu, co si myslíte, že jsou zasaženy obsahem NSFW, jako je porno. Je to hra pro kočky a myši, kde je takový obsah filtrován a uživatelé / hashtagy / skupiny jsou zakázáni, ale stále se vracejí jen chytřeji a tvrději, aby je chytili. Zde je snímek článku hovořící o obskurních arabských hashtagech používaných k sdílení porno na Instagramu.

Zdroj: Daily Express

Vzhledem k tomu, že se většina naší spotřeby obsahu přesouvá do mobilních zařízení, Apple (App Store) a Google (Play Store) jsou strážci obsahu, který sledujeme.

Všichni jsme slyšeli nedávné vydání Apple odebrání aplikace Tumblra z App Store poté, co jsme našli dětskou pornografii, ale je to jen jeden takový příklad platformy, která se snaží zmírnit obsah a potrestat.

Zdroj: The Verge

Tumblr by mohl přežít a správný směr; ale existuje spousta aplikací, které selhaly, protože uživatelé odešli v hordách, protože se stala baštou porna a jiného urážlivého obsahu, který správci nedokázali ovládat.

Proč byste se měli bát? Pokud jste vlastníkem aplikace, která pracuje s obsahem generovaným uživateli nebo UGC, jak je známo, jste potenciálně vystaveni mnoha rizikům, jako jsou reputační, ekonomická nebo dokonce velká právní rizika. (viz: Indie hodí náčelníka Ebay do vězení)

Nejprve ale pochopme, co je považováno za „urážlivé“, abychom to mohli moderovat lépe, protože to není tak jednoduché, jak si myslíte, že si to myslíte.

Definice „urážlivého“ obsahu (?)

Globální kontext

Vlevo: originální obal Shakira Oral Fixation; Vpravo: Stejný kryt na Středním východě

Globální působení a stanovení standardů pro obsah je složité. Většina společností se snaží uvalit stejná pravidla na uživatele pocházející z různých demografií s různou kulturní citlivostí. A tam selhávají.

Společnosti expandující globálně se často potýkají s místní správou, pokud nezohlednily svou místní kulturu. V červenci 2018 indonéská vláda zakázala aplikaci TikTok, populární aplikaci pro tvorbu krátkých hudebních videí. Zde je výňatek z novinového článku o této záležitosti:

Ministerstvo uvedlo, že aplikaci zakázalo, protože obsahuje negativní videa, která jsou považována za nepříznivý vliv na mládež ... má klipy dospívající zapojující se do provokativního chování. Jedno takové video zachycuje tanec dospívajících. Poté se rozřízne na mrtvé tělo, zřejmě na příbuzného mladíka.

Kromě nahoty / porno existují regionální pravidla specifická pro:

  • náboženská nenávistná řeč vyvolávající násilí
  • falešné zprávy a šíření pro politickou agendu
  • pomlouvačný jazyk proti jednotlivci / organizaci

Seznam může pokračovat podle regionu, ve kterém dominujete, a standardů svobody projevu v dané geografii

Zde je výňatek ze stránky Wikipedia pro Orkut - kdysi populární sociální síť:

V roce 2008 společnost Google oznámila, že Orkut bude plně spravován a provozován v Brazílii společností Google Brazil ve městě Belo Horizonte. To bylo rozhodnuto kvůli velké brazilské uživatelské základně a růstu právních otázek

Zvažte to, celé operace sociální sítě se sídlem v USA byly přesunuty do jiné země, aby lépe dodržovaly místní zákony.

Co tvoří nahotu / porno

Dokonce i základní definice toho, co se nazývá „nahota“ nebo „porno“, je vysoce subjektivní a libovolná jako pravidla společnosti. Zvažte Instagram, který umožňuje „mužské bradavky“, ale zakazuje „ženské bradavky“.

Někteří umožňují nahotu v určitých zvláštních případech.

Zvažte Tumblra, který nedávno aktualizoval pravidla pro jeho obsah, až na některé zajímavé výjimky:

Zakázaný obsah zahrnuje fotografie, videa a GIF lidských genitálií, bradavky představující ženy a jakákoli média zahrnující sexuální jednání, včetně ilustrací. Výjimky zahrnují nahé klasické sochy a politické protesty, které mají nahotu. Nové pokyny vylučují text, takže erotika zůstává povolena. Ilustrace a umění, které mají nahotu, jsou stále v pořádku - pokud sexuální akty nejsou zobrazeny - a stejně tak kojení a fotografie po narození

Podívejme se na obsahové pokyny pro další hlavní sociální sítě:

Doufám, že jsem se vyjádřil k tomu, že je opravdu složité vytvářet standardy obsahu kvůli jejich subjektivní povaze.

Předpokládejme tedy, že jste vytvořili širokou první sadu pravidel, která fungují pro vaši aplikaci. Dalším krokem je zaměstnat lidské moderátory, spoléhat se na vaši komunitu, že takový obsah „nahlásí“, nebo je pomocí AI zjistí, nebo je obvykle směsí všech 3.

Pomocí lidských moderátorů

Klíčové otázky, na které musíte odpovědět při zaměstnávání moderátorů, jsou:

Kolik to bude stát? Jaká je propustnost a doba odezvy? Jak obvykle hodnotí video? Jak bude tok vypadat? Jak definujete jasné standardy pro snížení subjektivity, zejména u okrajových případů?

Šli jsme dopředu a oslovili 7 moderátorských outsourcingových agentur a dostali zpět vágní (ano?) Odpovědi od 4 z nich. Obvykle jsou BPO vyzbrojeni stovkami dodavatelů zadávání údajů založených na ekonomice s nízkými mzdami. Jejich odpovědi najdete zde.

Taskus
Scale.ai
Webpurify
Foiwe
Olapic
Assivo
Moderátoři UGC
  1. Náklady :

Cenové odpovědi, které jsme obdrželi.

Moderátoři UGC jsou nejlevnější možností ze 3 pro obrázky v ceně 0,01 $ / obraz.

2. Doba obratu: Webpurify uvádí dobu obratu <2 minuty. Všichni ostatní jsou o tom otevřeni. Při řešení velkých objemů bude muset služba udržovat velkou pracovní sílu moderátorů, aby fungovala téměř v reálném čase, což je pro některé nezbytné.

3. Videa: Webpurify také zmiňuje videozáznamy rychlostí 0,15 $ / minutu.

Další poskytovatel, moderátoři UGC, mají cenu 2 $ / hodinu. Za předpokladu, že mohou zkontrolovat 5 1minutových videí za minutu, to je ~ 0,07 $ / minutu videa

Zvažte to na YouTube, kde se každou minutu nahraje 400 hodin videa. = 2400 minut videa / minutu.
Vynásobte to celkovým počtem minut za rok (60 x 24 x 365) a to je ohromující výdaj ~ 1,2 miliardy dolarů každý rok!
Dokonce i 50% protiplnění za objemové slevy ~ 600 milionů USD.

Subjektivní povaha rozhodování o tom, jaký obsah může zůstat, vyžaduje, aby byl na místě určitý počet lidských moderátorů. Ale jak vidíte, mohou se velmi rychle stát velmi drahými.

Trauma

Důležité je dodat, že práce je velmi znepokojivá a může způsobit trauma u jednotlivců, kteří to dělají den a ven. Bývalá moderátorka obsahu žalovala Facebook s tím, že její PTSD způsobily násilné obrázky. Velký dokument s názvem „Moderátoři“, který ukazuje život některých z těchto jednotlivců:

Dokonce i Facebook se všemi jeho ironickými úpravami je stále vystaven riziku právních postupů kvůli „nelidským“ pracovním postupům. Výňatek ze stejného článku New York Times:

"Chodili byste do práce každé ráno v 9 hodin, zapněte počítač a sledujte, jak má někdo uříznutou hlavu," řekl muž, který se rozhodl zůstat anonymní, ale byl citován v soudním řízení, řekl loni The Guardian. "Každý den, každou minutu, to je to, co vidíš." Odříznuté hlavy. “

Je to těžká práce.

Přesnost

Přes stanovení jasných pokynů mohou být lidští moderátoři stále náchylní k chybám, protože se očekává, že budou pracovat rychle, aby zvládli vysoký objem a splnili definovanou SLA. Očekává se, že moderátor z agentury, se kterou jsme hovořili v Indii, rychle moderuje videa 10-15 <1 minuta za minutu.

Bojují zejména na okrajových případech a nakonec se dopouštějí spousty falešných pozitiv, tj. Nazývají něco porno, které není. To může nakonec omezit svobodu slova, kterou některé z těchto platforem stojí, a uživatelé se mohou vzbouřit kvůli dvojím standardům.

Zdroj: The Mic

Stručně řečeno, lidskými moderátory jsou:

  • Od nynějška nevyhnutelné kvůli subjektivní povaze obsahu
  • Drahé, zejména když měníte měřítko
  • Náchylný k traumatu
  • Náchylné k chybám, zejména pokud jsou objemy vysoké a na okrajích

Je tedy opravdu důležité sledovat, zda vaši moderátoři fungují uspokojivě.

Metriky ke sledování výkonu moderátora

Jedná se o metriky, které byste měli obvykle sledovat, abyste viděli, jak si vedou jednotliví moderátoři, i když si můžete na základě svých obchodních požadavků osvojit různé metriky. Metriky jsou inspirovány umělou inteligencí a zdůrazňují dvě věci, které mohou nejvíce ublížit:

Falešná pozitiva

Volání něčeho „porno“, které není „porno“

Falešné negativy

Volám něco „ne porno“, ale je to porno (nejvíce ho bolí!)

Přesnost

Počet správně identifikovaných obrázků (Porno je porno, Bezpečné je bezpečné). Další zdravotní metriku, kterou musíte sledovat, abyste se ujistili, že jste na správné cestě.

Přesnost

Počet identifikovaných pornografických obrázků ve skutečnosti porno. Čím vyšší, tím lepší.

Pokud podnikáte, kde je svoboda projevu / projevu kritická (například Reddit), musíte se ujistit, že moderátoři neoznačují žádný obrázek, který dodržuje pravidla, jako „není bezpečný“. Vaše nejdůležitější metrika je tedy přesnost.

Odvolání

Na celkových pornografických snímcích kolik jich zjistili. Čím vyšší, tím lepší.

Pokud máte firmu, ve které musíte uspokojit své publikum, zdravý vhodný obsah pro prohlížení rodiny, musíte se ujistit, že žádný obrázek, který nedodržuje pravidla, neprochází vašimi filtry. Vaším nejdůležitějším ukazatelem je Recall.

Skóre F-1

Zdravější metrika včetně přesnosti a vyvolání. Čím vyšší, tím lepší.

Pokud potřebujete být prostřední linií mezi nebráněním svobody slova a prosazováním přísných pravidel, skóre F1 je vaše metrika ke sledování.

Jak je vypočítáte:

Zde je vývojový diagram, který vám pomůže lépe porozumět terminologii:

Kontrolou náhodného% vzorku každodenní práce každého moderátora a stanovením referenčních hodnot si můžete nechat zkontrolovat jejich výkon.

Také jsme si všimli, že označování podkategorie vyřazeného příspěvku (Gore, Suggestivní nahota, Explicitní nahota, Drogy atd.) A sledování metrik v těchto kategoriích je mnohem důkladnější při plánování vašich budoucích vzdělávacích programů.

Použití umělé inteligence

Na trhu existuje více komerčních API, která detekují obsah NSFW.

Tato rozhraní API využívají hluboké neuronové sítě a poskytují strojové učení jako službu k moderování obsahu na uživatelské platformě, která primárně detekuje nahotu, pornografii (sexuální akty) a gore. Klíčové otázky, na které je třeba odpovědět při výběru rozhraní API, jsou:

Kolik to bude stát? Jaká je doba odezvy? Jaké metriky používáte k hodnocení jejich výkonu? Jaký je čas nastavení a integrace?

Porovnali jsme následující API:

Amazonka
Clarifai
DeepAI
Google
Microsoft
Nudedetect
Nanonety
Picpurify
Zaměřovač

Náklady

Kolik stojí za obrázek:

Nanonety mají nejnižší cenu 0,0009 USD / obrázek a Amazon & Microsoft za 0,001 USD / obrázek.

Vykreslení:

Ceny za API

Průměrná cena za obrázek vyjde ~ 0,001 $

Porovnáním toho s nejlevnější cenou pro lidské moderátory, která je 0,01 $. Lidští moderátoři mají 10x vyšší cenu než poskytovatelé AI API! Vizualizace pomocí grafu:

Metriky

Metriky k vyhodnocení zůstávají stejné jako u lidských moderátorů: přesnost, přesnost, vyvolání a F1. Existuje skvělý článek, který poskytuje srovnání nejlepších NSFW Image Moderation API od roku 2018 podle těchto metrik.

Nastavení a integrace

Většina těchto rozhraní API je hostovaná na webu a snadno se integruje.

Obvykle mají několik řádků kódu, které je třeba integrovat a předat adresu URL obrázku nebo bajty (surový soubor).

Nanonety poskytují další výhodu generování obrazu doku pro váš model a jeho hostování na serveru.

sudo nvidia-docker run -p 8081: 8080 docker.nanonets.com/{{model_id}}:gpu

Ukázkový řádek k kódu pro spuštění modelu v kontejneru s ukotvitelnou linkou.

Doba odezvy

Většina API slibuje dobu odezvy 200 - 300 stovek milisekund. To však nezahrnuje cestovní dobu mezi servery a může se také lišit v závislosti na velikosti obrázku, který odesíláte. Měli byste tedy pravděpodobně chtít, aby váš poskytovatel měl ve vaší oblasti server pro rychlou dobu odezvy, nebo prostě použijte ukotvovací službu Nanonets a nasaďte ji přímo na místě.

Porovnejte to se službou Human Moderování společnosti Webpurify, která slibuje dobu odezvy <2 minuty. Ve srovnání s API je to 10x doba odezvy!

Abychom to dobře shrnuli, API založená na strojovém učení ve srovnání s lidskými moderátory jsou:

  • Levnější
  • Rychleji
  • Snadnější měřítko
  • Stroje nečelí traumatu (!)

Takže stroje jsou pro tuto práci rozhodně mnohem vhodnější než lidé.

Tak proč stále potřebujeme lidské moderátory?

Odpověď na to zní, že stroje stále nejsou vhodné pro zvládnutí subjektivity a lze je snadno oklamat.

  1. Rasová zaujatost

Zvažte následující obrázek:

Zde můžete vidět původní obrázek. VAROVÁNÍ: Je to explicitní

Vyzkoušeli jsme výše uvedený obrázek se 2 výše uvedenými službami:

Clarifai

Clarifai to špatně klasifikoval jako SFW s 91% důvěrou

Picpurify

Picpurify nesprávně klasifikovat jako SFW

Co se tady stalo? Vzory a průhlednost ženských šatů zmatily neuronové sítě a nedokázali klasifikovat obraz jako NSFW nebo poskytli úplně jinou předpověď.

Nedostatek údajů o školení nahých japonských žen v tradičním kimonu může vést k takovému zkreslení pro tato API, která se většinou opírají o USA a Evropu, a vyškolují své sítě na většině obrazů jednotlivců většinového etnika ve svém regionu. Takže pokud máte uživatele mimo tyto regiony a nahráváte místní porno (nebo jiný urážlivý obsah), většina API připravených k použití zde nemusí příliš pomoci.

2. Společenský kontext

Jak je prozkoumáno výše, v čem je v jednom regionu v pořádku, je možné se potýkat v jiném regionu. Vzhledem k tomu, že většina poskytovatelů API AI pochází ze západních regionů, obvykle nejsou naladěni v konzervativnějších částech světa. Otázka, co je pro vás NSFW, je velmi specifická pro vás, vaši demografickou skupinu uživatelů a oblasti, ve kterých působíte. Je jasné, že rozhraní API připravené k použití není odpovědí, a tedy ani potřeba lidských moderátorů.

Fotoalbum obálky Ariana Grande s cílem dodržovat skromné ​​zákony v Íránu a Saúdské Arábii (zdroj: Petapixel)

3. Jedna velikost neodpovídá všem

Většina poskytovatelů API dává skóre toho, zda je obraz přijatelný, nebo jej může navíc označit podle svých předem zvolených metaznaček. Amazon značí obrázky takto:

Nyní můžete mít své vlastní značky, které můžete vytvořit na základě výklenku, který obsluhujete a které patří mezi tyto kategorie. Nemáte na to možnost. Značkování (což je páteř doporučení) je chléb a máslo většiny sociálních aplikací UGC dnes a pokud používáte některou z rozhraní API připravených k použití, uvíznete v předdefinovaných značkách.

Jak snížit závislost na lidských moderátorech

Neustálým přeškolováním modelů k identifikaci chybějících mezer je způsob, jak snížit lidskou závislost. Rekvalifikace v zásadě znamená přidání vašeho specifického souboru dat NSFW a zaškolení „na vrcholu“ již existujícího modelu. Tímto způsobem se model stále zlepšuje v identifikaci věcí, které dříve chyběly.

Řekněme například, že na vaší platformě jsou obrázky, které jsou antisemitské povahy a chcete je zakázat, abyste zajistili prostředí bez nenávisti. Vámi vybraný poskytovatel API tyto obrazy v současné době nefiltruje a vy si přejete vytvořit datovou sadu těchto antisemitických obrazů, která by odpovídala typickému vzoru. Můžete vytvořit datový soubor těchto obrazů a znovu trénovat na vrcholu již existujícího modelu, aby je mohl začít klasifikovat jako „nebezpečný“.

Ale většina poskytovatelů API vám to nedovolí, nebo je to zahrnuto v jejich „Enterprise“ vrstvě.

Zadejte nanonety

My v Nanonets si uvědomujeme tento konkrétní problém a přidali jsme tuto funkci pro přidání vlastních obrázků a definování vašich dalších značek na našem modelu moderování obsahu, abyste mohli vylepšit celkovou přesnost pro VÁS.

Vylepšete přesnost našeho hostovaného modelu na webu app.nanonets.com

Pomocí transferového učení trénujeme model, který se učí z vašich dat a přizpůsobuje se vašim potřebám.

Případová studie: Největší indická sociální síť

Problém

Měli jsme největší indickou místní sociální síť s více než 50 miliony aktivních uživatelů měsíčně, kteří k nám přicházejí s velmi specifickým problémem. Jejich vybraný poskytovatel API dělal chyby při odesílání indických obrázků. Přesnost jejich předchozího poskytovatele byla u takových obrázků ~ 72%.

Proč jejich stávající řešení nefungovalo?

Model ML je pouze tak dobrý jako data, kterým je vystaven. Většina současných dostupných moderovacích modelů byla vyškolena na obecných datech. Nepodaří se jim tedy předpovídat obsah vytvářený uživateli místně pomocí nízko kvalitních kamer na levných smartphonech ve venkovské Indii.

Tyto obrázky se velmi liší obsahem, barvou pleti, kamerou atd., Než jsou veřejně dostupné obrázky, které lze najít ve vyhledávači podle vašeho výběru nebo v jakémkoli veřejně dostupném datovém souboru.

Řešení:

Zeptali jsme se firmy na jejich požadované úrovně citlivosti pro demografické skupiny uživatelů, které obsluhují, a asi 10 000 obrázků - pozitivních i negativních vzorků.

Tato data jsme použili pro trénink nového modelu na vrcholu našeho již existujícího modelu. To nám umožnilo doladit citlivost a vystavit model obsahu specifickému pro jejich platformu.

Výsledek:

Nyní jsme měli model, jehož přesnost se zlepšila o více než 23% a skočila na ~ 95%! Celé cvičení od definování problémového prohlášení po sdílení dat a nakonec dodání modelu trvalo méně než 1 měsíc.

přesnost se zvýšila o více než 23% a přeskočila na ~ 95%!

Schopnost vyladit naše modely pro konkrétní demografii a definice NSFW umožňuje, aby byl mnohem silnější a zběhlejší při řešení tohoto problému.