A legérdekesebb OpenAI projektek

2021. febr. 5.

A mesterséges intelligencia rendkívül sok kedvező lehetőséget kínál és továbbfejlesztésével még több hasznot remélünk tőle. Különböző módszerekkel, pl. deep learning technológiákat alkalmazva pedig egyre gördülékenyebbé válik a fejlesztése, ezáltal egyre közelebb kerül az emberi szintű gondolkodás elsajátításához.

Bár az emberi szint elérésénél még nem tart a technológia, számos tudós, köztük Stephen Hawking is az aggodalmát fejezte ki vele kapcsolatban, ugyanis szerintük az emberi létre fenyegetést jelenthet, ha a mesterséges intelligencia képes lesz önmagát létrehozni, újratervezni. Emellett belátható, hogy aki elsőként fejleszti ki az emberi szintű mesterséges intelligenciát, az hatalmas előnyre tesz szert a többiekkel szemben. Így az adott vállalat vagy állam MI szuperhatalommá válhatna, amit mások kárára vethetne be, de már az ezáltal járó gazdasági előny is súlyos konfliktusokhoz vezethetne.

A 2015-ben alapított OpenAI nonprofit kutatóközpont küldetése a fentiek elkerülése, ennek érdekében pedig a mesterséges intelligencia általánosan elérhető tömegtermékké tétele. „A rossz célokra használt MI ellen a legjobb védekezés, ha mindenkinek biztosítjuk a hozzáférést az AI-hoz.” – nyilatkozta Elon Musk a vállalkozás kezdeti elnöke. A platformjukon nyílt forráskódok közzétételével biztosítják a hozzáférhetőséget, céljuk, hogy az emberiség minden szempontból a lehető legtöbbet profitálja a mesterséges intelligencia alkalmazásával.

A honlapjukon található megoldások szabadon felhasználhatóak más üzleti rendszerekhez való integrációban is, az ilyen projektekben a Régens szívesen támogatja ügyfeleit. Ezek közül a megoldások közül néhányat részletesebben is bemutatunk a továbbiakban.

GPT-2

A GPT-2 egy nyelvi modell, amely összefüggő szöveget tud generálni. Kifejlesztése felügyeletlen zero-shot tanulással történt, mely során több, mint 8 millió weboldal tartalmán tanították, hogy képes legyen egy adott szövegnek a következő szavát kikövetkeztetni. A zero-shot tanulás során a fejlesztők a modellt nem tanítják konkrét feladatok elvégzésére, a modellnek csak egy adott feladat elvégzése után adnak visszajelzést a sikeréről. Ennek ellenére a GPT-2 mindenféle finomhangolás nélkül is képes új szöveget generálni egy adott szövegrészlet folytatásaként, továbbá szövegértésre, szövegösszefoglalók írására, kérdések megválaszolására, nyelvek közti fordításra is alkalmazható. Emellett arra is ügyel, hogy az általa alkotott szöveg stílusa és tartalma azonos legyen a kezdeti szöveg tulajdonságaival, így a felhasználók összefüggő, realisztikus szöveghez juthatnak. Előfordulhat néha, hogy nem releváns információt ír, vagy témát vált indokolatlanul, ezek kiküszöbölésére aktív kutatások folynak.

A felsorolt hasznos alkalmazási módok hozzájárulhatnak a chatbotok és virtuális asszisztensek, valamint beszédfelismerők fejlődéséhez is. Ezeken kívül a GPT-2 azonban könnyen rosszindulatú célokra is felhasználható, például álhírek vagy sértő megnyilvánulások generálására, ezért az OpenAI nem teszi közzé a kiképzett modellt, a kiképzés kódját és a használt adatbázist sem, csak egy jóval kisebb, ám kutatásokhoz szintúgy jól használható verziót.

Image GPT

Az Image GPT működési elve a GTP-3 nyelvi modellhez hasonló, az alapja ugyanaz: előképzés során hatalmas mennyiségű adatot megvizsgálva, bizonyos mintázatokat, ismétlődéseket felismerve és megtanulva a modell képessé válik kikövetkeztetni egy szöveg következő szavát. A szavaknak az Image GPT esetében a képek pixelei felelnek meg.  Ezáltal a modell magától tud képeket generálni a pixelek egymás után rendezésével, akár teljesen újakat, vagy egy megadott képet kiegészíteni. Az alábbi képen láthatunk a kép kiegészítésre egy példát, ahol a bal oldalon a megadott fél kép, a jobb oldalon az eredeti kép látható, a kettő közt pedig az Image GTP által generált kiegészített képek. (forrás: openai.com)

 

Habár a modell dolgának megkönnyítése érdekében az eredeti képek minőségét csökkenteni kell, láthatóan jó munkát végez, mert a fentebb leírt, nyelvi modellekhez is használatos deep learning tanulási módszer képekre, pixelekre is alkalmazható. Az Image GPT forráskódja nyíltan elérhető az OpenAI weboldalán.

DALL-E

A DALL-E a GPT-2-hoz és az Image GPT-hez hasonló nyelvi modell, amely szöveges leírások alapján állít össze képeket, szöveg-kép párosításokat használva. A leírás bármit tartalmazhat, a program pedig ez alapján több képet is generál. A DALL-E nevéhez hűen szürreális képeket tud alkotni, akárcsak a festő, Salvador Dalí. Például az „illusztráció egy bébi jégcsapretekről, aki tütüben kutyát sétáltat” bemenetre többek közt az alábbi képek születtek: (forrás: openai.com)

 

Az OpenAI szerint DALL-E rendelkezik a 3D renderelő szoftverek képességeinek egy részével, így a szöveges leírás alapján rögtön egy kész képet kaphatunk, ami számos területen hasznosítható. Építészek például épületek terveinek bemutatására, archeológusok ősi leletek modellezéséhez használhatják. Emellett tökéletes megoldást jelent animációk készítéséhez, mely a filmiparban vagy az oktatásban könnyen hasznosítható. Designerek vagy valójában bárki ötleteket meríthet a DALL-E által generált képekből, amiből érdekes design elemek, plakátok, ötletek születhetnek. 

CLIP

A CLIP egy neurális hálózat, amely képes képeket megadott kategóriák szerint rendezni. A többi képfelismerőhöz viszonyítva előnye, hogy előképzése során több mint 400 millió internetről származó képen tanították, hosszabb képleírások, nem csak egyszavas címkék szerint. Így nem csak azokkal a címkékkel tud dolgozni, amelyeken képezve volt, hanem még sosem látottakkal is. A felhasználónak csak meg kell adni a címkéket ami alapján osztályozni szeretné a képeket, a CLIP pedig az előzetes tudása alapján választja ki, hogy az melyik osztályba illik leginkább, akárcsak azt kérdeznénk tőle, hogy melyik leírás illik legjobban a képre.

A képek efféle osztályozása a keresésüket egyszerűsítheti, ha pl. egy vállalatnál a dokumentumokban található képeket osztályozzuk, akkor pl. tervrajzok, diagramok szerint tudunk keresni. A CLIP forráskódja nyíltan elérhető az OpenAI weboldalán.

MuseNet

A MuseNet olyan deep learning neurális hálózat, mely képes akár 4 perces zeneszámot komponálni, 10 választható hangszerrel, adott műfajra vagy zeneszerző munkájára alapozva. A modell – a nyelvi modellekhez hasonlóan – felügyeletlen tanulással lett fejlesztve többszázezer MIDI fájl felhasználásával, hogy egy adott hangsorozatban képes legyen kikövetkeztetni a következő hangjegyet. Így a MuseNet különböző zenei mintázatok, ismétlődések alapján dolgozik. 
Ha megnéznénk, hogy Bon Jovi és Mozart zenéje ötvözve, pl. zongorán és gitáron játszva hogy hangzana, a MuseNettel választ kaphatunk kérdésünkre, így szórakozásra és szórakoztatásra kitűnően alkalmas. A megoldás jelentősége azonban ennél jóval több, ugyanis a zene, hangjegyek olvasása, értelmezése a képfelismerés és szövegolvasás közt is kapcsolatot teremt.



 

 

Ha a fenti mesterséges intelligencia alapú projektek felkeltették érdeklődésedet, további információkért látogasd meg az OpenAI weboldalát, vállalkozásodba való implementáció esetén pedig bátran fordulj a Régens munkatársaihoz.

 

Forrás: OpenAI, robotflow, VentureBeat