Képfeldolgozás, hangfelismerés, szövegértelmezés – Régens mesterséges intelligencia (AI) fejlesztései, 2018

2018/ 17/12

Az elmúlt időszakban több AI-alapú kutatásban vettünk részt, illetve önálló prototípusokat és megoldásokat is kidolgoztunk. Év végéhez közeledve ezekből mutatunk be néhány alkalmazási területet, hátha érdekesnek vagy saját üzleti gyakorlatod tekintetében akár hasznosíthatónak is találod.

A mesterséges intelligencia alkalmazási és felhasználási lehetőségeinek száma napról napra bővül, így egyre inkább közeledünk egy olyan jövő felé, amely néhány éve még elképzelhetetlennek tűnt.

Az AI és a gépi tanulás (machine learning) újabb fejlődési szintjei minden vállalkozás esetében hatalmas átalakulásokat idézhetnek elő. Az ezen technológiákra épülő vállalaton belüli automatizálási hullám rengeteg monoton, ismétlődő feladat elvégzése alól menti fel a képzett munkaerőt és teremt így új lehetőségeket a vállalat erőforrásainak hatékonyabb elosztására.

A mesterséges intelligencia lehetőségeinek kiaknázásban, mondanunk sem kell, mi magunk is aktívan részt veszünk!

AI az üzleti életben

A megoldandó problémától függően az első lépés nagy mennyiségű releváns adat összegyűjtése és megtisztítása. Ezen adatokat használják fel a mesterséges intelligencia algoritmusai a minták és szabályok felismerésére. Ebből kifolyólag az adatok célzott összegyűjtése és fáradságos megtisztítása meghatározó és időigényes feladat, mivel azok jelentik a program lelkét. Csak érdekességképpen, egyféle típusú adat túlzott mértékű megjelenítése az adatbázisban nyilván „elfogulttá” teheti a rendszert az azokban szereplő minták felismerésére, de éppen ez a tulajdonsága teszi ezeket az alkalmazásokat nagyszerűen specifikálhatóvá. A gépi tanulás módszerét ötvöző megoldások három legmeghatározóbb alkalmazási területe a képfeldolgozás, a hangfelismerés, illetve a szövegértelmezés.

Ezekkel, több más mellett, már mi is foglalkoztunk.

Képfeldolgozás (objektum felismerés)

A képfeldolgozásnál a legfontosabb követelmény, hogy az az emberi látáshoz és gondolkodáshoz hasonlóan a gép értelmezni tudja a számára elérhetővé tett képeket és azokon felismerje a különböző objektumokat. Ezt a folyamatot címkézésnek is nevezik, amely a mesterséges intelligencia legszélesebb körben alkalmazható területeinek egyike.

Elkészítettük saját képfeldolgozó alkalmazásunkat, amely alapjául, könnyű elérhetőségének köszönhetően, egy crowdsourcing adatbázis szolgált. Ebben az adatbázisban közel 9 millió kép szerepel, amelyeket önkéntes annotálók közel 15 millió címkével láttak el. Végeredményként egy olyan programot kaptunk, amely ezután bármilyen feltöltött képen, vagy videón képes kategorizálni és kijelölni az azokon szereplő tárgyakat és élőlényeket.

Hasonló megoldást alkalmaz például a kínai Baidu vállalat AI-alapú találmánya is, amely a látássérülteket hivatott segíteni. Az eszköz leginkább egy Bluetooth fülhallgatóra hasonlít, amely kamerával van ellátva. Ez a látott kép jellemzése mellett képes kiemelni a felhasználó számára fontos elemeket. Így például felismeri az utcai lámpák jelzéseit, a termékek feliratait, megmondja, hogy mi van a hűtőben, vagy jelez, ha egy ismerős arc közelít.

A mesterséges intelligencián alapuló képfeldolgozás értelemszerűen könnyen átalakíthatja az e-kereskedelmet is! Képzelj el egy olyan szituációt, amelyben az utcán sétálva megpillantasz egy számodra tetszetős terméket, ezért gyorsan készítesz róla egy képet. Ezt a képet feltöltöd egy hatalmas adatbázisra épülő felkészített rendszerbe, amely bemutatja neked a fotón látott terméket, annak adatait, vagy az ahhoz legközelebb álló árucikkeket. Így egy hosszadalmas keresési fázis alól szabadít meg és fel. Eme gyakorlatias vízió megvalósítása érdekében mi is létrehoztunk már egy prototípust, amely segítségével, képeket felhasználva, cipőkre kereshetsz rá. Pontos egyezés esetén a program megmutatja az adott terméket, ellenkező esetben pedig az adatbázisban szereplő lábbelik közül a leghasonlóbbat dobja fel.

Ez a típusú képkeresés nagyon hasznos lehet abban az estben is, ha egy tárhelyen szereplő dokumentumok valamelyikében szerepel egy adott kép. Egy folyamatban lévő fejlesztésünk segítségével a kép birtokában bárki meghatározhatja annak forrásdokumentumait. Felhasználási területként megemlíthetjük egy gyártószalagon a hibás termékek automatikus azonosítását, vagy a forgalom autótípusonként való megszámlálását is.

 
 
Szeretnéd hasznosítani vállalkozásodban a mesterséges intelligenciát? Ismerd meg AI megoldásainkat!
 
 

Hangfelismerés, beszédfelismerés (jelfeldolgozás)

A hangfelismerés/beszédfelismerés lehetőséget biztosít a gépek számára, hogy értelmezni tudják az emberi beszédet és más forrásokból származó hangokat. Ezzel gyorsabban és kényelmesebben tudjuk kezelni okos eszközeinket és felruházhatjuk készülékeinket a hangok felismerésének képességével.

Hangfelismerés alapú megoldásokkal már ma is sok helyen találkozhatunk. Azok segítségével kommunikálhatunk Alexával, Sirivel és társaikkal, de például a Spotify-ban is értünk dolgoznak a háttérben. Előre megírt algoritmusok elemeznek ki sok-sok zeneszámot. A felhasználói tevékenységeink – hallgatás, kedvelés, átugratás, elkapcsolás – elemzésével pedig kategorizálják zenei ízlésünket és a hasonló metaadatokkal rendelkező számokból állítják össze az E heti kaland lejátszási listát hétről hétre.

Beszédfelismerő algoritmusokat használva generál feliratokat például a YouTube is. Ez angol nyelven nagyon jól működik, magyar nyelven azonban nem elérhető. Ebből a problémából kiindulva hoztuk létre saját feliratozó rendszerünket!

A tanítás adatbázisaként több mint 500 GB hanganyagot és feliratfájlt használtunk fel. Ezeket tisztítani és korrigálni kellett a feliratok pontos időzítése és a használhatatlan adatok kiszűrése érdekében. Hosszas elemzés után a program képessé vált új hanganyagok folyamatos feliratozására. Egyedül a ritkán előforduló, a rendszer által még nem ismert szavak azonosítása és a nagyobb zajjal rendelkező hanganyagok jelentenek még megoldandó problémát, amely a rendelkezésünkre álló saját erőforrások ismeretében, véleményünk szerint, igazán nem rossz teljesítmény. Egy ilyen típusú mesterséges intelligencia hatalmas segítséget jelenthet mindazok számára, akiknek videó-, vagy hanganyagokban kell kifejezésekre rákeresnie.

A beszédfelismerés ezen fajtája egy nyelv (jó esetben) teljes szókészletét lefedi. Ugyanakkor vannak olyan rendszerek, amelyeknél elegendő néhány utasítás, vagy kérdés értelmezése. Az ilyen programok kifejlesztése már könnyebb feladatnak számít, az adott parancsok felismerése pedig sokkal kisebb hibaszázalékot von maga után.

Szövegértelmezés

A szövegértelmezés folyamata nagyon leegyszerűsítve információkinyerést jelent nagy mennyiségű szöveg alapú adatokból. Ehhez elengedhetetlen a nyelvek természetes feldolgozása (NLP), amely a mindennapi nyelvi megnyilvánulások megértését és feldolgozását teszi lehetővé a gépek számára. Enélkül a számítógépek ugyan képesek lennének megérteni az egyes szavak jelentését, azonban az NLP segít a gépeknek a szavak kontextuson belüli értelmezésében.

Natural Language Processing: mi az, és hogyan vehetjük hasznát?

A magyar nyelv közel sem tartozik az egyszerű és könnyen modellezhető nyelvek közé, így az említett értelmezési folyamatok gépek számára történő megtanítása sem egyszerű feladat. Ennek tükrében büszkék vagyunk arra, hogy ezen az új alapon sikeresen létrehoztuk és folyamatosan tovább okosítjuk saját keresőmotorunkat, a Seekra fantázianevű keresőmotort, amely képes a magyar nyelv összefüggéseit egyedülálló módon kezelni. Fejlett szemantikai tudásával, valamint automatikus kiegészítő és szinonima-felismerő funkcióival megannyi nyelvi gátat áttörtünk.

 

 
 
Tedd élménnyé a weboldaladon történő keresést az egyszerűen integrálható Seekra intelligens keresőmotorral.
 
 
 

 

A mesterséges intelligencián alapuló szövegértelmezés egyik nagy felhasználási területét jelenti az úgynevezett sentiment analysis, vagy érzelem detektálás. Ennek során egy algoritmus kielemzi a kívánt szöveget és megadja, hogy a betáplált adatok alapján milyen érzelmi állapotban lehetett annak megfogalmazója. Ennek a legegyszerűbb formája a pozitív és negatív csoportokba történő besorolás. Egy fejlettebb rendszer azonban képes különbséget tenni az érzelmi állapotok legkisebb eltérései között is. Az alkalmazási lehetőségek közé tartoznak az ügyfélreakciók, visszajelzések, az egyéb hozzászólások és a közösségi média felületein elérhető megnyilvánulások kielemzése, de akár az automatikus műfordításban is segítséget nyújthat. Mindemelett, egy megfelelően betanított rendszer az ügyfélszolgálati tevékenységek hatékonyságának növelésénél is hasznosítható. A lefolytatott beszélgetések kielemzésével átfogó kép nyerhető a munkatársak teljesítményéről és meghatározhatók azok a szavak és kifejezések, amelyek ügyfélelégedettséget váltanak ki. Az automatikus gépi ügyfélszolgálat pedig innen tényleg már csak egy lépés!

Az NLP segítségével létrehozhatók olyan munkahelyi asszisztensek, amelyek képesek hatalmas terjedelmű szövegeket és adatokat pillanatok alatt könnyen érthetővé, értelmezhetővé alakítani. Az üzleti életben ez kiemelt jelentőséggel bír, hiszen ezáltal könnyen megteremthető az objektív, adatalapú döntéshozatal.

A felsorolt felhasználási lehetőségek csupán egy kis részét jelentik azoknak a könnyítéseknek, amelyeket a mesterséges intelligencia nyújthat, és az említett három most kiemelt terület kombinációját még nem is említettük.

Ha a fent leírtak alapján neked is van olyan ötleted, amely vállalkozásod hasznára válhat, bátran keress minket és dolgozzunk közösen annak megvalósításán!