За съжаление хора, изкуственият интелект на Microsoft е първият, който постига перфектен резултат на г-жа Pac-Man

Играта приключи

Най-накрая, перфектният резултат за аркадна класикаГ-жо Pac-Manе постигнато, макар и не от човек. Maluuba - екип за задълбочено обучение, придобит от Microsoft през януари - имасъздаде AI систематова се научи как да достигне максималната стойност на играта от 999 900 на Atari 2600, използвайки уникална комбинация от обучение за подсилване с метод разделяй и владей.



Изследователите на AI имат документирана склонност към използване на видео игри за тестване на машинно обучение; те по-добре имитират реалния хаос в контролирана среда спрямо по-статични игри като шах. През 2015 г. DeepMind AI на Google успя да се научи как да овладее 49 Atari игри, използвайки обучение за подсилване, което осигурява положителна или отрицателна обратна връзка всеки път, когато AI се опитва да реши проблем.

Въпреки че AI е завладял изобилие от ретро игри, г-жа Pac-Man оставанеуловим от години, поради умишлената липса на предвидимост в играта. Оказва се, че е жилав и за хората. Много от тях са се опитали да достигнатГ-жо Pac-ManНай-добрият резултат, само идваблизо 266 330на версията Atari 2600. Неуловимият брой на играта от 999 900 досега е постигнат само от смъртни чрез мами.

Maluuba успя да използва AI, за да победи играта, като изпълни отговорностите, разделяйки ги на работни места с размер на хапка, възложени на над 150 агенти. След това екипът преподава на ИИ, използвайки това, което те наричат ​​Hybrid Reward Architecture - комбинация от обучение за подсилване с метод разделяй и владей. На отделни агенти бяха възложени на парчета задачи - като намиране на конкретна пелета - които работеха в тандем с други агенти за постигане на по-големи цели. След това Maluuba определи топ агент (Microsoft оприличава това на старши мениджър в компания), който приема предложения от всички агенти, за да информира решенията къде да премести г-жа Pac-Man.

Отделните агенти действаха много егоистично и най-добрият агент се фокусира върху това, което е най-доброто за целия екип

Най-добрите резултати дойдоха, когато отделни агенти действаха много егоистично и най-добрият агент се съсредоточи върху това, което е най-доброто за цялостния екип, отчитайки не само колко агенти искаха да отидат в определена посока, но важността на тази посока. (Пример: по-малко агенти, които искат да избегнат призрак, имат приоритет пред по-голямо количество агенти, които искат да преследват пелети.) Има това хубаво взаимодействие, казва Харм Ван Сейен, изследовател от Maluuba, между това как трябва, от една страна , си сътрудничат въз основа на предпочитанията на всички агенти, но в същото време всеки агент се грижи само за един конкретен проблем. Това е от полза за цялото.



Maluuba казва, че тази версия на Hybrid Reward Architecture на AI Learning има обширни, практични приложения, като например да помогне да се предскажат възможностите за продажби на компанията или да се постигне напредък в обработката на естествен език. Гледайте как Microsoft обяснява методите си по-горе.

adobe xd онлайн