Sunday, December 24, 2017

AlphaZero набрал 25 побед и 25 ничьих с Белым, в то время как с Dark он набрал 3 победы и 47 ничьих. Он не потерял развлечений, с последним счетом 64:36.

Подтвержденный Google DeepMind теперь продемонстрировал, что их расчет AlphaZero не может быть просто использован, чтобы победить Go, но может победить лучших существующих шахматных моторов в шахматах и сёги. Их расчет занял незначительные 4 часа, играя забавы против самого себя, чтобы показать себя, чтобы играть в шахматы на уровне лучше, чем Stockfish 8! В 100 аттракционах AlphaZero набрал 25 побед и 25 ничьих с Белым, в то время как с Dark он набрал 3 победы и 47 ничьих. Он не потерял развлечений, с последним счетом 64:36. Здесь вы можете воспроизвести 10 иллюстраций с помощью нашего нового покера. Прочтите документ DeepMind







Присоединяйтесь к шахматам и сёги, независимо от других. Играйте с



Алгоритм обучения



Дэвид Сильвер, 1 * Томас Хуберт, 1 *



Julian Schrittwieser, 1 *



Иоаннис Антоноглу, 1 Мэтью Лай, 1 Артур Гуес, 1 Марк Ланькто, 1



Лоран Сифре, 1 Дхаршан Кумаран, 1 Thore Graepel, 1



Тимоти Лилликрап, 1 Карен Симонян, 1 Demis Hassabis1



1DeepMind, 6 Pancras Square, Лондон N1C 4AG.



Эти авторы внесли аналогичный вклад в эту работу.



уникальный



Круглый раунд шахмат является наиболее широко рассматриваемой областью.



Наиболее обоснованные программы зависят от сочетания изысканных систем охоты,



а также тщательно собранные оценочные работы, которые были



усовершенствованные человеческими специалистами более чем на несколько лет. Интересно, что программа AlphaGo Zero



по прошествии совершенного сверхчеловеческого исполнения в раунде Go, с помощью чистой поддержки сланца



получая от воссоздания самостоятельной игры. В этой статье мы суммируем этот подход в



единый расчет Альфа-Зеро, который может выполнить, очистить шифер, сверхчеловеческое исполнение в



многие области тестирования. Начиная с нерегулярной игры и без информации о пространстве



но правила аттракционов, AlphaZero совершил в течение 24 часов сверхчеловеческий уровень игры в



воссоздания шахмат и сёги (японские шахматы), а также Go, и убедительно победил



лучше всего на планете для каждой ситуации.



Исследование компьютерных шахмат так же стара, как и сама разработка программного обеспечения. Бэббидж, Тьюринг, Шеннон,



также, фон Нейман сформулировал оборудование, расчеты и гипотезу для изучения и игры в развлечение



шахмат. Шахматы таким образом превратились в удивительное испытание для возраста фальсифицированного сознания



аналитиков, приходящих полный круг в превосходных компьютерных шахматных программах, которые выполняются на



сверхчеловеческого уровня (9, 13). Как бы то ни было, эти структуры глубоко настроены на их область и не могут



быть подведенными к разным вопросам без огромных человеческих усилий.



Долговременное стремление к контрафактному сознанию заключалось в том, чтобы создавать программы, которые могут



возьмите для себя из первых стандартов (26). В последнее время расчет AlphaGo Zero



совершенное сверхчеловеческое исполнение в сессии Go, говоря,



глубокие сверточные нейронные системы (22, 28), подготовленные исключительно благодаря поддержке, полученной от



диверсии самозанятости (29). В настоящей работе мы применяем сравнительный, но полностью мягкий расчет, который мы



1



arXiv: 1712.01815v1 [cs.AI] 5 декабря 2017 г.



позвоните в AlphaZero, в развлечения шахмат и сёги и, кроме того, Go, без дополнительной области



информации, за исключением стандартов развлечения, показывая, что широко полезная поддержка



обучение может выполнить, очистить сланец, сверхчеловеческое выполнение крест-накрест по многим испытаниям



пространства.



Исторический момент для фальсифицированного сознания был достигнут в 1997 году, когда Deep Blue разгромил человека



лучше всего на планете (9). Компьютерные шахматные программы постоянно продвигались вперед



в течение следующих двух десятилетий. Эти проекты оценивают позиции с использованием тщательно отобранных



человеческими гроссмейстерами и преднамеренно настроенными весами, объединились с элитой



альфа-бета, которая расширяет огромное дерево запросов, используя значительное количество хитроумных эвристик и



области конкретных корректировок. В Методах мы изображаем эти ростки, концентрируясь на



2016 Лучший шахматный чемпионат (TCEC) титульный держатель Stockfish (25); другие твердые



шахматные программы, в том числе Deep Blue, используют в основном то же самое, что и проекты (9, 21).



Сёги - это все более сложная диверсия, поскольку это многоцелевое качество, чем шахматы (2,



14): играется на большой доске, и любая пойманная соперничающая часть меняет стороны и может таким образом



отбрасываться в любом месте на доске. Наиболее обоснованные программы сёги, например, компьютер



Ассоциация Сёги (CSA), лучшая на планете Эльмо, как раз в последнее время побеждала человеческих чемпионов



(5). Эти проекты используют сопоставимый расчет для компьютерных шахматных программ, опять же ввиду



чрезвычайно улучшенный веб-индекс альфа-беты с многочисленными специфическими корректировками.



Go подходит для разработки нейронной системы, которая используется в составе AlphaGo на том основании, что принципы



отклонение трансляционно
Podtverzhdennyy Google DeepMind teper' prodemonstriroval, chto ikh raschet AlphaZero ne mozhet byt' prosto ispol'zovan, chtoby pobedit' Go, no mozhet pobedit' luchshikh sushchestvuyushchikh shakhmatnykh motorov v shakhmatakh i sogi. Ikh raschet zanyal neznachitel'nyye 4 chasa, igraya zabavy protiv samogo sebya, chtoby pokazat' sebya, chtoby igrat' v shakhmaty na urovne luchshe, chem Stockfish 8! V 100 attraktsionakh AlphaZero nabral 25 pobed i 25 nich'ikh s Belym, v to vremya kak s Dark on nabral 3 pobedy i 47 nich'ikh. On ne poteryal razvlecheniy, s poslednim schetom 64:36. Zdes' vy mozhete vosproizvesti 10 illyustratsiy s pomoshch'yu nashego novogo pokera. Prochtite dokument DeepMind







Prisoyedinyaytes' k shakhmatam i sogi, nezavisimo ot drugikh. Igrayte s



Algoritm obucheniya



Devid Sil'ver, 1 * Tomas Khubert, 1 *



Julian Schrittwieser, 1 *



Ioannis Antonoglu, 1 Met'yu Lay, 1 Artur Guyes, 1 Mark Lan'kto, 1



Loran Sifre, 1 Dkharshan Kumaran, 1 Thore Graepel, 1



Timoti Lillikrap, 1 Karen Simonyan, 1 Demis Hassabis1



1DeepMind, 6 Pancras Square, London N1C 4AG.



Eti avtory vnesli analogichnyy vklad v etu rabotu.



unikal'nyy



Kruglyy raund shakhmat yavlyayetsya naiboleye shiroko rassmatrivayemoy oblast'yu.



Naiboleye obosnovannyye programmy zavisyat ot sochetaniya izyskannykh sistem okhoty,



a takzhe tshchatel'no sobrannyye otsenochnyye raboty, kotoryye byli



usovershenstvovannyye chelovecheskimi spetsialistami boleye chem na neskol'ko let. Interesno, chto programma AlphaGo Zero



po proshestvii sovershennogo sverkhchelovecheskogo ispolneniya v raunde Go, s pomoshch'yu chistoy podderzhki slantsa



poluchaya ot vossozdaniya samostoyatel'noy igry. V etoy stat'ye my summiruyem etot podkhod v



yedinyy raschet Al'fa-Zero, kotoryy mozhet vypolnit', ochistit' shifer, sverkhchelovecheskoye ispolneniye v



mnogiye oblasti testirovaniya. Nachinaya s neregulyarnoy igry i bez informatsii o prostranstve



no pravila attraktsionov, AlphaZero sovershil v techeniye 24 chasov sverkhchelovecheskiy uroven' igry v



vossozdaniya shakhmat i sogi (yaponskiye shakhmaty), a takzhe Go, i ubeditel'no pobedil



luchshe vsego na planete dlya kazhdoy situatsii.



Issledovaniye komp'yuternykh shakhmat tak zhe stara, kak i sama razrabotka programmnogo obespecheniya. Bebbidzh, T'yuring, Shennon,



takzhe, fon Neyman sformuliroval oborudovaniye, raschety i gipotezu dlya izucheniya i igry v razvlecheniye



shakhmat. Shakhmaty takim obrazom prevratilis' v udivitel'noye ispytaniye dlya vozrasta fal'sifitsirovannogo soznaniya



analitikov, prikhodyashchikh polnyy krug v prevoskhodnykh komp'yuternykh shakhmatnykh programmakh, kotoryye vypolnyayutsya na



sverkhchelovecheskogo urovnya (9, 13). Kak by to ni bylo, eti struktury gluboko nastroyeny na ikh oblast' i ne mogut



byt' podvedennymi k raznym voprosam bez ogromnykh chelovecheskikh usiliy.



Dolgovremennoye stremleniye k kontrafaktnomu soznaniyu zaklyuchalos' v tom, chtoby sozdavat' programmy, kotoryye mogut



voz'mite dlya sebya iz pervykh standartov (26). V posledneye vremya raschet AlphaGo Zero



sovershennoye sverkhchelovecheskoye ispolneniye v sessii Go, govorya,



glubokiye svertochnyye neyronnyye sistemy (22, 28), podgotovlennyye isklyuchitel'no blagodarya podderzhke, poluchennoy ot



diversii samozanyatosti (29). V nastoyashchey rabote my primenyayem sravnitel'nyy, no polnost'yu myagkiy raschet, kotoryy my



1



arXiv: 1712.01815v1 [cs.AI] 5 dekabrya 2017 g.



pozvonite v AlphaZero, v razvlecheniya shakhmat i sogi i, krome togo, Go, bez dopolnitel'noy oblasti



informatsii, za isklyucheniyem standartov razvlecheniya, pokazyvaya, chto shiroko poleznaya podderzhka



obucheniye mozhet vypolnit', ochistit' slanets, sverkhchelovecheskoye vypolneniye krest-nakrest po mnogim ispytaniyam



prostranstva.



Istoricheskiy moment dlya fal'sifitsirovannogo soznaniya byl dostignut v 1997 godu, kogda Deep Blue razgromil cheloveka



luchshe vsego na planete (9). Komp'yuternyye shakhmatnyye programmy postoyanno prodvigalis' vpered



v techeniye sleduyushchikh dvukh desyatiletiy. Eti proyekty otsenivayut pozitsii s ispol'zovaniyem tshchatel'no otobrannykh



chelovecheskimi grossmeysterami i prednamerenno nastroyennymi vesami, ob"yedinilis' s elitoy



al'fa-beta, kotoraya rasshiryayet ogromnoye derevo zaprosov, ispol'zuya znachitel'noye kolichestvo khitroumnykh evristik i



oblasti konkretnykh korrektirovok. V Metodakh my izobrazhayem eti rostki, kontsentriruyas' na



2016 Luchshiy shakhmatnyy chempionat (TCEC) titul'nyy derzhatel' Stockfish (25); drugiye tverdyye



shakhmatnyye programmy, v tom chisle Deep Blue, ispol'zuyut v osnovnom to zhe samoye, chto i proyekty (9, 21).



Sogi - eto vse boleye slozhnaya diversiya, poskol'ku eto mnogotselevoye kachestvo, chem shakhmaty (2,



14): igrayetsya na bol'shoy doske, i lyubaya poymannaya sopernichayushchaya chast' menyayet storony i mozhet takim obrazom



otbrasyvat'sya v lyubom meste na doske. Naiboleye obosnovannyye programmy sogi, naprimer, komp'yuter



Assotsiatsiya Sogi (CSA), luchshaya na planete El'mo, kak raz v posledneye vremya pobezhdala chelovecheskikh chempionov



(5). Eti proyekty ispol'zuyut sopostavimyy raschet dlya komp'yuternykh shakhmatnykh programm, opyat' zhe vvidu



chrezvychayno uluchshennyy veb-indeks al'fa-bety s mnogochislennymi spetsificheskimi korrektirovkami.



Go podkhodit dlya razrabotki neyronnoy sistemy, kotoraya ispol'zuyetsya v sostave AlphaGo na tom osnovanii, chto printsipy



otkloneniye translyatsionno

No comments:

Post a Comment