¿Cómo ganar en un juego de mesa sin una silla donde sentarse?

Dicen que el talento en Go se revela
alrededor de los diez [años], y que si un niño
no empieza sus estudios a esa edad ya no hay esperanzas para él.
—Yasunari Kawabata, El maestro de Go

Un par de milenios antes de Cristo, Shun, cabeza del poderoso Imperio chino, inventó un pasatiempo que conquistaría, a la postre, a una buena parte del mundo. Un propósito noble y generoso le dio rienda suelta a su ingenio: ayudar a su único hijo, el joven Shang Kiun, quien por culpa de un cuadro de hipoxia (falta de oxígeno) al nacer padecía un agudo retraso mental. El emperador Shun denominó Wéiqí a su aporte lúdico y cuando éste se esparció por los países vecinos del Oriente Lejano, por la península de Corea y por el archipiélago de Japón, fue renombrado, respectivamente, baduk y Go.¹ El Go se practica, desde entonces, sobre un tablero de suave madera de kaya (goban), cuadriculado con 19 líneas verticales, con otras 19 horizontales y con 361 puntos de intersección.

De forma análoga al ajedrez que crearon los caldeos y que popularizaron los persas, una representación a escala de las luchas entre los reinos feudales de la Edad Media,² el Go simboliza, con 180.5 piedras blancas y con 180.5 piedras negras (yunzi) extraídas de unos cuencos de urdimbre de paja o de bambú con esmalte, los combates por la tierra de la Antigua China. Una vez que saca el ejército negro, privilegio intransferible, la idea es rodear a los territorios neutrales (las intersecciones vacías) y a los enemigos (las intersecciones ocupadas) por todos sus flancos: aquella acción supone una apropiación; ésta, una captura.

En 2015, mucho tiempo después de que Confucio lo llamara bo yi (juego de azar) y de que lo recomendara como un remedio óptimo en contra de la gula y de la pereza del cerebro,³ los programadores de DeepMind, una extensión de la empresa Google, empezaron a diseñar una inteligencia artificial que estuviera en condiciones de derrotar a un ser humano en ese singular juego de mesa. La inteligencia artificial susodicha tuvo varias presentaciones de octubre de 2015 a octubre de 2017. En su año de lanzamiento, por ejemplo, con el rótulo de AlphaGo Fan, venció al campeón de la Federación Europea de Go (EGF, por sus siglas en inglés), Fan Hui, con dos redes neuronales profundas y con un árbol de búsqueda Monte Carlo.⁴ Más tarde, en marzo de 2016, ahora con una distinta designación, AlphaGo Lee, pero con “un enfoque similar”, destronó al surcoreano Lee Sedol, cuyo sorprendente palmarés incluía casi una veintena de títulos internacionales.

Acostumbrada a mimetizarse con sus contendientes, a absorber la identidad de cada uno de ellos, esta inteligencia artificial pronto se hizo merecedora de un nombre propio: AlphaGo Zero. De acuerdo con un artículo que sus desarrolladores, David Silver y el equipo de programadores de DeepMind, publicaron el 19 de octubre de 2017 en la revista Nature, “Dominar el juego de Go sin el conocimiento humano” (Mastering the Game of Go without Human Knowledge), AlphaGo Zero es distinta a sus antecesoras en al menos una tétrada de aspectos relevantes: 1) se rige “en exclusiva por el paradigma de aprendizaje reforzado [reinforcement learning]”⁵ —el modelo de aprendizaje supervisado había sido empleado, con preeminencia, en la programación de AlphaGo Fan y en la de AlphaGo Lee—; 2) en lugar de una dupla de redes neuronales profundas —como en los casos de AlphaGo Fan y de AlphaGo Lee, que utilizaban la primera para jugar contra diversos oponentes mientras que la segunda la usaban para jugar contra sí mismas—, tiene una sola; 3) sus características o señales de entrada son “las piedras blancas y negras que reposan a lo largo y a lo ancho del tablero”; y, por último, 4) evalúa la pertinencia de sus movimientos hipotéticos, de uno en uno, sin la ayuda de los algoritmos de simulación Monte Carlo.⁶

La ventaja del paradigma de aprendizaje reforzado en comparación con los modelos de aprendizaje supervisado y no supervisado salta a la vista: a AlphaGo Zero le ha permitido controlar el Go, convertirse en la máxima exponente de su historia, gracias a una suerte de autoentrenamiento infinito. En Ensayo sobre el entendimiento humano, una obra del siglo XVII, el filósofo inglés John Locke aseguró que el ser humano es una tabla rasa, una hoja de papel en la que se puede inscribir cualquier tipo de conocimiento;⁷ con resultados alentadores, los programadores de AlphaGo Zero han echado mano de esta teoría, la han extrapolado a las máquinas.

AlphaGo Zero aprendió ab initio; he aquí el porqué del nombre que conserva. Prescindiendo de los tableros de 9 x 9 o de 13 x 13 con que los alumnos convencionales empiezan su instrucción, su estrategia, de eficacia incuestionable, fue competir una y otra vez frente al espejo. En este sentido, el paradigma de aprendizaje reforzado incursiona en un promisorio horizonte de oportunidades, que quizá devenga, a su debido momento, en la reinvención del Go, en su renovación absoluta. Silver y compañía se muestran, en virtud de los logros alcanzados, optimistas:

La humanidad ha acumulado conocimiento acerca del Go a través de millones de juegos librados en el transcurso de miles de años, coleccionándolo en diversos soportes, como proverbios y libros completos. En cambio, en tan sólo unos pocos días, comenzando en tabula rasa, AlphaGo Zero ha sido capaz de redescubrir gran parte de este conocimiento sobre el Go, así como de concebir técnicas inéditas que le proporcionarán un segundo aire al más viejo de los juegos registrados por el ser humano.⁸

El Go es un Exptime, lo que significa que, según la teoría de la complejidad computacional, su solución excede la memoria polinomial simple.⁹ Su número de posiciones posibles asciende a 10170 y el empate carece de viabilidad; ¡imposible quedar tablas! Dar con sus atávicos secretos y con sus trucos más elaborados en “tan sólo unos pocos días” es una hazaña reservada, únicamente, a una inteligencia suprahumana.

Poco importa con quién se mida, con un jugador en flor de loto o con uno en un banquillo ergonómico, AlphaGo Zero se figura, aun sin una silla donde sentarse —¿con qué finalidad querría una, si carece de un cuerpo propenso al cansancio, si es “pura mente”?—, invencible. Batidos los campeones europeo y mundial, Fan Hui y Lee Sedol, esta inteligencia artificial continúa a la espera, en la calurosa primavera de 2023, de un digno rival que les plantee a ella y a sus habilidades extraordinarias un verdadero desafío. A diferencia de la partida entre Hoju Tamura y Go Seigen, fuente de inspiración de la novela El maestro de Go (Meijin, 1951), de Yasunari Kawabata,¹⁰ que se prolongó un semestre y fracción en 1938, AlphaGo Zero amenaza con ganar por enésima ocasión en un abrir y cerrar de ojos.

Francisco Gallardo Negrete
Doctor en Teoría Literaria y escritor

¹ Smith, A. The Game of Go. The National Game of Japan, Moffat, Yard & Company, New York, 1908, p. 1.

² Véase de Cessolis, J. El juego del ajedrez o dechado de fortuna, 2.ª ed., Ediciones Siruela Biblioteca Medieval, Madrid, 2006.

³ Cfr. Confucio, Analectas, 3.ª ed., trad. Simon Leys, Editorial Edaf, Arca de Sabiduría, Madrid, 2006, p. 152.

⁴ En teoría de juegos combinatorios, los algoritmos de simulación Monte Carlo (en alusión al casino Monte Carlo, ubicado en el Principado de Mónaco) constituyen un método que sirve para realizar predicciones probabilísticas con base en un conjunto compuesto por elementos infinitos o bien exponencialmente grandes. Véase Fishman, G. S. Monte Carlo. Concepts, Algorithms, and Applications, Springer-Verlag, New York, 1996.

⁵ La principal característica de este paradigma de aprendizaje es, más que la supervisión o la no supervisión humanas, el fomento a la experiencia de la inteligencia artificial. A la luz del modelo de aprendizaje reforzado, pues, una inteligencia artificial aprende a fuerza de la interacción constante con su entorno y, más todavía, consigo misma.

⁶ Silver, D., y otros. “Mastering the Game of Go without Human Knowledge”, Nature, 550, 2017, p. 354.

⁷ Véase Locke, J. Ensayo sobre el entendimiento humano, trad. Edmundo O’Gorman, Fondo de Cultura Económica, México, 2005.

⁸ Silver, D., y otros. “Mastering the Game of Go without Human Knowledge”, ob. cit. p. 358.

⁹ Veáse Delgado Pin, J. La cuestión P VS. NP. Una introducción a la complejidad computacional, Emse Edapp, Barcelona, 2019.

¹⁰ Véase Kawabata, Y. El maestro de Go, trad. Amalia Sato, Emecé Editores, Lingua Franca, Buenos Aires, 2006.