Muchas personas piensan que la toma de control de la IA llevaría muy probablemente a la extinción humana. Creo que eso es incorrecto. Imagina una escala de "cuánto le importa la IA a los humanos" que va del 0% al 100%. 100% --> no hay toma de control de la IA 0% --> toma de control de la IA y extinción humana Observa que hay una GRAN parte de esa escala donde la IA toma el control pero no mata a los humanos: 0.01% a 50% --> toma de control de la IA pero NO extinción humana Creo que esta parte intermedia del rango debería tener una gran masa de probabilidad. ¿Por qué es 0.01% para evitar la extinción? Porque es muy barato para una superinteligencia mantener a los humanos vivos y darnos vidas increíbles. Hay dos razones por las que la IA podría preocuparse por los humanos >0.01%: 1. La IA podría preocuparse intrínsecamente, porque la alineación funcionó un poco. - Nos preocupamos un poco por las vacas y las plantas, incluso aunque no tuvieron control sobre cómo evolucionamos. - Agregaremos muchos datos de entrenamiento para intentar que las IA se preocupen por nosotros; parte de eso podría quedarse incluso si la alineación falla en general. 2. La IA podría preocuparse instrumentalmente, porque espera que otros agentes la recompensen por mantener a los humanos vivos (a través del comercio acausal, o si la IA está en una simulación). - p. ej. la IA realiza comercio acausal con una rama cercana de Everett donde los humanos resolvieron la alineación. - p. ej. la IA piensa que puede estar en una simulación dirigida por humanos. @RyanPGreenblatt tiene una gran publicación discutiendo esto (enlace abajo). Soy un poco más optimista que él.