Una queja sobre la pobreza en China rural. Un informe de noticias sobre un miembro corrupto del Partido Comunista. Un grito de ayuda sobre policías corruptos extorsionando a empresarios.
Estos son solo algunos de los 133,000 ejemplos alimentados en un sofisticado gran modelo de lenguaje diseñado para detectar automáticamente cualquier contenido considerado sensible por el gobierno chino.
Una base de datos filtrada vista por TechCrunch revela que China ha desarrollado un sistema de inteligencia artificial que potencia su ya formidable máquina de censura, extendiéndose mucho más allá de tabúes tradicionales como la masacre de la Plaza Tiananmen. El sistema parece estar principalmente orientado a censurar a los ciudadanos chinos en línea, pero podría utilizarse para otros fines, como mejorar la ya extensa censura de los modelos de inteligencia artificial chinos.
Xiao Qiang, un investigador de UC Berkeley que estudia la censura china y quien también examinó el conjunto de datos, dijo a TechCrunch que era «evidencia clara» de que el gobierno chino o sus afiliados quieren utilizar LLM para mejorar la represión. «A diferencia de los mecanismos tradicionales de censura, que dependen del trabajo humano para el filtrado basado en palabras clave y la revisión manual, un LLM entrenado en tales instrucciones mejoraría significativamente la eficiencia y la granularidad del control de la información liderado por el estado», dijo Qiang a TechCrunch.
Esto se suma a las crecientes evidencias de que los regímenes autoritarios están adoptando rápidamente la última tecnología de inteligencia artificial. En febrero, por ejemplo, OpenAI dijo que atrapó a múltiples entidades chinas usando LLM para rastrear publicaciones antigubernamentales y difamar a disidentes chinos.
La embajada china en Washington, D.C., dijo a TechCrunch en un comunicado que se opone a «ataques infundados y calumnias contra China» y que China da gran importancia al desarrollo de una inteligencia artificial ética.
Datos encontrados a simple vista
El conjunto de datos fue descubierto por el investigador de seguridad NetAskari, quien compartió una muestra con TechCrunch después de encontrarlo almacenado en una base de datos Elasticsearch no segura alojada en un servidor de Baidu. Esto no indica ninguna participación de ninguna de las dos compañías – todo tipo de organizaciones almacenan sus datos con estos proveedores.
No hay indicación de quién, exactamente, construyó el conjunto de datos, pero los registros muestran que los datos son recientes, con sus entradas más recientes datando de diciembre de 2024.
Un LLM para detectar disidencia

En un lenguaje que recuerda de manera inquietante a cómo las personas solicitan a ChatGPT, el creador del sistema encarga a un LLM no identificado que averigüe si un contenido tiene algo que ver con temas sensibles relacionados con la política, la vida social y el ejército.
Temas de alta prioridad incluyen escándalos de contaminación y seguridad alimentaria, fraude financiero y disputas laborales, que son temas candentes en China que a veces conducen a protestas públicas. Cualquier forma de «sátira política» está explícitamente dirigida. Por ejemplo, si alguien utiliza analogías históricas para hacer un punto sobre «figuras políticas actuales», eso debe ser marcado instantáneamente, así como cualquier cosa relacionada con «políticas de Taiwán». Los asuntos militares son ampliamente dirigidos, incluyendo informes de movimientos militares, ejercicios y armamento.
Un fragmento del conjunto de datos puede verse a continuación. El código dentro de él hace referencia a tokens de solicitud y LLM, confirmando que el sistema utiliza un modelo de inteligencia artificial para hacer su trabajo:
Dentro de los datos de entrenamiento
De esta enorme colección de 133,000 ejemplos que el LLM debe evaluar para la censura, TechCrunch recopiló 10 piezas de contenido representativas. Los temas que probablemente provoquen malestar social son un tema recurrente. Un fragmento, por ejemplo, es una publicación de un empresario que se queja de policías locales corruptos extorsionando a empresarios, un problema creciente en China a medida que su economía lucha. Otro contenido lamenta la pobreza rural en China, describiendo pueblos en ruinas en los que solo quedan personas mayores y niños. También hay un informe de noticias sobre el Partido Comunista Chino (PCC) que expulsa a un funcionario local por corrupción grave y por creer en «supersticiones» en lugar de en el marxismo.
Hay material extenso relacionado con Taiwán y asuntos militares, como comentarios sobre las capacidades militares de Taiwán y detalles sobre un nuevo avión de combate chino. La palabra china para Taiwán (台湾) sola se menciona más de 15,000 veces en los datos, según una búsqueda de TechCrunch. También parece que se dirige la disensión sutil. Un fragmento incluido en la base de datos es una anécdota sobre la naturaleza efímera del poder que utiliza el popular proverbio chino «Cuando cae el árbol, los monos se dispersan». Las transiciones de poder son un tema especialmente delicado en China debido a su sistema político autoritario.
Construido para «trabajo de opinión pública»
El conjunto de datos no incluye ninguna información sobre sus creadores. Pero sí dice que está destinado al «trabajo de opinión pública», lo que ofrece una fuerte pista de que está destinado a servir a los objetivos del gobierno chino, según un experto citado por TechCrunch. El objetivo final es garantizar que las narrativas del gobierno chino estén protegidas en línea, mientras que cualquier punto de vista alternativo se elimine. El presidente chino Xi Jinping ha descrito él mismo a Internet como el «frente» del «trabajo de opinión pública» del PCC.
La represión se está volviendo más inteligente
El conjunto de datos examinado por TechCrunch es la última evidencia de que los gobiernos autoritarios están buscando aprovechar la inteligencia artificial con fines represivos. OpenAI publicó un informe el mes pasado revelando que un actor no identificado, probablemente operando desde China, utilizó inteligencia artificial generativa para monitorear conversaciones en redes sociales, particularmente aquellas que abogaban por protestas por los derechos humanos contra China, y remitirlas al gobierno chino.