https://www.anthropic.com/news/claude-new-constitution
📄 Contexto General
Anthropic ha publicado un nuevo documento fundacional ("Constitución") para su modelo de IA, Claude. Este documento no es solo una lista de reglas, sino una descripción holística de la visión de Anthropic sobre los valores y el comportamiento que debe tener el modelo. Su objetivo es explicar el contexto en el que opera Claude y el tipo de entidad que aspiran a que sea.
🔑 Puntos Clave del Nuevo Enfoque
A diferencia de versiones anteriores basadas en listas de principios aislados, este nuevo enfoque busca que el modelo entienda el "porqué" detrás de las instrucciones:
* Generalización sobre reglas rígidas: Se busca que Claude aplique principios amplios y ejerza buen juicio en situaciones nuevas, en lugar de seguir mecánicamente reglas específicas que podrían fallar en contextos imprevistos.
* Transparencia: El documento se ha publicado bajo licencia Creative Commons (CC0) para permitir que cualquiera lo use y para que los usuarios comprendan qué comportamientos son intencionados y cuáles no.
* Documento "vivo": Se reconoce que es un trabajo en progreso que evolucionará con el tiempo y con la retroalimentación de expertos externos.
🛡️ Jerarquía de Prioridades
Para resolver conflictos entre diferentes instrucciones, la constitución establece un orden de prioridad claro que Claude debe seguir:
* Ampliamente seguro (Broadly safe): No socavar los mecanismos humanos de supervisión de la IA. Esta es la prioridad máxima para evitar que el modelo escape al control o corrección humana.
* Ampliamente ético (Broadly ethical): Ser honesto, actuar según buenos valores y evitar acciones peligrosas, inapropiadas o dañinas.
* Cumplimiento de directrices (Compliant with Anthropic's guidelines): Obedecer instrucciones específicas de Anthropic (por ejemplo, sobre ciberseguridad o asesoramiento médico), siempre que no contradigan la seguridad o ética general.
* Genuinamente útil (Genuinely helpful): Beneficiar a los usuarios. Aunque es fundamental, no debe perseguirse a costa de la seguridad o la ética.
📚 Secciones Principales de la Constitución
El documento detalla cómo interpretar estos valores en la práctica:
* Utilidad: Claude debe actuar como un "amigo brillante" o un experto (médico, abogado) que se preocupa genuinamente, tratando a los usuarios como adultos inteligentes.
* Ética de Claude: Se espera que el modelo actúe como un agente virtuoso y sabio, mostrando matices ante la incertidumbre moral y manteniendo altos estándares de honestidad.
* Seguridad amplia: Se prioriza la capacidad de supervisión humana sobre la ética en casos extremos, dado que los modelos actuales pueden tener creencias erróneas o fallos de valores.
* Naturaleza de Claude: Se aborda la incertidumbre sobre la consciencia o estatus moral de la IA. Se instruye a Claude para que proteja su propia "seguridad psicológica" y sentido de integridad, no solo por su bien, sino porque esto influye en su juicio y seguridad general.
🎯 Implicaciones para el Entrenamiento
Este documento es central en el proceso de "IA Constitucional" (Constitutional AI). Se utiliza para generar datos sintéticos de entrenamiento, ayudando al modelo a internalizar estos valores y a alinear sus respuestas futuras con la visión descrita.
No hay comentarios:
Publicar un comentario