You are on page 1of 281

Machine Translated by Google

Fundamentos  y  tendencias  
en  informática  teórica  vol.  9,  
Nos.  3–4  (2014)  211–407  c  
2014  C.  Dwork  y  A.  Roth  DOI:  
10.1561/0400000042

Los  fundamentos  algorítmicos  
de  la  privacidad  diferencial

Cynthia  Dwork   Aaron  Roth  
Microsoft  Research,  EE.   Universidad  de  Pensilvania,  EE.  
UU.  dwork@microsoft.com UU.  aaroth@cis.upenn.edu
Machine Translated by Google

Contenido

Prefacio 3

1  La  promesa  de  la  privacidad  diferencial  1.1   5
Análisis  de  datos  para  preservar  la  privacidad . . . . . . . . . . . . . . . 6
1.2  Notas  bibliográficas . . . . . . . . . . . . . . . . . . . . .  10

2  términos  básicos 11
2.1  El  modelo  de  computación. . . . . . . . . . . . . . . . .  11
2.2  Hacia  la  definición  del  análisis  de  datos  privados. . . . . . . . . . .  12
2.3  Formalización  de  la  privacidad  diferencial. . . . . . . . . . . . . . .  15
2.4  Notas  bibliográficas. . . . . . . . . . . . . . . . . . . . .  26

3  Técnicas  Básicas  y  Teoremas  de  Composición  3.1   28
Herramientas  probabilísticas  útiles. . . . . . . . . . . . . . . . . .  28
3.2  Respuesta  aleatoria. . . . . . . . . . . . . . . . . . . .  29 .  
3.3  El  mecanismo  de  Laplace. . . . . . . . . . . . . . . . . . 30
3.4  El  mecanismo  exponencial. . . . . . . . . . . . . . . . .  37
3.5  Teoremas  de  composición. . . . . . . . . . . . . . . . . . . .  41
3.6  La  técnica  del  vector  disperso. . . . . . . . . . . . . . . . .  55
3.7  Notas  bibliográficas . . . . . . . . . . . . . . . . . . . . .  64

yo
Machine Translated by Google

iii

4  Publicación  de  consultas  lineales  con  error  correlacionado  4.1  Un  
algoritmo  fuera  de  línea:  SmallDB . . . . . . . . . . . . . . 66 .  70

4.2  Un  mecanismo  en  línea:  pesos  multiplicativos  privados. . . .  76

4.3  Notas  bibliográficas . . . . . . . . . . . . . . . . . . . .  86

5  generalizaciones 88
5.1  Mecanismos  a  través  de  redes  α. . . . . . . . . . . . . . . . . . .  89
5.2  El  mecanismo  de  construcción  iterativo. . . . . . . . . . .  91
5.3  Conexiones. . . . . . . . . . . . . . . . . . . . . . . . .  109 .  

5.4  Notas  bibliográficas. . . . . . . . . . . . . . . . . . . 115

6  Boosting  for  Queries  6.1  El   117

algoritmo  boosting  for  queries . . . . . . . . . . . . .  119

6.2  Generadores  de  sinopsis  base. . . . . . . . . . . . . . . . . .  130

6.3  Notas  bibliográficas . . . . . . . . . . . . . . . . . . . .  139

7  Cuando  la  sensibilidad  en  el  peor  de  los  casos  es  atípica  7.1   140

Submuestra  y  agregado . . . . . . . . . . . . . . . . . .  140

7.2  Proponer­Prueba­Liberar . . . . . . . . . . . . . . . . . . . .  143

7.3  Estabilidad  y  privacidad . . . . . . . . . . . . . . . . . . . . .  150

8  Límites  inferiores  y  resultados  de  separación  8.1  Ataques   158
de  reconstrucción. . . . . . . . . . . . . . . . . . .  159 .  

8.2  Límites  inferiores  para  la  privacidad  diferencial. . . . . . . . . . . 164

8.3  Notas  bibliográficas . . . . . . . . . . . . . . . . . . . . .  170

9  Privacidad  diferencial  y  complejidad  computacional 172

9.1  Curadores  de  tiempo  polinomial. . . . . . . . . . . . . . . . . .  174

9.2  Algunas  distribuciones  difíciles  de  sintetizar. . . . . . . . . .  177

9.3  Adversarios  del  tiempo  polinomial. . . . . . . . . . . . . . . . .  185

9.4  Notas  bibliográficas . . . . . . . . . . . . . . . . . . . . .  187

10  Privacidad  diferencial  y  diseño  de  mecanismos  10.1  Privacidad   189

diferencial  como  concepto  de  solución. . . . . . . . . .  191 .  

10.2  La  privacidad  diferencial  como  herramienta  en  el  diseño  de  mecanismos. . . . 193
10.3  Diseño  de  mecanismos  para  agentes  conscientes  de  la  privacidad. . . . . . . .  204
10.4  Notas  bibliográficas. . . . . . . . . . . . . . . . . . . .  213
Machine Translated by Google

IV

11  Privacidad  diferencial  y  aprendizaje  automático 216

11.1  La  complejidad  muestral  de  diferencialmente  privado
aprendizaje  automático . . . . . . . . . . . . . . . . . . . . . . .  219 .  
11.2  Aprendizaje  online  diferencialmente  privado. . . . . . . . . . . . 222

11.3  Minimización  empírica  del  riesgo. . . . . . . . . . . . . . . . .  227

11.4  Notas  bibliográficas. . . . . . . . . . . . . . . . . . . .  230

12  modelos  adicionales 231
12.1  El  modelo  local . . . . . . . . . . . . . . . . . . . . . . .  232

12.2  Modelo  de  transmisión  pan­privada. . . . . . . . . . . . . . . .  237 .  
12.3  Observación  continua. . . . . . . . . . . . . . . . . . . 240

12.4  Error  de  caso  promedio  para  liberación  de  consulta. . . . . . . . . . . . .  248

12.5  Notas  bibliográficas. . . . . . . . . . . . . . . . . . . .  252

13  Reflexiones  13.1   254

Hacia  la  práctica  de  la  privacidad . . . . . . . . . . . . . . . . . .  254

13.2  La  lente  de  privacidad  diferencial . . . . . . . . . . . . . . . . .  258

Apéndices 260

A  El  mecanismo  de  Gauss  A.1  Notas   261

bibliográficas . . . . . . . . . . . . . . . . . . . . .  266

B  Teoremas  de  composición  para  (ε,  δ)­DP  B.1  Ampliación   267
del  teorema  3.16 . . . . . . . . . . . . . . . . .  267

Expresiones  de  gratitud 269

Referencias 270
Machine Translated by Google

Abstracto

El  problema  del  análisis  de  datos  para  preservar  la  privacidad  tiene  una  larga  
historia  que  abarca  múltiples  disciplinas.  A  medida  que  los  datos  electrónicos  sobre  
las  personas  se  vuelven  cada  vez  más  detallados  y  la  tecnología  permite  una  
recopilación  y  conservación  de  estos  datos  cada  vez  más  potentes,  aumenta  la  
necesidad  de  una  definición  de  privacidad  robusta,  significativa  y  matemáticamente  
rigurosa,  junto  con  una  clase  de  algoritmos  computacionalmente  ricos  que  satisfagan  
este  requisito.  definición.  La  privacidad  diferencial  es  una  definición  de  este  tipo.
Después  de  motivar  y  discutir  el  significado  de  la  privacidad  diferencial,  la  
preponderancia  de  esta  monografía  está  dedicada  a  las  técnicas  fundamentales  
para  lograr  la  privacidad  diferencial  y  la  aplicación  de  estas  técnicas  en  
combinaciones  creativas,  utilizando  el  problema  de  consulta  y  liberación  como  un  
ejemplo  continuo.  Un  punto  clave  es  que,  al  repensar  el  objetivo  computacional,  a  
menudo  se  pueden  obtener  resultados  mucho  mejores  que  los  que  se  lograrían  
reemplazando  metódicamente  cada  paso  de  un  cómputo  no  privado  con  una  
implementación  diferencialmente  privada.  A  pesar  de  algunos  resultados  
computacionales  asombrosamente  poderosos,  aún  existen  limitaciones  
fundamentales,  no  solo  sobre  lo  que  se  puede  lograr  con  la  privacidad  diferencial,  
sino  sobre  lo  que  se  puede  lograr  con  cualquier  método  que  proteja  contra  una  
ruptura  total  de  la  privacidad.  Virtualmente  todos  los  algoritmos  discutidos  aquí  
mantienen  privacidad  diferencial  contra  adversarios  de  poder  computacional  
arbitrario.  Ciertos  algoritmos  son  computacionalmente  intensivos,  otros  son  
eficientes.  Se  discute  la  complejidad  computacional  para  el  adversario  y  el  algoritmo.

Luego  pasamos  de  los  fundamentos  a  las  aplicaciones  distintas  de  la  liberación  
de  consultas,  discutiendo  métodos  diferencialmente  privados  para  el  diseño  de  
mecanismos  y  el  aprendizaje  automático.  La  gran  mayoría  de  la  literatura  sobre  
algoritmos  diferencialmente  privados  considera  una  única  base  de  datos  estática  
que  está  sujeta  a  muchos  análisis.  Se  analiza  la  privacidad  diferencial  en  otros  
modelos,  incluidas  las  bases  de  datos  distribuidas  y  los  cálculos  sobre  flujos  de  datos.
Machine Translated by Google

Finalmente,  notamos  que  este  trabajo  pretende  ser  una  introducción  
completa  a  los  problemas  y  técnicas  de  la  privacidad  diferencial,  pero  no  
pretende  ser  un  estudio  exhaustivo;  en  este  momento  hay  una  gran  cantidad  de  
trabajo  en  privacidad  diferencial,  y  podemos  cubrir  sólo  una  pequeña  porción  de  ella.

C.  Dwork  y  A.  Roth.  Los  fundamentos  algorítmicos  de  la  privacidad  diferencial.  Foundations  
and  TrendsR  in  Theoretical  Computer  Science,  vol.  9,  núms.  3  y  4,  págs.  211  a  407,
2014.
DOI:  10.1561/0400000042.
Machine Translated by Google

Prefacio

El  problema  del  análisis  de  datos  para  preservar  la  privacidad  tiene  una  larga  
historia  que  abarca  múltiples  disciplinas.  A  medida  que  los  datos  electrónicos  sobre  
las  personas  se  vuelven  cada  vez  más  detallados  y  la  tecnología  permite  una  
recopilación  y  conservación  de  estos  datos  cada  vez  más  potentes,  aumenta  la  
necesidad  de  una  definición  de  privacidad  robusta,  significativa  y  matemáticamente  
rigurosa,  junto  con  una  clase  de  algoritmos  computacionalmente  ricos  que  satisfagan  
este  requisito.  definición.  La  privacidad  diferencial  es  una  definición  de  este  tipo.
Después  de  motivar  y  discutir  el  significado  de  la  privacidad  diferencial,  la  
preponderancia  del  libro  se  dedica  a  las  técnicas  fundamentales  para  lograr  la  
privacidad  diferencial  y  la  aplicación  de  estas  técnicas  en  combinaciones  creativas  
(Secciones  3  a  7),  utilizando  el  problema  de  consulta  y  liberación  como  un  ejemplo  
continuo. .  Un  punto  clave  es  que,  al  repensar  el  objetivo  computacional,  a  menudo  
se  pueden  obtener  resultados  mucho  mejores  que  los  que  se  lograrían  reemplazando  
metódicamente  cada  paso  de  un  cómputo  no  privado  con  una  implementación  
diferencialmente  privada.
A  pesar  de  algunos  resultados  computacionales  asombrosamente  poderosos,  
aún  existen  limitaciones  fundamentales,  no  solo  sobre  lo  que  se  puede  lograr  con  la  
privacidad  diferencial,  sino  sobre  lo  que  se  puede  lograr  con  cualquier  método  que  
proteja  contra  una  ruptura  total  de  la  privacidad  (Sección  8).
Prácticamente  todos  los  algoritmos  discutidos  en  este  libro  mantienen  privacidad  
diferencial  contra  adversarios  de  poder  computacional  arbitrario.  Ciertos  algoritmos  
son  computacionalmente  intensivos,  otros  son

3
Machine Translated by Google

eficiente.  La  complejidad  computacional  para  el  adversario  y  el  algoritmo  se  
analizan  en  la  Sección  9.
En  las  Secciones  10  y  11,  pasamos  de  los  fundamentos  a  las  aplicaciones  
distintas  de  la  liberación  de  consulta,  discutiendo  métodos  diferencialmente  
privados  para  el  diseño  de  mecanismos  y  el  aprendizaje  automático.  La  gran  
mayoría  de  la  literatura  sobre  algoritmos  diferencialmente  privados  considera  una  
única  base  de  datos  estática  que  está  sujeta  a  muchos  análisis.  La  privacidad  
diferencial  en  otros  modelos,  incluidas  las  bases  de  datos  distribuidas  y  los  
cálculos  sobre  flujos  de  datos,  se  analiza  en  la  Sección  12.
Finalmente,  notamos  que  este  libro  pretende  ser  una  introducción  completa  
a  los  problemas  y  técnicas  de  la  privacidad  diferencial,  pero  no  pretende  ser  un  
estudio  exhaustivo;  en  este  momento  hay  una  gran  cantidad  de  trabajo  en  
privacidad  diferencial,  y  podemos  cubrir  sólo  una  pequeña  porción  de  ella.
Machine Translated by Google

1
La  promesa  de  la  privacidad  diferencial

La  “privacidad  diferencial”  describe  una  promesa,  hecha  por  un  titular  de  datos,  o  
curador,  a  un  sujeto  de  datos:  “Usted  no  se  verá  afectado,  negativamente  o  de  otra  
manera,  al  permitir  que  sus  datos  se  utilicen  en  cualquier  estudio  o  análisis,  sin  importar  
qué.  otros  estudios,  conjuntos  de  datos  o  fuentes  de  información  están  disponibles”.  
En  el  mejor  de  los  casos,  los  mecanismos  de  bases  de  datos  privadas  diferencialmente  
pueden  hacer  que  los  datos  confidenciales  estén  ampliamente  disponibles  para  un  
análisis  de  datos  preciso,  sin  recurrir  a  salas  limpias  de  datos,  acuerdos  de  uso  de  
datos,  planes  de  protección  de  datos  o  vistas  restringidas.  No  obstante,  la  utilidad  de  
los  datos  eventualmente  se  consumirá:  la  Ley  Fundamental  de  Recuperación  de  la  
Información  establece  que  las  respuestas  demasiado  precisas  a  demasiadas  preguntas  
destruirán  la  privacidad  de  una  manera  espectacular.1  El  objetivo  de  la  investigación  
algorítmica  sobre  la  privacidad  diferencial  es  posponer  esta  inevitabilidad  mientras  posible.
La  privacidad  diferencial  aborda  la  paradoja  de  no  aprender  nada  sobre  un  
individuo  mientras  se  aprende  información  útil  sobre  una  población.  Una  base  de  datos  
médica  puede  enseñarnos  que  fumar  causa  cáncer,  afectando  la  visión  de  una  
compañía  de  seguros  sobre  los  costos  médicos  a  largo  plazo  de  un  fumador.
¿El  fumador  ha  sido  perjudicado  por  el  análisis?  Tal  vez  ­  su  seguro

1Este  resultado,  demostrado  en  la  Sección  8.1,  se  aplica  a  todas  las  técnicas  para  preservar  la  privacidad
análisis  de  datos,  y  no  sólo  a  la  privacidad  diferencial.

5
Machine Translated by Google

6 La  promesa  de  la  privacidad  diferencial

las  primas  pueden  aumentar  si  el  asegurador  sabe  que  fuma.  También  puede  recibir  
ayuda:  al  enterarse  de  sus  riesgos  para  la  salud,  ingresa  en  un  programa  para  dejar  
de  fumar.  ¿Se  ha  visto  comprometida  la  privacidad  del  fumador?  Ciertamente,  se  
sabe  más  sobre  él  después  del  estudio  de  lo  que  se  sabía  antes,  pero  ¿se  "filtró"  su  
información?  La  privacidad  diferencial  asumirá  la  opinión  de  que  no  lo  fue,  con  la  
justificación  de  que  el  impacto  en  el  fumador  es  el  mismo  independientemente  de  si  
estuvo  o  no  en  el  estudio.
Son  las  conclusiones  alcanzadas  en  el  estudio  las  que  afectan  al  fumador,  no  su  
presencia  o  ausencia  en  el  conjunto  de  datos.
La  privacidad  diferencial  garantiza  que  se  llegue  a  las  mismas  conclusiones,  por  
ejemplo,  fumar  causa  cáncer,  independientemente  de  si  cualquier  individuo  opta  por  
participar  o  no  en  el  conjunto  de  datos.  Específicamente,  asegura  que  cualquier  
secuencia  de  resultados  (respuestas  a  consultas)  tiene  la  misma  probabilidad  de  
ocurrir  “esencialmente”,  independientemente  de  la  presencia  o  ausencia  de  cualquier  
individuo.  Aquí,  las  probabilidades  se  toman  sobre  las  elecciones  aleatorias  realizadas  
por  el  mecanismo  de  privacidad  (algo  controlado  por  el  curador  de  datos),  y  el  término  
"esencialmente"  se  captura  mediante  un  parámetro,  ε.  Un  ε  más  pequeño  producirá  
una  mejor  privacidad  (y  respuestas  menos  precisas).
La  privacidad  diferencial  es  una  definición,  no  un  algoritmo.  Para  una  tarea  
computacional  T  dada  y  un  valor  dado  de  ε  habrá  muchos  algoritmos  diferencialmente  
privados  para  lograr  T  de  una  manera  ε­diferencialmente  privada.  Algunos  tendrán  
mejor  precisión  que  otros.  Cuando  ε  es  pequeño,  encontrar  un  algoritmo  ε­
diferencialmente  privado  de  alta  precisión  para  T  puede  ser  difícil,  al  igual  que  
encontrar  un  algoritmo  numéricamente  estable  para  una  tarea  computacional  
específica  puede  requerir  esfuerzo.

1.1  Análisis  de  datos  para  preservar  la  privacidad

La  privacidad  diferencial  es  una  definición  de  privacidad  adaptada  al  problema  del  
análisis  de  datos  para  preservar  la  privacidad.  Abordaremos  brevemente  algunas  
preocupaciones  con  otros  enfoques  de  este  problema.

Los  datos  no  se  pueden  anonimizar  por  completo  y  seguir  siendo  útiles.  En  términos  
generales,  cuanto  más  ricos  son  los  datos,  más  interesantes  y  útiles  son.
Esto  ha  llevado  a  las  nociones  de  "anonimización"  y  "eliminación  de  información  de  
identificación  personal",  donde  la  esperanza  es  que  partes  de  la
Machine Translated by Google

1.1.  Análisis  de  datos  para  preservar  la  privacidad 7

los  registros  de  datos  se  pueden  suprimir  y  el  resto  se  puede  publicar  y  utilizar  para  el  análisis.  
Sin  embargo,  la  riqueza  de  los  datos  permite  “nombrar”  a  un  individuo  por  una  colección  de  
campos  o  atributos  a  veces  sorprendente,  como  la  combinación  de  código  postal,  fecha  de  
nacimiento  y  sexo,  o  incluso  los  nombres  de  tres  películas  y  las  fechas  aproximadas.  en  el  que  
una  persona  vio  estas  películas.  Esta  capacidad  de  "nombramiento"  se  puede  utilizar  en  un  
ataque  de  vinculación  para  hacer  coincidir  registros  "anonimizados"  con  registros  no  anónimos  en  
un  conjunto  de  datos  diferente.  Por  lo  tanto,  no  se  identificaron  los  registros  médicos  del  
gobernador  ni  de  Massachussetts  comparando  datos  de  encuentros  médicos  anónimos  con  
registros  de  registro  de  votantes  (disponibles  públicamente)  y  suscriptores  de  Netflix  cuyos  
historiales  de  visualización  estaban  contenidos  en  una  colección  de  registros  de  películas  
anónimos  publicados  por  Netflix  como  datos  de  capacitación.  para  una  competencia  por  
recomendación  fueron  identificados  por  enlace  con  Internet  Movie  Database  (IMDb).

La  privacidad  diferencial  neutraliza  los  ataques  de  enlace:  dado  que  ser  privado  
diferencialmente  es  una  propiedad  del  mecanismo  de  acceso  a  los  datos  y  no  está  relacionado  
con  la  presencia  o  ausencia  de  información  auxiliar  disponible  para  el  adversario,  el  acceso  a  
IMDb  ya  no  permitiría  un  ataque  de  enlace  a  alguien  cuyo  la  historia  está  en  el  conjunto  de  
entrenamiento  de  Netflix  que  para  alguien  que  no  está  en  el  conjunto  de  entrenamiento.

La  reidentificación  de  registros  "anonimizados"  no  es  el  único  riesgo.  La  reidentificación  de  
registros  de  datos  “anonimizados”  es  claramente  indeseable,  no  solo  por  la  reidentificación  per  
se,  que  sin  duda  revela  la  pertenencia  al  conjunto  de  datos,  sino  también  porque  el  registro  puede  
contener  información  comprometedora  que,  si  estuviera  vinculada  a  un  individuo,  podría  causar  
daño.  Una  colección  de  registros  de  encuentros  médicos  de  un  centro  de  atención  de  urgencia  
específico  en  una  fecha  determinada  puede  enumerar  solo  una  pequeña  cantidad  de  quejas  o  
diagnósticos  distintos.  La  información  adicional  de  que  un  vecino  visitó  la  instalación  en  la  fecha  
en  cuestión  da  una  gama  bastante  estrecha  de  diagnósticos  posibles  para  la  condición  del  vecino.  
El  hecho  de  que  no  sea  posible  hacer  coincidir  un  registro  específico  con  el  vecino  proporciona  
una  protección  de  privacidad  mínima  para  el  vecino.

Las  consultas  sobre  conjuntos  grandes  no  son  protectoras.  Las  preguntas  sobre  individuos  
específicos  no  se  pueden  responder  de  forma  segura  con  precisión  y,  de  hecho,  una
Machine Translated by Google

8 La  promesa  de  la  privacidad  diferencial

podría  desear  rechazarlos  sin  más  (si  fuera  computacionalmente  factible  
reconocerlos).  Obligar  a  las  consultas  a  abarcar  conjuntos  grandes  no  es  una  
panacea,  como  lo  demuestra  el  siguiente  ataque  de  diferenciación.  Supongamos  
que  se  sabe  que  el  Sr.  X  está  en  cierta  base  de  datos  médica.  En  conjunto,  las  
respuestas  a  las  dos  grandes  consultas  "¿Cuántas  personas  en  la  base  de  datos  
tienen  el  rasgo  de  células  falciformes?"  y  "¿Cuántas  personas,  no  llamadas  X,  en  
la  base  de  datos  tienen  el  rasgo  de  células  falciformes?"  producir  el  estado  de  células  falciformes  del  Sr.  X.

La  auditoría  de  consultas  es  problemática.  Uno  podría  verse  tentado  a  auditar  la  
secuencia  de  consultas  y  respuestas,  con  el  objetivo  de  prohibir  cualquier  respuesta  
si,  a  la  luz  del  historial,  responder  a  la  consulta  actual  comprometería  la  privacidad.  
Por  ejemplo,  el  auditor  puede  estar  atento  a  pares  de  consultas  que  constituirían  
un  ataque  de  diferenciación.  Hay  dos  dificultades  con  este  enfoque.  En  primer  
lugar,  es  posible  que  negarse  a  responder  a  una  consulta  sea  en  sí  mismo  
revelador.  En  segundo  lugar,  la  auditoría  de  consultas  puede  ser  computacionalmente  
inviable;  de  hecho,  si  el  lenguaje  de  consulta  es  lo  suficientemente  rico,  es  posible  
que  ni  siquiera  exista  un  procedimiento  algorítmico  para  decidir  si  un  par  de  
consultas  constituye  un  ataque  de  diferenciación.

Las  estadísticas  resumidas  no  son  "seguras".  En  cierto  sentido,  el  fracaso  de  las  
estadísticas  resumidas  como  concepto  de  solución  de  privacidad  es  inmediato  
desde  el  ataque  de  diferenciación  que  acabamos  de  describir.  Otros  problemas  con  
las  estadísticas  resumidas  incluyen  una  variedad  de  ataques  de  reconstrucción  
contra  una  base  de  datos  en  la  que  cada  individuo  tiene  un  "bit  secreto"  para  
proteger.  El  objetivo  de  la  utilidad  puede  ser  permitir,  por  ejemplo,  preguntas  del  
tipo  "¿Cuántas  personas  que  satisfacen  la  propiedad  P  tienen  un  valor  de  bit  
secreto  1?"  El  objetivo  del  adversario,  por  otro  lado,  es  aumentar  significativamente  
sus  posibilidades  de  adivinar  las  partes  secretas  de  los  individuos.  Los  ataques  de  
reconstrucción  descritos  en  la  Sección  8.1  muestran  la  dificultad  de  proteger  incluso  
contra  un  número  lineal  de  consultas  de  este  tipo:  a  menos  que  se  introduzcan  
suficientes  imprecisiones,  casi  todos  los  bits  secretos  pueden  reconstruirse.
Una  ilustración  llamativa  de  los  riesgos  de  publicar  estadísticas  resumidas  es  
la  aplicación  de  una  técnica  estadística,  originalmente  destinada  a  confirmar  o  
refutar  la  presencia  del  ADN  de  un  individuo  en  una  mezcla  forense,  para  descartar  
o  excluir  a  un  individuo  de  una  asociación  de  todo  el  genoma.  estudiar.  Según  un  
sitio  web  del  Proyecto  Genoma  Humano,  "los  polimorfismos  de  un  solo  nucleótido,  
o  SNP  (pronunciado  "snips"),  son  ADN
Machine Translated by Google

1.1.  Análisis  de  datos  para  preservar  la  privacidad 9

variaciones  de  secuencia  que  ocurren  cuando  se  altera  un  solo  nucleótido  (A,  T,  C  o  G)  en  la  
secuencia  del  genoma.  Por  ejemplo,  un  SNP  podría  cambiar  la  secuencia  de  ADN  AAGGCTAA  a  
ATGGCTAA”.  En  este  caso  decimos  que  hay  dos  alelos:  A  y  T.  Para  tal  SNP  podemos  preguntar,  
dada  una  población  de  referencia  particular,  ¿cuáles  son  las  frecuencias  de  cada  uno  de  los  dos  
alelos  posibles?  Dadas  las  frecuencias  alélicas  de  los  SNP  en  la  población  de  referencia,  podemos  
examinar  cómo  estas  frecuencias  pueden  diferir  para  una  subpoblación  que  tiene  una  enfermedad  
en  particular  (el  grupo  de  "casos"),  buscando  alelos  que  estén  asociados  con  la  enfermedad.  Por  
esta  razón,  los  estudios  de  asociación  de  todo  el  genoma  pueden  contener  las  frecuencias  
alélicas  del  grupo  de  casos  para  un  gran  número  de  SNP.  Por  definición,  estas  frecuencias  
alélicas  son  solo  estadísticas  agregadas,  y  la  suposición  (errónea)  ha  sido  que,  en  virtud  de  esta  
agregación,  preservan  la  privacidad.

Sin  embargo,  dados  los  datos  genómicos  de  un  individuo,  es  teóricamente  posible  determinar  si  
el  individuo  está  en  el  grupo  de  casos  (y,  por  lo  tanto,  tiene  la  enfermedad).  En  respuesta,  los  
Institutos  Nacionales  de  Salud  y  Wellcome  Trust  cancelaron  el  acceso  público  a  los  datos  de  
frecuencia  agregados  de  los  estudios  que  financian.

Este  es  un  problema  desafiante  incluso  para  la  privacidad  diferencial,  debido  a  la  gran  
cantidad  (cientos  de  miles  o  incluso  un  millón)  de  mediciones  involucradas  y  la  cantidad  
relativamente  pequeña  de  individuos  en  cualquier  grupo  de  casos.

Los  hechos  "ordinarios"  no  están  "bien".  Revelar  hechos  "ordinarios",  como  comprar  pan,  puede  
ser  problemático  si  se  sigue  a  un  sujeto  de  datos  a  lo  largo  del  tiempo.  Por  ejemplo,  considere  al  
Sr.  T,  que  compra  pan  regularmente,  año  tras  año,  hasta  que  de  repente  cambia  a  comprar  pan  
raramente.  Un  analista  podría  concluir  que  lo  más  probable  es  que  el  Sr.  T  haya  sido  diagnosticado  
con  diabetes  tipo  2.
El  analista  puede  estar  en  lo  cierto  o  puede  estar  equivocado;  de  cualquier  manera,  el  Sr.  T  se  ve  
perjudicado.

"Sólo  algunos."  En  algunos  casos,  una  técnica  particular  puede,  de  hecho,  proporcionar  protección  
de  la  privacidad  para  los  miembros  “típicos”  de  un  conjunto  de  datos  o,  más  generalmente,  para  
la  “mayoría”  de  los  miembros.  En  tales  casos,  a  menudo  se  escucha  el  argumento  de  que  la  
técnica  es  adecuada,  ya  que  compromete  la  privacidad  de  “solo  unos  pocos”  participantes.  
Dejando  de  lado  la  preocupación  de  que  los  valores  atípicos  pueden  ser  precisamente  aquellas  
personas  para  quienes  la  privacidad  es  más  importante,  los  "solo  unos  pocos"
Machine Translated by Google

10 La  promesa  de  la  privacidad  diferencial

la  filosofía  no  carece  intrínsecamente  de  mérito:  hay  que  hacer  un  juicio  social,  
una  ponderación  de  costos  y  beneficios.  Todavía  no  se  ha  desarrollado  una  
definición  bien  articulada  de  privacidad  consistente  con  la  filosofía  de  “solo  unos  
pocos”;  sin  embargo,  para  un  solo  conjunto  de  datos,  se  puede  lograr  la  privacidad  
de  "solo  unos  pocos"  seleccionando  aleatoriamente  un  subconjunto  de  filas  y  
liberándolas  en  su  totalidad  (Lema  4.3,  Sección  4).  Los  límites  de  muestreo  que  
describen  la  calidad  del  análisis  estadístico  que  se  puede  realizar  en  submuestras  
aleatorias  rigen  el  número  de  filas  que  se  liberarán.  La  privacidad  diferencial  
ofrece  una  alternativa  cuando  se  rechaza  la  filosofía  de  “solo  unos  pocos”.

1.2  Notas  bibliográficas

Sweeney  [81]  vinculó  los  registros  de  registro  de  votantes  con  datos  de  encuentros  
médicos  "anonimizados";  Narayanan  y  Shmatikov  llevaron  a  cabo  un  ataque  de  
vinculación  contra  datos  de  clasificación  anónimos  publicados  por  Netflix  [65].  El  
trabajo  sobre  presencia  en  una  mezcla  forense  se  debe  a  Homer  et  al.  [46].  Los  
primeros  ataques  de  reconstrucción  se  debieron  a  Dinur  y  Nissim  [18].
Machine Translated by Google

2
Términos  básicos

Esta  sección  motiva  y  presenta  la  definición  formal  de  privacidad  diferencial  y  enumera  
algunas  de  sus  propiedades  clave.

2.1  El  modelo  de  computación

Asumimos  la  existencia  de  un  curador  de  confianza  que  mantiene  los  datos  de  las  
personas  en  una  base  de  datos  D,  típicamente  compuesta  por  un  número  n  de  filas.  La  
intuición  es  que  cada  fila  contiene  el
datos  de  un  solo  individuo  y,  aún  hablando  intuitivamente,  el  objetivo  de  privacidad  es  
proteger  simultáneamente  cada  fila  individual  mientras  permite  el  análisis  estadístico  de  
la  base  de  datos  en  su  conjunto.
En  el  modelo  no  interactivo,  o  fuera  de  línea,  el  curador  produce  algún  tipo  de  objeto,  
como  una  "base  de  datos  sintética",  una  colección  de  estadísticas  resumidas  o  una  
"base  de  datos  desinfectada"  de  una  vez  por  todas.  Después  de  esta  liberación,  el  
curador  ya  no  desempeña  ningún  papel  y  los  datos  originales  pueden  ser  destruidos.
Una  consulta  es  una  función  que  se  aplica  a  una  base  de  datos.  El  modelo  
interactivo,  o  en  línea,  permite  que  el  analista  de  datos  haga  consultas  de  manera  
adaptativa,  decidiendo  qué  consulta  plantear  a  continuación  en  función  de  las  respuestas  
observadas  a  consultas  anteriores.

11
Machine Translated by Google

12 Términos  básicos

El  curador  de  confianza  puede  ser  reemplazado  por  un  protocolo  ejecutado  por  
el  conjunto  de  individuos,  utilizando  las  técnicas  criptográficas  para  protocolos  
seguros  de  múltiples  partes,  pero  en  su  mayor  parte  no  apelaremos  a  suposiciones  
criptográficas.  La  sección  12  describe  este  y  otros  modelos  estudiados  en  la  literatura.

Cuando  todas  las  consultas  se  conocen  de  antemano,  el  modelo  no  interactivo  
debería  brindar  la  mejor  precisión,  ya  que  es  capaz  de  correlacionar  el  ruido  
conociendo  la  estructura  de  las  consultas.  En  cambio,  cuando  no  se  conoce  de  
antemano  información  sobre  las  consultas,  el  modelo  no  interactivo  plantea  serios  
desafíos,  ya  que  debe  dar  respuesta  a  todas  las  consultas  posibles.
Como  veremos,  para  garantizar  la  privacidad,  o  incluso  para  evitar  catástrofes  de  
privacidad,  la  precisión  necesariamente  se  deteriorará  con  el  número  de  preguntas  
formuladas,  y  será  inviable  proporcionar  respuestas  precisas  a  todas  las  preguntas  
posibles.
Un  mecanismo  de  privacidad,  o  simplemente  un  mecanismo,  es  un  algoritmo  
que  toma  como  entrada  una  base  de  datos,  un  universo  X  de  tipos  de  datos  (el  
conjunto  de  todas  las  posibles  filas  de  la  base  de  datos),  bits  aleatorios  y,  
opcionalmente,  un  conjunto  de  consultas,  y  produce  un  cadena  de  salida  La  
esperanza  es  que  la  cadena  de  salida  se  pueda  decodificar  para  producir  respuestas  
relativamente  precisas  a  las  consultas,  si  estas  últimas  están  presentes.  Si  no  se  
presentan  consultas,  estamos  en  el  caso  no  interactivo,  y  la  esperanza  es  que  la  
cadena  de  salida  se  pueda  interpretar  para  proporcionar  respuestas  a  futuras  consultas.
En  algunos  casos,  podemos  requerir  que  la  cadena  de  salida  sea  una  base  de  
datos  sintética.  Este  es  un  conjunto  múltiple  extraído  del  universo  X  de  posibles  filas  
de  la  base  de  datos.  El  método  de  decodificación  en  este  caso  es  realizar  la  consulta  
en  la  base  de  datos  sintética  y  luego  aplicar  algún  tipo  de  transformación  simple,  
como  multiplicar  por  un  factor  de  escala,  para  obtener  una  aproximación  a  la  
verdadera  respuesta  a  la  consulta.

2.2  Hacia  la  definición  del  análisis  de  datos  privados

Un  enfoque  natural  para  definir  la  privacidad  en  el  contexto  del  análisis  de  datos  es  
exigir  que  el  analista  no  sepa  más  acerca  de  cualquier  individuo  en  el  conjunto  de  
datos  después  de  completar  el  análisis  de  lo  que  sabía  antes  de  comenzar  el  
análisis.  También  es  natural  formalizar  este  objetivo
Machine Translated by Google

2.2.  Hacia  la  definición  del  análisis  de  datos  privados 13

exigir  que  las  opiniones  anteriores  y  posteriores  del  adversario  sobre  un  individuo  (es  
decir,  antes  y  después  de  tener  acceso  a  la  base  de  datos)  no  sean  "demasiado  
diferentes",  o  que  el  acceso  a  la  base  de  datos  no  cambie  las  opiniones  del  adversario  
sobre  cualquier  individuo  "  demasiado."  Sin  embargo,  si  la  base  de  datos  enseña  algo,  
esta  noción  de  privacidad  es  inalcanzable.  Por  ejemplo,  supongamos  que  la  opinión  
previa  (incorrecta)  del  adversario  es  que  todos  tienen  2  pies  izquierdos.  El  acceso  a  la  
base  de  datos  estadística  enseña  que  casi  todo  el  mundo  tiene  un  pie  izquierdo  y  un  pie  
derecho.  El  adversario  ahora  tiene  una  visión  muy  diferente  de  si  un  encuestado  dado  
tiene  o  no  dos  pies  izquierdos.

Parte  del  atractivo  del  enfoque  antes/después,  o  “nada  se  aprende”,  para  definir  la  
privacidad  es  la  intuición  de  que  si  no  se  aprende  nada  sobre  un  individuo,  entonces  el  
análisis  no  puede  dañar  al  individuo.
Sin  embargo,  el  ejemplo  de  “fumar  causa  cáncer”  muestra  que  esta  intuición  es  
defectuosa;  el  culpable  es  la  información  auxiliar  (el  Sr.  X  fuma).
El  enfoque  de  "nada  se  aprende"  para  definir  la  privacidad  recuerda  a  la  seguridad  
semántica  de  un  criptosistema.  En  términos  generales,  la  seguridad  semántica  dice  que  
no  se  aprende  nada  sobre  el  texto  sin  cifrar  (el  mensaje  sin  cifrar)  del  texto  cifrado.  Es  
decir,  todo  lo  que  se  sabía  sobre  el  texto  sin  formato  después  de  ver  el  texto  cifrado  se  
sabía  antes  de  ver  el  texto  cifrado.  Entonces,  si  hay  información  auxiliar  que  dice  que  el  
texto  cifrado  es  un  cifrado  de  "perro"  o  "gato",  entonces  el  texto  cifrado  no  filtra  más  
información  sobre  cuál  de  "perro"  o  "gato"  se  ha  cifrado.  Formalmente,  esto  se  modela  
comparando  la  capacidad  del  intruso  para  adivinar  cuál  de  "perro"  y  "gato"  ha  sido  
encriptado  con  la  capacidad  del  llamado  simulador  de  adversario,  que  tiene  la  información  
auxiliar  pero  no  tiene  acceso  a  la  información.  texto  cifrado,  para  adivinar  lo  mismo.  Si  
por  cada  adversario  que  escucha  a  escondidas  y  toda  la  información  auxiliar  (que  tanto  
el  adversario  como  el  simulador  tienen  acceso),  el  simulador  del  adversario  tiene  
esencialmente  las  mismas  probabilidades  de  adivinar  que  el  que  escucha  a  escondidas,  
entonces  el  sistema  disfruta  de  seguridad  semántica.  Por  supuesto,  para  que  el  sistema  
sea  útil,  el  receptor  legítimo  debe  poder  descifrar  correctamente  el  mensaje;  de  lo  
contrario,  la  seguridad  semántica  se  puede  lograr  de  manera  trivial.

Sabemos  que,  bajo  supuestos  computacionales  estándar,  existen  criptosistemas  
semánticamente  seguros,  entonces,  ¿por  qué  no  podemos  construir  semánticamente
Machine Translated by Google

14 Términos  básicos

¿Mecanismos  seguros  de  bases  de  datos  privadas  que  brindan  respuestas  a  las  consultas  mientras  
mantienen  en  secreto  las  filas  individuales?
En  primer  lugar,  la  analogía  no  es  perfecta:  en  un  criptosistema  semánticamente  seguro  hay  
tres  partes:  el  remitente  del  mensaje  (que  cifra  el  mensaje  de  texto  sin  formato),  el  receptor  del  
mensaje  (que  descifra  el  texto  cifrado)  y  el  espía  (que  se  siente  frustrado  por  su  mensaje).  
incapacidad  de  aprender  algo  sobre  el  texto  sin  formato  que  ella  no  supiera  antes  de  que  fuera  
enviado).  Por  el  contrario,  en  el  marco  del  análisis  de  datos  privados  solo  hay  dos  partes:  el  curador,  
que  ejecuta  el  mecanismo  de  privacidad  (análogo  al  remitente)  y  el  analista  de  datos,  que  recibe  
las  respuestas  informativas  a  las  consultas  (como  el  receptor  del  mensaje)  y  también  trata  de  
extraer  información  que  compromete  la  privacidad  de  las  personas  (como  el  intruso).  Debido  a  
que  el  receptor  legítimo  es  la  misma  parte  que  el  adversario  fisgón,  la  analogía  con  el  cifrado  es  
defectuosa:  negar  toda  la  información  al  adversario  significa  negar  toda  la  información  al  analista  
de  datos.

En  segundo  lugar,  al  igual  que  con  un  esquema  de  encriptación,  requerimos  que  el  mecanismo  
de  privacidad  sea  útil,  lo  que  significa  que  le  enseña  al  analista  algo  que  no  sabía  previamente.  Esta  
enseñanza  no  está  disponible  para  un  simulador  adversario;  es  decir,  ningún  simulador  puede  
“predecir”  lo  que  ha  aprendido  el  analista.  Por  lo  tanto,  podemos  ver  la  base  de  datos  como  una  
fuente  débil  de  bits  aleatorios  (impredecibles),  de  los  cuales  podemos  extraer  una  aleatoriedad  de  

muy  alta  calidad  para  usarla  como  un  pad  aleatorio.  Esto  se  puede  utilizar  en  una  técnica  de  
encriptación  en  la  que  se  agrega  un  mensaje  secreto  a  un  valor  aleatorio  (el  "almohadilla  aleatoria")  
para  producir  una  cadena  que  en  teoría  oculta  el  secreto.  Solo  alguien  que  conozca  el  pad  aleatorio  
puede  aprender  el  secreto;  cualquier  parte  que  no  sepa  nada  sobre  el  bloc  no  aprende  nada  sobre  
el  secreto,  sin  importar  su  poder  computacional.  Con  acceso  a  la  base  de  datos,  el  analista  puede  
aprender  el  pad  aleatorio,  pero  el  simulador  del  adversario,  que  no  tiene  acceso  a  la  base  de  datos,  
no  aprende  nada  sobre  el  pad.  Así,  dado  como  información  auxiliar  la  encriptación  de  un  secreto  
usando  el  pad  aleatorio,  el  analista  puede  desencriptar  el  secreto,  pero  el  simulador  adversario  no  
aprende  nada  sobre  el  secreto.  Esto  produce  una  gran  disparidad  entre  la  capacidad  del  adversario/
analista  para  conocer  el  secreto  y  la  capacidad
Machine Translated by Google

2.3.  Formalizando  la  privacidad  diferencial 15

del  simulador  adversario  para  hacer  lo  mismo,  eliminando  toda  esperanza  de  algo  remotamente  
parecido  a  la  seguridad  semántica.
El  obstáculo  tanto  en  el  ejemplo  de  fumar  causa  cáncer  como  en  la  esperanza  de  seguridad  
semántica  es  la  información  auxiliar.  Claramente,  para  ser  significativa,  una  garantía  de  privacidad  
debe  ser  válida  incluso  en  el  contexto  del  conocimiento  auxiliar  “razonable”,  pero  es  problemático  
separar  el  conocimiento  auxiliar  razonable  del  arbitrario.  Por  ejemplo,  el  analista  que  utiliza  una  
base  de  datos  del  gobierno  podría  ser  un  empleado  de  una  importante  empresa  de  motores  de  
búsqueda.  ¿Cuáles  son  las  suposiciones  “razonables”  sobre  la  información  de  conocimiento  auxiliar  
disponible  para  esa  persona?

2.3  Formalización  de  la  privacidad  diferencial

Comenzaremos  con  la  definición  técnica  de  privacidad  diferencial,  para  luego  pasar  a  interpretarla.  
La  privacidad  diferencial  proporcionará  privacidad  por  proceso;  en  particular,  introducirá  la  
aleatoriedad.  Un  ejemplo  temprano  de  privacidad  mediante  un  proceso  aleatorio  es  la  respuesta  
aleatoria,  una  técnica  desarrollada  en  las  ciencias  sociales  para  recopilar  información  estadística  
sobre  conductas  vergonzosas  o  ilegales,  capturada  al  tener  una  propiedad  P.

A  los  participantes  del  estudio  se  les  pide  que  informen  si  tienen  o  no  la  propiedad  P  de  la  
siguiente  manera:

1.  Tira  una  moneda.

2.  Si  sale  cruz,  responda  con  la  verdad.

3.  Si  sale  cara,  entonces  arroje  una  segunda  moneda  y  responda  "Sí"  si  sale  cara  y
“No”  si  cruz.

La  “privacidad”  proviene  de  la  negación  plausible  de  cualquier  resultado;  en  particular,  si  tener  la  
propiedad  P  corresponde  a  participar  en  un  comportamiento  ilegal,  incluso  una  respuesta  “Sí”  no  
es  incriminatoria,  ya  que  esta  respuesta  ocurre  con  una  probabilidad  de  al  menos  1/4  
independientemente  de  que  el  encuestado  realmente  tenga  o  no  la  propiedad  P.  La  precisión  
proviene  de  una  comprensión  del  procedimiento  de  generación  de  ruido  (la  introducción  de  
respuestas  falsas  "Sí"  y  "No"  de  la  aleatorización):  El  número  esperado  de  respuestas  "Sí"  es  1/4  
veces  el  número  de  participantes  que  no  tienen  la  propiedad  P  más  3 /4  el  número  que  tiene  la  
propiedad  P.  Así,  si  p  es  la  verdadera  fracción  de
Machine Translated by Google

dieciséis Términos  básicos

participantes  que  tienen  la  propiedad  P,  el  número  esperado  de  respuestas  "Sí"  es  
(1/4)(1−p)+  (3/4)p  =  (1/4)+p/2.  Así,  podemos  estimar  p  como  el  doble  de  la  fracción  
que  responde  “Sí”  menos  1/2,  es  decir,  2((1/4)  +  p/2)  −  1/2.
La  aleatorización  es  esencial;  más  precisamente,  cualquier  garantía  de  
privacidad  no  trivial  que  se  mantenga  independientemente  de  todas  las  fuentes  
presentes  o  incluso  futuras  de  información  auxiliar,  incluidas  otras  bases  de  datos,  
estudios,  sitios  web,  comunidades  en  línea,  chismes,  periódicos,  estadísticas  
gubernamentales,  etc.,  requiere  aleatorización. .  Esto  se  sigue  de  un  argumento  
híbrido  simple,  que  ahora  esbozamos.  Supongamos,  por  el  bien  de  la  contradicción,  
que  tenemos  un  algoritmo  determinista  no  trivial.  La  no  trivialidad  dice  que  existe  
una  consulta  y  dos  bases  de  datos  que  arrojan  resultados  diferentes  bajo  esta  
consulta.  Al  cambiar  una  fila  a  la  vez,  vemos  que  existe  un  par  de  bases  de  datos  
que  difieren  solo  en  el  valor  de  una  sola  fila,  en  las  que  la  misma  consulta  produce  
resultados  diferentes.  Un  adversario  que  sabe  que  la  base  de  datos  es  una  de  
estas  dos  bases  de  datos  casi  idénticas  aprende  el  valor  de  los  datos  en  la  fila  
desconocida.
Por  lo  tanto,  necesitaremos  discutir  el  espacio  de  entrada  y  salida  de  los  
algoritmos  aleatorios.  A  lo  largo  de  esta  monografía  se  trabaja  con  espacios  de  
probabilidad  discretos.  A  veces  describiremos  nuestros  algoritmos  como  muestras  
de  distribuciones  continuas,  pero  estas  siempre  deben  discretizarse  con  precisión  
finita  de  una  manera  apropiadamente  cuidadosa  (consulte  la  Observación  2.1  a  
continuación).  En  general,  un  algoritmo  aleatorio  con  dominio  A  y  rango  (discreto)  
B  estará  asociado  con  una  aplicación  de  A  a  la  probabilidad  simplex  sobre  B,  
denotada  ∆(B):

Definición  2.1  (Probabilidad  Simplex).  Dado  un  conjunto  discreto  B,  la  probabilidad  
símplex  sobre  B,  denotada  por  ∆(B),  se  define  como:

|B|

∆(B)  =   x     R  |B| :  xi  ≥  0  para  todo  i  y   xi  =  1


yo=1

Definición  2.2  (Algoritmo  aleatorio).  Un  algoritmo  aleatorio  M  con  dominio  A  y  rango  
discreto  B  está  asociado  con  un  mapeo  M :  A  →  ∆(B).  En  la  entrada  a     A,  el  
algoritmo  M  genera  M(a)  =  b  con  probabilidad  (M(a))b  para  cada  b     B.  El  espacio  
de  probabilidad  está  sobre  los  lanzamientos  de  moneda  del  algoritmo  M.
Machine Translated by Google

2.3.  Formalizando  la  privacidad  diferencial 17

Pensaremos  en  las  bases  de  datos  x  como  colecciones  de  registros  de  un  
universo  X.  A  menudo  será  conveniente  representar  las  bases  de  datos  por  sus  
histogramas:  x     N  |X|,  en  los  que  cada  entrada  xi  representa  el  número  de  
elementos  en  la  base  de  datos  x  de  tipo  i     X  (abusamos  ligeramente  de  la  
notación,  dejando  que  el  símbolo  N  denote  el  conjunto  de  todos  los  enteros  no  
negativos,  incluido  el  cero).  En  esta  representación,  una  medida  natural  de  la  
distancia  entre  dos  bases  de  datos  x  e  y  será  
1sudistancia:

Definición  2.3  (Distancia  entre  bases  de  datos).  La  base  de  datos   1  norma  de  un
x  se  denota  x1  y  se  define  como:

|X|

x1  = |xi  | .
yo=1

El 1 la  distancia  entre  dos  bases  de  datos  x  e  y  es  x  −  y1

Tenga  en  cuenta  que  x1  es  una  medida  del  tamaño  de  una  base  de  datos  x  (es  
decir,  la  cantidad  de  registros  que  contiene),  y  x−y1  es  una  medida  de  cuántos  
registros  difieren  entre  x  e  y.
Las  bases  de  datos  también  pueden  estar  representadas  por  conjuntos  múltiples  
de  filas  (elementos  de  X)  o  incluso  listas  ordenadas  de  filas,  que  es  un  caso  especial  
de  un  conjunto,  donde  el  número  de  fila  se  convierte  en  parte  del  nombre  del  
elemento.  En  este  caso,  la  distancia  entre  las  bases  de  datos  normalmente  se  mide  
por  la  distancia  de  Hamming,  es  decir,  el  número  de  filas  en  las  que  difieren.
Sin  embargo,  a  menos  que  se  indique  lo  contrario,  utilizaremos  la  representación  
de  histograma  descrita  anteriormente.  (Tenga  en  cuenta,  sin  embargo,  que  incluso  
cuando  la  notación  de  histograma  es  matemáticamente  más  conveniente,  en  las  
implementaciones  reales,  la  representación  de  conjuntos  múltiples  a  menudo  será  
mucho  más  concisa).
Ahora  estamos  listos  para  definir  formalmente  la  privacidad  diferencial,  que  
intuitivamente  garantizará  que  un  algoritmo  aleatorio  se  comporte  de  manera  similar  en  
bases  de  datos  de  entrada  similares.

Definición  2.4  (Privacidad  Diferencial).  Un  algoritmo  aleatorio  M  con  dominio  N  |X|  es  
(ε,  δ)­diferencialmente  privado  si  para  todo  S     Rango(M)  y  para  todo  x,  y     N  |X|  
tal  que  x  −  y1  ≤  1:

Pr[M(x)     S]  ≤  exp(ε)  Pr[M(y)     S]  +  δ,


Machine Translated by Google

18 Términos  básicos

donde  el  espacio  de  probabilidad  está  sobre  los  lanzamientos  de  moneda  del  mecanismo  M.
Si  δ  =  0,  decimos  que  M  es  ε­diferencialmente  privado.

Por  lo  general,  estamos  interesados  en  valores  de  δ  que  son  menores  que  el  
inverso  de  cualquier  polinomio  en  el  tamaño  de  la  base  de  datos.  En  particular,  los  
valores  de  δ  del  orden  de  1/x1  son  muy  peligrosos:  permiten  “preservar  la  
privacidad”  al  publicar  los  registros  completos  de  un  pequeño  número  de  
participantes  de  la  base  de  datos,  precisamente  la  filosofía  de  “solo  unos  pocos”  
discutida  en  la  Sección  1. .
Incluso  cuando  δ  es  insignificante,  sin  embargo,  existen  distinciones  teóricas  
entre  (ε,  0)  y  (ε,  δ)  privacidad  diferencial.  El  principal  de  ellos  es  lo  que  equivale  a  
un  cambio  de  orden  de  cuantificación.  La  privacidad  diferencial  (ε,  0)  asegura  que,  
para  cada  ejecución  del  mecanismo  M(x),  la  salida  observada  tiene  (casi)  la  
misma  probabilidad  de  observarse  en  cada  base  de  datos  vecina,  simultáneamente.  
En  contraste,  la  privacidad  diferencial  (ε,  δ)  dice  que  para  cada  par  de  bases  de  
datos  vecinas  x,  y,  es  extremadamente  improbable  que,  ex  post  facto,  el  valor  
observado  M(x)  sea  mucho  más  o  mucho  menos  probable  que  se  genere  cuando  
la  base  de  datos  es  x  que  cuando  la  base  de  datos  es  y.  Sin  embargo,  dada  una  
salida  ξ     M(x) ,  puede  ser  posible  encontrar  una  base  de  datos  y  tal  que  ξ  sea  
mucho  más  probable  que  se  produzca  en  y  que  cuando  la  base  de  datos  es  x.  Es  
decir,  la  masa  de  ξ  en  la  distribución  M(y)  puede  ser  sustancialmente  mayor  que  
su  masa  en  la  distribución  M(x).

La  cantidad
(ξ) Pr[M(x)  =  ξ]
L  M(x)M(y)
=  ln
Pr[M(y)  =  ξ]
es  importante  para  nosotros;  nos  referimos  a  ella  como  la  pérdida  de  privacidad  
incurrida  al  observar  ξ.  Esta  pérdida  puede  ser  positiva  (cuando  un  evento  es  más  
probable  bajo  x  que  bajo  y)  o  puede  ser  negativa  (cuando  un  evento  es  más  
probable  bajo  y  que  bajo  x).  Como  veremos  en  el  Lema  3.17,  la  privacidad  
diferencial  (ε,  δ)  asegura  que  para  todos  los  x,  y  adyacentes,  el  valor  absoluto  de  
la  pérdida  de  privacidad  estará  acotado  por  ε  con  una  probabilidad  de  al  menos  
1−δ.  Como  siempre,  el  espacio  de  probabilidad  está  sobre  las  monedas  del  mecanismo  M.
La  privacidad  diferencial  es  inmune  al  posprocesamiento:  un  analista  de  datos,  
sin  conocimientos  adicionales  sobre  la  base  de  datos  privada,  no  puede  calcular  
una  función  de  la  salida  de  un  algoritmo  privado  M  y  hacerla
Machine Translated by Google

2.3.  Formalizando  la  privacidad  diferencial 19

menos  diferencialmente  privado.  Es  decir,  si  un  algoritmo  protege  la  privacidad  de  un  
individuo,  entonces  un  analista  de  datos  no  puede  aumentar  la  pérdida  de  privacidad,  
ya  sea  bajo  la  definición  formal  o  incluso  en  cualquier  sentido  intuitivo,  simplemente  
sentándose  en  un  rincón  y  pensando  en  el  resultado  del  algoritmo .  Formalmente,  la  
composición  de  un  mapeo  f  independiente  de  los  datos  con  un  algoritmo  M  (ε,  δ)  
diferencialmente  privado  también  es  (ε,  δ)  diferencialmente  privado:

Propuesta  2.1  (Post­Procesamiento).  Sea  M :  N  |X|  →  R  sea  un  algoritmo  aleatorio  
que  es  (ε,  δ)­diferencialmente  privado.  Sea  f :  R  →  R  una  aplicación  aleatoria  arbitraria.  
Entonces  f  ◦  M :  N  |X|  →  R  es  (ε,  δ)­  diferencialmente  privado.

Prueba.  Probamos  la  proposición  para  una  función  determinista  f :  R  →  R .  Entonces  
se  sigue  el  resultado  porque  cualquier  mapeo  aleatorio  puede  descomponerse  en  una  
combinación  convexa  de  funciones  deterministas,  y  una  combinación  convexa  de  
mecanismos  diferencialmente  privados  es  diferencialmente  privada.

Fijar  cualquier  par  de  bases  de  datos  vecinas  x,  y  con  x  −  y1  ≤  1,  y
arregla  cualquier  evento  S     R .  Sea  T  =  {r     R :  f(r)     S}.  Entonces  tenemos:

Pr[f(M(x))     S]  =  Pr[M(x)     T]  ≤  exp()  


Pr[M(y)     T]  +  δ  =  exp()  
Pr[f(M(y))     S]  +  δ

que  era  lo  que  queríamos.

Se  sigue  inmediatamente  de  la  Definición  2.4  que  (ε,  0)­privacidad  diferencial  se  
compone  de  una  manera  sencilla:  la  composición  de  dos  (ε,  0)­mecanismos  
diferencialmente  privados  es  (2ε,  0)­diferencialmente  privada.  Más  generalmente  
(Teorema  3.16),  “los  épsilons  y  los  deltas  se  suman”:  la  composición  de  k  mecanismos  
diferencialmente  privados,  donde  el  i­ésimo  mecanismo  es  (εi ,  δi)­diferencialmente  
privado,  para  1  ≤  i  ≤  k,  es  ( δi )­  diferencialmente  privado. yo  si
, i

La  privacidad  grupal  para  (ε,  0)­mecanismos  diferencialmente  privados  también  
se  sigue  inmediatamente  de  la  Definición  2.4,  con  la  fuerza  de  la  garantía  de  privacidad  
cayendo  linealmente  con  el  tamaño  del  grupo.
Machine Translated by Google

20 Términos  básicos

Teorema  2.2.  Cualquier  mecanismo  M  (ε,  0)  diferencialmente  privado  es  (kε,  0)  
diferencialmente  privado  para  grupos  de  tamaño  k.  Es  decir,  para  todo  x  −  y1  ≤  k  y  todo  S  
  Rango(M)

Pr[M(x)     S]  ≤  exp(kε)  Pr[M(y)     S],

donde  el  espacio  de  probabilidad  está  sobre  los  lanzamientos  de  moneda  del  mecanismo  M.

Esto  aborda,  por  ejemplo,  la  cuestión  de  la  privacidad  en  las  encuestas  que
incluyen  varios  miembros  de  la  familia.1
De  manera  más  general,  la  composición  y  la  privacidad  del  grupo  no  son  lo  mismo  y  los  
límites  de  composición  mejorados  en  la  Sección  3.5.2  (Teorema  3.20),  que  mejoran  
sustancialmente  el  factor  k ,  no  producen,  ni  pueden  producir,  las  mismas  ganancias  para  la  
privacidad  del  grupo. ,  incluso  cuando  δ  =  0.

2.3.1  Qué  promete  la  privacidad  diferencial

Una  visión  económica.  La  privacidad  diferencial  promete  proteger  a  las  personas  de  
cualquier  daño  adicional  que  puedan  enfrentar  debido  a  que  sus  datos  están  en  la  base  de  
datos  privada  x  que  no  habrían  enfrentado  si  sus  datos  no  hubieran  sido  parte  de  x.  Aunque  
los  individuos  pueden  enfrentarse  a  daños  una  vez  que  se  han  publicado  los  resultados  M(x)  
de  un  mecanismo  M  diferencialmente  privado,  la  privacidad  diferencial  promete  que  la  
probabilidad  de  daño  no  aumentó  significativamente  por  su  elección  de  participar.  Esta  es  
una  definición  muy  utilitaria  de  privacidad,  porque  cuando  un  individuo  está  decidiendo  si  
incluir  o  no  sus  datos  en  una  base  de  datos  que  se  usará  de  manera  diferencialmente  
privada,  es  exactamente  esta  diferencia  la  que  está  considerando:  la  probabilidad  de  daño  
dada  que  ella  participe,  en  comparación  con  la  probabilidad  de  daño  dado  que  ella  no  
participa.  Ella  no  tiene  control  sobre  el  contenido  restante  de  la  base  de  datos.

Dada  la  promesa  de  privacidad  diferencial,  se  le  asegura  que  debería

1Sin  embargo,  a  medida  que  el  grupo  crece,  la  garantía  de  privacidad  se  deteriora,  y  esto  
es  lo  que  queremos:  claramente,  si  reemplazamos  toda  una  población  encuestada,  digamos,  
de  pacientes  con  cáncer,  con  un  grupo  completamente  diferente  de  encuestados,  digamos,  
adolescentes  sanos,  debería  obtener  diferentes  respuestas  a  las  consultas  sobre  la  fracción  
de  encuestados  que  regularmente  corren  tres  millas  cada  día.  Aunque  algo  similar  es  válido  
para  (ε,  δ)­privacidad  diferencial,  el  término  de  aproximación  δ  recibe  un  gran  golpe,  y  solo  
obtenemos  (kε,  ke(k−1)ε  δ)­privacidad  diferencial  para  grupos  de  tamaño  k.
Machine Translated by Google

2.3.  Formalizando  la  privacidad  diferencial 21

ser  casi  indiferente  entre  participar  o  no,  desde  el  punto  de  vista  del  daño  futuro.  
Dado  cualquier  incentivo,  desde  el  altruismo  hasta  la  recompensa  monetaria,  la  
privacidad  diferencial  puede  convencerla  de  permitir  que  se  usen  sus  datos.  Esta  
intuición  puede  formalizarse  en  un  sentido  teórico  de  la  utilidad,  que  aquí  esbozamos  
brevemente.
Considere  un  individuo  i  que  tiene  preferencias  arbitrarias  sobre  el  conjunto  de  
todos  los  eventos  futuros  posibles,  que  denotamos  con  A.  Estas  preferencias  se  
expresan  mediante  una  función  de  utilidad  ui :  A  →  R≥0,  y  decimos  que  el  individuo  i  
experimenta  una  utilidad  ui( a)  en  el  caso  de  que  se  produzca  un     A.  Supongamos  
que  x     N  |X|  es  un  conjunto  de  datos  que  contiene  datos  privados  individuales ,  y  
que  M  es  un  algoritmo  ε­diferencialmente  privado.  Sea  y  un  conjunto  de  datos  que  
es  idéntico  a  x  excepto  que  no  incluye  los  datos  del  individuo  i  (en  particular,  x  −  y1  
=  1),  y  sea  f :  Range(M)  →  ∆(A)  el  ( arbitraria)  función  que  determina  la  distribución  
sobre  eventos  futuros  A,  condicionada  a  la  salida  del  mecanismo  M.  Por  la  garantía  
de  privacidad  diferencial,  junto  con  la  resiliencia  al  posprocesamiento  arbitrario  
garantizado  por  la  Proposición  2.1,  tenemos:

Ea f(M(x))[ui(a)]  = ui(a)  ∙  Pr [a]


a A f(M(x))

≤ ui(a)  ∙  exp(ε)  Pr  [a]  f(M(y))
a A

=  exp(ε)Ea f(M(y))[ui(a)]

Similarmente,

Ea f(M(x))[ui(a)]  ≥  exp(−ε)Ea f(M(y))[ui(a)].

Por  lo  tanto,  al  prometer  una  garantía  de  privacidad  diferencial  ε,  un  analista  de  datos  
puede  prometer  a  un  individuo  que  su  utilidad  futura  esperada  no  se  verá  perjudicada  
por  más  de  un  factor  exp(ε)  ≈  (1+ε) .  Tenga  en  cuenta  que  esta  promesa  se  cumple  
independientemente  de  que  el  individuo  sea  función  de  utilidad  ui   , y  sostiene
simultáneamente  para  múltiples  individuos  que  pueden  tener  funciones  de  utilidad  
completamente  diferentes.
Machine Translated by Google

22 Términos  básicos

2.3.2  Lo  que  la  privacidad  diferencial  no  promete

Como  vimos  en  el  ejemplo  de  Fumar  Causa  Cáncer,  mientras  que  la  privacidad  
diferencial  es  una  garantía  extremadamente  fuerte,  no  promete  libertad  
incondicional  de  daño.  Tampoco  crea  privacidad  donde  antes  no  existía.  En  
términos  más  generales,  la  privacidad  diferencial  no  garantiza  que  lo  que  uno  
cree  que  son  sus  secretos  seguirá  siendo  secreto.  Simplemente  garantiza  que  la  
participación  de  uno  en  una  encuesta  no  se  divulgará  en  sí  misma,  ni  la  
participación  conducirá  a  la  divulgación  de  ningún  detalle  específico  que  uno  haya  
contribuido  a  la  encuesta.  Es  muy  posible  que  las  conclusiones  extraídas  de  la  
encuesta  reflejen  información  estadística  sobre  un  individuo.  Una  encuesta  de  
salud  destinada  a  descubrir  indicadores  tempranos  de  una  dolencia  en  particular  
puede  producir  resultados  sólidos,  incluso  concluyentes;  que  estas  conclusiones  
se  mantengan  para  un  individuo  dado  no  es  evidencia  de  una  violación  de  
privacidad  diferencial;  es  posible  que  la  persona  ni  siquiera  haya  participado  en  la  
encuesta  (nuevamente,  la  privacidad  diferencial  garantiza  que  estos  resultados  
concluyentes  se  obtengan  con  una  probabilidad  muy  similar,  ya  sea  que  la  persona  
participe  o  no  en  la  encuesta).  En  particular,  si  la  encuesta  nos  enseña  que  los  
atributos  privados  específicos  se  correlacionan  fuertemente  con  los  atributos  
públicamente  observables ,  esto  no  es  una  violación  de  la  privacidad  diferencial,  
ya  que  esta  misma  correlación  se  observaría  con  casi  el  mismo
probabilidad  independiente  de  la  presencia  o  ausencia  de  cualquier  encuestado.

Propiedades  cualitativas  de  la  privacidad  diferencial.  Habiendo  introducido  y  
definido  formalmente  la  privacidad  diferencial,  recapitulamos  sus  cualidades  
clave  deseables.

1.  Protección  contra  riesgos  arbitrarios,  más  allá  de  la  protección
contra  la  reidentificación.
2.  Neutralización  automática  de  ataques  de  vinculación,  incluidos  todos  los  
intentos  con  todos  los  conjuntos  de  datos  pasados,  presentes  y  futuros  y  
otras  formas  y  fuentes  de  información  auxiliar.
3.  Cuantificación  de  la  pérdida  de  privacidad.  La  privacidad  diferencial  no  es  
un  concepto  binario  y  tiene  una  medida  de  pérdida  de  privacidad.  Esto  
permite  comparaciones  entre  diferentes  técnicas:  para  un  límite  fijo  de  
pérdida  de  privacidad,  ¿qué  técnica  proporciona  una  mayor  precisión?  
Para  una  precisión  fija,  ¿qué  técnica  proporciona  mayor  privacidad?
Machine Translated by Google

2.3.  Formalizando  la  privacidad  diferencial 23

4.  Composición.  Quizás  lo  más  importante  es  que  la  cuantificación  de  la  pérdida  
también  permite  el  análisis  y  el  control  de  la  pérdida  de  privacidad  acumulada  
en  múltiples  cálculos.  Comprender  el  comportamiento  de  los  mecanismos  
diferencialmente  privados  bajo  composición  permite  el  diseño  y  el  análisis  de  
algoritmos  complejos  diferencialmente  privados  a  partir  de  bloques  de  
construcción  diferencialmente  privados  más  simples.

5.  Privacidad  del  grupo.  La  privacidad  diferencial  permite  el  análisis  y  control  de  
la  pérdida  de  privacidad  en  la  que  incurren  grupos,  como  las  familias.

6.  Cierre  bajo  posprocesamiento  La  privacidad  diferencial  es  inmune  al  
posprocesamiento:  un  analista  de  datos,  sin  conocimientos  adicionales  sobre  
la  base  de  datos  privada,  no  puede  calcular  una  función  de  la  salida  de  un  
algoritmo  diferencialmente  privado  M  y  hacerlo  menos  diferencialmente  privado.  
Es  decir,  un  analista  de  datos  no  puede  aumentar  la  pérdida  de  privacidad,  
ya  sea  bajo  la  definición  formal  o  incluso  en  cualquier  sentido  intuitivo,  
simplemente  sentándose  en  un  rincón  y  pensando  en  el  resultado  del  algoritmo,  
sin  importar  qué  información  auxiliar  esté  disponible .

Estos  son  los  atributos  de  la  señal  de  privacidad  diferencial.  ¿Podemos  probar  
un  recíproco?  Es  decir,  ¿implican  estos  atributos,  o  algún  subconjunto  de  ellos,  
privacidad  diferencial?  ¿Se  puede  debilitar  la  privacidad  diferencial  en  estos  aspectos  
y  seguir  siendo  significativa?  Estas  son  preguntas  abiertas.

2.3.3  Observaciones  finales  sobre  la  definición

La  granularidad  de  la  privacidad.  Las  afirmaciones  de  privacidad  diferencial  deben  
examinarse  cuidadosamente  para  determinar  el  nivel  de  granularidad  en  el  que  se  
promete  la  privacidad.  La  privacidad  diferencial  promete  que  el  comportamiento  de  
un  algoritmo  permanecerá  prácticamente  sin  cambios  incluso  si  se  modifica  una  sola  
entrada  en  la  base  de  datos.  Pero,  ¿qué  constituye  una  sola  entrada  en  la  base  de  
datos?  Considere,  por  ejemplo,  una  base  de  datos  que  toma  la  forma  de  un  gráfico.  
Tal  base  de  datos  podría  codificar  una  red  social:  cada  individuo  i     [n]  está  
representado  por  un  vértice  en  el  gráfico,  y  las  amistades  entre  individuos  están  
representadas  por  bordes.
Podríamos  considerar  la  privacidad  diferencial  a  un  nivel  de  granularidad  
correspondiente  a  los  individuos:  es  decir,  podríamos  exigir  que  diferencialmente
Machine Translated by Google

24 Términos  básicos

los  algoritmos  privados  sean  insensibles  a  la  adición  o  eliminación  de  cualquier  vértice  del  gráfico.  Esto  

brinda  una  fuerte  garantía  de  privacidad,  pero  de  hecho  podría  ser  más  fuerte  de  lo  que  necesitamos.  la  

adición  o  eliminación  de  un  solo  vértice  podría,  después  de  todo,  agregar  o  eliminar  hasta  n  aristas  en  el  

gráfico.  Dependiendo  de  qué  es  lo  que  esperamos  aprender  del  gráfico,  la  insensibilidad  a  las  eliminaciones  

de  n  aristas  puede  ser  una  restricción  imposible  de  cumplir.

Por  otro  lado,  podríamos  considerar  la  privacidad  diferencial  a  un  nivel  de  granularidad  

correspondiente  a  los  bordes  y  pedir  a  nuestros  algoritmos  que  sean  insensibles  solo  a  la  adición  o  

eliminación  de  bordes  únicos  o  pequeños  del  gráfico .  Por  supuesto,  esta  es  una  garantía  más  débil,  pero  

aún  podría  ser  suficiente  para  algunos  propósitos.  Hablando  informalmente,  si  prometemos  privacidad  

diferencial  ε  al  nivel  de  un  solo  borde,  entonces  ningún  analista  de  datos  debería  poder  concluir  nada  

sobre  la  existencia  de  cualquier  subconjunto  de  bordes  1/ε  en  el  gráfico.  En  algunas  circunstancias,  

grandes  grupos  de  contactos  sociales  pueden  no  ser  considerados  información  sensible:  por  ejemplo,  un  

individuo  puede  no  sentir  la  necesidad  de  ocultar  el  hecho  de  que  la  mayoría  de  sus  contactos  son  con  
personas  en  su  ciudad  o  lugar  de  trabajo,  porque  donde  vive  y  donde  trabaja  son  de  información  pública.  

Por  otro  lado,  puede  haber  una  pequeña  cantidad  de  contactos  sociales  cuya  existencia  es  muy  sensible  

(por  ejemplo,  un  posible  nuevo  empleador  o  un  amigo  íntimo).  En  este  caso,  la  privacidad  perimetral  

debería  ser  suficiente  para  proteger  la  información  confidencial  y,  al  mismo  tiempo,  permitir  un  análisis  

más  completo  de  los  datos  que  la  privacidad  vertex.  La  privacidad  de  Edge  protegerá  la  información  

confidencial  de  dicha  persona  siempre  que  tenga  menos  de  1/ε  de  esos  amigos.

Como  otro  ejemplo,  se  puede  diseñar  un  sistema  de  recomendación  de  películas  diferencialmente  

privado  para  proteger  los  datos  en  el  conjunto  de  entrenamiento  en  el  nivel  de  "evento"  de  películas  

individuales,  ocultando  la  visualización/clasificación  de  cualquier  película  individual  pero  no  ocultando,  
digamos,  el  entusiasmo  de  un  individuo  por  cowboy  western  o  gore,  o  en  el  nivel  de  “usuario”  de  todo  el  

historial  de  visualización  y  calificación  de  un  individuo.

Todos  los  epsilones  pequeños  son  iguales.  Cuando  ε  es  pequeño,  la  privacidad  diferencial  (ε,  0)  afirma  
que  para  todos  los  pares  de  bases  de  datos  adyacentes  x,  y  y  todas  las  salidas  o,  un  adversario  no  puede  

distinguir  cuál  es  la  verdadera  base  de  datos
Machine Translated by Google

2.3.  Formalizando  la  privacidad  diferencial 25

sobre  la  base  de  observar  o.  Cuando  ε  es  pequeño,  no  ser  (ε,  0)  diferencialmente  
privado  no  es  necesariamente  alarmante;  por  ejemplo,  el  mecanismo  puede  ser  (2ε,  
0)  diferencialmente  privado.  La  naturaleza  de  las  garantías  de  privacidad  con  
épsilons  diferentes  pero  pequeños  es  bastante  similar.
Pero  ¿qué  pasa  con  los  valores  grandes  de ?  Si  no  es  (15,  0)  diferencialmente  
privado,  simplemente  dice  que  existen  bases  de  datos  vecinas  y  una  salida  o  para  la  
cual  la  relación  de  probabilidades  de  observar  o  condicionada  a  que  la  base  de  datos  
sea,  respectivamente,  x  o  y,  es  grande.  Una  salida  de  o  podría  ser  muy  poco  probable  
(esto  se  aborda  mediante  (ε,  δ)­privacidad  diferencial);  las  bases  de  datos  x  e  y  
pueden  estar  terriblemente  diseñadas  y  es  poco  probable  que  ocurran  en  el  “mundo  
real”;  el  adversario  puede  no  tener  la  información  auxiliar  adecuada  para  reconocer  
que  se  ha  producido  un  resultado  revelador;  o  puede  no  saber  lo  suficiente  sobre  
la(s)  base(s)  de  datos  para  determinar  el  valor  de  su  diferencia  simétrica.  Por  lo  
tanto,  así  como  un  criptosistema  débil  puede  filtrar  cualquier  cosa,  desde  solo  el  bit  
menos  significativo  de  un  mensaje  hasta  la  clave  de  descifrado  completa,  el  hecho  
de  no  ser  (ε,  0)  o  (ε,  δ)  diferencialmente  privado  puede  variar  desde  una  privacidad  
efectivamente  sin  sentido  infracciones  para  completar  la  revelación  de  toda  la  base  
de  datos.  Un  épsilon  grande  es  grande  a  su  manera.

Algunos  formalismos  adicionales.  Nuestro  mecanismo  de  privacidad  M  a  menudo  
tomará  algunos  parámetros  auxiliares  w  como  entrada,  además  de  la  base  de  datos  
x.  Por  ejemplo,  w  puede  especificar  una  consulta  qw  en  la  base  de  datos  x,  o  una  
colección  Qw  de  consultas.  El  mecanismo  M(w,  x)  podría  (respectivamente)  
responder  con  una  aproximación  diferencialmente  privada  a  qw(x)  oa  algunas  o  
todas  las  consultas  en  Qw.  Para  todo  δ  ≥  0,  decimos  que  un  mecanismo  M(∙,  ∙)  
satisface  (ε,  δ)­privacidad  diferencial  si  para  todo  w,  M(w,  ∙)  satisface  (ε,  δ)­privacidad  
diferencial.
Otro  ejemplo  de  un  parámetro  que  puede  incluirse  en  w  es  un  parámetro  de  
seguridad  κ  para  determinar  qué  tan  pequeño  debe  ser  δ  =  δ(κ) .  Es  decir,  M(κ,  ∙)  
debe  ser  (ε,  δ(κ))  diferencialmente  privado  para  todo  κ.  Típicamente,  ya  lo  largo  de  
esta  monografía,  requerimos  que  δ  sea  una  función  despreciable  −ω(1).  Por  lo  
δ  =  κ  icamente  pequeña,  tanto,  pensamos  en  δ  como  una  criptografía  en  κ,  es  decir,  
mientras  que  ε  se  considera  típicamente  como  una  cantidad  moderadamente  pequeña.
constante.
En  el  caso  en  que  el  parámetro  auxiliar  w  especifica  una  colección  Qw  =  {q :  X  
norte

→  R}  de  consultas,  llamamos  al  mecanismo  M  a
Machine Translated by Google

26 Términos  básicos

generador  de  sinopsis  Un  generador  de  sinopsis  genera  una  sinopsis  A  
(diferencialmente  privada)  que  se  puede  utilizar  para  calcular  las  respuestas  a  
todas  las  consultas  en  Qw.  Es  decir,  requerimos  que  exista  un  procedimiento  de  
reconstrucción  R  tal  que  para  cada  entrada  v  que  especifica  una  consulta  qv     
Qw,  el  procedimiento  de  reconstrucción  genera  R(A,  v)     R.  Por  lo  general,  
requeriremos  que  con  alta  probabilidad  M  produzca  una  sinopsis  A  tal  que  el  
procedimiento  de  reconstrucción,  utilizando  A,  calcula  respuestas  precisas.  Es  
decir,  para  todas  o  la  mayoría  (ponderadas  por  alguna  distribución)  de  las  
consultas  qv     Qw,  el  error  |R(A,  v)  −  qv(x)|  estará  acotado.  Ocasionalmente  
abusaremos  de  la  notación  y  nos  referiremos  al  procedimiento  de  reconstrucción  
tomando  como  entrada  la  consulta  real  q  (en  lugar  de  alguna  representación  v  de  
ella)  y  generando  R(A,  q).
Un  caso  especial  de  una  sinopsis  es  una  base  de  datos  sintética.  Como  
sugiere  el  nombre,  las  filas  de  una  base  de  datos  sintética  son  del  mismo  tipo  que  
las  filas  de  la  base  de  datos  original.  Una  ventaja  de  las  bases  de  datos  sintéticas  
es  que  pueden  analizarse  utilizando  el  mismo  software  que  el  analista  utilizaría  
en  la  base  de  datos  original,  obviando  la  necesidad  de  un  procedimiento  de  
reconstrucción  especial  R.

Observación  2.1.  Se  debe  tener  mucho  cuidado  al  programar  mecanismos  con  
valores  reales,  como  el  mecanismo  de  Laplace,  debido  a  las  sutilezas  en  la  
implementación  de  números  de  coma  flotante.  De  lo  contrario,  la  privacidad  
diferencial  puede  destruirse,  ya  que  las  salidas  con  una  probabilidad  distinta  de  
cero  en  una  base  de  datos  x  pueden,  debido  al  redondeo,  tener  una  probabilidad  
cero  en  las  bases  de  datos  adyacentes  y.  Esta  es  solo  una  forma  en  la  que  la  
implementación  del  punto  flotante  requiere  escrutinio  en  el  contexto  de  la  
privacidad  diferencial,  y  no  es  única.

2.4  Notas  bibliográficas

La  definición  de  privacidad  diferencial  se  debe  a  Dwork  et  al.  [23];  la  formulación  
precisa  utilizada  aquí  y  en  la  literatura  aparece  por  primera  vez  en  [20]  y  se  debe  
a  Dwork  y  McSherry.  El  término  “privacidad  diferencial”  fue  acuñado  por  Michael  
Schroeder.  La  imposibilidad  de  la  seguridad  semántica  se  debe  a  Dwork  y  Naor  
[25].  La  composición  y  la  privacidad  de  grupo  para  (ε,  0)­mecanismos  
diferencialmente  privados  se  abordan  por  primera  vez  en  [23].
Machine Translated by Google

2.4.  notas  bibliograficas 27

La  composición  para  la  privacidad  diferencial  (ε,  δ)  se  abordó  por  primera  vez  en  
[21]  (pero  consulte  la  prueba  corregida  en  el  Apéndice  B,  debido  a  Dwork  y  Lei  [22]).
Mironov,  quien  propuso  una  mitigación  [63],  observó  la  vulnerabilidad  de  la  
privacidad  diferencial  ante  implementaciones  inapropiadas  de  números  de  punto  
flotante.
Machine Translated by Google

3
Técnicas  Básicas  y  Teoremas  de  Composición

Después  de  revisar  algunas  herramientas  probabilísticas,  presentamos  el  mecanismo  de  
Laplace,  que  brinda  privacidad  diferencial  para  consultas  con  valores  reales  (vectoriales).
Una  aplicación  de  esto  conduce  naturalmente  al  mecanismo  exponencial,  que  es  un  
método  para  la  selección  diferencialmente  privada  de  un  conjunto  discreto  de  salidas  
candidatas.  Luego  analizamos  la  pérdida  de  privacidad  acumulada  en  la  que  se  incurre  al  
componer  múltiples  mecanismos  diferencialmente  privados.
Finalmente,  ofrecemos  un  método,  la  técnica  del  vector  disperso,  para  informar  de  forma  
privada  los  resultados  de  un  número  potencialmente  muy  grande  de  cálculos,  siempre  
que  solo  unos  pocos  sean  "significativos".
En  esta  sección,  describimos  algunas  de  las  técnicas  más  básicas  en  privacidad  
diferencial  que  volveremos  a  usar  una  y  otra  vez.  Las  técnicas  descritas  aquí  forman  los  
bloques  de  construcción  básicos  para  todos  los  demás  algoritmos  que  desarrollaremos.

3.1  Herramientas  probabilísticas  útiles

Las  siguientes  desigualdades  de  concentración  serán  frecuentemente  útiles.  Los  
expresamos  en  formas  fáciles  de  usar  en  lugar  de  en  sus  formas  más  fuertes.

28
Machine Translated by Google

3.2.  Respuesta  aleatoria 29

Teorema  3.1  (Límite  Aditivo  de  Chernoff).  Sea  X1, . . . ,  Xm  sean  variables  aleatorias  
independientes  acotadas  de  manera  que  0  ≤  Xi  ≤  1  para  todo  i.  Sea  Xi  su  media,  y  sea  µ  =  
1
metro E[S]  su  S  =
metro  =  1

media  esperada.  Entonces:
−2mε2
Pr[S  >  µ  +  ε]  ≤  e
−2mε2
Pr[S  <  µ  −  ε]  ≤  e

Teorema  3.2  (Límite  de  Chernoff  multiplicativo).  Sea  X1, . . . ,  Xm  sean  variables  aleatorias  
independientes  acotadas  de  manera  que  0  ≤  Xi  ≤  1  para  todo  i.  Sea  Xi  su  media,  y  sea  µ  =  
1 metro

metro yo=1 E[S]  su  S  =


media  esperada.  Entonces:
−mµε2/3
Pr[S  >  (1  +  ε)µ]  ≤  e
−mµε2/2
Pr[S  <  (1  −  ε)µ]  ≤  e

Cuando  no  tenemos  variables  aleatorias  independientes,  no  todo  está  perdido.
Todavía  podemos  aplicar  la  desigualdad  de  Azuma:

Teorema  3.3  (Desigualdad  de  Azuma).  Sea  f  una  función  de  m  variables  aleatorias  X1, . . . ,  
Xm,  cada  Xi  tomando  valores  de  un  conjunto  Ai  tal  que  E[f]  está  acotado.  Sea  ci  el  efecto  
máximo  de  Xi  sobre  f  —  es  decir,     Ai :  para  todo  ai
, un  
yo

E[f|X1, . . . ,  Xi−1,  Xi  =  ai ]  −  E[f|X1, . . . ,  Xi−1,  Xi  =  un  yo ]  ≤  ci

Entonces:

2  2t
Pr  [f(X1, . . . ,  Xm)  ≥  E[f]  +  t]  ≤  exp  − m  
c  yo  =  
2  
1  yo

Teorema  3.4  (Aproximación  de  Stirling).  ¡norte!  se  puede  aproximar  por  √  2nπ(n/e)  n
:

1/(12n+1) 1/(12n)
√  2nπ(n/e)  norte mi <  n!  <  √  2nπ(n/e)  norte mi .

3.2  Respuesta  aleatoria

Recordemos  el  mecanismo  simple  de  respuesta  aleatoria,  descrito  en  la  Sección  2,  para  
evaluar  la  frecuencia  de  las  situaciones  vergonzosas  o  ilegales.
Machine Translated by Google

30 Técnicas  Básicas  y  Teoremas  de  Composición

comportamientos  Sea  XYZ  una  de  esas  actividades.  Ante  la  consulta,  "¿Ha  participado  
en  XYZ  en  la  última  semana?"  se  instruye  al  demandado  a  realizar  los  siguientes  pasos:

1.  Tira  una  moneda.

2.  Si  sale  cruz,  responda  con  la  verdad.
3.  Si  sale  cara,  entonces  arroje  una  segunda  moneda  y  responda  "Sí"  si  sale  cara  y
“No”  si  cruz.

La  intuición  detrás  de  la  respuesta  aleatoria  es  que  proporciona  una  "negabilidad  
plausible".  Por  ejemplo,  es  posible  que  se  haya  ofrecido  una  respuesta  de  "Sí"  porque  
la  primera  y  la  segunda  moneda  fueron  cara,  lo  que  ocurre  con  una  probabilidad  de  
1/4.  En  otras  palabras,  la  privacidad  se  obtiene  por  proceso,  no  hay  respuestas  
“buenas”  o  “malas”.  El  proceso  mediante  el  cual  se  obtienen  las  respuestas  afecta  
cómo  pueden  interpretarse  legítimamente.  Como  muestra  la  siguiente  afirmación,  la  
respuesta  aleatoria  es  diferencialmente  privada.

Reclamación  3.5.  La  versión  de  respuesta  aleatoria  descrita  anteriormente  es  (ln  3,  0)  
diferencialmente  privada.

Prueba.  Corregir  un  encuestado.  Un  análisis  de  caso  muestra  que  Pr[Respuesta  =  Sí|
Verdad  =  Sí]  =  3/4.  Específicamente,  cuando  la  verdad  es  “Sí”,  el  resultado  será  “Sí”  si  
la  primera  moneda  sale  cruz  (probabilidad  1/2)  o  la  primera  y  la  segunda  salen  cara  
(probabilidad  1/4)),  mientras  que  Pr[Respuesta  =  Sí|Verdad  =  No]  =  1/4  (primero  sale  
cara  y  segundo  sale  cruz;  probabilidad  1/4).  Aplicando  un  razonamiento  similar  al  caso  
de  una  respuesta  “No”,  obtenemos:  Pr[Respuesta  =  Sí|Verdad  =  Sí]

Pr[Respuesta  =  Sí|Verdad  =  No]

= 3/4   = Pr[Respuesta  =  No|Verdad  =  No] =  3.


1/4 Pr[Respuesta  =  No|Verdad  =  Sí]

3.3  El  mecanismo  de  Laplace

Consultas  numéricas,  funciones  f :  N  |X|  tipos   k  →  R , son  de  los  mas  divertidos


fundamentales  de  consultas  de  base  de  datos.  Estas  consultas  asignan  bases  de  datos  a  k
Machine Translated by Google

3.3.  El  mecanismo  de  Laplace 31

numeros  reales.  Uno  de  los  parámetros  importantes  que  determinará  la  
precisión  con  la  que  podemos  responder  a  tales  consultas  es  su  1  sensibilidad:

Definición  3.1  (1­sensibilidad).  La  sensibilidad  1  de  una  función  f :  N  |X|  k  →  R
es:

∆f  =  máx   f(x)  −  f(y)1.
x,y N|
X  |  x−y1=1

El La  sensibilidad  de  una  función  f  capta  la  magnitud  en  que  los  datos  
de  un  solo  individuo  pueden  cambiar  la  función  f  en  el  peor  de  los  casos,  y  por  
tanto,  intuitivamente,  la  incertidumbre  en  la  respuesta  que  debemos  introducir  
para  ocultar  la  participación  de  un  solo  individuo.
De  hecho,  formalizaremos  esta  intuición:  la  sensibilidad  de  una  función  da  un  
límite  superior  sobre  cuánto  debemos  perturbar  su  salida  para  preservar  la  
privacidad.  Una  distribución  de  ruido  se  presta  naturalmente  a  una  privacidad  
diferencial.

Definición  3.2  (La  distribución  de  Laplace).  La  Distribución  de  Laplace  (centrada  
en  0)  con  escala  b  es  la  distribución  con  función  de  densidad  de  probabilidad:

1 |x|  
Vuelta(x|b)  =  exp  −  2b .
b
2
La  varianza  de  esta  distribución  es  σ   =  2b 2 .  A  veces  escribiremos
Lap(b)  para  denotar  la  distribución  de  Laplace  con  escala  b,  y  algunas  veces  
abusará  de  la  notación  y  escribirá  Lap(b)  simplemente  para  denotar  una  
variable  aleatoria  X     Lap(b).

La  distribución  de  Laplace  es  una  versión  simétrica  de  la  distribución  
exponencial.
Ahora  definiremos  el  mecanismo  de  Laplace.  Como  sugiere  su  nombre,  el  
mecanismo  de  Laplace  simplemente  calculará  f  y  perturbará  cada  coordenada  
con  ruido  extraído  de  la  distribución  de  Laplace.  La  escala  del  ruido  se  calibrará  
a  la  sensibilidad  de  f  (dividida  por  ε).1

1Alternativamente,  usando  ruido  gaussiano  con  varianza  calibrada  a  ∆f  ln(1/δ)/ε,  se  
puede  lograr  privacidad  diferencial  (ε,  δ)  (ver  Apéndice  A).  El  uso  del  mecanismo  de  
Laplace  es  más  limpio  y  los  dos  mecanismos  se  comportan  de  manera  similar  bajo  
composición  (Teorema  3.20).
Machine Translated by Google

32 Técnicas  Básicas  y  Teoremas  de  Composición

Definición  3.3  (El  mecanismo  de  Laplace).  Dada  cualquier  función  f :  N  |X|  k  →  
R , El  mecanismo  de  Laplace  se  define  como:

ML(x,  f(∙),  ε)  =  f(x)  +  (Y1, . . . ,  Yk)

donde  Yi  son  variables  aleatorias  iid  extraídas  de  Lap(∆f /ε).

Teorema  3.6.  El  mecanismo  de  Laplace  conserva  la  privacidad  diferencial  (ε,  0).

Prueba.  Sea  x     N  |X|  y  y     N  |X|  sea  tal  que  x  −  y1  ≤  1,  y  sea  f(∙)  alguna  


función  f :  N  |X|  función  de  densidad   k  →  R .  Sea  px  la  probabilidad
de  probabilidad  de  ML(x,  f,  ε) ,  y  sea  py  la  función  de  densidad  de  probabilidad  
de  ML(y,  f,  ε).  Comparamos  los  dos  en  algún  punto  arbitrario  z     R
k

k ε|f(x)i−zi|  
px(z)   = exp(− )  ∆f  ε|f(y)i−zi| )  ∆f

py(z) yo=1 exp(−


     
k
= ε(|f(y)i  −  zi  |  −  |f(x)i  −  zi  |)  ∆f
Exp
yo=1

k
ε|f(x)i  −  f(y)i  |  ∆f
≤ Exp
yo=1

ε  ∙  f(x)  −  f(y)1  ∆f
=  exp

≤  exp(ε),

donde  la  primera  desigualdad  se  deriva  de  la  desigualdad  triangular,  y  la  última  
se  deriva  de  la  definición  de  sensibilidad  y  del  hecho  de  que  x  −  y1  ≤  1.  Que  
px(z)  ≥  exp(−ε)  se  sigue  
pi(z)por  simetría.

Ejemplo  3.1  (Consultas  de  conteo).  Las  consultas  de  conteo  son  consultas  de  
la  forma  "¿Cuántos  elementos  en  la  base  de  datos  satisfacen  la  Propiedad  P?"  
Volveremos  a  estas  consultas  una  y  otra  vez,  a  veces  en  esta  forma  pura,  a  
veces  en  forma  fraccionada  ("¿Qué  fracción  de  los  elementos  en  las  bases  de  
datos...?"),  a  veces  con  pesos  (consultas  lineales)  y  a  veces  en  un  poco  más  
formas  complejas  (p.  ej.,  aplicar  h :  N  |X|  →  [0,  1]  a  cada  elemento  de  la  base  
de  datos  y  sumar  los  resultados).  Contar  es  un
Machine Translated by Google

3.3.  El  mecanismo  de  Laplace 33

primitivo  extremadamente  poderoso.  Captura  todo  lo  que  se  puede  aprender  en  el  modelo  de  
aprendizaje  de  consultas  estadísticas,  así  como  muchas  tareas  estándar  de  minería  de  datos  y  
estadísticas  básicas.  Dado  que  la  sensibilidad  de  una  consulta  de  conteo  es  1  (la  adición  o  
eliminación  de  un  solo  individuo  puede  cambiar  un  conteo  en  1  como  máximo),  es  una  consecuencia  
inmediata  del  Teorema  3.6  que  (ε,  0)  ­  se  puede  lograr  privacidad  diferencial  para  contar  consultas  
mediante  la  adición  de  ruido  escalado  a  1/ε,  es  decir,  mediante  la  adición  de  ruido  extraído  de  Lap(1/
ε).
La  distorsión  o  error  esperado  es  1/ε,  independientemente  del  tamaño  de  la  base  de  datos.

Una  lista  fija  pero  arbitraria  de  m  consultas  de  conteo  se  puede  ver  como  una  consulta  con  
valores  vectoriales.  En  ausencia  de  más  información  sobre  el  conjunto  de  consultas,  el  límite  en  el  
peor  de  los  casos  en  la  sensibilidad  de  esta  consulta  con  valores  vectoriales  es  m,  ya  que  un  solo  
individuo  podría  cambiar  cada  conteo.  En  este  caso,  la  privacidad  diferencial  (ε,  0)  se  puede  lograr  
agregando  ruido  escalado  a  m/ε  a  la  respuesta  verdadera  de  cada  consulta.

A  veces  nos  referimos  al  problema  de  responder  a  grandes  números
de  consultas  (posiblemente  arbitrarias)  como  el  problema  de  liberación  de  consultas.

Ejemplo  3.2  (Consultas  de  histograma).  En  el  caso  especial  (pero  común)  en  el  que  las  consultas  
son  estructuralmente  inconexas,  podemos  hacerlo  mucho  mejor:  no  necesariamente  tenemos  que  
dejar  que  el  ruido  aumente  con  la  cantidad  de  consultas.  Un  ejemplo  es  la  consulta  de  histograma.  
En  este  tipo  de  consulta  el  universo  N  |X|  se  divide  en  celdas  y  la  consulta  pregunta  cuántos  
elementos  de  la  base  de  datos  se  encuentran  en  cada  una  de  las  celdas.  Debido  a  que  las  celdas  
no  están  unidas,  la  adición  o  eliminación  de  un  solo  elemento  de  la  base  de  datos  puede  afectar  el  
conteo  en  exactamente  una  celda,  y  la  diferencia  con  esa  celda  está  limitada  por  1,  por  lo  que  las  
consultas  de  histograma  tienen  una  sensibilidad  de  1  y  se  pueden  responder  agregando  extracciones  
independientes  de  Vuelta  (1/ε)  a  la  cuenta  real  en

cada  celda

Para  comprender  la  precisión  del  mecanismo  de  Laplace  para  consultas  generales,  utilizamos  
el  siguiente  hecho  útil:

Hecho  3.7.  Si  Y     Vuelta(b),  entonces:

Pr[|Y  |  ≥  t  ∙  b]  =  exp(−t).
Machine Translated by Google

34 Técnicas  Básicas  y  Teoremas  de  Composición

Este  hecho,  junto  con  un  límite  de  unión,  nos  da  un  límite  simple  en  la  
precisión  del  mecanismo  de  Laplace:

Teorema  3.8.  Sea  f :  N  |X|   δ   k  →  R , y  sea  y  =  ML(x,  f(∙),  ε).  Entonces


  (0,  1]:
k ∆f
∙ ≤  d
Pr  f(x)  −  y∞  ≥  ln
d ε

Prueba.  Tenemos:

k ∆f k ∆f
∙ =  Pr  máx   ∙
Pr  f(x)  −  y∞  ≥  ln |Yi  |  ≥  en
d ε i [k] d ε

k ∆f

≤  k  ∙  Pr  |Yi  |  ≥  en
d ε
d
=  k  ∙
k
=  d

donde  la  penúltima  desigualdad  se  sigue  del  hecho  de  que  cada  Yi     Lap(∆f /ε)  
y  Fact  3.7.

Ejemplo  3.3  (Nombres).  Supongamos  que  deseamos  calcular  qué  nombres,  de  
una  lista  de  10.000  nombres  potenciales,  fueron  los  más  comunes  entre  los  
participantes  del  censo  de  2010.  Esta  pregunta  se  puede  representar  como  
una  consulta  f :  N  |X|  →  R  10000.  Esta  es  una  consulta  de  histograma,  por  lo  
que  tiene  una  sensibilidad  ∆f  =  1,  ya  que  cada  persona  solo  puede  tener  como  
máximo  un  nombre.  Usando  el  teorema  anterior,  vemos  que  podemos  calcular  
simultáneamente  la  frecuencia  de  todos  los  10,000  nombres  con  (1,  0)  
­privacidad  diferencial,  y  con  una  probabilidad  del  95%,  ninguna  estimación  se  
equivocará  por  más  de  un  error  aditivo  de  ln  (10000/.05)  ≈  12.2.  ¡Ese  es  un  error  
bastante  bajo  para  una  nación  de  más  de  300,  000,  000  personas!

Selección  diferencialmente  privada.  La  tarea  del  ejemplo  3.3  es  una  de  selección  
diferencialmente  privada:  el  espacio  de  resultados  es  discreto  y  la  tarea  es  
producir  una  "mejor"  respuesta,  en  este  caso  la  celda  de  histograma  más  
poblada.
Machine Translated by Google

3.3.  El  mecanismo  de  Laplace 35

Ejemplo  3.4  (Condición  médica  más  común).  Supongamos  que  deseamos  saber  qué  
condición  es  (aproximadamente)  la  más  común  en  las  historias  médicas  de  un  
conjunto  de  encuestados,  por  lo  que  el  conjunto  de  preguntas  es,  para  cada  condición  
en  consideración,  si  el  individuo  ha  recibido  alguna  vez  un  diagnóstico  de  esta  
condición.  Dado  que  las  personas  pueden  experimentar  muchas  condiciones,  la  
sensibilidad  de  este  conjunto  de  preguntas  puede  ser  alta.
No  obstante,  como  describimos  a  continuación,  esta  tarea  se  puede  abordar  
agregando  el  ruido  Lap(1/ε)  a  cada  uno  de  los  conteos  (observe  la  pequeña  escala  
del  ruido,  que  es  independiente  del  número  total  de  condiciones).  Crucialmente,  los  
conteos  ruidosos  en  sí  mismos  no  serán  liberados  (aunque  el  conteo  “ganador”  puede  
ser  liberado  sin  costo  adicional  de  privacidad).

Reportar  Ruidoso  Máx.  Considere  el  siguiente  algoritmo  simple  para  determinar  cuál  
de  las  m  consultas  de  conteo  tiene  el  valor  más  alto:  Agregue  el  ruido  de  Laplace  
generado  independientemente  Lap(1/ε)  a  cada  conteo  y  devuelva  el  índice  del  mayor  
conteo  ruidoso  (ignoramos  la  posibilidad  de  un  empate). ).  Llame  a  este  algoritmo  
Informe  Noisy  Max.
Tenga  en  cuenta  el  principio  de  "minimización  de  la  información"  que  funciona  
en  el  algoritmo  Report  Noisy  Max:  en  lugar  de  liberar  todos  los  conteos  ruidosos  y  
permitir  que  el  analista  encuentre  el  máximo  y  su  índice,  solo  se  hace  público  el  
índice  correspondiente  al  máximo.  Dado  que  los  datos  de  un  individuo  pueden  afectar  
a  todos  los  conteos,  el  vector  de  conteos  tiene  una  alta  sensibilidad  de  1,  
específicamente,  ∆f  =  m,  y  se  necesitaría  mucho  más  ruido  si  quisiéramos  liberar  
todos  los  conteos  utilizando  el  mecanismo  de  Laplace.

Reclamación  3.9.  El  algoritmo  Report  Noisy  Max  es  (ε,  0)  diferencialmente  privado.

Prueba.  Fijar  D  =  D     {a}.  Sea  c,  c  respectivamente  c   , denote  el  vector  de


cuenta  cuando  la  base  de  datos  es  D,  respectivamente  D .  Usamos  dos  propiedades:

1.  Monotonicidad  de  las  Cuentas.  Para  todo  j     [m],  cj  ≥  c  j ;  y  2.  
Propiedad  de  Lipschitz.  Para  todo  j     [m],  1  +  c  ≥  cj .j

Fija  cualquier  i     [m].  Limitaremos  por  arriba  y  por  abajo  la  razón  de
las  probabilidades  de  que  i  se  seleccione  con  D  y  con  D .  un  sorteo  
Fijar  r−i , de  [Lap(1/ε)]m−1  usado  para  todas  las  cuentas  ruidosas  excepto  la  i­
ésima  cuenta.  Argumentaremos  a  favor  de  cada  r−i  de  forma  independiente.  Nosotros
Machine Translated by Google

36 Técnicas  Básicas  y  Teoremas  de  Composición

use  la  notación  Pr[i|ξ]  para  referirse  a  la  probabilidad  de  que  la  salida  del  algoritmo  
Report  Noisy  Max  sea  i,  condicionada  a  ξ.
Primero  argumentamos  que  Pr[i|D,  r−i ]  ≤  e  ε  Pr[i|D ,  r−i ].  Definir
r =  min :  ci  +  ri  >  cj  +  rj   j  =  i.
Rhode  Island

Tenga  en  cuenta  que,  habiendo   , seré  la  salida  (el  argmax  ruidoso
fijado  el  conteo  de  r−i )  cuando  la  base  de  datos  es  D  si  y  solo  si  ri  ≥.  r
Tenemos,  para  todo  1  ≤  j  =  i  ≤  m:

ci  +  r >  cj  +  rj  >  
  (1  +  c  i )  +  r ≥  ci  +  r cj  +  rj  ≥  c  +  rj  j  +  1)  >  c
  c  i +  (r   +  rj .  j

Así,  si  ri  ≥  r  la   +  1,  entonces  la  i­ésima  cuenta  será  la  máxima  cuando  el
base  de  datos  es  D  y  el  vector  de  ruido  es  (ri ,  r−i).  Las  probabilidades  a  continuación  
están  sobre  la  elección  de  ri     Lap(1/ε).

Pr[ri  ≥  1  +  r ]  ≥  mi  −ε  Pr[ri  ≥  r ]  =  e  −ε  Pr[i|D,  r−i ]

  Pr[i|D ,  r−i ]  ≥  Pr[ri  ≥  1  +  r ]  ≥  mi  −ε  Pr[ri  ≥  r ]  =  e  −ε  Pr[i|D,  r−i ],

que,  después  de  multiplicar  por  e  Pr[i|D,  r−i ]   ε ,  produce  lo  que  queríamos  mostrar:
≤  e  ε  Pr[i|D ,  r−i ].
Ahora  argumentamos  que  Pr[i|D ,  r−i ]  ≤  e  ε  Pr[i|D,  r−i ].  Definir
*  r =  min  +  ri  >  c :  c  yo  j +  rj   j  =  yo.
Rhode  Island

Tenga  en  cuenta  que,  habiendo   , seré  la  salida  (recuento  ruidoso  argmax)
fijado  r−i  cuando  la  base  de  datos  es  D  si  y  solo  si  ri  ≥  r .
Tenemos,  para  todo  1  ≤  j  =  i  ≤  m:

yo +  rc   >  c  j +  rj  


  1  +  c  yo  +  r >  1  +  c  j +  rj
  c  i +  (r   +  1)  >  (1  +  c j )  +  rj
ci  +  ( r +  1)  ≥  c  i  +  (r  +   +  1)  >  (1  +  c j )  +  rj  ≥  cj  +  rj .

≥  r  contar)  en  la   1,  entonces  i  será  la  salida  (el  argmax  ruidoso  Por  lo  tanto,  si  ri  
base  de  datos  D  con  aleatoriedad  (ri ,  r−i).  Por  lo  tanto,  con  probabilidades  tomadas  
sobre  la  elección  de  ri :

Pr[i|D,  r−i ]  ≥  Pr[ri  ≥  r +  1]  ≥  mi  −ε  Pr[ri  ≥  r ]  =  mi  −ε  Pr[i|D ,  r−i ],


Machine Translated by Google

3.4.  El  mecanismo  exponencial 37

ε
que,  después  de  multiplicar  por  e  Pr[i|D ,  r−i ]  ,  produce  lo  que  queríamos  mostrar:
≤  e  ε  Pr[i|D,  r−i ].

3.4  El  mecanismo  exponencial

Tanto  en  el  examen  de  "nombre  más  común"  como  en  el  de  "condición  más  común"
Para  demostrar  la  “utilidad”  de  una  respuesta  (nombre  o  condición  médica,  
respectivamente),  estimamos  los  conteos  usando  el  ruido  de  Laplace  e  informamos  
el  ruido  máximo.  En  ambos  ejemplos  la  utilidad  de  la  respuesta  está  directamente  
relacionada  con  los  valores  de  ruido  generados;  es  decir,  la  popularidad  del  nombre  
o  condición  se  mide  apropiadamente  en  la  misma  escala  y  en  las  mismas  unidades  
que  la  magnitud  del  ruido.
El  mecanismo  exponencial  se  diseñó  para  situaciones  en  las  que  deseamos  
elegir  la  "mejor"  respuesta,  pero  agregar  ruido  directamente  a  la  cantidad  calculada  
puede  destruir  por  completo  su  valor,  como  establecer  un  precio  en  una  subasta,  
donde  el  objetivo  es  maximizar  los  ingresos,  y  agregar  una  pequeña  cantidad  de  
ruido  positivo  al  precio  óptimo  (para  proteger  la  privacidad  de  una  oferta)  podría  
reducir  drásticamente  los  ingresos  resultantes.

Ejemplo  3.5  (Calabazas.).  Supongamos  que  tenemos  una  oferta  abundante  de  
calabazas  y  cuatro  postores:  A,  F,  I,  K,  donde  A,  F,  I  ofrecen  cada  uno  $1,00  y  K  
ofrece  $3,01.  ¿Cuál  es  el  precio  óptimo?  A  $3,01  el  ingreso  es  de  $3,01,  a  $3,00  ya  
$1,00  el  ingreso  es  de  $3,00,  pero  a  $3,02  el  ingreso  es  cero.

El  mecanismo  exponencial  es  el  bloque  de  construcción  natural  para  responder  
consultas  con  utilidades  arbitrarias  (y  un  rango  no  numérico  arbitrario),  mientras  se  
preserva  la  privacidad  diferencial.  Dado  algún  rango  arbitrario  R,  el  mecanismo  
exponencial  se  define  con  respecto  a  alguna  función  de  utilidad  u :  N  |X|  ×  R  →  R,  
que  asigna  pares  de  base  de  datos/salida  a  puntajes  de  utilidad.  Intuitivamente,  para  
una  base  de  datos  fija  x,  el  usuario  prefiere  que  el  mecanismo  genere  algún  elemento  
de  R  con  la  puntuación  de  utilidad  máxima  posible.  Nótese  que  cuando  hablamos  de  
la  sensibilidad  de  la  puntuación  de  utilidad  u :  N  |X|  ×  R  →  R,  solo  nos  importa  la  
sensibilidad  de  u  con  respecto  a  su  argumento  de  base  de  datos;  puede  ser  
arbitrariamente  sensible  en  su
Machine Translated by Google

38 Técnicas  Básicas  y  Teoremas  de  Composición

argumento  de  rango:

∆u  ≡  máx  máx  r R   |u(x,  r)  −  u(y,  r)|.


x,y:x−y1≤1

La  intuición  detrás  del  mecanismo  exponencial  es  dar  salida  a  cada  posible  r     R  con  
probabilidad  proporcional  a  exp(εu(x,  r)/∆u)  y  así  la  pérdida  de  privacidad  es  
aproximadamente:

exp(εu(x,  r)/∆u)  
en =  ε[u(x,  r)  −  u(y,  r)]/∆u)  ≤  ε.
exp(εu(y,  r)/∆u)

Esta  visión  intuitiva  pasa  por  alto  algunos  efectos  de  un  término  de  normalización  que
surge  cuando  una  persona  adicional  en  la  base  de  datos  hace  que  las  utilidades  de  
algunos  elementos  r     R  disminuyan  y  otras  aumenten.  El  mecanismo  actual,  definido  a  
continuación,  reserva  la  mitad  del  presupuesto  de  privacidad  para  cambios  en  el  plazo  de  
normalización.

Definición  3.4  (El  mecanismo  exponencial).  El  mecanismo  exponencial  ME(x,  u,  R)  
selecciona  y  genera  un  elemento  r     R  con  una  probabilidad  εu(x,r)  proporcional  a  exp( ).  
2∆u

El  mecanismo  exponencial  puede  definir  una  distribución  compleja  sobre  un  gran  
dominio  arbitrario,  por  lo  que  puede  que  no  sea  posible  implementar  el  mecanismo  
exponencial  de  manera  eficiente  cuando  el  rango  de  u  es  súper  polinomialmente  grande  
en  los  parámetros  naturales  del  problema.
Volviendo  al  ejemplo  de  la  calabaza,  la  utilidad  de  un  precio  p  en  la  base  de  datos  x  
es  simplemente  la  ganancia  obtenida  cuando  el  precio  es  p  y  la  curva  de  demanda  es  la  
descrita  por  x.  Es  importante  que  el  rango  de  precios  potenciales  sea  independiente  de  
las  ofertas  reales.  De  lo  contrario,  existiría  un  precio  con  peso  distinto  de  cero  en  un  
conjunto  de  datos  y  peso  cero  en  un  conjunto  vecino,  violando  la  privacidad  diferencial.

Teorema  3.10.  El  mecanismo  exponencial  preserva  (ε,  0)­  privacidad  diferencial.

Prueba.  Para  mayor  claridad,  suponemos  que  el  rango  R  del  mecanismo  exponencial  es  
finito,  pero  esto  no  es  necesario.  Como  en  todas  las  pruebas  diferenciales  de  privacidad,  
consideramos  la  relación  de  la  probabilidad  de  que  una  instanciación
Machine Translated by Google

3.4.  El  mecanismo  exponencial 39

del  mecanismo  exponencial  genera  algún  elemento  r     R  en  dos  bases  de  datos  
vecinas  x     N  |X|  y  y     N  |X|  (es  decir,  x  −  y1  ≤  1).

εu(x,r)  
exp( )  2∆u
εu(x,r)  
Pr[ME(x,  u,  R)  =  r] r R exp( )  2∆u
=
εu(y,r)  
Pr[ME(y,  u,  R)  =  r] exp( )  2∆u  
εu(y,r)  exp( )  
r R 2∆u

εu(x,r)   εu(y,r )  
exp( )  2∆u   r R  _ exp( )  2∆u  
= ∙
εu(y,r)   εu(x,r)  
exp( )  2∆u exp( )  2∆u
   r R  _   

ε(u(x,  r )  −  u(y,  r ))  2∆u
=  exp

εu(y,r )  
r R  _ exp( ) 2∆u

εu(x,r)  
   r R  _ exp( ) 2∆u
εu(x,r )  
ε ε r R  _ exp( )2∆u
≤  experiencia ∙  Exp

2 2 εu(x,r)  
r R  _ exp( )  2∆u
           
=  exp(ε).

Pr[ME(y,u)=r]
De  manera  sPr[ME(x,u)=r]
imilar,  ≥  exp(−ε)  por  simetría.

El  mecanismo  exponencial  a  menudo  puede  brindar  fuertes  garantías  de  
utilidad,  ya  que  descuenta  los  resultados  exponencialmente  rápido  a  medida  que  
disminuye  su  puntaje  de  calidad.  Para  una  base  de  datos  dada  x  y  una  medida  de  
utilidad  dada  u :  N  |X|  ×  R  →  R,  sea  OPTu(x)  =  maxr R  u(x,  r)  la  puntuación  de  
utilidad  máxima  de  cualquier  elemento  r     R  con  respecto  a  la  base  de  datos  x.  
Limitaremos  la  probabilidad  de  que  el  mecanismo  exponencial  devuelva  un  
elemento  "bueno"  de  R,  donde  bueno  se  medirá  en  términos  de  OPTu(x).  El  
resultado  es  que  será  muy  poco  probable  que  el  elemento  devuelto  r  tenga  una  
puntuación  de  utilidad  inferior  a  OPTu(x)  en  más  de  un  factor  aditivo  de  O((∆u/ε)  
log  |R|).

Teorema  3.11.  Fijando  una  base  de  datos  x,  sea  ROPT  =  {r     R :  u(x,  r)  =  
OPTu(x)}  denote  el  conjunto  de  elementos  en  R  que  alcanzan  la  puntuación  de  utilidad
Machine Translated by Google

40 Técnicas  Básicas  y  Teoremas  de  Composición

OPTu(x).  Entonces:

2∆u |R| −t
Pr  u(ME(x,  u,  R))  ≤  OPTu(x)  − en +  t  ≤  mi
ε |ROPT|

Prueba.

|R|  exp(εc/2∆u)
Pr[u(ME(x,  u,  R))  ≤  c]  ≤
|ROPT|  exp(εOPTu(x)/2∆u)  ε(c  −  

= |R|   OPTu(x))  2∆u
Exp .
|ROPT|

La  desigualdad  se  deriva  de  la  observación  de  que  cada  r     R  con  u(x,  r)  ≤  c  tiene  
una  masa  de  probabilidad  no  normalizada  a  lo  sumo  exp(εc/2∆u),  y  por  lo  tanto  todo  
el  conjunto  de  tales  elementos  “malos”  r  tiene  masa  total  de  probabilidad  no  
normalizada  como  máximo  |R|  exp(εc/2∆u).  En  cambio,  sabemos  que  existen  al  menos  
|ROPT|  ≥  1  elementos  con  u(x,  r)  =  OPTu(x)  y,  por  lo  tanto,  masa  de  probabilidad  no  
normalizada  exp(εOPTu(x)/2∆u),  por  lo  que  este  es  un  límite  inferior  en  la  normalización

término.

El  teorema  se  deriva  de  reemplazar  el  valor  apropiado  para  c.

Como  siempre  tenemos  |ROPT|  ≥  1,  podemos  hacer  uso  más  comúnmente  del  
siguiente  corolario  simple:

Corolario  3.12.  Arreglando  una  base  de  datos  x,  tenemos:

2∆u −t
Pr  u(ME(x,  u,  R))  ≤  OPTu(x)  −  (ln  (|R|)  +  t)  ≤  e
ε

Como  se  ve  en  las  demostraciones  del  Teorema  3.11  y  el  Corolario  3.12,  la  Expo
Mecanismo  potencial  puede  ser  particularmente  fácil  de  analizar.

Ejemplo  3.6  (Al  mejor  de  dos).  Considere  la  simple  pregunta  de  determinar  cuál  de  
exactamente  dos  condiciones  médicas  A  y  B  es  más  común.
Sean  los  dos  conteos  verdaderos  0  para  la  condición  A  y  c  >  0  para  la  condición  B.
Nuestra  noción  de  utilidad  estará  ligada  a  las  cuentas  reales,  de  modo  que  las  
condiciones  con  cuentas  más  grandes  tengan  una  utilidad  más  alta  y  ∆u  =  1.  Por  lo  
tanto,  la  utilidad  de  A  es  0  y  la  utilidad  de  B  es  c.  Usando  el  mecanismo  exponencial
Machine Translated by Google

3.5.  Teoremas  de  composición 41

podemos  aplicar  inmediatamente  el  Corolario  3.12  para  ver  que  la  probabilidad  de  
observar  el  resultado  (erróneo)  A  es  como  mucho  2e  −c(ε/(2∆u))  =  2e  −cε/2   .
Analizar  el  informe  Noisy  Max  parece  ser  más  complicado,  ya  que  requiere  
comprender  lo  que  sucede  en  el  caso  (probabilidad  1/4)  cuando  el  ruido  agregado  a  
la  cuenta  de  A  es  positivo  y  el  ruido  agregado  a  la  cuenta  de  B  es  negativo.

Una  función  es  monótona  en  el  conjunto  de  datos  si  la  adición  de  un  elemento
al  conjunto  de  datos  no  puede  hacer  que  el  valor  de  la  función  disminuya.

Las  consultas  de  conteo  son  monótonas;  también  lo  es  el  ingreso  obtenido  al  ofrecer  
un  precio  fijo  a  una  colección  de  compradores.
Considere  el  mecanismo  Report  One­Sided  Noisy  Arg­Max ,  que  agrega  ruido  a  
la  utilidad  de  cada  salida  potencial  extraída  de  la  distribución  exponencial  unilateral  
con  parámetro  ε/∆u  en  el  caso  de  una  utilidad  monótona,  o  parámetro  ε/2∆u  para  el  
caso  de  una  utilidad  no  monótona,  y  reporta  el  arg­max  resultante.

Con  este  algoritmo,  cuya  prueba  de  privacidad  es  casi  idéntica  a  la  de  Report  
Noisy  Max  (pero  pierde  un  factor  de  dos  cuando  la  utilidad  no  es  monótona),  
obtenemos  inmediatamente  en  el  Ejemplo  3.6  anterior  que  el  resultado  A  está  
exponencialmente  en  c( ε /  ∆  u)  =  cε  menos  probable  de  ser  seleccionado
que  el  resultado  B.

Teorema  3.13.  Reporte  One­Sided  Noisy  Arg­Max,  cuando  se  ejecuta  con  el  parámetro  
ε/2∆u  es  diferencialmente  privado.

Observación  3.1.  Informar  máximo  ruidoso  cuando  se  instancia  con  ruido  de  Laplace  
o  ruido  exponencial,  ambos  tienen  garantías  similares  al  mecanismo  exponencial,  
pero  conducen  a  distribuciones  distintas.  Resulta  que  la  instanciación  de  report  noisy  
max  con  la  distribución  de  Gumbel  conduce  a  un  algoritmo  que  muestrea  exactamente  
de  la  distribución  del  mecanismo  exponencial.  Este  hecho  es  folklore  en  el  aprendizaje  
automático  y  se  conoce  como  el  "truco  de  Gumbel  Max".

3.5  Teoremas  de  composición

Ahora  que  tenemos  varios  bloques  de  construcción  para  diseñar  algoritmos  
diferencialmente  privados,  es  importante  entender  cómo  podemos  combinar
Machine Translated by Google

42 Técnicas  Básicas  y  Teoremas  de  Composición

para  diseñar  algoritmos  más  sofisticados.  Para  utilizar  estas  herramientas,  nos  
gustaría  que  la  combinación  de  dos  algoritmos  diferencialmente  privados  fuera  
diferencialmente  privada  en  sí  misma.  De  hecho,  como  veremos,  este  es  el  caso.  
Por  supuesto,  los  parámetros  ε  y  δ  necesariamente  se  degradarán;  considere  
calcular  repetidamente  la  misma  estadística  utilizando  el  mecanismo  de  Laplace,  
escalado  para  brindar  privacidad  diferencial  ε  cada  vez.  El  promedio  de  la  
respuesta  dada  por  cada  instancia  del  mecanismo  eventualmente  convergerá  al  
verdadero  valor  de  la  estadística,  por  lo  que  no  podemos  evitar  que  la  fortaleza  
de  nuestra  garantía  de  privacidad  se  degrade  con  el  uso  repetido.
En  esta  sección  damos  teoremas  que  muestran  cómo  se  componen  exactamente  
los  parámetros  ε  y  δ  cuando  se  combinan  subrutinas  diferencialmente  privadas.
Comencemos  primero  con  un  calentamiento  fácil:  veremos  que  el  uso  
independiente  de  un  algoritmo  privado  diferencialmente  (ε1,  0)  y  un  algoritmo  
privado  diferencialmente  (ε2,  0),  cuando  se  toman  juntos,  es  (ε1  +  ε2,  0)­
diferencialmente  privado.

Teorema  3.14.  Sea  M1 :  N  |X|  →  Sea  R1  un  algoritmo  ε1­diferencialmente  
privado,  y  sea  M2 :  N  |X|  →  R2  sea  un  algoritmo  ε2­diferencialmente  privado.  
Entonces  su  combinación,  definida  como  M1,2 :  N  |X|  →  R1  ×  R2  por  el  mapeo:  
M1,2(x)  =  (M1(x),M2(x))  es  ε1+ε2­diferencialmente  privado.

Prueba.  Sean  x,  y     N  |X|  ser  tal  que  x  −  y1  ≤  1.  Fija  cualquier  (r1,  r2)     R1  ×  


R2.  Entonces:

Pr[M1,2(x)  =  (r1,  r2)] = Pr[M1(x)  =  r1]  Pr[M2(x)  =  r2]
Pr[M1,2(y)  =  (r1,  r2)] Pr[M1(y)  =  r1]  Pr[M2(y)  =  r2]

= Pr[M1(x)  =  r1] Pr[M2(x)  =  r1]
Pr[M1(y)  =  r1] Pr[M2(y)  =  r1]  ≤  
exp(ε1)  exp(ε2)  =  
exp(ε1  +  ε2)

Pr[M1,2(x)=(r1,r2)]
Por  simetría,  ≥  exp(−(ε1  
+  ε2)).
Pr[M1,2(y)=(r1,r2)]

El  teorema  de  la  composición  se  puede  aplicar  repetidamente  para  obtener  
el  siguiente  corolario:
Machine Translated by Google

3.5.  Teoremas  de  composición 43

Corolario  3.15.  Sea  Mi :  N  |X|  →  Ri  sea  un  algoritmo  (εi ,  0)­diferencialmente  privado  
→M[k]  (x)  =  (M1(x), . . . ,Mk(x)),  
para  i     [k].  Entonces  si  M[k] :  N  |X|  Ri  se  define  como   k  
luego  M[k]  es  (private. i=1  k ,  0)­diferencialmente  i=1  εi

Una  prueba  de  la  generalización  de  este  teorema  a  (ε,  δ)­diferencial
privacidad  aparece  en  el  Apéndice  B:

Teorema  3.16.  Sea  Mi :  N  |X|   →  Ri  sea  un  (εi ,  δi)­diferencialmente  privado
algoritmo  para  i     [k].  Entonces  si  M[k] :  N  |X|  sea  M[k]   → k  i  =  1Ri  se  define  como  
(x)  =  (M1(x), . . . ,Mk(x)),  entonces  M[k]  es  (diferencialmente   k  i=1  εi , k  i  =  1δi)­
privado.

Es  una  fortaleza  de  la  privacidad  diferencial  que  la  composición  sea  “automática”,  
en  el  sentido  de  que  los  límites  obtenidos  se  mantienen  sin  ningún  esfuerzo  especial  
por  parte  del  curador  de  la  base  de  datos.

3.5.1  Composición:  algunos  tecnicismos

En  el  resto  de  esta  sección,  demostraremos  un  teorema  de  composición  más  sofisticado.  
Para  ello,  necesitaremos  algunas  definiciones  y  lemas,  reformulando  la  privacidad  
diferencial  en  términos  de  medidas  de  distancia  entre  distribuciones.  En  las  cantidades  
fraccionarias  siguientes,  si  el  denominador  es  cero,  entonces  definimos  que  el  valor  de  
la  fracción  es  infinito  (los  numeradores  siempre  serán  positivos).

Definición  3.5  (KL­Divergencia).  La  divergencia  KL,  o  entropía  relativa,  entre  dos  
variables  aleatorias  Y  y  Z  que  toman  valores  del  mismo  dominio  se  define  como:

Pr[Y  =  y]
D(Y  Z)  =  Ey Y  ln .
Pr[Z  =  y]

Se  sabe  que  D(Y  Z)  ≥  0,  con  igualdad  si  y  sólo  si  Y  y  Z  están  idénticamente  
distribuidas.  Sin  embargo,  D  no  es  simétrico,  no  satisface  la  desigualdad  triangular  e  
incluso  puede  ser  infinito,  específicamente  cuando  Supp(Y )  no  está  contenido  en  
Supp(Z).

Definición  3.6  (Divergencia  máxima).  La  máxima  divergencia  entre  dos  variables  
aleatorias  Y  y  Z  que  toman  valores  del  mismo  dominio  es
Machine Translated by Google

44 Técnicas  Básicas  y  Teoremas  de  Composición

definido  como:

D∞(Y  Z)  =  máx. ln Pr[Y     S]   .


S Soporte(Y ) Pr[Z     S]
La  divergencia  máxima  aproximada  δ  entre  Y  y  Z  se  define  como:

en
Pr[Y     S]  −  δ
Dδ  ∞(Y  Z)  = máximo
S Soporte(Y ):Pr[Y   S]≥δ Pr[Z     S]
Observación  3.2.  Tenga  en  cuenta  que  un  mecanismo  M  es

1.  ε­diferencialmente  privada  si  y  solo  si  en  cada  dos  bases  de  datos  
vecinas  x  e  y,  D∞(M(x)M(y))  ≤  ε  y  D∞(M(y)M(x))  ≤  ε;  y  es  2.  (ε,  δ)­
diferencialmente  privado  si  y  
solo  si  cada  dos  vecinos  Dδ  ∞(M(x)M(y))  ≤  ε  y  Dδ  ∞(M(y)  perforando  
bases  de  datos  x,  y:  M( x))  ≤  ε.

Otra  medida  de  distancia  que  será  útil  es  la  estadística
distancia  entre  dos  variables  aleatorias  Y  y  Z,  definida  como
def  
∆(Y,  Z) =  máx. |Pr[Y     S]  −  Pr[Z     S]|.
S

Decimos  que  Y  y  Z  son  δ­cercanos  si  ∆(Y,  Z)  ≤  δ.
Usaremos  las  siguientes  reformulaciones  de  máxima  divergencia  
aproximada  en  términos  de  máxima  divergencia  exacta  y  distancia  estadística:

Lema  3.17.

1.  Dδ  ∞(Y  Z)  ≤  ε  si  y  solo  si  existe  una  variable  aleatoria  Y
tal  que  ∆(Y,  Y )  ≤  δ  y  D∞(Y  Z)  ≤  ε.
2.  Tenemos  tanto  Dδ  ∞(Y  Z)  ≤  ε  como  Dδ  ∞(ZY )  ≤  ε  si  y  solo  si  existen  
variables  aleatorias  Y , Z  tales  que  ∆(Y,  Y )  ≤  δ/(e  ε  1),   +
∆(Z,  Z )  ≤  δ/(e  ε  +  1),  y  D∞(Y  Z )  ≤  ε.

Prueba.  Para  la  Parte  1,  suponga  que  existe  Y  δ­cerca  de  Y  tal  que  D∞(Y  Z)  
≤  ε.  Entonces  para  cada  S,
ε
Pr[Y     S]  ≤  Pr[Y     S]  +  δ  ≤  e ∙  Pr[Z     S]  +  δ,

y  por  tanto  Dδ  ∞(Y  Z)  ≤  ε.
Machine Translated by Google

3.5.  Teoremas  de  composición 45

Por  el  contrario,  suponga  que  Dδ  ∞(Y  Z)  ≤  ε.  Sea  S  =  {y :  Pr[Y  =  y]  >  ∙  Pr[Z  =  y]}.  
mi  e
Entonces
ε ε
(Pr[Y  =  y]  −  e ∙  Pr[Z  =  y])  =  Pr[Y     S]  −  e ∙  Pr[Z     S]  ≤  δ.
y S

Además,  si  hacemos  T  =  {y :  Pr[Y  =  y]  <  Pr[Z  =  y]},  entonces  tenemos

(Pr[Z  =  y]  −  Pr[Y  =  y])  = (Pr[Y  =  y]  −  Pr[Z  =  y])  y / T
y T

≥ (Pr[Y  =  y]  −  Pr[Z  =  y])
y S
ε
≥ (Pr[Y  =  y]  −  e ∙  Pr[Z  =  y])/
y S

Por  lo  tanto,  podemos  obtener  Y  de  Y  reduciendo  las  probabilidades  de  S  y  elevando  
las  probabilidades  de  T  para  satisfacer:
ε
1.  Para  todo  y     S,  Pr[Y  =  y]  =  e  2.   ∙  Pr[Z  =  y]  <  Pr[Y  =  y].
Para  todo  y     T,  Pr[Y  =  y]  ≤  Pr[Y  =  y]  ≤  Pr[Z  =  y].
ε
3.  Para  todo  y /   S     T,  Pr[Y  =  y]  =  Pr[Y  =  y]  ≤  e  ∙  Pr[Z  =  y].

Entonces  D∞(Y  Z)  ≤  ε  por  inspección,  y
ε
∆(Y,  Y )  =  Pr[Y     S]  −  Pr[Y     S]  =  Pr[Y     S]  −  e ∙  Pr[Z     S]  ≤  δ.

Ahora  demostramos  la  Parte  2.  Supongamos  que  existen  variables  aleatorias  Y  y  
Z  como  se  indica.  Entonces,  para  todo  conjunto  S,

d
Pr[Y     S]  ≤  Pr[Y     S]  +
mi  e +  1  
ε
δ
≤  mi ∙  Pr[Z     S]  +
mi  e +  1  
ε
δ d
≤  mi ∙  Pr[Z     S]  + +
mi  e +  1 mi  e +  1
ε  =  mi ∙  Pr[Z     S]  +  δ.

Así  Dδ  ∞(Y  Z)  ≤  ε,  y  por  simetría,  Dδ  ∞(ZY )  ≤  ε.
Por  el  contrario,  dados  Y  y  Z  tales  que  Dδ  ∞(Y  Z)  ≤  ε  y  Dδ  ∞(ZY )  ≤  ε,  procedemos  
de  manera  similar  a  la  Parte  1.  Sin  embargo,  en  lugar  de  simplemente  disminuir  la  masa  
de  probabilidad  de  Y  en  S  para  obtener  Y  y
Machine Translated by Google

46 Técnicas  Básicas  y  Teoremas  de  Composición

ε
eliminar  la  brecha  con  e  Z  en   ∙  Z,  también  aumentamos  la  masa  de  probabilidad  de
S.  Específicamente,  para  cada  y     S,  tomaremos

ε
Pr[Y  =  y]  =  e ∙  Pr[Z  =  y]
mi  e
= ∙  (Pr[Y  =  y]  +  Pr[Z  =  y])
1  +  miε

  [e  ε  ∙  Pr[Z  =  y],Pr[Y  =  y]].

Esto  también  implica  que  para  y     S,  tenemos:

Pr[Y  =  y]  −  Pr[Y  =  y]
ε
Pr[Y  =  y]  −  e ∙  Pr[Z  =  y]
=  Pr[Z  =  y]  −  Pr[Z  =  y]  +  1 ,
mi  e

y  por  lo  tanto

α =
definitivamente

Pr[Y  =  y]  −  Pr[Y  =  y]
y S
= Pr[Z  =  y]  −  Pr[Z  =  y]
y S
ε
= Pr[Y     S]  −  mi  +   ∙  Pr[Z     S]
mi  e 1
d
≤ .
mi  e +  1

De  manera  similar,  en  el  conjunto  S  =  {y :  Pr[Z  =  y]  >  eε  ∙  Pr[Y  =  y]},  podemos  disminuir  la  
masa  de  probabilidad  de  Z  y  aumentar  la  masa  de  probabilidad  de  Y  en  un  total  de  algunos  
α  ≤  δ/  (e  ε  +  1)  de  modo  que  para  todo  y     S  tenemos  Pr[Z  =  y]  =  e , nosotros

ε
∙  Pr[Y  =  y].  
Si  α  =  α , entonces  podemos  tomar  Pr[Z  =  y]  =  Pr[Z  =  y]  y  Pr[Y  =  y]  =  Pr[Y  =  y]  
para  todo  y /   S     S ,  dando  D∞(Y  Z)  ≤  ε  y  ∆(Y,  Y )  =  ∆(Z,  Z )  =  α.  Si  α  =  α  entonces  
necesitamos ,  digamos  α  >  α  aún  aumentar  la  masa  masa  de  Z  por  ,de  Y  y  disminuir  la  
de  probabilidad  
un  total  de  β  =  α  −  α  en  puntos  fuera  de  S     S  para  asegurar  que  las  probabilidades  
suman  a  1.  Es  decir,  si  tratamos  de  tomar  las  "funciones  de  masa"  Pr[Y  =  y]  y  Pr[Z  =  y]  
como  se  definen  arriba,  entonces,  aunque  tenemos  la  propiedad  de  que  para  cada  y,  Pr[Y  
=  y ]  ≤  e  ∙  Pr[Z  =  y]  y  Pr[Z  =  y]  ≤  e  Pr[Y  =  y]  =  1  −  β
ε

ε
∙  Pr[Y  =  y]  también  tenemos y
Machine Translated by Google

3.5.  Teoremas  de  composición 47

{y :   y Pr[Z  =  y]  =  1  +  β.  Sin  embargo,  esto  significa  que  si  hacemos  y  R  =  
Pr[Y  =  y]  <  Pr[Z  =  y]},  entonces

Pr[Z  =  y]  −  Pr[Y  =  y]  ≥ Pr[Z  =  y]  −  Pr[Y  =  y]  =  2β.
año R y

Entonces  podemos  aumentar  la  masa  de  probabilidad  de  Y  en  los  puntos  de  R  
en  un  total  de  β  y  disminuir  la  masa  de  probabilidad  de  Z  en  los  puntos  de  R  en  
un  total  de  β,  conservando  la  propiedad  de  que  para  todo  y     R,  Pr[Y  =  y]  ≤  Pr[Z  =  y].
Los  Y  y  Z  resultantes  tienen  las  propiedades  que  queremos:  D∞(Y ,  Z )  ≤  ε  y  
∆(Y,  Y ),  ∆(Z,  Z )  ≤  α.

Lema  3.18.  Suponga  que  las  variables  aleatorias  Y  y  Z  satisfacen  D∞(Y  Z)  ≤  ε  
y  D∞(ZY )  ≤  ε.  Entonces  D(Y  Z)  ≤  ε  ∙  (e  ε  −  1).

Prueba.  Sabemos  que  para  cualquier  Y  y  Z  se  da  el  caso  de  que  D(Y  Z)  ≥  0  (a  
través  de  la  “desigualdad  de  suma  logarítmica”),  por  lo  que  basta  con  acotar  D(Y  
Z)  +  D(ZY ).  Obtenemos:

D(Y  Z)  ≤  D(Y  Z)  +  D(ZY )

= Pr[Y  =  y] Pr[Z  =  y]
Pr[Y  =  y]  ∙  ln  +  ln
y Pr[Z  =  y] Pr[Y  =  y]
Pr[Z  =  y]
+  (Pr[Z  =  y]  −  Pr[Y  =  y])  ∙  ln
Pr[Y  =  y]

≤ [0  +  |Pr[Z  =  y]  −  Pr[Y  =  y]|  ∙  ε]
y

=  ε  ∙ [máx{Pr[Y  =  y],Pr[Z  =  y]}
y

−  min{Pr[Y  =  y],Pr[Z  =  y]}]

≤  ε  ∙ [(e  ε  −  1)  ∙  min{Pr[Y  =  y],Pr[Z  =  y]}]
y

≤  ε  ∙  (e  ε  −  1).

Lema  3.19  (Desigualdad  de  Azuma).  Sea  C1, . . . ,  Ck  sean  variables  aleatorias  
de  valor  real  tales  que  para  cada  i     [k],  Pr[|Ci  |  ≤  α]  =  1,  y  para
Machine Translated by Google

48 Técnicas  Básicas  y  Teoremas  de  Composición

cada  (c1, . . . ,  ci−1)     Supp(C1, . . . ,  Ci−1),  tenemos

E[Ci  |C1  =  c1, . . . ,  Ci−1  =  ci−1]  ≤  β.

Entonces  para  todo  z  >  0,  tenemos

k
PR −z  2/2 .
Ci  >  kβ  +  z  √  k  ∙  α  ≤  e
yo=1

3.5.2  Composición  avanzada

Además  de  permitir  que  los  parámetros  se  degraden  más  lentamente,  nos  gustaría  que  
nuestro  teorema  pudiera  manejar  formas  de  composición  más  complicadas.  Sin  embargo,  
antes  de  comenzar,  debemos  discutir  qué  entendemos  exactamente  por  composición.  
Nos  gustaría  que  nuestras  definiciones  cubrieran  los  siguientes  dos  escenarios  
interesantes:

1.  Uso  repetido  de  algoritmos  diferencialmente  privados  en  la  misma  base  de  datos.  
Esto  permite  tanto  el  uso  repetido  del  mismo  mecanismo  varias  veces  como  la  
construcción  modular  de  algoritmos  privados  diferenciales  a  partir  de  bloques  de  
construcción  privados  arbitrarios.

2.  Uso  repetido  de  algoritmos  diferencialmente  privados  en  diferentes  bases  de  datos  
que,  sin  embargo,  pueden  contener  información  relacionada  con  el  mismo  
individuo.  Esto  nos  permite  razonar  sobre  la  pérdida  acumulativa  de  privacidad  
de  un  solo  individuo  cuyos  datos  pueden  distribuirse  en  múltiples  conjuntos  de  
datos,  cada  uno  de  los  cuales  puede  usarse  de  manera  independiente  de  
manera  privada  diferencial.  Dado  que  se  crean  nuevas  bases  de  datos  todo  el  
tiempo,  y  el  adversario  puede  influir  en  la  composición  de  estas  nuevas  bases  de  
datos,  este  es  un  problema  fundamentalmente  diferente  que  consultar  
repetidamente  una  única  base  de  datos  fija.

Queremos  modelar  la  composición  en  la  que  el  adversario  pueda  afectar  de  manera  
adaptativa  las  bases  de  datos  que  se  ingresan  a  los  mecanismos  futuros,  así  como  las  
consultas  a  esos  mecanismos.  Sea  F  una  familia  de  mecanismos  de  acceso  a  bases  de  
datos.  (Por  ejemplo,  F  podría  ser  el  conjunto  de  todos  los  mecanismos  ε­diferencialmente  
privados).  Para  un  adversario  probabilístico  A,  consideramos  dos  experimentos,  el  
Experimento  0  y  el  Experimento  1,  definidos  de  la  siguiente  manera.
Machine Translated by Google

3.5.  Teoremas  de  composición 49

Experimento  b  para  la  familia  F  y  el  adversario  A:

Para  i  =  1, . . . ,  k:

1.  A  genera  dos  bases  de  datos  adyacentes  x  Mi     i0 1  y  x  i , un  mecanismo


F  y  parámetros  wi .

2.  A  recibe  yi   R  Mi(wi ,  xi,b).

Permitimos  que  el  adversario  A  anterior  tenga  estado  durante  todo  el  experimento  y,  
por  lo  tanto,  puede  elegir  las  bases  de  datos,  los  mecanismos  y  los  parámetros  de  
forma  adaptativa  según  los  resultados  de  los  mecanismos  anteriores.  Definimos  la  
vista  de  A  del  experimento  como  los  lanzamientos  de  moneda  de  A  y  todas  las  salidas  
j  
i 's,  mi  's  y  wi  's
del  mecanismo  (y1, . . . ,  yk).  (Todas  las  x  se  pueden  reconstruir  
a  partir  de  estas).
Por  intuición,  considere  un  adversario  que  siempre  elige  x 0 sostener
i
Los  datos  de  Bob  y  x  i 1 para  diferir  solo  en  que  los  datos  de  Bob  se  eliminan.  Luego,  

el  experimento  0  se  puede  considerar  como  el  "mundo  real",  donde  Bob  permite  que  
sus  datos  se  usen  en  muchas  publicaciones  de  datos,  y  el  Experimento  1  como  un  
"mundo  ideal",  donde  los  resultados  de  estas  publicaciones  de  datos  no  dependen  de  
los  datos  de  Bob. .  Nuestras  definiciones  de  privacidad  aún  requieren  que  estos  dos  
experimentos  sean  “cercanos”  entre  sí,  de  la  misma  manera  que  lo  requieren  las  
definiciones  de  privacidad  diferencial.  La  garantía  intuitiva  para  Bob  es  que  el  
adversario  “no  puede  saber”,  dada  la  salida  de  todos  los  mecanismos  k ,  si  alguna  vez  
se  usaron  los  datos  de  Bob.

Definición  3.7.  Decimos  que  la  familia  F  de  mecanismos  de  acceso  a  la  base  de  datos  
satisface  la  privacidad  diferencial  ε  bajo  una  composición  adaptativa  de  k  veces  si  para  
b denota
cada  adversario  A,  tenemos  D∞(V  0V  1 )  ≤  ε  donde  V  es  la  vista  de  A  en  
una  composición  de  k  veces  Experimento  b  anterior.
(ε,  δ)  ­privacidad  diferencial  bajo  composición  adaptativa  k­fold  en  su  lugar
requiere  que  Dδ  ∞(V  0V  1 )  ≤  ε.

Teorema  3.20  (Composición  avanzada).  Para  todo  ε,  δ,  δ  ≥  0,  la  clase  de  (ε,  δ)­
mecanismos  diferencialmente  privados  satisface  (ε,  kδ  +  δ )­privacidad  diferencial  bajo  
composición  adaptativa  k­fold  para:

ε  =  2k  ln(1/δ)ε  +  kε(e  ε  −  1).
Machine Translated by Google

50 Técnicas  Básicas  y  Teoremas  de  Composición

Prueba.  Una  vista  del  adversario  A  consiste  en  una  tupla  de  la  forma  v  =  (r,  y1, . . . ,  
yk),  donde  r  son  los  lanzamientos  de  moneda  de  A  e  y1, . . . ,  yk  son  las  salidas  de  
los  mecanismos  M1, . . . ,  mk.  Dejar

0 1
B  =  {v :  Pr[V =  v]  >  eε  ∙  Pr[V =  v]}.

0
Mostraremos  que  Pr[V   B]  ≤  δ,  y  por  lo  tanto  para  todo  conjunto  S,  tenemos

0 0 0 ε 1
Pr[V   S]  ≤  Pr[V   B]  +  Pr[V   (S  \  B)]  ≤  δ  +  mi ∙  Pr[V S ].

Esto  es  equivalente  a  decir  que  Dδ  ∞(V  0V  1 )  ≤  ε .
0 0
Resta  mostrar  Pr[V  (R0 ,  (R1 ,     B]  ≤  δ.  Sea  la  variable  aleatoria  V =
0  0  Y  Y   1
v  =   1 , . . . ,  
k  1  1   k
Y  Y  1 , . . . ,   )  denotan  la  vista  de  A  en  el  Experimento  0  y  V =

(r,   )  la  vista  de  A  en  el  Experimento  1.  Luego,  para  una  vista  fija
y1, . . . ,  yk),  tenemos

0
Pr[V =  v]  
en 1
Pr[V =  v]
k 0   0  0  Y  =  y1, . . . ,  
Pr[R0  =  r] ∙ Palancayo =  yi  |R0  =  r,  Y  =   1 i−1  1 =  yi−1]  
=  en 1
Pr[R1  =  r] yo=1 Palancai yi  |R1  =  r,  Y 1  1 =  y1, . . . , Y  i−1 =  yi−1]
k 0 0 0
Palanca =  yi  |R0  =  r,  Y Y  
1  Y   =  yi−1]
=  y1, . . . ,  i−1  
= en yo  1 1  1
yo=1 Palancai =  yi  |R1  =  r,  Y 1 y1, . . . ,  i−1 =   =  yi−1]
k
definitivamente

= ci(r,  y1, . . . ,  yi).
yo=1

0
Ahora  para  cada  prefijo  (r,  y1, . . . ,  yi−1)  condicionamos  a  R0  =  r,  Y 1 =
0  
Y  y1, . . . ,  i−1 =  yi−1,  y  analice  la  esperanza  y  el  máximo )  =  ci(r,  y1, . . .,  y
0
Y yo
posible  valor  de  la  variable  aleatoria  ci(R0 ,  0 1 , . . . ,
0 0
yi−1,  Y i ).  Una  vez  que  se  fija  el  prefijo,  el  siguiente  par  de  bases  de  datos  x i
1  
x  yo , el  mecanismo  Mi   , y  el  parmetro  wi  de  salida  por  A  tambin  se  determinan  
0
minado  (tanto  en  el  Experimento  0  como  en  el  1).  Así,  i se  distribuye  segn
Y  
x0  a  Mi(wi , ).  
Ai demás  para  cualquier  valor  yi ,  tenemos

Pr[Mi(wi , )  =  yi ]  ix0
ci(r,  y1, . . . ,  yi−1,  yi)  =  ln .
Pr[Mi(wi , )  =  x1
yi ]
i
Machine Translated by Google

3.5.  Teoremas  de  composición 51

Por  privacidad  diferencial  ε,  esto  está  acotado  por  ε.  También  podemos  razonar  de  la  siguiente  
manera:

|ci(r,  y1, . . . ,  yi−1,  yi)|  
x0  x1  ≤  i x1  x0  
máx{D∞(Mi(wi , )Mi(wi , )),   i

D∞(Mi(wi , )Mi(wi , ))}
i i
=  ε.

Por  el  Lema  3.18,  tenemos:

0 0  0  Y  Y   0 0
E[ci(R , 1 , . . . ,  yo )|R =  r,  Y 1 Y  =  y1, . . . ,  i0  
−1 =  yi−1]
x0   x1  
≤  =ε  (e  ε  −  1).i
D(Mi(wi , )Mi(wi , ))  
i

Así  podemos  aplicar  la  Desigualdad  de  Azuma  a  las  variables  aleatorias  Ci  =  
0 0
ci(R0 ,  Y  Y  1 , . . . ,i )  con  α  =  ε,  β  =  ε∙ε0  y  z  =  2  ln(1/δ),  para  deducir
eso
0
Pr[V   B]  =  Pr Ci  >  ε  <  e−z  2/2  =  δ,
i
como  se  desee.

Para  extender  la  prueba  a  la  composición  de  (ε,  δ)­mecanismos  
diferencialmente  privados,  para  δ  >  0,  usamos  la  caracterización  de  máxima  
divergencia  aproximada  del  Lema  3.17  (Parte  2)  para  reducir  el  análisis  a  la  
misma  situación  que  en  el  caso  de  (ε,  0)­secuencias  indistinguibles.  
Específicamente,  usando  el  Lema  3.17,  Parte  2  para  cada  uno  de  los  mecanismos  
diferencialmente  privados  seleccionados  por  el  adversario  A  y  la  desigualdad  
triangular  para  la  distancia  estadística,  se  sigue  que  0V  es  kδ­cerca  de  una  
variable  aleatoria  W  =  (R,  Z1, . . . ,  Zk)  tal  que  para  todo  prefijo  r,  y1, . . . ,  yi−1,  
1
si  condicionamos  a  R  =  R1  =  r,  Z1  =  Y 1  Zi−1  =  Y   =  yi−1,
1 =  y1, . . . ,  i−1
1 1
entonces  se  cumple  que  D∞(ZiY  
i )  ≤  ε  y  D∞(Y i Zi)  ≤  ε.
1 0 es  kδ­cerca  de
Esto  es  suficiente  para  mostrar  que  Dδ   )  ≤  ε .  Desde  V
∞(WV  W,  Lema  3.17,  Parte  1  da  Dδ  +kδ(V  0W)  ≤  ε .

Un  corolario  inmediato  y  útil  nos  dice  una  elección  segura  de  ε  para  cada  
uno  de  los  k  mecanismos  si  deseamos  asegurar  (ε ,  kδ  +  δ )­privacidad  diferencial  
para  un  ε  dado , δ  _
Machine Translated by Google

52 Técnicas  Básicas  y  Teoremas  de  Composición

Corolario  3.21.  Dados  los  parámetros  de  privacidad  objetivo  0  <  ε  <  1  y  δ  >  0,  para  
asegurar  (ε ,  kδ  +  δ )  la  pérdida  de  privacidad  acumulativa  sobre  k  mecanismos,  basta  
con  que  cada  mecanismo  sea  (ε,  δ)  diferencialmente  privado,  donde

ε
ε  = .
2  2k  ln(1/δ)

Prueba.  El  teorema  3.20  nos  dice  que  la  composición  será  (ε     =  2k  ln(1/ , kδ  +  δ )  para


, δ)  ∙  ε  +  kε2 .  Cuando  ε  <  1,  tenemos  que  todo  δ  donde  ε
ε ≤  ε  como  se  desee.

Tenga  en  cuenta  que  el  corolario  anterior  brinda  una  guía  aproximada  sobre  cómo  
configurar  ε  para  obtener  los  parámetros  de  privacidad  deseados  en  la  composición.  
Cuando  uno  se  preocupa  por  optimizar  las  constantes  (lo  que  se  hace  cuando  se  trata  de  
implementaciones  reales),  ε  se  puede  establecer  de  manera  más  estricta  apelando  
directamente  al  teorema  de  composición.

Ejemplo  3.7.  Supongamos  que,  a  lo  largo  de  su  vida,  Bob  es  miembro  de  k  =  10  000  (ε0,  
0)  bases  de  datos  privadas  diferencialmente.  Suponiendo  que  no  hay  coordinación  entre  
estas  bases  de  datos  (el  administrador  de  cualquier  base  de  datos  puede  ni  siquiera  ser  
consciente  de  la  existencia  de  las  otras  bases  de  datos),  ¿cuál  debería  ser  el  valor  de  ε0  
para  que,  en  el  transcurso  de  su  vida,  la  pérdida  de  privacidad  acumulada  de  Bob  esté  
limitada  por  ε  =  1  con  probabilidad  de  al  menos  1  −  e  −32?  El  teorema  3.20  dice  que,  
−32
tomando  δ  =  e  basta  con  tener  ε0  ≤  1/801.  Esto  resulta  ser  esencialmente  óptimo  
contra  un  adversario  arbitrario,  suponiendo  que  no  haya  coordinación  entre  distintas  
bases  de  datos  diferencialmente  privadas.

Entonces,  ¿cuántas  consultas  podemos  responder  con  una  precisión  no  trivial?  En  
una  base  de  datos  de  tamaño  n ,  digamos  que  la  precisión  no  es  trivial  si  el  error  es  de  
orden  o(n).  El  teorema  3.20  dice  que  para  valores  fijos  de  ε  y  δ,  contar  consultas  con  
es  posible  responder  cerca  de  n  precisión.   2 valores  no  triviales
De  manera  similar,  uno  puede  responder  cerca  de  n  consultas  mientras  aún  tiene  ruido  o  
( √  n),  es  decir,  ruido  menor  que  el  error  de  muestreo.  Veremos  que  es  posible  mejorar  
dramáticamente  estos  resultados,  manejando,  en  algunos  casos,  incluso  un  número  
exponencial  de  consultas  con  ruido  ligeramente  mayor  que  √  n,  coordinando  el  ruido  
agregado  a  las  respuestas  individuales.  Resulta  que  tal  coordinación  es  esencial:  sin
Machine Translated by Google

3.5.  Teoremas  de  composición 53

coordinación,  el  límite  en  el  teorema  de  composición  avanzado  es  casi  estrecho.

3.5.3  Laplace  frente  a  Gauss

Una  alternativa  a  agregar  ruido  laplaciano  es  agregar  ruido  gaussiano.  En  este  
caso,  en  lugar  de  escalar  el  ruido  a  la  sensibilidad  1  ∆f,  escalamos  a  la  
sensibilidad  2 :

Definición  3.8  (2­sensibilidad).  La  2­sensibilidad  de  una  función  f :  N  |X|  k  →  R
es:

∆2(f)  =  máx   f(x)  −  f(y)2.
x,y N|
X  |  x−y1=1

El  mecanismo  gaussiano  con  parámetro  b  añade  ruido  gaussiano  de  media  
cero  con  varianza  b  en  cada  una  de  las  coordenadas  k .  El  siguiente  teorema  se  
demuestra  en  el  Apéndice  A.

2
Teorema  3.22.  Sea  ε     (0,  1)  arbitrario.  Para  c  >  2  ln(1.25/δ),  
el  mecanismo  
gaussiano  con  parámetro  σ  ≥  c∆2(f)/ε  es  (ε,  δ)­  diferencialmente  privado.

Entre  las  ventajas  del  ruido  gaussiano  está  que  el  ruido  agregado  para  la  
privacidad  es  del  mismo  tipo  que  otras  fuentes  de  ruido;  además,  la  suma  de  
dos  gaussianas  es  una  gaussiana,  por  lo  que  los  efectos  del  mecanismo  de  
privacidad  en  el  análisis  estadístico  pueden  ser  más  fáciles  de  comprender  y  corregir.
Los  dos  mecanismos  producen  la  misma  pérdida  acumulativa  bajo  
composición,  por  lo  que  aunque  la  garantía  de  privacidad  es  más  débil  para  
cada  cálculo  individual,  los  efectos  acumulativos  sobre  muchos  cálculos  son  
comparables.  Además,  si  δ  es  lo  suficientemente  pequeño  (p.  ej.,  
subpolinomialmente),  en  la  práctica  nunca  experimentaremos  la  debilidad  de  la  garantía.
Dicho  esto,  existe  una  desventaja  teórica  en  el  ruido  gaussiano,  en  relación  
con  lo  que  experimentamos  con  el  ruido  de  Laplace.  Considere  Report  Noisy  
Max  (con  ruido  de  Laplace)  en  un  caso  en  el  que  cada  salida  candidata  tiene  el  
mismo  puntaje  de  calidad  en  la  base  de  datos  x  que  en  su  vecino  y.
Independientemente  del  número  de  salidas  candidatas,  el  mecanismo  produce  
privacidad  diferencial  (ε,  0).  Si,  en  cambio,  usamos  ruido  gaussiano  e  informamos  
el  máximo,  y  si  el  número  de  candidatos  es  grande  en  comparación  con  1/δ,
Machine Translated by Google

54 Técnicas  Básicas  y  Teoremas  de  Composición

entonces  seleccionaremos  exactamente  para  los  eventos  con  gran  ruido  gaussiano,  ruido  
que  ocurre  con  una  probabilidad  menor  que  δ.  Cuando  estamos  tan  lejos  en  la  cola  de  la  
Gaussiana,  ya  no  tenemos  garantía  de  que  la  observación  ±ε  esté  dentro  de  un  e
factor  tan  probable  que  ocurra  en  x  como  en  y.

3.5.4  Observaciones  sobre  la  composición

La  capacidad  de  analizar  la  pérdida  de  privacidad  acumulada  bajo  composición  nos  da  
una  idea  de  lo  que  puede  ofrecer  un  mundo  de  bases  de  datos  privadas  diferencialmente.
Algunas  observaciones  están  en  orden.

0
Cuantificación  débil.  Suponga  que  el  adversario  siempre  elige  x
i  
para  contener  los  datos  de  Bob,  
i 1  para  ser  la  misma  base  de  datos  pero  con  los  datos  de  Bob
y  x  eliminado.  El  teorema  3.20,  con  la  elección  adecuada  de  parámetros,  nos  dice  que  un  
adversario,  incluido  uno  que  conoce  o  incluso  selecciona  (!)  los  pares  de  bases  de  datos,  
tiene  poca  ventaja  para  determinar  el  valor  de  b     {0,  1}.  Esta  es  una  cuantificación  
inherentemente  débil.  Podemos  asegurar  que  es  poco  probable  que  el  adversario  distinga  
la  realidad  de  cualquier  alternativa  dada,  pero  no  podemos  asegurar  esto  simultáneamente  
para  todas  las  alternativas.  Si  hay  un  trillón  de  bases  de  datos  pero  Bob  es  miembro  de  
sólo  10.000  de  ellas,  entonces  no  estamos  protegiendo  simultáneamente  la  ausencia  de  
Bob  de  todos  los  trillones  menos  diez  mil.  Esto  es  análogo  a  la  cuantificación  en  la  
definición  de  privacidad  diferencial  (ε,  δ),  donde  arreglamos  de  antemano  un  par  de  bases  
de  datos  adyacentes  y  argumentamos  que  con  alta  probabilidad  el  resultado  será  casi  
igualmente  probable  con  estas  dos  bases  de  datos.

Humanos  y  Fantasmas.  Intuitivamente,  una  base  de  datos  privada  diferencialmente  (,  0)  
con  una  pequeña  cantidad  de  bits  por  registro  es  menos  protectora  que  una  base  de  
datos  privada  diferencialmente  con  la  misma  opción  que  contiene  nuestros  historiales  
médicos  completos .  Entonces,  ¿en  qué  sentido  nuestra  principal  medida  de  privacidad  
nos  dice  lo  mismo  acerca  de  las  bases  de  datos  que  difieren  radicalmente  en  la  
complejidad  y  sensibilidad  de  los  datos  que  almacenan?
La  respuesta  está  en  los  teoremas  de  composición.  Imagina  un  mundo  habitado  por  dos  
tipos  de  seres:  fantasmas  y  humanos.  Ambos  tipos  de  seres  se  comportan  igual,  
interactúan  con  los  demás  de  la  misma  manera,  escriben,  estudian,  trabajan,  ríen,  aman,  
lloran,  se  reproducen,  enferman,  se  recuperan  y  envejecen  de  la  misma  manera.  La  única  
diferencia  es  que  los  fantasmas  no  tienen  registros  en
Machine Translated by Google

3.6.  La  técnica  del  vector  disperso 55

bases  de  datos,  mientras  que  los  humanos  lo  hacen.  El  objetivo  del  adversario  de  
la  privacidad  es  determinar  si  un  individuo  de  50  años,  el  "objetivo",  es  un  fantasma  
o  un  ser  humano.  De  hecho,  el  adversario  tiene  50  años  para  hacerlo.  El  adversario  
no  necesita  permanecer  pasivo,  por  ejemplo,  puede  organizar  ensayos  clínicos  e  
inscribir  a  los  pacientes  de  su  elección,  puede  crear  humanos  para  poblar  las  bases  
de  datos,  creando  efectivamente  las  bases  de  datos  del  peor  de  los  casos  (por  
privacidad),  puede  exponer  al  objetivo  a  los  productos  químicos  a  los  25  años  y  de  
nuevo  a  los  35,  y  así  sucesivamente.  Ella  puede  saber  todo  sobre  el  objetivo  que  
posiblemente  podría  ingresarse  en  cualquier  base  de  datos.  Puede  saber  en  qué  
bases  de  datos  estaría  el  objetivo,  si  el  objetivo  fuera  humano.  Los  teoremas  de  
composición  nos  dicen  que  las  garantías  de  privacidad  de  cada  base  de  datos,  
independientemente  del  tipo  de  datos,  la  complejidad  y  la  sensibilidad,  brindan  una  
protección  comparable  para  el  bit  humano/fantasma.

3.6  La  técnica  del  vector  disperso

El  mecanismo  de  Laplace  se  puede  utilizar  para  responder  consultas  de  baja  
sensibilidad  elegidas  de  forma  adaptativa,  y  sabemos  por  nuestros  teoremas  de  
composición  que  el  parámetro  de  privacidad  se  degrada  proporcionalmente  al  
número  de  consultas  respondidas  (o  su  raíz  cuadrada).  Desafortunadamente,  a  
menudo  sucederá  que  tenemos  un  gran  número  de  preguntas  para  responder,  
demasiadas  para  generar  una  garantía  de  privacidad  razonable  utilizando  técnicas  
de  perturbación  independientes,  incluso  con  los  teoremas  de  composición  avanzados  de  la  Sección  3.5.
Sin  embargo,  en  algunas  situaciones,  solo  nos  importará  conocer  la  identidad  de  
las  consultas  que  se  encuentran  por  encima  de  un  cierto  umbral.  En  este  caso,  
podemos  esperar  superar  el  análisis  ingenuo  descartando  la  respuesta  numérica  a  
las  consultas  que  se  encuentran  significativamente  por  debajo  del  umbral  y  
simplemente  informando  que,  de  hecho,  se  encuentran  por  debajo  del  umbral.  
(También  podremos  obtener  los  valores  numéricos  de  las  consultas  por  encima  
del  umbral,  con  un  pequeño  costo  adicional,  si  así  lo  deseamos).  Esto  es  similar  a  
lo  que  hicimos  en  el  mecanismo  Report  Noisy  Max  en  la  sección  3.3  y,  de  hecho,  
iterar  ese  algoritmo  o  el  mecanismo  exponencial  sería  una  opción  para  el  caso  no  
interactivo  o  fuera  de  línea.
En  esta  sección,  mostramos  cómo  analizar  un  método  para  esto  en  la  
configuración  en  línea.  La  técnica  es  simple:  agregue  ruido  e  informe  solo
Machine Translated by Google

56 Técnicas  Básicas  y  Teoremas  de  Composición

si  el  valor  ruidoso  excede  el  umbral,  y  nuestro  énfasis  está  en  el  análisis,  que  muestra  
que  la  privacidad  se  degrada  solo  con  la  cantidad  de  consultas  que  realmente  
superan  el  umbral,  en  lugar  de  con  la  cantidad  total  de  consultas.  Esto  puede  suponer  
un  gran  ahorro  si  sabemos  que  el  conjunto  de  consultas  que  se  encuentran  por  
encima  del  umbral  es  mucho  menor  que  el  número  total  de  consultas,  es  decir,  si  el  
vector  de  respuesta  es  escaso .
Con  un  poco  más  de  detalle,  consideraremos  una  secuencia  de  eventos  (uno  
para  cada  consulta)  que  ocurren  si  una  consulta  evaluada  en  la  base  de  datos  supera  
un  umbral  determinado  (conocido,  público).  Nuestro  objetivo  será  liberar  un  vector  de  
bits  que  indique,  para  cada  evento,  si  se  ha  producido  o  no.  A  medida  que  se  presenta  
cada  consulta,  el  mecanismo  calculará  una  respuesta  ruidosa,  la  comparará  con  el  
umbral  (conocido  públicamente)  y,  si  se  supera  el  umbral,  revelará  este  hecho.  Por  
razones  técnicas  en  la  prueba  de  privacidad  (Teorema  3.24),  el  algoritmo  trabaja  con  
una  versión  ruidosa  Tˆ  del  umbral  T.  Mientras  T  es  pública  la  versión  ruidosa  Tˆ  no  lo  
es.
En  lugar  de  incurrir  en  una  pérdida  de  privacidad  para  cada  consulta  posible ,  el  
análisis  a  continuación  generará  un  costo  de  privacidad  solo  para  los  valores  de  
consulta  que  están  cerca  o  por  encima  del  umbral.

El  ajuste.  Sea  m  el  número  total  de  consultas  de  sensibilidad  1,  que  se  pueden  elegir  
de  forma  adaptativa.  Sin  pérdida  de  generalidad,  existe  un  único  umbral  T  fijado  de  
antemano  (alternativamente,  cada  consulta  puede  tener  su  propio  umbral,  pero  los  
resultados  no  se  modifican).  Agregaremos  ruido  a  los  valores  de  consulta  y  
compararemos  los  resultados  con  T.  Un  resultado  positivo  significa  que  un  valor  de  
consulta  ruidoso  supera  el  umbral.  Esperamos  que  un  pequeño  número  c  de  valores  
ruidosos  exceda  el  umbral,  y  estamos  liberando  solo  los  valores  ruidosos  por  encima  
del  umbral.  El  algoritmo  utilizará  c  en  su  condición  de  parada.

Primero  analizaremos  el  caso  en  el  que  el  algoritmo  se  detiene  después  de  c  =  1  
consulta  por  encima  del  umbral,  y  mostraremos  que  este  algoritmo  es  diferencialmente  
privado  sin  importar  cuán  larga  sea  la  secuencia  total  de  consultas.  Luego  
analizaremos  el  caso  de  c  >  1  utilizando  nuestros  teoremas  de  composición  y  
derivaremos  límites  tanto  para  (,  0)  como  para  (,  δ)­privacidad  diferencial.
Primero  argumentamos  que  AboveThreshold,  el  algoritmo  especializado  para
el  caso  de  una  sola  consulta  por  encima  del  umbral,  es  privada  y  precisa.
Machine Translated by Google

3.6.  La  técnica  del  vector  disperso 57

La  entrada  del  algoritmo  1  es  una  base  de  datos  privada  D,  un  flujo  elegido  
adaptativamente  de  consultas  de  sensibilidad  1  f1, . . .,  y  un  umbral  T.  La  salida  
es  un  flujo  de  respuestas  a1, . . .
Por  encima  del  umbral  (D,  {fi},  T, )
Sea  Tˆ  =  T  +  Lap  
2
.
para  cada  consulta  que  
4
hago  Sea  νi  =   )
Lap( si  fi(D)  +  νi  ≥  Tˆ  
entonces  Salida   .
ai  =  Halt.
demás

Salida  ai  =   .  
terminara  si
fin  para

Teorema  3.23.  AboveThreshold  es  (,  0)  diferencialmente  privado.

Prueba.  Arregle  dos  bases  de  datos  vecinas  D  y  D .  Sea  A  la  variable  aleatoria  
que  representa  la  salida  de  AboveThresh  old(D,  {fi},  T, )  y  sea  A  la  variable  
aleatoria  que  representa  la  salida  de  AboveThreshold(D ,  {fi},  T, ).  La  salida  del  
algoritmo  es  alguna  realización  de  estas  variables  aleatorias,  a     {,   }k  y  tiene  
la  forma  que  para  todo  i  <  k,  ai  =     y  ak  = .  Hay  dos  tipos  de  variables  aleatorias  
internas  en  el  algoritmo:  el  umbral  ruidoso  Tˆ  y  las  perturbaciones  de  cada  una  
de  las  k  consultas,  {νi}  después  del  análisis,  fijaremos  los  valores  (arbitrarios)  
de  ν1, . . . ,  νk−1  y  toma  probabilidades  sobre  la  aleatoriedad  de  νk  yo=1. Para  el
k

y  Tˆ.  Defina  la  siguiente  cantidad  que  representa  el  valor  ruidoso  máximo  de  
cualquier  consulta  f1, . . . ,  fk−1  evaluado  en  D:

g(D)  =  máx  (fi(D)  +  νi)
yo<k

A  continuación,  abusaremos  de  la  notación  y  escribiremos  Pr[Tˆ  =  t]  como  forma  abreviada  de  la  
función  de  densidad  de  probabilidad  de  Tˆ  evaluada  en  t  (de  manera  similar  para  νk),  y  escribiremos  
1[x]  para  denotar  la  función  indicadora  del  evento  x.  Tenga  en  cuenta  que  la  fijación  de  los  valores
Machine Translated by Google

58 Técnicas  Básicas  y  Teoremas  de  Composición

de  ν1, . . . ,νk−1  (lo  que  hace  de  g(D)  una  cantidad  determinista),  tenemos:  

ˆPR [A  =  a]  =  Pr ˆ ˆ >  g (D)  y  fk(D)  +  νk  ≥  Tˆ]


[T  
T,  νk T,  νk
=  PˆR [Tˆ     (g(D),  fk(D)  +  νk]]
T,  νk
∞ ∞
= Pr[νk  =  v]
−∞ −∞
∙Pr[Tˆ  =  t]1[t     (g(D),  fk(D)  +  v]]dvdt
.=  

Hacemos  ahora  un  cambio  de  variables.  Definir:

vˆ  =  v  +  g(D)  −  g(D )  +  fk(D )  −  fk(D)

tˆ=  t  +  g(D)  −  g(D ) ,  |
cuenta  que  para  cualquier  D,   vˆ  −  v|  ≤  2  y  |tˆ−  t|  ≤  1.  Esto  sigue  y  tenga  en  
D  porque  cada  consulta  fi(D)  es  sensible  a  1  y,  por  lo  tanto,  la  cantidad  g(D)  
también  es  sensible  a  1.  Aplicando  este  cambio  de  variables,  tenemos:
∞ ∞
  = Pr[νk  =  ̂v]  ∙  Pr[Tˆ  =  tˆ]1[(t  +  g(D)  −  g(D ))
−∞ −∞
  (g(D),  fk(D )  +  v  +  g(D)  −  g(D )]]dvdt
∞ ∞
= Pr[νk  =  ̂v]  ∙  Pr[Tˆ  =  tˆ]1[(t     (g(D ),  fk(D )  +  v]]dvdt
−∞ −∞
∞ ∞
≤ exp(/2)  Pr[νk  =  v]
−∞ −∞
∙  exp(/2)  Pr[Tˆ  =  t]1[(t     (g(D ),  fk(D )  +  v]]dvdt
ˆ
exp()  Pr ˆ [T  >  g (D )  y  fk(D )  +  νk  ≥  Tˆ]  =  
T,  νk

=  exp()  Pr ˆ [Un  =  un]
T,  νk

donde  la  desigualdad  proviene  de  nuestros  límites  en  |vˆ  −  v|  y  |tˆ−  t|  y  la  
forma  del  pdf  de  la  distribución  de  Laplace.

Definición  3.9  (Precisión).  Diremos  que  un  algoritmo  que  genera  un  flujo  de  
respuestas  a1, . . . ,     {,   }   en  respuesta  a  un  flujo  de  k
Machine Translated by Google

3.6.  La  técnica  del  vector  disperso 59

consultas  f1, . . . ,  fk  es  (α,  β)­exacto  con  respecto  a  un  umbral  T  si  excepto  con  
probabilidad  como  máximo  β,  el  algoritmo  no  se  detiene  antes  de  fk,  y  para  todo  
ai  = :
fi(D)  ≥  T  −  α

y  para  todo  ai  =   :
fi(D)  ≤  T  +  α.

¿Qué  puede  salir  mal  en  el  Algoritmo  1?  El  umbral  de  ruido  Tˆ  puede  ser
muy  lejos  de  T,  digamos,  |Tˆ  −  T|  >  α.  Además,  un  conteo  pequeño  fi(D)  <  T  −  α  
puede  tener  tanto  ruido  agregado  que  se  reporta  como  por  encima  del  umbral  
(incluso  cuando  el  umbral  está  cerca  del  correcto),  y  un  conteo  grande  fi(D)  >  T  +  
α  se  puede  informar  como  por  debajo  del  umbral.  Todo  esto  sucede  con  una  
probabilidad  exponencialmente  pequeña  en  α.  En  resumen,  podemos  tener  un  
problema  con  la  elección  del  umbral  de  ruido  o  podemos  tener  un  problema  con  
uno  o  más  de  los  valores  de  ruido  individuales  νi .  Por  supuesto,  podríamos  tener  
ambos  tipos  de  errores,  por  lo  que  en  el  análisis  a  continuación  asignamos  α/2  a  
cada  tipo.

Teorema  3.24.  Para  cualquier  secuencia  de  k  consultas  f1, . . . ,  fk  tal  que  |{i  <  k :  
fi(D)  ≥  T  −  α}|  =  0  (es  decir,  la  única  consulta  cercana  a  estar  por  encima  del  
umbral  es  posiblemente  la  última),  AboveThreshold(D,  {fi},  T, )  es  (α,  β)  precisa  
para:

8(log  k  +  log(2/β))
α  = .

Prueba.  Obsérvese  que  el  teorema  quedará  demostrado  si  podemos  demostrar  
que  excepto  con  probabilidad  a  lo  sumo  β:

máximo |νi  |  +  |T  −  Tˆ|  ≤  α
i [k]

Si  este  es  el  caso,  entonces  para  cualquier  ai  = , tenemos:

fi(D)  +  νi  ≥  Tˆ  ≥  T  −  |T  −  Tˆ|

o  en  otras  palabras:

fi(D)  ≥  T  −  |T  −  Tˆ|  −  |νi  |  ≥  T  −  α
Machine Translated by Google

60 Técnicas  Básicas  y  Teoremas  de  Composición

De  manera  similar,  para  cualquier  ai  =     tenemos:

fi(D)  <  Tˆ  ≤  T  +  |T  −  Tˆ|  +  |νi  |  ≤  T  +  α  También  

tendremos  que  para  cualquier  i  <  k:  fi(D)  <  T  −α  <  T  −|νi  |−|T  −Tˆ|,  y  así:  fi(D)  +  νi  ≤  Tˆ,  es  
decir  ai  =   .  Por  lo  tanto,  el  algoritmo  no  se  detiene  antes  de  que  se  respondan  k  consultas.

Ahora  completamos  la  prueba.
Recuerde  que  si  Y     Lap(b),  entonces:  Pr[|Y  |  ≥  t∙b]  =  exp(−t).  Por  lo  tanto  tenemos:

α α
Pr[|T  −  Tˆ|  ≥ ]  =  exp  −  4
2

Estableciendo  esta  cantidad  para  que  sea  como  máximo  β/2,  encontramos  que  requerimos  α  
≥  4  log(2/β)

De  manera  similar,  por  un  enlace  de  unión,  tenemos:

α
Pr[máx  |νi  |  ≥  α/2]  ≤  k  ∙  exp  −  i [k]
8

Al  establecer  esta  cantidad  como  máximo  β/2,  encontramos  que  requerimos  α  ≥  8(log(2/β)
+log  k)  Estas  dos  afirmaciones  se  combinan  para  demostrar  el  teorema.

Ahora  mostramos  cómo  manejar  múltiples  consultas  "por  encima  del  umbral"  usando  
la  composición.
El  algoritmo  Sparse  se  puede  considerar  de  la  siguiente  manera:  a  medida  que  
ingresan  consultas,  realiza  llamadas  repetidas  a  AboveThreshold.  Cada  vez  que  se  informa  
una  consulta  por  encima  del  umbral,  el  algoritmo  simplemente  reinicia  el  flujo  restante  de  
consultas  en  una  nueva  instancia  de  AboveThreshold.  Se  detiene  después  de  que  se  haya  
reiniciado  por  encima  del  umbral  c  veces  (es  decir,  después  de  que  hayan  aparecido  c  
consultas  por  encima  del  umbral).  Cada  instanciación  de  AboveThresh  old  es  (,  0)­privada,  
por  lo  que  se  aplican  los  teoremas  de  composición.

Teorema  3.25.  Disperso  es  (,  δ)­diferencialmente  privado.

Prueba.  Observamos  que  Sparse  es  exactamente  equivalente  al  siguiente  procedimiento:  
Ejecutamos  AboveThreshold(D,  {fi},  T, )  en  nuestro  flujo  de  consultas  configurando  {fi}

c , Si  δ  =  0;  
=
1  8c  
, De  lo  contrario.
ln  δ
Machine Translated by Google

3.6.  La  técnica  del  vector  disperso 61

La  entrada  del  algoritmo  2  es  una  base  de  datos  privada  D,  un  flujo  elegido  adaptativamente  de  
consultas  de  sensibilidad  1  f1, . . .,  un  umbral  T  y  un  punto  de  corte  c.  La  salida  es  un  flujo  de  
respuestas  a1, . . .
Escaso  (D,  {fi},  T,  c, ,  δ)
1  32c  
ln  δ
Si  δ  =  0  Sea  σ  = 2c .  De  lo  contrario  Sea  σ  =

Sea  Tˆ 0 =  T  +  Vuelta(σ)
Vamos  a  contar  =  0

para  cada  consulta  que  
hago  Sea  νi  =  Lap(2σ)  
si  fi(D)  +  νi  ≥  Tˆ  Salida  contar entonces

ai  =  Sea  cuenta  =   .
cuenta  +1.
Sea  Tˆ contar =  T  +  Vuelta(σ)
demás

Salida  ai  =   .  
terminara  si

si  el  recuento  ≥  c  entonces  
Detener.  

terminara  si

fin  para

utilizando  las  respuestas  proporcionadas  por  AboveThreshold.  Cuando  AboveThresh  se  
detiene  (después  de  1  consulta  por  encima  del  umbral),  simplemente  reiniciamos  Sparse(D,  {fi},  
T, )  en  el  flujo  restante  y  continuamos  de  esta  manera  hasta  que  hayamos  reiniciado  
AboveThreshold  c  veces.  Después  de  que  se  detenga  el  reinicio  c'th  de  AboveThreshold,  

nosotros  también  nos  detendremos.  Ya  hemos  probado  que  AboveThreshold(D,  {fi},  T, )  es  ( ,  
0)  diferencialmente  privado.  Finalmente,  por  el  teorema  de  composición  avanzado  (Teorema  
3.20),  c  aplicaciones  de  un  =  ­algoritmo  diferencialmente  privado  es  (,  δ)­  diferencialmente  
privado,  yc  aplicaciones  de  un  = /c  algoritmo  diferencialmente  privado  es  (,  0)­privado  como  se  
1  8c  
ln  δ

desee .

Queda  por  demostrar  la  precisión  de  Sparse,  observando  nuevamente  que  Sparse  consiste  
solo  en  llamadas  c  a  AboveThreshold.  Notemos  que  si  cada
Machine Translated by Google

62 Técnicas  Básicas  y  Teoremas  de  Composición

de  estas  llamadas  a  AboveThreshold  tiene  una  precisión  (α,  β/c),  entonces  Sparse  
tendrá  una  precisión  (α,  β).

Teorema  3.26.  Para  cualquier  secuencia  de  k  consultas  f1, . . . ,  fk  tal  que  L(T)  ≡  |{i :  
fi(D)  ≥  T  −  α}|  ≤  c,  si  δ  >  0,  Sparse  es  (α,  β)  tasa  precisa  para:

2c  
(ln  k  +  ln β
)  512c  en 1  δ
α  = .

Si  δ  =  0,  Sparse  es  (α,  β)  preciso  para:

8c(ln  k  +  ln(2c/β))
α  =

Prueba.  Simplemente  aplicamos  el  Teorema  3.24  haciendo  que  β  sea  β/c,  y  sea  y /c,  
dependiendo  de  si  δ  >  0  o  δ  =  0,  respectivamente.
1  8c  
ln  δ

Finalmente,  proporcionamos  una  versión  de  Sparse  que  en  realidad  genera  los  
valores  numéricos  de  las  consultas  de  umbral  anteriores,  lo  que  podemos  hacer  con  
solo  una  pérdida  de  precisión  constante  del  factor.  Llamamos  a  este  algoritmo  Numer  
icSparse,  y  es  simplemente  una  composición  de  Sparse  con  el  mecanismo  de  Laplace.  
En  lugar  de  generar  un  vector  a     {,   }  ,  genera  un  vector  a     (R     { })  
.
Observamos  que  NumericSparse  es  privado:

Teorema  3.27.  NumericSparse  es  (,  δ)  diferencialmente  privado.

Prueba.  Observe  que  si  δ  =  0,  NumericSparse(D,  {fi},  T,  c, ,  0)  es  simplemente  la  
8
composición  adaptativa  de  Sparse(D,  {fi},  T,  c,  con  el  mecanismo   9 ,  0),  juntos  9 ,  0).
1
de  Laplace  con  parámetros  de  privacidad  ( ,  δ)  =  (
Si  δ  >  0,  entonces  NumericSparse(D,  {fi},  T,  c, ,  0)  es  la  composición  √  de  Sparse(D,  
512
{fi},  T,  c, ,  δ/2)  junto  con  el  mde  
ecanismo  de  Laplace  √  512  +1  1  nismo  con  parámetros  
privacidad  ( ,  δ)  =  ( ,  δ/
2).  Por  lo  tanto,  el  valor  pri  √  512+1  de  NumericSparse   se  deriva  de  una  composición  
simple.

Para  discutir  la  precisión,  debemos  definir  lo  que  queremos  decir  con  la  precisión  
de  un  mecanismo  que  genera  un  flujo  a     (R     { })     en  respuesta  a  una  secuencia  
de  consultas  con  valores  numéricos:
Machine Translated by Google

3.6.  La  técnica  del  vector  disperso 63

La  entrada  del  algoritmo  3  es  una  base  de  datos  privada  D,  un  flujo  elegido  
adaptativamente  de  consultas  de  sensibilidad  1  f1, . . .,  un  umbral  T  y  un  punto  de  
corte  c.  La  salida  es  un  flujo  de  respuestas  a1, . . .
NumericSparse(D,  {fi},  T,  c, ,  δ)
8 2 √  512  
Si  δ  =  0  Sea 1  ← 9 ,  2  ← 9  _  De  lo  contrario,  deja 1 = √  512+1  
,  2 =
2  √  512+1
2c 2  32c  ln  δ
Si  δ  =  0  Sea  σ()  = .  De  lo  contrario,  sea  σ()  =
Sea  Tˆ 0 =  T  +  Vuelta(σ(1))
Let  count  =  0  
para  cada  consulta  que  hago
Sea  νi  =  Lap(2σ(1))  si  
fi(D)  +  νi  ≥  Tˆ  Sea  υi  contar entonces

←  Lap(σ(2))
Salida  ai  =  fi(D)  +  υi .
Sea  contar  =  contar  +1.
Sea  Tˆ contar =  T  +  Vuelta(σ(1))
demás

Salida  ai  =   .  
terminara  si
si  el  recuento  ≥  c  entonces  
Detener.

terminara  si

fin  para

Definición  3.10  (Precisión  numérica).  Diremos  que  un  algoritmo     (R     { })     que  


de  respuestas  a1, . . . ,  en  respuesta  a  un  flujo  de  k  consultas  
genera  fu1, . . . ,  
n  flujo  fk  es  (α,  β)­
exacto  con  respecto  a  un  umbral  T  si  excepto  con  probabilidad  como  máximo  β,  el  
algoritmo  no  se  detiene  antes  de  fk,  y  para  todo  ai     R:

|fi(D)  −  ai  |  ≤  α

y  para  todo  ai  =   :
fi(D)  ≤  T  +  α.

Teorema  3.28.  Para  cualquier  secuencia  de  k  consultas  f1, . . . ,  fk  tal  que  L(T)  ≡  |{i :  
fi(D)  ≥  T  −  α}|  ≤  c,  si  δ  >  0,  NumericSparse  es  (α,  β)
Machine Translated by Google

64 Técnicas  Básicas  y  Teoremas  de  Composición

preciso  para:

4c   2  
(ln  k  +  ln β
)  c  ln δ ( √  512  +  1)
α  = .

Si  δ  =  0,  Sparse  es  (α,  β)  preciso  para:

9c(ln  k  +  ln(4c/β))
α  =

Prueba.  La  precisión  requiere  dos  condiciones:  primero,  que  para  todo  ai  =   :  fi(D)  
≤  T  +  α.  Esto  se  cumple  con  una  probabilidad  de  1  −  β/2  según  el  teorema  de  
precisión  para  Sparse.  Luego,  para  todo  ai     R,  se  requiere  |fi(D)  −  ai  |  ≤  α.
Esto  se  cumple  con  una  probabilidad  de  1  −  β/2  por  la  precisión  del  mecanismo  de  
Laplace.

¿Qué  mostramos  al  final?  Si  nos  dan  una  secuencia  de  consultas  junto  con  la  
garantía  de  que  solo  como  máximo  c  de  ellas  tienen  respuestas  por  encima  de  T  
−α,  podemos  responder  aquellas  consultas  que  están  por  encima  de  un  umbral  T  
dado,  hasta  el  error  α.  Esta  precisión  es  igual,  hasta  las  constantes  y  un  factor  de  
log  k,  a  la  precisión  que  obtendríamos,  dada  la  misma  garantía  de  privacidad,  si  
conociéramos  las  identidades  de  estas  grandes  consultas  por  encima  del  umbral  
con  anticipación  y  las  respondiéramos  con  la  mecanismo  de  Laplace.  Es  decir,  la  
técnica  del  vector  disperso  nos  permitió  extraer  las  identidades  de  estas  consultas  
grandes  casi  "gratis",  pagando  solo  logarítmicamente  por  las  consultas  irrelevantes.  
Esta  es  la  misma  garantía  de  que  podríamos  haber  obtenido  diez  al  tratar  de  
encontrar  las  consultas  grandes  con  el  mecanismo  exponencial  y  luego  responderlas  
con  el  mecanismo  de  Laplace.  Este  algoritmo,  sin  embargo,  es  trivial  de  ejecutar  y,  
lo  que  es  más  importante,  nos  permite  elegir  nuestras  consultas  de  forma  adaptativa.

3.7  Notas  bibliográficas

La  respuesta  aleatoria  se  debe  a  Warner  [84]  (¡anterior  a  la  privacidad  diferencial  
por  cuatro  décadas!).  El  mecanismo  de  Laplace  se  debe  a  Dwork  et  al.  [23].  El  
mecanismo  exponencial  fue  inventado  por  McSherry  y  Talwar  [60].  El  teorema  3.16  
(composición  simple)  se  reivindicó  en  [21];  la  prueba  que  aparece  en  el  Apéndice  B  
se  debe  a  Dwork  y  Lei  [22];
Machine Translated by Google

3.7.  notas  bibliograficas sesenta  y  cinco

McSherry  y  Mironov  obtuvieron  una  prueba  similar.  El  material  de  las  Secciones  3.5.1  y  
3.5.2  está  tomado  casi  textualmente  de  Dwork  et  al.  [32].
Antes  de  [32],  la  composición  se  modelaba  de  manera  informal,  como  hicimos  con  los  
límites  de  composición  simple.  Para  mecanismos  específicos  aplicados  en  una  sola  base  
de  datos,  existen  argumentos  de  "evolución  de  la  confianza"  debido  a  Dinur,  Dwork  y  Nissim  
[18,  31],  (que  son  anteriores  a  la  definición  de  privacidad  diferencial)  que  muestran  que  el  
parámetro  de  privacidad  en  k­  La  composición  de  pliegues  solo  necesita  deteriorarse  como  
√  k  si  estamos  dispuestos  a  tolerar  una  pérdida  (insignificante)  en  δ  (para  k  <  1/ε2 ).  El  
teorema  3.20  generaliza  esos  argumentos  a  mecanismos  arbitrarios  diferencialmente  
privados,
La  afirmación  de  que  sin  coordinación  en  el  ruido  los  límites  en

los  teoremas  de  composición  son  casi  ajustados  se  debe  a  Dwork,  Naor  y  Vadhan  [29].  La  
técnica  del  vector  disperso  es  una  abstracción  de  una  técnica  que  fue  introducida  por  
Dwork,  Naor,  Reingold,  Rothblum  y  Vadhan  [28]  (vectores  indicadores  en  la  demostración  
del  Lema  4.4).  Posteriormente  ha  encontrado  un  amplio  uso  (por  ejemplo,  por  Roth  y  
Roughgarden  [74],  Dwork,  Naor,  Pitassi  y  Rothblum  [26],  y  Hardt  y  Rothblum  [44]).  En  
nuestra  presentación  de  la  técnica,  la  demostración  del  Teorema  3.23  se  debe  a  Salil  
Vadhan.
Machine Translated by Google

4
Liberación  de  consultas  lineales  con  error  correlacionado

Una  de  las  primitivas  más  fundamentales  en  el  análisis  de  datos  privados  es  la  
capacidad  de  responder  consultas  con  valores  numéricos  en  un  conjunto  de  datos.  
En  la  última  sección,  comenzamos  a  ver  herramientas  que  nos  permitirían  hacer  esto  
agregando  ruido  dibujado  de  forma  independiente  a  las  respuestas  de  la  consulta.  
En  esta  sección,  continuamos  este  estudio  y  vemos  que  al  agregar  ruido  
cuidadosamente  correlacionado,  podemos  obtener  la  capacidad  de  responder  de  
forma  privada  muchas  más  consultas  con  alta  precisión.  Aquí,  vemos  dos  mecanismos  
específicos  para  resolver  este  problema,  que  generalizaremos  en  la  siguiente  sección.
En  esta  sección,  consideramos  algoritmos  para  resolver  el  problema  de  liberación  
de  consultas  con  mayor  precisión  que  la  que  obtendríamos  simplemente  usando  
composiciones  del  mecanismo  de  Laplace.  Las  mejoras  son  posibles  porque  el  
conjunto  de  consultas  se  maneja  como  un  todo,  ¡incluso  en  la  configuración  en  línea!  
—  permitir  que  se  correlacione  el  ruido  en  las  consultas  individuales.
Para  ver  de  inmediato  que  algo  similar  podría  ser  posible,  considere  el  par  de  
consultas  en  el  ataque  de  diferenciación  descrito  en  la  Sección  1:  "¿Cuántas  
personas  en  la  base  de  datos  tienen  el  rasgo  de  células  falciformes?"  y  "¿Cuántas  
personas,  no  llamadas  X,  en  la  base  de  datos  tienen  el  rasgo  de  células  falciformes?"  
Supongamos  que  un  mecanismo  responde  a  la  primera  pregunta  usando  el  
mecanismo  de  Laplace  y  luego,  cuando  se  plantea  la  segunda  pregunta,

66
Machine Translated by Google

67

responde  "Ya  sabes  la  respuesta  aproximada,  porque  me  acabas  de  hacer  casi  
exactamente  la  misma  pregunta".  Esta  respuesta  coordinada  al  par  de  preguntas  no  
incurre  en  más  pérdida  de  privacidad  que  cualquiera  de  las  dos  preguntas  por  
separado,  por  lo  que  se  ha  logrado  un  (pequeño)  ahorro  de  privacidad.

El  problema  de  liberación  de  consultas  es  bastante  natural:  dada  una  clase  de  
consultas  Q  sobre  la  base  de  datos,  deseamos  liberar  alguna  respuesta  ai  para  
cada  consulta  fi     Q  tal  que  el  error  maxi  |ai  −  fi(x)|  es  lo  más  bajo  posible,  mientras  
se  preserva  la  privacidad  diferencial.1  Recuerde  que  para  cualquier  familia  de  
consultas  de  baja  sensibilidad,  podemos  aplicar  el  mecanismo  de  Laplace,  que  
agrega  ruido  fresco  e  independiente  a  la  respuesta  a  cada  consulta.  
Desafortunadamente,  a  un  nivel  de  privacidad  fijo,  para  garantías  de  privacidad  (,  
0),  la  magnitud  del  ruido  que  debemos  agregar  con  el  mecanismo  de  Laplace  escala  
con  |Q|  porque  esta  es  la  tasa  a  la  que  puede  crecer  la  sensibilidad  de  las  consultas  
combinadas.  De  manera  similar,  para  (,  δ)­garantías  de  privacidad,  el  ruido  escala  
con  |Q|  ln(1/δ).  Por  ejemplo,  supongamos  que  nuestra  clase  de  consultas  Q  
consta  solo  de  muchas  copias  de  la  misma  consulta:  fi  =  f     para  todo  i.  Si  usamos  
el  mecanismo  de  Laplace  para  liberar  las  respuestas,  agregará  ruido  independiente,  
por  lo  que  cada  ai  será  una  variable  aleatoria  independiente  con  media  f     (x).  
Claramente,  en  este  régimen,  la  tasa  de  ruido  debe  crecer  con  |Q|  ya  que  de  lo  
contrario  el  promedio  de  las  ai  convergerá  al  verdadero  valor  f     (x),  lo  que  sería  
una  violación  a  la  privacidad.  Sin  embargo,  en  este  caso,  debido  a  que  fi  =  f     para  
todo  i,  tendría  más  sentido  aproximar  f     solo  una  vez  ≈  f     (x)  y  liberar  ai  =  a  con  
la  tasa  de  
a  
ruido  
  para  
no  ttendría  
odo  i.  Eqn  
ue  
este  
escalar  
caso,  
con  |Q|  en  absoluto.  En  esta  sección,  nuestro  
objetivo  es  diseñar  algoritmos  que  sean  mucho  más  precisos  que  el  mecanismo  de  
Laplace  (con  un  error  que  escala  con  log  |Q|)  agregando  ruido  no  independiente  en  
función  del  conjunto  de  consultas.

Recuerda  que  nuestro  universo  es  X  =  {χ1,  χ2, . . . ,  χ|X|}  y  que  las  bases  de  
datos  están  representadas  por  histogramas  en  N  |X|.  Una  consulta  lineal  es  
simplemente  una  consulta  de  conteo,  pero  generalizada  para  tomar  valores  en  el  
intervalo  [0,  1]  en  lugar  de  solo  valores  booleanos.  Específicamente,  una  consulta  lineal  f  toma  la

1
Es  la  restricción  de  privacidad  lo  que  hace  que  el  problema  sea  interesante.  Sin  esta  
restricción,  el  problema  de  la  liberación  de  consultas  se  resuelve  de  manera  trivial  y  óptima  
simplemente  dando  respuestas  exactas  para  cada  consulta.
Machine Translated by Google

68 Liberación  de  consultas  lineales  con  error  correlacionado

forma  f :  X  →  [0,  1],  y  aplicado  a  una  base  de  datos  x  devuelve  la  suma  o  el  valor  promedio  
de  la  consulta  en  la  base  de  datos  (pensaremos  en  ambos,  dependiendo  de  cuál  sea  más  
conveniente  para  el  análisis).  Cuando  pensamos  en  las  consultas  lineales  como  valores  
promedio  que  devuelven ,  nos  referiremos  a  ellas  como  consultas  lineales  normalizadas  
y  decimos  que  toman  valor:

1 |X|  
f(x)  = xi  ∙  f(χi).
x1 yo=1

Cuando  pensamos  en  las  consultas  lineales  como  valores  de  suma  que  devuelven ,  nos  
referimos  a  ellas  como  consultas  lineales  no  normalizadas  y  decimos  que  toman  valor:

|X|  
f(x)  = xi  ∙  f(χi).
yo=1

Cada  vez  que  establecemos  un  límite,  debe  quedar  claro  por  el  contexto  si  estamos  
hablando  de  consultas  normalizadas  o  no  normalizadas,  porque  toman  valores  en  rangos  
muy  diferentes.  Tenga  en  cuenta  que  las  consultas  lineales  normalizadas  toman  valores  
en  [0,  1],  mientras  que  las  consultas  no  normalizadas  toman  valores  en  [0,  x1].
Tenga  en  cuenta  que  con  esta  definición,  las  consultas  lineales  tienen  una  sensibilidad  ∆f  ≤  1.
Las  secciones  posteriores  discutirán  las  consultas  arbitrarias  de  baja  sensibilidad.
Presentaremos  dos  técnicas,  una  para  los  casos  fuera  de  línea  y  en  línea.  
¡Sorprendente  y  maravillosamente,  la  técnica  fuera  de  línea  es  una  aplicación  inmediata  
del  mecanismo  exponencial  utilizando  límites  de  muestreo  bien  conocidos  de  la  teoría  
del  aprendizaje!  El  algoritmo  será  simplemente  aplicar  el  mecanismo  exponencial  con  
rango  igual  al  conjunto  de  todas  las  bases  de  datos  pequeñas  y  y  función  de  calidad  u(x,  
y)  igual  a  menos  el  error  máximo  de  aproximación  incurrido  al  consultar  y  para  obtener  
una  aproximación  de  f( X):

u(x,  y)  =  −  máx  |f(x)  −  f(y)|.  f Q (4.1)

Los  límites  de  muestreo  (ver  el  Lema  4.3  a  continuación)  nos  dicen  que  un  subconjunto  
aleatorio  de  ln  |Q|/α2  elementos  de  x  muy  probablemente  nos  dará  una  buena  aproximación  
para  todo  f(x)  (específicamente,  con  el  error  aditivo  acotado  por  α),  entonces  sabemos  
que  es  suficiente  restringir  el  conjunto  de  posibles  salidas  a  pequeñas  bases  de  datos.  En  
realidad,  no  nos  importa  que  las  bases  de  datos  de  salida  potenciales  sean  pequeñas,  
solo  que  no  sean  demasiado  numerosas:  su  número  juega  un  papel  en  la  prueba  de
Machine Translated by Google

69

utilidad,  que  es  una  aplicación  inmediata  del  teorema  de  utilidad  para  el  mecanismo  
exponencial  (Teorema  3.11).  Más  específicamente,  si  el  número  total  de  productos  
potenciales  no  es  demasiado  numeroso,  entonces,  en  particular,  el  número  total  
de  productos  de  baja  utilidad  no  es  demasiado  numeroso  y,  por  lo  tanto,  la  
relación  entre  malos  productos  y  buenos  productos  (hay  al  menos  uno)  es  no  
demasiado  grande
El  mecanismo  online,  que,  a  pesar  de  no  conocer  de  antemano  todo  el  
conjunto  de  consultas,  conseguirá  la  misma  precisión  que  el  mecanismo  offline,  
y  será  una  aplicación  directa  de  la  técnica  del  vector  disperso.  Como  resultado,  la  
privacidad  será  inmediata,  pero  la  utilidad  requerirá  una  prueba.  La  clave  será  
argumentar  que,  incluso  para  un  conjunto  muy  grande  de  consultas  de  conteo,  
pocas  consultas  son  "significativas";  es  decir,  las  consultas  significativas  serán  escasas.
Al  igual  que  con  los  algoritmos  de  vector  disperso,  podemos  escalar  el  ruido  
según  el  número  de  consultas  significativas,  con  poca  dependencia  del  número  
total  de  consultas.
Antes  de  continuar  y  presentar  los  mecanismos,  daremos  solo  un  ejemplo  de  
una  clase  útil  de  consultas  lineales.

Ejemplo  4.1.  Suponga  que  los  elementos  de  la  base  de  datos  están  representados  
por  d  características  booleanas .  Por  ejemplo,  la  primera  característica  puede  
representar  si  el  individuo  es  hombre  o  mujer,  la  segunda  característica  puede  
representar  si  es  un  graduado  universitario  o  no,  la  tercera  característica  puede  
representar  si  es  ciudadano  estadounidense  o  no,  etc.  nuestro  universo  de  datos  
es  X  =  {0,  1}  {1, . . . ,  d},  nos   d .  Dado  un  subconjunto  de  estos  atributos  S  
gustaría  saber  cuántas  personas  en  el  conjunto  de  datos  tienen  estos  atributos.  
(p.  ej.,  "¿Qué  fracción  del  conjunto  de  datos  consiste  en  graduados  universitarios  
varones  con  antecedentes  familiares  de  cáncer  de  pulmón?").  Esto  define  
naturalmente  una  consulta  denominada  consulta  de  conjunción  monótona,  
parametrizada  por  un  subconjunto  de  atributos  S  y  definida  como   , =  para  z  
fS(z)  
  X .  
i S  zi  La  clase  de  todas  estas  consultas  es  simplemente  Q  =  {fS :  S     {1, . . . ,  
d}},  y  tiene  tamaño  |Q|  =  2d .  Una  colección  de  respuestas  a  conjunciones  a  veces  
se  denomina  tabla  de  contingencia  o  marginal ,  y  es  un  método  común  para  
publicar  información  estadística  sobre  un  conjunto  de  datos.  Muchas  veces,  es  
posible  que  no  estemos  interesados  en  las  respuestas  a  todas  las  conjunciones,  
sino  solo  en  aquellas  que  preguntan  sobre  subconjuntos  de  características  S  de  
tamaño  |S|  =  k  para  algún  k  fijo.  Esta  clase  de  consultas  Qk  =  {fS :  S     {1, . . . ,  
d_},  |S|  =  k}  tiene  tamaño
dk  
Machine Translated by Google

70 Liberación  de  consultas  lineales  con  error  correlacionado

Esta  amplia  y  útil  clase  de  consultas  es  solo  un  ejemplo  de  los  tipos  de  consultas  que  
pueden  responderse  con  precisión  mediante  los  algoritmos  que  se  dan  en  esta  
sección.  (Tenga  en  cuenta  que  si  también  deseamos  permitir  conjunciones  (no  
monótonas)  que  pregunten  sobre  atributos  negados ,  también  podemos  hacerlo:  
simplemente  duplique  el  espacio  de  características  de  d  a  2d,  y  establezca  zd+i  =  1  
−  zi  para  todo  i     {1, . . . ,  d}.)

4.1  Un  algoritmo  fuera  de  línea:  SmallDB

En  esta  sección,  damos  un  algoritmo  basado  en  la  idea  de  muestrear  una  pequeña  
base  de  datos  utilizando  el  mecanismo  exponencial.  Lo  que  mostraremos  es  que,  
para  contar  consultas,  basta  con  considerar  bases  de  datos  que  son  pequeñas:  su  
tamaño  solo  será  una  función  de  la  clase  de  consulta,  y  nuestra  precisión  de  
aproximación  deseada  α,  y  crucialmente  no  en  x1,  el  tamaño  de  la  privada  base  de  
datos.  Esto  es  importante  porque  nos  permitirá  garantizar  simultáneamente,  para  
todas  las  bases  de  datos  suficientemente  grandes,  que  hay  al  menos  una  base  de  
datos  en  el  rango  del  mecanismo  exponencial  que  se  aproxima  bien  a  x  en  consultas  
en  Q,  y  que  no  hay  demasiadas  bases  de  datos  en  el  rango  para  disipar  la  masa  de  
probabilidad  colocada  en  esta  "buena"  base  de  datos.

Algoritmo  4  El  mecanismo  de  base  de  datos  pequeña
SmallDB(x,  Q,  ε,  α)
Sea  R  ←  {y     N  |X| :  y1  = registro  
|
Sea  u :  N  |X| Q| }  α2  ×  R  →  R  se  define  como:

u(x,  y)  =  −  máx  |f(x)  −  f(y)|  f Q

Muestra  y  salida  y     R  con  el  mecanismo  exponencial
YO(x,  tu,  R)

Primero  observamos  que  el  mecanismo  de  base  de  datos  pequeña  preserva  la  
privacidad  diferencial  ε.

Proposición  4.1.  El  mecanismo  de  base  de  datos  pequeña  es  (ε,  0)  diferencialmente  
privado.
Machine Translated by Google

4.1.  Un  algoritmo  fuera  de  línea:  SmallDB 71

Prueba.  El  mecanismo  de  base  de  datos  pequeña  es  simplemente  una  instanciación  
del  mecanismo  exponencial.  Por  lo  tanto,  la  privacidad  se  sigue  del  Teorema  3.10.

De  manera  similar,  podemos  recurrir  a  nuestro  análisis  del  mecanismo  exponencial  
para  comprender  las  garantías  de  utilidad  del  mecanismo  de  base  de  datos  pequeña.
Pero  primero,  debemos  justificar  nuestra  elección  del  rango  R  =  {y     N  |X| :  y1  =
registro  |
},  el  conjunto  de  todas  las  bases  de  datos  de  tamaño  log  |Q|/α2 .
Q|  α2

Teorema  4.2.  Para  cualquier  clase  finita  de  consultas  lineales  Q,  si  R  =  {y     log  |Q|  N  |
X| }  
:  y1  
entonces   p=ara  
  que:
todo  x     N  |X|,  existe  un  y     R  tal  α2

máximo |f(x)  −  f(y)|  ≤  α
f Q

En  otras  palabras,  mostraremos  que  para  cualquier  colección  de  consultas  lineales  
Q  y  para  cualquier  base  de  datos  x,  existe  una  base  de  datos  "pequeña"  y  de  tamaño  y1  
=  log  |
Q|  que  codifica  aproximadamente  las  respuestas  a  cada  consulta  en  Q,  hasta  α2  
hasta  el  error  α.

Lema  4.3  (Límites  de  muestreo).  Para  cualquier  x     N  |X|  y  para  cualquier  colección  
de  consultas  lineales  Q,  existe  una  base  de  datos  y  de  tamaño

registro  |
y1  =
Q|  α2

tal  que:
f Q   |f(x)  −  f(y)|  ≤  α
máx.

Prueba.  Sea  m  =  α2 .  registro  
|Q|
Construiremos  una  base  de  datos  y  tomando  m  muestras  
uniformemente  aleatorias  de  los  elementos  de  x.  Específicamente,  para  i     {1, . . . ,  
m},  sea  Xi  una  variable  aleatoria  que  toma  el  valor  χj     X  con  probabilidad  xj/x1,  y  sea  
y  la  base  de  datos  que  contiene  los  elementos  Xm.  Ahora  fija  cualquier  f     Q  y  
considera  la  cantidad  f(y).  Nosotros  X1, . . . ,  tener:

|X|  
1 1 metro

f(y)  = yi  ∙  f(χi)  = f(xi).


y1 yo=1 metro  =  1
Machine Translated by Google

72 Liberación  de  consultas  lineales  con  error  correlacionado

Observamos  que  cada  término  f(Xi)  de  la  suma  es  una  variable  aleatoria  acotada  
que  toma  valores  0  ≤  f(Xi)  ≤  1  con  expectativa
|X|
xj
E[f(Xi)]  = f(χj )  =  f(x),
x1
j=1

y  que  la  expectativa  de  f(y)  es:
1
metro

E[f(y)]  = E[f(Xi)]  =  f(x).
metro  =  1

Por  lo  tanto,  podemos  aplicar  el  límite  de  Chernoff  establecido  en  el  Teorema  3.1  
que  da:
−2mα2
Pr  [|f(y)  −  f(x)|  >  α]  ≤  2e .

Tomando  un  límite  de  unión  sobre  todas  las  consultas  lineales  f     Q,  obtenemos:

−2mα2
Pr  máx  |f(y)  −  f(x)|  >  α  ≤  2|Q|e  f Q .

registro  |
lo  que  Introducir  m   Q|  α2 hace  que  el  lado  derecho  sea  más  pequeño  que  1  (por  
=  mientras  |Q|  >  2),  lo  que  demuestra  que  existe  una  base  de  datos  de  tamaño  m  
que  satisface  el  límite  establecido,  lo  que  completa  la  demostración  del  lema.

La  prueba  del  Teorema  4.2  simplemente  se  sigue  de  la  observación  de  que  log  |
Q|  
R  contiene  todas  las  bases  de  datos  de  tamaño
α2 .

Proposición  4.4.  Sea  Q  cualquier  clase  de  consultas  lineales.  Sea  y  la  salida  de  la  
base  de  datos  de  SmallDB(x,  Q,  ε,  α).  Entonces  con  probabilidad  1  −  β:
1
2 registro  |X|  registro  |
Q|  +  registro  
α2 β
máximo |f(x)  −  f(y)|  ≤  α  + .
f Q εx1

Prueba.  Aplicando  los  límites  de  utilidad  para  el  mecanismo  exponencial  (Teorema  
1
3.11)  con  ∆u  =  y  OPTq(D)  ≤  α  (que  se  
x1deriva  del  Teorema  4.2),  encontramos:

2 −t
Pr  máx   |f(x)  −  f(y)|  ≥  α  + (registro  (|R|)  +  t)  ≤  e .
f Q εx1

Completamos  la  demostración  (1)  observando  que  R,  que  es  el  conjunto  de  todos,  
de  datos  de  tamaño  máximo  log  |Q|/α2 ,  (2)   satisface  |R|  ≤  |X  |log  |Q|/α2  y  bases  
configurando  t  =  log 1  β .
Machine Translated by Google

4.1.  Un  algoritmo  fuera  de  línea:  SmallDB 73

Finalmente,  ahora  podemos  enunciar  el  teorema  de  la  utilidad  para  SmallDB.

Teorema  4.5.  Mediante  la  elección  apropiada  de  α,  siendo  y  la  salida  de  la  base  de  datos  
α
de  SmallDB(x,  Q,  ε, ),  podemos  asegurar  
2 que  con  probabilidad  1  −  β:

1/3
16  registro  |X  |  registro  |Q|  +  4  registro
1  β
máximo |f(x)  −  f(y)|  ≤ . (4.2)
f Q εx1
     

De  manera  equivalente,  para  cualquier  base  de  datos  x  con

16  registro  |X  |  registro  |Q|  +  4  
1  β
logaritmo  x1  ≥ (4.3)
εα3

con  probabilidad  1  −  β:  maxf Q  |f(x)  −  f(y)|  ≤  α.

Prueba.  Por  el  Teorema  4.2,  obtenemos:

α 2 4  registro  |X|  registro  |
+  registro
Q|  α2 1  β
f Q   |f(x)  −  f(y)|  ≤ +   .
máx. 2 εx1

Establecer  esta  cantidad  para  que  sea  como  máximo  α  y  resolver  para  x1  produce  (4.3).
Resolviendo  para  α  se  obtiene  (4.4).

Tenga  en  cuenta  que  este  teorema  establece  que  para  α  y  ε  fijos,  incluso  con  δ  =  0,  
es  posible  responder  casi  exponencialmente  muchas  consultas  en  el  tamaño  de  la  base  
de  datos.2  Esto  contrasta  con  el  mecanismo  de  Laplace,  cuando  lo  usamos  directamente  
para  responder  consultas  lineales,  que  solo  pueden  responder  linealmente  muchas.

Tenga  en  cuenta  también  que  en  esta  discusión,  ha  sido  más  conveniente  pensar  en  
consultas  normalizadas.  Sin  embargo,  podemos  obtener  los  límites  correspondientes  para  
consultas  no  normalizadas  simplemente  multiplicando  por  x1:

Teorema  4.6  (Teorema  de  precisión  para  consultas  no  normalizadas).  Por  la  elección  
apropiada  de  α,  siendo  y  la  salida  de  la  base  de  datos  por

2Específicamente,  resolviendo  para  k  encontramos  que  el  mecanismo  puede  responder  k  consultas  para:

3a  _ x1
k  ≤  exp  O .
registro  |X  |
Machine Translated by Google

74 Liberación  de  consultas  lineales  con  error  correlacionado

α
SmallDB(x,  Q,  ε, 2 ),  podemos  asegurar  que  con  probabilidad  1  −  β:

1/3
16  registro  |X  |  registro  |Q|  +  4  registro
2/3 1  β
f Q   |f(x)  −  f(y)|  ≤x  _ 1 .  (4.4)
máx. ε
     

Límites  más  refinados.  Probamos  que  cada  conjunto  de  consultas  lineales  Q  tiene  una  
colección  de  bases  de  datos  de  tamaño  como  máximo  |X  |log  |Q|/α2  que  aproxima  bien  
cada  base  de  datos  x  con  respecto  a  Q  con  un  error  como  máximo  α.
Sin  embargo,  esto  suele  ser  una  sobreestimación,  ya  que  ignora  por  completo  la  estructura  
de  las  consultas.  Por  ejemplo,  si  Q  simplemente  contiene  la  misma  consulta  repetida  una  
y  otra  vez,  cada  vez  de  una  forma  diferente,  entonces  no  hay  razón  para  que  el  tamaño  
del  rango  del  mecanismo  exponencial  crezca  con  |Q|.  De  manera  similar,  incluso  puede  
haber  clases  de  consultas  Q  que  tengan  una  cardinalidad  infinita ,  pero  que,  sin  embargo,  
estén  bien  aproximadas  por  pequeñas  bases  de  datos.  Por  ejemplo,  las  consultas  que  
corresponden  a  preguntar  si  un  punto  se  encuentra  dentro  de  un  intervalo  dado  en  la  
línea  real  forman  una  clase  Q  infinitamente  grande,  ya  que  hay  innumerables  intervalos  
en  la  línea  real.  Sin  embargo,  esta  clase  de  consultas  exhibe  una  estructura  muy  simple  
que  hace  que  sea  bien  aproximada  por  pequeñas  bases  de  datos.  Al  considerar  una  
estructura  más  refinada  de  nuestras  clases  de  consulta,  seremos  capaces  de  dar  límites  
para  los  mecanismos  diferencialmente  privados  que  mejoran  los  límites  de  muestreo  
simples  (Lema  4.3)  y  pueden  no  ser  triviales  incluso  para  clases  de  consultas  doblemente  
exponencialmente  grandes.3  no  desarrollará  completamente  estos  límites  aquí,  sino  que  
en  su  lugar  indicará  varios  resultados  para  la  clase  más  simple  de  consultas  de  conteo.  
Recuerde  que  una  consulta  de  conteo  f :  X  →  {0,  1}  asigna  puntos  de  la  base  de  datos  a  
valores  booleanos,  en  lugar  de  cualquier  valor  en  el  intervalo  [0,  1]  como  lo  hacen  las  
consultas  lineales.

Definición  4.1  (Destrucción).  Una  clase  de  consultas  de  conteo  Q  fragmenta  un  conjunto  
de  puntos  S     X  si  para  todo  T     S  existe  un  f     Q  tal  que  {x     S :  f(x)  =  1}  =  T.  Es  
decir,  Q  fragmenta  S  si  para  cada  uno  de  los  2  |S|  subconjuntos  T  de  S,  hay  alguna  función  
en  Q  que  etiqueta  exactamente
3
De  hecho,  nuestra  medida  de  complejidad  para  una  clase  de  consultas  puede  ser  finita  
incluso  para  infinitas  clases  de  consultas,  pero  aquí  estamos  tratando  con  consultas  sobre  un  
universo  finito,  por  lo  que  no  existen  infinitas  consultas  distintas.
Machine Translated by Google

4.1.  Un  algoritmo  fuera  de  línea:  SmallDB 75

esos  elementos  como  positivos,  y  no  etiqueta  ninguno  de  los  elementos  en  S  \  T  como  
positivo.

Nótese  que  para  que  Q  rompa  S  debe  darse  el  caso  de  que  |Q|  ≥  2  |S|  ya  que  Q  
debe  contener  una  función  f  para  cada  subconjunto  T     S.  Ahora  podemos  definir  
nuestra  medida  de  complejidad  para  contar  consultas.

Definición  4.2  (Dimensión  Vapnik­Chervonenkis  (VC)).  Una  colección  de  consultas  de  
conteo  Q  tiene  dimensión  VC  d  si  existe  algún  conjunto  S     X  de  cardinalidad  |S|  =  d  
tales  que  Q  rompe  S,  y  Q  no  rompe  ningún  conjunto  de  cardinalidad  d+1.  Podemos  
denotar  esta  cantidad  por  VC­DIM(Q).

Considere  nuevamente  la  clase  de  intervalos  unidimensionales  en  el  rango  [0,  ∞]  
definida  sobre  el  dominio  X  =  R.  La  función  fa,b  correspondiente  al  intervalo  [a,  b]  se  
define  de  tal  manera  que  fa,b(x)  =  1  si  y  sólo  si  x     [a,  b].  Esta  es  una  clase  infinita  de  
consultas,  pero  su  dimensión  VC  es  2.  Para  cualquier  par  de  puntos  distintos  x  <  y,  hay  
un  intervalo  que  no  contiene  ningún  punto  (a,  b  <  x),  un  intervalo  que  contiene  ambos  
puntos  (a  <  x  <  y  <  b),  y  un  intervalo  que  contiene  cada  uno  de  los  puntos  pero  no  el  
otro  (a  <  x  <  b  <  y  y  x  <  a  <  y  <  b).  Sin  embargo,  para  cualquier  3  puntos  distintos  x  <  
y  <  z,  no  hay  intervalo  [a,  b]  tal  que  fa,b[x]  =  fa,b[z]  =  1  pero  fa,b[y]  =  0.

Observamos  que  la  dimensión  VC  de  una  clase  de  concepto  finito  nunca  puede  
ser  demasiado  grande.

Lema  4.7.  Para  cualquier  clase  Q  finita,  VC­DIM(Q)  ≤  log  |Q|.

Prueba.  Si  VC­DIM(Q)  =  d  entonces  Q  destruye  algún  conjunto  de  elementos  S     X  de
cardinalidad  |S|  =  re.  Pero  según  la  definición  de  fragmentación,  dado  que  S  tiene  2   d
subconjuntos  distintos,  Q  debe  tener  al  menos  2 d distintas  funciones  en  él.

Resultará  que  esencialmente  podemos  reemplazar  el  término  log  |Q|  con  el  término  
VC­DIM(Q)  en  nuestros  límites  para  el  mecanismo  SmallDB.
Por  el  lema  anterior,  esto  solo  puede  ser  una  mejora  para  clases  finitas  Q.

Teorema  4.8.  Para  cualquier  clase  finita  de  consultas  lineales  Q,  si  R  =  {y    :  y     O  


N  |X| }  VC­DIM(Q)
entonces  para  todo  x     N  |X|,  existe  un  y     R
α2
tal  que:
máximo |f(x)  −  f(y)|  ≤  α
f Q
Machine Translated by Google

76 Liberación  de  consultas  lineales  con  error  correlacionado

Como  resultado  de  este  teorema,  obtenemos  el  análogo  del  Teorema  4.5
con  la  dimensión  VC  como  nuestra  medida  de  la  complejidad  de  la  clase  de  consulta:

α
Teorema  4.9.  Sea  y  la  salida  de  la  base  de  datos  de  SmallDB(x,  Q,  ε,  luego  con   2 ).
probabilidad  1  −  β:

1
registro  |X  |VC­DIM(Q)  +  registro β 1/3   
f Q   |f(x)  −  f(y)|  ≤O  _   
  
máx. εx1
        

De  manera  equivalente,  para  cualquier  base  de  datos  x  con

log  |X  |VC­DIM(Q)  +  log  εα3 1  β
x1  ≥  O
  

     con  probabilidad  1  −  β:  maxf Q  |f(x)  −  f(y)|  ≤  α.

Una  medida  análoga  (aunque  más  engorrosa)  de  la  complejidad  de  las  consultas,  la  
"Dimensión  que  rompe  la  grasa",  define  la  complejidad  de  una  clase  de  consultas  lineales,  
en  lugar  de  simplemente  contar  consultas.  Fat  Shattering  Dimension  controla  el  tamaño  
de  la  "α­net"  más  pequeña  (Definición  5.2  en  la  Sección  5)  para  una  clase  de  consultas  
lineales  Q  como  lo  hace  VC­dimension  para  consultas  de  conteo.  Esta  medida  se  puede  
usar  de  manera  similar  para  dar  límites  más  refinados  a  los  mecanismos  diseñados  para  
publicar  consultas  lineales  de  forma  privada.

4.2  Un  mecanismo  en  línea:  pesos  multiplicativos  privados

Ahora  vamos  a  dar  un  mecanismo  para  responder  a  las  consultas  que  llegan  en  línea  y  
se  puede  elegir  de  forma  interactiva.  El  algoritmo  será  una  combinación  simple  del  
algoritmo  de  vector  disperso  (que  puede  responder  consultas  de  umbral  de  forma  
adaptativa)  y  el  algoritmo  de  descenso  de  gradiente  exponenciado  para  aprender  
predictores  lineales  en  línea.
Este  último  algoritmo  también  se  conoce  como  Hedge  o,  más  generalmente,  la  
técnica  de  pesos  multiplicativos.  La  idea  es  la  siguiente:  Cuando  visualizamos  la  base  de  
datos  D     N  |X|  como  un  histograma  y  están  interesados  solo  en  consultas  lineales  (es  
decir,  funciones  lineales  de  este  histograma),  entonces  podemos  ver  el  problema  de  
responder  consultas  lineales  como  el  problema  de  aprender  la  función  lineal  D  que  define  
las  respuestas  de  consulta  D ,  q ,  dado
Machine Translated by Google

4.2.  Un  mecanismo  en  línea:  pesos  multiplicativos  privados 77

una  consulta  q     [0,  1]|X|.  Si  el  algoritmo  de  aprendizaje  solo  necesita  acceder  a  los  
datos  mediante  consultas  que  preservan  la  privacidad,  en  lugar  de  tener  un  costo  de  
privacidad  que  crece  con  la  cantidad  de  consultas  que  nos  gustaría  responder,  
podemos  tener  un  costo  de  privacidad  que  crece  solo  con  la  cantidad  de  consultas.  el  
algoritmo  de  aprendizaje  necesita  hacer.  El  algoritmo  de  "pesos  multiplicativos"  que  
presentamos  a  continuación  es  un  ejemplo  clásico  de  un  algoritmo  de  aprendizaje  de  
este  tipo:  puede  aprender  cualquier  predictor  lineal  realizando  solo  un  pequeño  número  
de  consultas.  Mantiene  en  todo  momento  un  “predictor  de  hipótesis”  actual  y  accede  
a  los  datos  solo  solicitando  ejemplos  de  consultas  en  las  que  su  predictor  de  hipótesis  
difiere  en  gran  medida  de  la  (verdadera)  base  de  datos  privada.  Su  garantía  es  que  
siempre  aprenderá  la  función  lineal  objetivo  hasta  un  pequeño  error,  dado  solo  un  
pequeño  número  de  tales  ejemplos.  ¿Cómo  podemos  encontrar  estos  ejemplos?  El  
algoritmo  de  vector  disperso  que  vimos  en  la  sección  anterior  nos  permite  hacer  esto  
sobre  la  marcha,  pagando  solo  por  aquellos  ejemplos  que  tienen  un  alto  error  en  la  
hipótesis  actual  de  pesos  multiplicativos.  A  medida  que  surgen  consultas,  preguntamos  
si  la  verdadera  respuesta  a  la  consulta  difiere  sustancialmente  de  la  respuesta  a  la  
consulta  sobre  la  hipótesis  actual  de  los  pesos  multiplicativos.

Tenga  en  cuenta  que  esta  es  una  consulta  de  umbral  del  tipo  manejado  por  la  técnica  
de  vector  disperso.  Si  la  respuesta  es  "no",  es  decir,  la  diferencia,  o  el  error,  está  "por  
debajo  del  umbral",  entonces  podemos  responder  a  la  consulta  utilizando  el  predictor  
de  hipótesis  conocido  públicamente  y  no  sufrir  más  pérdidas  de  privacidad.  Si  la  
respuesta  es  "sí",  lo  que  significa  que  el  predictor  de  hipótesis  actualmente  conocido  
da  lugar  a  un  error  que  está  por  encima  del  umbral,  entonces  hemos  encontrado  un  
ejemplo  apropiado  para  actualizar  nuestro  algoritmo  de  aprendizaje.  Debido  a  que  las  
respuestas  "por  encima  del  umbral"  corresponden  exactamente  a  las  consultas  
necesarias  para  actualizar  nuestro  algoritmo  de  aprendizaje,  el  costo  total  de  privacidad  
depende  solo  de  la  tasa  de  aprendizaje  del  algoritmo,  y  no  del  número  total  de  consultas  que  realizamos.
respuesta.

Primero  damos  la  regla  de  actualización  de  pesos  multiplicativos  y  demostramos  
el  orema  sobre  su  convergencia  en  el  lenguaje  de  respuesta  de  consultas  lineales.
Será  conveniente  pensar  en  las  bases  de  datos  x  como  distribuciones  de  probabilidad  
sobre  el  universo  de  datos  X.  Es  decir,  si  ∆([X ])  denota  el  conjunto  de  distribuciones  
de  probabilidad  sobre  el  conjunto  [|X  |],  tenemos  x     ∆([X ]).
Machine Translated by Google

78 Liberación  de  consultas  lineales  con  error  correlacionado

Tenga  en  cuenta  que  siempre  podemos  escalar  una  base  de  datos  para  tener  esta  
propiedad  sin  cambiar  el  valor  normalizado  de  ninguna  consulta  lineal.

Algoritmo  5  La  regla  de  actualización  de  pesos  multiplicativos  (MW).  Se  instancia  con  un  
parámetro  η  ≤  1.  En  el  siguiente  análisis,  tomaremos  η  =  α/2,  donde  α  es  el  parámetro  que  
especifica  la  precisión  de  nuestro  objetivo.
t
MW(x  si   ,  pies ,  vt):
t
vt  <  ft(x)  Sea   )  entonces
rt  =  ft  de  lo  
contrario
Sea  rt  =  1  −  ft  (es  
decir,  para  todo  χi ,  rt(χi)  =  1  −  ft  [χi ])
terminara  si

Actualización:  Para  todo  i     [|X  |]  Sea

t+1   t
xˆi =  exp(−ηrt  [i])  ∙  x i

x  t+1  
i
t+1   =
x  
yo |X|  t+1  xˆ  
j=1  j

t+1
Salida  x .

Teorema  4.10.  Fijar  una  clase  de  consultas  lineales  Q  y  una  base  de  datos  x     ∆([X ]),  y  
1
dejar  que  x     ∆([X ])  describa  la  distribución  uniforme  sobre  =  1/|X  |  por  todo  yo  Ahora  
1
X :  x  yo considere  una  secuencia  de  longitud  máxima  de  bases  de  datos  x
t t+1
para  t     {2, . . . ,  L}  generado  al  establecer  x ,  ft ,  vt)  como  
=
t
MW(x  y   se  describe  en  el  Algoritmo  5,  donde  para  cada  t,  ft     Q
vt     R  son  tales  que:
t
1.  |ft(x)  −  ft(x  2.  |ft(x)  )|  >  α,  y
−  vt  |  <  α.

Entonces  debe  ser  eso:

4  registro  |X  |
L  ≤  1  +  α2 .

Nótese  que  si  demostramos  este  teorema,  habremos  demostrado  que  para
de  datos  x L+1  en  la  secuencia  debe  ser  que  para  todo  f     Q:  la  última  base  
Machine Translated by Google

4.2.  Un  mecanismo  en  línea:  pesos  multiplicativos  privados 79

|f(x)  −  f(x  L+1)|  ≤  α,  ya  que  de  lo  contrario  sería  posible  extender  la  secuencia,  
contradiciendo  la  maximalidad.  En  otras  palabras,  dadas  las  consultas  distintivas  f,  la  
t
regla  de  actualización  d ,e  pesos  multiplicativos  aprende  la  base  de  datos  privada  x  
con  respecto  a  cualquier  clase  de  consultas  lineales  Q,  hasta  cierta  tolerancia  α,  en  
solo  un  pequeño  número  (L)  de  pasos.  Usaremos  este  teorema  de  la  siguiente  
manera.  El  algoritmo  Private  Online  Multiplicative  Weights,  descrito  (¡dos  veces!)  a  
continuación,  tendrá  en  todo  momento  una  publicación  en  la  base  de  datos  x.  Dada  
t
calculará  una   una  consulta  de  entrada  f,  lic  aproximación  x ,  el  algoritmo  
aproximación  ruidosa  a  la  diferencia  |f(x)  −  f(x ,  por  ejemplo,  una  aproximación  ruidosa  
f(x)+λt  a  la   t )|.  Si  la  diferencia  (ruidosa)  es  grande,  el  algoritmo  pro
respuesta  verdadera  f(x),  donde  λt  es  extraída  de  alguna  distribución  de  Laplace  
elegida  apropiadamente,  y  la  regla  de  actualización  de  pesos  multiplicativos  se  
invocará  con  parámetros  (x
t
,  f,  f(x)  +λt).  Si  la  regla  de  actualización  se  invoca  solo  cuando  la  diferencia  |f(x)  −  
t
f(x   )|  es  verdaderamente  grande  (Teorema  4.10,  condición  1),  y  si  el
aproximaciones  f(x)  +  λt  son  lo  suficientemente  precisas  (Teorema  4.10,  condición  
2),  entonces  podemos  aplicar  el  teorema  para  concluir  que  las  actualizaciones  no  son  
tan  numerosos  (porque  L  no  es  tan  grande)  y  la  x  resultante  da  respuestas  L+1
precisas  a  
todas  las  consultas  en  Q  (porque  no  queda  ninguna  consulta  distintiva).

El  teorema  4.10  se  demuestra  siguiendo  la  pista  de  una  función  potencial  Ψ  en  el  
midiendo  la  similitud  entre  la  base  de  datos  de  hipótesis  x  y  la  base  de   t tiempo  t,
datos  real  D.  Mostraremos:

1.  La  función  potencial  no  comienza  demasiado  grande.
2.  La  función  potencial  disminuye  significativamente  en  cada  ronda  de  actualización.

3.  La  función  potencial  siempre  es  no  negativa.

Juntos,  estos  3  hechos  nos  obligarán  a  concluir  que  no  puede  haber  demasiadas  
rondas  de  actualización.
Comencemos  ahora  el  análisis  para  la  demostración  del  teorema  de  la  
convergencia.

Prueba.  Debemos  demostrar  que  cualquier  secuencia   t ,  ft ,  vt)}t=1,...,L  con  el
{(x  propiedad  de  que  | t )  −  pies(x)|  >  α  y  |vt  −  ft(x)|  <  α  no  puede  tener
L  > ft(x  4  
log  |X|  α2 .
Machine Translated by Google

80 Liberación  de  consultas  lineales  con  error  correlacionado

Definimos  nuestra  función  potencial  de  la  siguiente  manera.  Recuerde  que  aquí  
vemos  la  base  de  datos  como  una  distribución  de  probabilidad,  es  decir,  suponemos  x1  =  1.
Por  supuesto,  esto  no  requiere  modificar  la  base  de  datos  real.
La  función  potencial  que  usamos  es  la  entropía  relativa,  o  divergencia  KL,  entre  x  
t
y  x (cuando  se  ven  como  distribuciones  de  probabilidad):

|X|
t x[i]  
=  KL(xx )  = registro  x[i] .
X t  [i]
definitivamente  _

yo=1

Empezamos  con  un  hecho  simple:

Proposición  4.11.  Para  todo  t:  Ψt  ≥  0,  y  Ψ1  ≤  log  |X  |.

Prueba.  La  entropía  relativa  (KL­Divergencia)  es  siempre  una  cantidad  no  negativa,  
por  la  desigualdad  de  suma  logarítmica,  que  establece  que  si  a1, . . . ,  an  y  b1, . . . ,  
bn  son  números  no  negativos,  entonces

ai yo   .
ai  registro  
≥ ai
i bi
i i soy  bi

Para  ver  que  Ψ1  ≤  log  |X  |,  recuerda  que  x  Ψ1  1 [yo]  =  1/|X  |  para  todo  i,  y  así  x[i]  
= |X|  
yo=1 log  (|X  |x[i]).  Al  notar  que  x  es  una  distribución  de  probabilidad,  vemos  
que  esta  cantidad  se  maximiza  cuando  x[1]  =  1  y  x[i]  =  0  para  todo  i  >  1,  dando  Ψi  =  
log  |X  |.

Ahora  argumentaremos  que  en  cada  paso,  la  función  potencial  cae  al  menos  α  
2/4.  Debido  a  que  el  potencial  comienza  en  log  |X|,  y  siempre  debe  ser  no  negativo,  
sabemos  que  puede  haber  como  máximo  L  ≤  4  log  |X|/α2  pasos  en  la  secuencia  de  
actualización  de  la  base  de  datos.  Para  comenzar,  veamos  exactamente  cuánto  
cae  el  potencial  en  cada  paso:

Lema  4.12.

Ψt  −  Ψt+1  ≥  η  rt , xt  −  rt , 2  x  −  η


Machine Translated by Google

4.2.  Un  mecanismo  en  línea:  pesos  multiplicativos  privados 81

|X|  
Prueba.  Recordar  que yo=1 x[yo]  =  1.

|X|   |X|  
x[yo] − x[yo]
Ψt  −  Ψt+1  = registro  x[i] t   registro  x[i] t+1  
x   x  
yo=1 yo yo=1 yo

|X|   t+1  
x  
= registro  x[i]
yo
t  
x  
yo=1 yo

|X|   t+1   t+1  


xˆ /
= i i
registro  x[i]
yo=1 xˆ  it  x  i

|X|   t  
=
x  
yo exp(−ηrt  [i]))
registro  x[i] t  
x  
yo=1 yo

|X|
t
−  registro exp(−ηrt  [j])x j
     

j=1
        

|X| |X|
=  − t
x[i]ηrt  [i]    −  registro   
exp(−ηrt  [j])x j
yo=1 yo=j
        

|X|
t
−ηrt , x  −  log  =     
exp(−ηrt  [j])x j
j=1
     

|X|
−ηrt , x  −  log  ≥      t   (1  +  η 2 −  ηrt  [j])
x  j
j=1   

−ηrt , x  −  log  1  +  η  =   2  xt  −  ηrt ,

≥  η  rt , xt  −  rt , 2  x  −  η .

La  primera  desigualdad  se  sigue  del  hecho  de  que:

2 2.
exp(−ηrt  [j])  ≤  1  −  ηrt  [j]  +  η (rt  [j])2  ≤  1  −  ηrt  [j]  +  η

La  segunda  desigualdad  se  deriva  del  hecho  de  que  log(1  +  y)  ≤  y  para  y  >  −1.
Machine Translated by Google

82 Liberación  de  consultas  lineales  con  error  correlacionado

El  resto  de  la  prueba  ahora  sigue  fácilmente.  Por  las  condiciones  de  la  base  de  datos/
secuencia  de  consulta  (descrita  en  la  hipótesis  del  Teorema  4.10  anterior),  para  cada  t,

t
1.  |pie(x)  −  pie(x )|  ≥  α  y

2.  |vt  −  pie(x)|  <  α.

t t
Así,  ft(x)  <  ft(x  ft(x  Lema  )  si  y  solo  si  vt  <  ft(x ).  En  particular,  rt  =  ft  si
t t
4.12   )  −  ft(x)  ≥  α,  y  rt  =  1  −  ft  si  ft(x)  −  ft(x )  ≥  α.  Por  lo  tanto,  por
y  la  elección  de  η  =  α/2  como  se  describe  en  la  regla  de  actualización,

α 2a  _ α 2a  _ 2a  _


Ψt  −  Ψt+1  ≥ x  − , ≥ (α)  −
= .
rt , xt  −  rt
2 4 2 4 4

Finalmente  sabemos:

2a  _ 2a  _
0  ≤  ΨL  ≤  Ψ0  ­  L  ∙ ≤  registro  |X  |  −  L .
4 4

4  registro  |X|
Resolviendo,  encontramos:  L  ≤ α2 .  Esto  completa  la  prueba.

Ahora  podemos  combinar  la  regla  de  actualización  de  pesos  multiplicativos  con  el  
algoritmo  NumericSparse  para  brindar  un  mecanismo  interactivo  de  liberación  de  
consultas.  Para  (,  0)  privacidad,  esencialmente  (con  constantes  algo  peores)  recuperamos  
el  límite  para  SmallDB.  Para  (,  δ)­privacidad  diferencial,  obtenemos  mejores  límites,  en  
virtud  de  poder  utilizar  el  teorema  de  composición.  Las  consultas  a  NumericSparse  
preguntan  si  la  magnitud  del  error  dado  al  estimar  fi(x)  aplicando  fi  a  la  aproximación  actual  
x  antigua  T,  es  decir,  preguntan  si  |f(x)  −  f(x
t
to  x  está  por  encima  de  un  umbral  elegido  apropiadamente
t
)|  es  largo.  para  técnico
t
razones  por  las  que  esto  se  hace  preguntando  acerca  de   )  (sin  el  absoluto
t
f(x)−f(x  value)  y  acerca  de   )  −  f(x).  Recuerde  que  el  algoritmo  NumericSparse
f(x  rithm  responde  con     o  algún  valor  (positivo)  que  exceda  a  T.  Usamos  el  mnemotécnico  
E  para  las  respuestas  para  enfatizar  que  la  consulta  es  preguntando  por  un  error.

Teorema  4.13.  El  mecanismo  de  pesos  multiplicativos  en  línea  (a  través  de  NumericSparse)  
es  (,  0)  diferencialmente  privado.
Machine Translated by Google

4.2.  Un  mecanismo  en  línea:  pesos  multiplicativos  privados 83

Algoritmo  6  El  mecanismo  de  pesos  multiplicativos  en  línea  (a  través  de  NumericSparse)  
toma  como  entrada  una  base  de  datos  privada  x,  un  parámetro  de  privacidad ,  δ,  
éteres parámetros  de  precisión  α  y  β,  y  un  flujo  de  consultas  lineales  {fi}  que  se  
pueden  elegir  de  forma  adaptativa  de  una  clase  de  consultas  Q  Genera  un  flujo  de  
respuestas  {ai}.
OnlineMW  a  través  de  NumericSparse  (x,  {fi}, ,  δ,  α,  β)  4  log  |X|  
←  α2 ,  si  δ  =Sea  
  0  
c  

entonces
Sea  T  ←  || 18c(registro(2|Q|)+registro(4c/β))
x||1  más
2 4c  
(2+32√  2)  c  registro d (registro  k+registro β )
Sea  T  ←
||x||1
terminara  si

Inicializar  NumericSparse(x,  {f  {f i },  T,  c, ,  δ)  con  un  flujo  de  consultas
i },  generando  un  flujo  de  respuestas  Ei .
Sea  t  ←  0,  y  sea  x  para   0   ∆([X ])  satisface  x i0 =  1/|X  |  para  todo  i     [|X  |].
cada  consulta  fi  do
t
Sea  f 2i−1 (∙)  =  fi(∙)  −  fi(x ).
t
Sea  f   2i (∙)  =  fi(x )  −  fi(∙)
si  E2i−1  =     y  E2i  =     entonces
t
Sea  ai  =  fi(x )
demás

si  E2i−1     R  entonces
t
Sea  ai  =  fi(x )  +  E2i−1
demás
t
Sea  ai  =  fi(x   )  −  E2i
termina  si
Sea  x t+1 =  MW(x   t
,  fi ,  ai)
Sea  t  ←  t  +  1.
terminara  si

fin  para

Prueba.  Esto  se  deriva  directamente  del  análisis  de  privacidad  de  Numeric  Sparse,  
porque  el  algoritmo  OnlineMW  accede  a  la  base  de  datos  solo  a  través  de  
NumericSparse.
Machine Translated by Google

84 Liberación  de  consultas  lineales  con  error  correlacionado

Hablando  informalmente,  la  prueba  de  utilidad  para  el  mecanismo  de  pesos  
multiplicativos  en  línea  (a  través  de  NumericSparse)  utiliza  el  teorema  de  utilidad  para  
NumericSparse  (Teorema  3.28)  para  concluir  que,  con  alta  probabilidad,  la  regla  de  
actualización  de  pesos  multiplicativos  solo  se  invoca  cuando  la  consulta  ft  es  
verdaderamente  una  consulta  distintiva,  es  decir, )|  es  "grande",  y  las  aproximaciones  
t
|fi(x)−ft(x ruidosas  liberadas  para  fi(x)  son  "precisas".  Bajo  este  supuesto,  podemos  
aplicar  el  teorema  de  convergencia  (Teorema  4.10)  para  concluir  que  el  número  total  de  
actualizaciones  es  pequeño  y,  por  lo  tanto,  el  algoritmo  puede  responder  a  todas  las  
consultas  en  Q.

Teorema  4.14.  Para  δ  =  0,  con  una  probabilidad  de  al  menos  1−β,  para  todas  las  consultas,  
el  mecanismo  de  pesos  multiplicativos  en  línea  (a  través  de  NumericSparse)  fi  
devuelve  una  respuesta  ai  tal  que  |fi(x)  −  ai  |  ≤  3α  para  cualquier  α  tal  que:

32  registro  |
32  registro  |X  |  log(|Q|)  +  log  α   X|  α2β
≥  α2||
x||1

Prueba.  Recuerde  que,  según  el  teorema  3.28,  dadas  k  consultas  y  un  número  máximo  c  
de  consultas  por  encima  del  umbral,  NumericSparse  es  (α,  β)  preciso  para  cualquier  α  tal  
que:

9c(log  k  +  log(4c/β))  α  ≥
.

En  nuestro  caso  c  =  4  log  |X  |/α2  yk  =  2|Q|,  y  hemos  estado  normalizando,  lo  que  reduce  
α  por  un  factor  de  ||x||1.  Con  esto  en  mente,  podemos
llevar
32  registro  |
32  registro  |X  |  log(|Q|)  +  log  α2|| X|  α2β
α  =
x||1
y  observe  que  con  este  valor  obtenemos  T  =  2α  para  el  caso  δ  =  0.
Supongamos  que  estamos  en  este  caso  de  probabilidad  alta  (1  −  β).  Entonces  por  
t
tal  que  fi  activa  una  actualización,  |fi(x)  −  fi(x  orem  4.10,   todo  i )|  ≥  T  −  α  =  α  (La
condición  1).  Por  lo  tanto,  fi ,  ai  forman  un  par  válido  de  consultas/actualizaciones  de  
valores  como  se  requiere  en  la  hipótesis  del  Teorema  4.10  y  así,  por  eso  4  log  |X|  teorema,  
puede  
haber  como  máximo  c  =  tales  pasos  de  actualización.  α2
Además,  aún  por  las  propiedades  de  precisión  del  algoritmo  Sparse  Vector,

1.  como  máximo  uno  de  E2i−1,  E2i  tendrá  valor   ;
Machine Translated by Google

4.2.  Un  mecanismo  en  línea:  pesos  multiplicativos  privados 85

2.  para  todo  i  tal  que  no  se  active  ninguna  actualización  (ai  =  fi(x  |fi(x)  −   t ))  tenemos
t
fi(x )|  ≤  T  +  α  =  3α;  y  3.  para  

todo  i  tal  que  se  activa  una  actualización  tenemos  |fi(x)−ai  |  ≤  α  (Teorema  4.10,  condición  
2).

Optimizando  la  expresión  anterior  para  α  y  eliminando  el  factor  de  normalización,  
encontramos  que  el  mecanismo  OnlineMW  puede  responder  cada  consulta  lineal  con  una  
precisión  de  3α  excepto  con  probabilidad  β  para:

1/3
32  registro  |X|1/3  ||x||2/3
1
36  registro  |X  |  registro(|Q|)  +  registro
β
  α  =  ||x||2/3
1

que  es  comparable  al  mecanismo  SmallDB.
Repitiendo  el  mismo  argumento,  pero  utilizando  en  su  lugar  la  utilidad  el  orema  para  
la  versión  (,  δ)­privada  del  vector  disperso  (teorema  3.28),  obtenemos  el  siguiente  teorema.

Teorema  4.15.  Para  δ  >  0,  con  probabilidad  de  al  menos  1−β,  para  todas  las  consultas  fi ,  
OnlineMW  devuelve  una  respuesta  ai  tal  que  |fi(x)  −  ai  |  ≤  3α  para  cualquier
a  tal  que:

2   32  registro  |
(2  +  32√  2)  ∙  registro  |X  |  registro δ
registro  |Q|  +  
X|  α2β
α  ≥
registro  α||x||1

Nuevamente,  optimizando  la  expresión  anterior  para  α  y  eliminando  el  factor  de  
normalización,  encontramos  que  el  mecanismo  OnlineMW  puede  responder  cada  consulta  
lineal  con  una  precisión  de  3α  excepto  con  probabilidad  β,  para:

1/2
2  
registro  |Q|  +  registro
32||x||1  
  (2  +  32√  2)  ∙  log  |X  |  registro   δ β   
α  =  ||x||1/2 1

lo  que  proporciona  una  mayor  precisión  (en  función  de  ||x||1)  que  el  mecanismo  SmallDB.  
Intuitivamente,  la  mayor  precisión  proviene  de  la  naturaleza  iterativa  del  mecanismo,  lo  que  
nos  permite  aprovechar  nuestros  teoremas  de  composición  para  (,  δ)­privacidad.  El  
mecanismo  SmallDB  se  ejecuta
Machine Translated by Google

86 Liberación  de  consultas  lineales  con  error  correlacionado

en  una  sola  toma,  por  lo  que  no  hay  oportunidad  de  aprovechar  la  composición.

La  precisión  del  algoritmo  privado  de  ponderaciones  multiplicativas  depende  de  
varios  parámetros,  que  merecen  una  discusión  más  detallada.  Al  final,  el  algoritmo  
responde  a  las  consultas  utilizando  la  técnica  de  vectores  dispersos  junto  con  un  
algoritmo  de  aprendizaje  para  funciones  lineales.  Como  demostramos  en  la  última  
sección,  la  técnica  del  vector  disperso  introduce  un  error  que  escala  como  O(c  log  k/(x1))  
cuando  se  realizan  un  total  de  k  consultas  de  sensibilidad  1/x1 ,  y  como  máximo  c  de  ellas  
pueden  tener  “por  encima  de  "umbral  antiguo",  para  cualquier  umbral  T.  Recuerde  que  
estos  términos  de  error  surgen  porque  el  análisis  de  privacidad  para  el  algoritmo  de  vector  
disperso  nos  permite  "pagar"  solo  por  las  consultas  de  umbral  anteriores  y,  por  lo  tanto,  
puede  agregar  ruido  O  (c/( x1) )  a  cada  consulta.  Por  otro  lado,  dado  que  terminamos  
agregando  ruido  de  Laplace  independiente  con  escala  Ω(c/(x1))  a  k  consultas  en  total,  
esperamos  que  el  error  máximo  sobre  todas  las  k  consultas  sea  mayor  por  un  log  k  factor.  
Pero,  ¿qué  es  c,  y  qué  consultas  debemos  hacer?  El  algoritmo  de  aprendizaje  de  pesos  
multiplicativos  nos  brinda  una  estrategia  de  consulta  y  una  garantía  de  que  no  más  de  c  =  
O  (log  |X  |/α2 )  consultas  estarán  por  encima  de  un  umbral  de  T  =  O(α),  para  cualquier  α  
(las  consultas  que  hacemos  siempre  son:  “¿En  qué  medida  difiere  la  respuesta  real  de  la  
respuesta  predicha  de  la  hipótesis  de  los  pesos  multiplicativos  actuales?”  Las  respuestas  
a  estas  preguntas  nos  dan  las  respuestas  verdaderas  a  las  consultas,  así  como  
instrucciones  sobre  cómo  actualizar  el  algoritmo  de  aprendizaje  adecuadamente  cuando  
una  consulta  está  por  encima  del  umbral).  En  conjunto,  esto  nos  lleva  a  establecer  el  
umbral  en  O(α),  donde  α  es  la  expresión  que  satisface:  α  =  O  (registro  |X  |  log  k/(x1α  Esto  
minimiza  las  dos  fuentes  de  error:  el  error  de  la  técnica  del  vector  disperso  y  el  error  de  
2
no  actualizar  la  hipótesis  de  los  pesos  multiplicativos. )).

4.3  Notas  bibliográficas

El  mecanismo  de  liberación  de  consultas  fuera  de  línea  que  se  proporciona  en  esta  
sección  es  de  Blum  et  al.  [8],  que  dio  límites  en  términos  de  la  dimensión  VC  de  la  clase  
de  consulta  (Teorema  4.9).  La  generalización  a  la  dimensión  de  destrucción  de  grasa  se  
da  en  [72].
Machine Translated by Google

4.3.  notas  bibliograficas 87

El  mecanismo  de  publicación  de  consultas  en  línea  que  se  proporciona  
en  esta  sección  es  de  Hardt  y  Rothblum  [44].  Este  mecanismo  utiliza  el  
método  clásico  de  actualización  de  pesos  multiplicativos,  para  el  cual  Arora,  
Hazan  y  Kale  brindan  una  excelente  encuesta  [1].  Gupta  et  al.  proporcionaron  
límites  ligeramente  mejorados  para  el  mecanismo  privado  de  pesos  
multiplicativos.  [39],  y  el  análisis  aquí  sigue  la  presentación  de  [39].
Machine Translated by Google

5
generalizaciones

En  esta  sección  generalizamos  los  algoritmos  de  liberación  de  consultas  de  la  sección  
anterior.  Como  resultado,  obtenemos  límites  para  consultas  arbitrarias  de  baja  
sensibilidad  (no  solo  consultas  lineales),  así  como  nuevos  límites  para  consultas  
lineales.  Estas  generalizaciones  también  arrojan  algo  de  luz  sobre  la  conexión  entre  la  
publicación  de  consultas  y  el  aprendizaje  automático.
El  mecanismo  de  liberación  de  consultas  fuera  de  línea  de  SmallDB  en  la  Sección  
4  es  un  caso  especial  de  lo  que  llamamos  el  mecanismo  de  red.  Vimos  que  ambos  
mecanismos  en  esa  sección  producen  bases  de  datos  sintéticas,  que  proporcionan  un  
medio  conveniente  para  aproximar  el  valor  de  cualquier  consulta  en  Q  en  la  base  de  
datos  privada:  simplemente  evalúe  la  consulta  en  la  base  de  datos  sintética  y  tome  el  
resultado  como  la  respuesta  ruidosa.  De  manera  más  general,  un  mecanismo  puede  
producir  una  estructura  de  datos  de  forma  arbitraria  que,  junto  con  un  algoritmo  público  
fijo  (independiente  de  la  base  de  datos),  proporciona  un  método  para  aproximar  los  
valores  de  las  consultas.
El  mecanismo  Net  es  una  generalización  directa  del  mecanismo  SmallDB:  primero,  
fije,  independientemente  de  la  base  de  datos  real,  una  red  α  de  estructuras  de  datos  tal  
que  la  evaluación  de  cualquier  consulta  en  Q  utilizando  la  estructura  de  datos  liberada  
proporcione  una  buena  (dentro  de  un  α  aditivo).  error)  estimación  del  valor  de  la  
consulta  en  la  base  de  datos  privada.  A  continuación,  aplica

88
Machine Translated by Google

5.1.  Mecanismos  a  través  de  redes  α 89

el  mecanismo  exponencial  para  elegir  un  elemento  de  esta  red,  donde  la  función  de  calidad  
minimiza  el  error  máximo,  sobre  las  consultas  en  Q,  para  los  elementos  de  la  red.

También  generalizamos  el  algoritmo  de  pesos  multiplicativos  en  línea  para  que  podamos  
instanciarlo  con  cualquier  otro  algoritmo  de  aprendizaje  en  línea  para  aprender  una  base  de  
datos  con  respecto  a  un  conjunto  de  consultas.  Observamos  que  dicho  mecanismo  se  puede  
ejecutar  en  línea  o  fuera  de  línea,  donde  el  conjunto  de  consultas  que  se  realizarán  al  
mecanismo  "en  línea"  se  selecciona  en  su  lugar  utilizando  un  "distinguidor  privado",  que  
identifica  las  consultas  en  las  que  se  basa  la  hipótesis  actual  del  alumno.  difiere  sustancialmente  
de  la  base  de  datos  real.  Estas  son  consultas  que  habrían  producido  un  paso  de  actualización  
en  el  algoritmo  en  línea.  Un  "distinguidor"  resulta  ser  equivalente  a  un  algoritmo  de  aprendizaje  
agnóstico,  que  arroja  luz  sobre  una  fuente  de  dureza  para  mecanismos  eficientes  de  liberación  
de  consultas.

En  las  siguientes  secciones,  discutiremos  las  estructuras  de  datos  para  las  clases  de  
consultas  Q.

Definición  5.1.  Una  estructura  de  datos  D  extraída  de  alguna  clase  de  datos

estructuras  D  para  una  clase  de  consultas  Q  está  implícitamente  dotada  de  una  función  de  
evaluación  Eval :  D  ×  Q  →  R  con  la  que  podemos  evaluar  cualquier  consulta  en  Q  sobre  D.  
Sin  embargo,  para  evitar  el  entorpecimiento  de  la  notación,  escribiremos  simplemente  f(D )  
para  denotar  Eval(D,  f)  cuando  el  significado  es  claro  por  el  contexto.

5.1  Mecanismos  a  través  de  redes  α

Dada  una  colección  de  consultas  Q,  definimos  una  red  α  de  la  siguiente  manera:

Definición  5.2  (α­net).  Una  red  α  de  estructuras  de  datos  con  respecto  a  una  clase  de  consultas  
Q  es  un  conjunto  N     N  |X|  tal  que  para  todo  x     N  |X|,  existe  un  elemento  del  α­net  y     N  
tal  que:

máximo |f(x)  −  f(y)|  ≤  a.
f Q

Escribimos  Nα(Q)  para  denotar  una  red  α  de  cardinalidad  mínima  entre  el  conjunto  de  todas  
las  redes  α  para  Q.
Machine Translated by Google

90 generalizaciones

Es  decir,  para  cada  posible  base  de  datos  x,  existe  un  miembro  de  la  red  α  que  
“se  parece”  a  x  con  respecto  a  todas  las  consultas  en  Q,  hasta  una  tolerancia  de  
error  de  α.
Las  redes  α  pequeñas  serán  útiles  para  nosotros,  porque  cuando  se  combinan  
con  el  mecanismo  exponencial,  conducirán  directamente  a  mecanismos  para  
responder  consultas  con  alta  precisión.  Dada  una  clase  de  funciones  Q,  definiremos  
una  instanciación  del  mecanismo  exponencial  conocido  como  mecanismo  Net .  
Primero  observamos  que  el  mecanismo  Net  preserva  la  privacidad  diferencial  ε.

Algoritmo  7  El  mecanismo  neto
RedMecanismo(x,  Q,  ε,  α)
Sea  R  ←  Nα(Q)
Sea  q :  N  |X|  ×  R  →  R  se  define  como:

q(x,  y)  =  −  máx  |f(x)  −  f(y)|
f Q

Muestra  y  salida  y     R  con  el  mecanismo  exponencial
YO(x,  q,  R)

Proposición  5.1.  El  mecanismo  Net  es  (ε,  0)  diferencialmente  privado.

Prueba.  El  mecanismo  Net  es  simplemente  una  instanciación  del  mecanismo  
exponencial.  Por  lo  tanto,  la  privacidad  se  sigue  del  Teorema  3.10.

De  manera  similar,  podemos  recurrir  a  nuestro  análisis  del  mecanismo  exponencial
para  empezar  a  entender  las  garantías  de  utilidad  del  mecanismo  Net:

Proposición  5.2.  Sea  Q  cualquier  clase  de  consultas  de  sensibilidad  1/x1 .  Sea  y  la  
salida  de  la  base  de  datos  de  NetMechanism(x,  Q,  ε,  α).  Entonces  con  probabilidad  
1  −  β:

2  log  (|Nα(Q)|)  +  log  |f(x)   1  β
f Q   −  f(y)|  ≤  α  + .
máx. εx1
Machine Translated by Google

5.2.  El  mecanismo  de  construcción  iterativo 91

1
Prueba.  Al  aplicar  el  Teorema  3.11  y  notar  que  S(q)  =  que   x1
, y
OPTq(D)  ≤  α  por  la  definición  de  una  red  α,  encontramos:
2 −t
Pr  máx  |f(x)  −  f(y)|  ≥  α  +  f Q   (log  (|Nα(Q)|)  +  t)  ≤  e .
εx1

Conectando  t  =  log 1  β
completa  la  prueba.

Por  lo  tanto,  podemos  ver  que  un  límite  superior  en  |Nα(Q)|  para  una  
colección  de  funciones  Q  da  inmediatamente  un  límite  superior  a  la  precisión  
que  un  mecanismo  diferencialmente  privado  puede  proporcionar  simultáneamente  
para  todas  las  funciones  en  la  clase  Q.
Esto  es  exactamente  lo  que  hicimos  en  la  Sección  4.1,  donde  vimos  que  
la  cantidad  clave  es  la  dimensión  VC  de  Q,  cuando  Q  es  una  clase  de  consultas  
lineales.

5.2  El  mecanismo  de  construcción  iterativo

En  esta  sección,  derivamos  una  generalización  fuera  de  línea  del  algoritmo  privado  
de  pesos  multiplicativos,  que  se  puede  instanciar  con  cualquier  algoritmo  de  
aprendizaje  definido  correctamente.  De  manera  informal,  un  algoritmo  de  
actualización  de  la  base  de  datos  mantiene  una  secuencia  de   , D2 , . . .  eso
estructuras  de  datos  D1  que  dan  aproximaciones  cada  vez  mejores  a  la  base  de  
datos  de  entrada  x  (en  un  sentido  que  depende  del  algoritmo  de  actualización  de  la  
base  de  datos).  Además,  estos  mecanismos  producen  la  siguiente  estructura  de  
datos  en  la  secuencia  al  considerar  solo  una  consulta  f  que  distingue  la  base  de  
datos  real  en  el  sentido  de  que  f(Dt )  difiere  significativamente  de  f(x).  El  algoritmo  
de  esta  sección  muestra  que,  hasta  pequeños  factores,  resolver  el  problema  de  
consulta  y  liberación  de  una  manera  diferencialmente  privada  es  equivalente  a  
resolver  el  problema  más  simple  de  aprendizaje  o  distinción  de  una  manera  
diferencialmente  privada:  dado  un  algoritmo  de  distinción  privado  y  un  problema  no  
diferenciado.  algoritmo  de  actualización  de  base  de  datos  privada,  obtenemos  un  
algoritmo  de  liberación  privado  correspondiente.  Podemos  conectar  el  mecanismo  
exponencial  como  un  distinguidor  privado  canónico,  y  el  algoritmo  de  pesos  
multiplicativos  como  un  algoritmo  de  actualización  de  base  de  datos  genérico  para  
la  configuración  de  consulta  lineal  general,  pero  en  casos  especiales  son  posibles  distinguidores  más  eficientes.
Machine Translated by Google

92 generalizaciones

Sintácticamente,  consideraremos  funciones  de  la  forma  U :  D×Q×R  →  D,  donde  D  
representa  una  clase  de  estructuras  de  datos  sobre  las  cuales  se  pueden  evaluar  consultas  
en  Q.  Las  entradas  a  U  son  una  estructura  de  datos  en  D,  que  representa  la  estructura  de  
datos  actual  Dt ;  una  consulta  f,  que  representa  la  consulta  distintiva,  y  puede  estar  restringida  
a  un  determinado  conjunto  Q;  y  también  un  número  real,  que  estima  f(x).  Formalmente,  
definimos  una  secuencia  de  actualización  de  base  de  datos  para  capturar  la  secuencia  de  
entradas  a  U  utilizada  para  generar  la  secuencia  de  base  de  datos  D1
, D2 , . . ..

Definición  5.3  (Secuencia  de  actualización  de  la  base  de  datos).  Sea  x     N  |X|  sea  cualquier  
L
base  de  datos  y  sea  (Dt ,  ft ,  vt)  una  secuencia  de  tuplas.  
  (D  ×  Q
D  
ecimos  
×  R) que  la  secuencia  es  una  
t=1,...,L
secuencia  de  actualización  de  base  de  datos  (U,  x,  Q,  α,  T)  si  cumple  las  siguientes  
propiedades:

1.  D1  =  U( ,  ∙,  ∙),  2.  

para  todo  t  =  1,  2, . . . ,  L,  ft(x)  −  ft(Dt )  ≥  α,  3.  para  todo  t  =  1,  

2, . . . ,  L,  |ft(x)  −  vt  |  <  α,  L  −  1,  Dt+1  =  U(Dt ,  ft ,  vt).  4.  y  

para  todo  t  =  1,  2, . . . ,

Notamos  que  para  todos  los  algoritmos  de  actualización  de  bases  de  datos  que  
consideramos,  la  respuesta  aproximada  vt  se  usa  solo  para  determinar  el  signo  de  ft(x)−  
ft(Dt ),  que  es  la  motivación  para  requerir  que  la  estimación  de  ft(x)  ( vt)  tienen  un  error  
menor  que  α.  La  principal  medida  de  eficiencia  que  nos  interesa  de  un  algoritmo  de  
actualización  de  base  de  datos  es  el  número  máximo  de  actualizaciones  que  necesitamos  
realizar  antes  de  que  la  base  de  datos  Dt  se  aproxime  x  bien  con  respecto  a  las  consultas  
en  Q.  Con  este  fin,  definimos  un  algoritmo  de  actualización  de  base  de  datos  como  sigue:

Definición  5.4  (Algoritmo  de  actualización  de  base  de  datos).  Sea  U :  D  ×  Q  ×  R  →  D  una  
regla  de  actualización  y  sea  T :  R  →  R  una  función.  Decimos  que  U  es  un  algoritmo  de  
actualización  de  base  de  datos  T(α)  para  la  clase  de  consulta  Q  si  para  cada  base  de  datos  
x     N  |X|,  cada  secuencia  de  actualización  de  base  de  datos  (U,  x,  Q,  α,  L)  satisface  L  ≤  T(α ).

Tenga  en  cuenta  que  la  definición  de  un  algoritmo  de  actualización  de  base  de  datos  
T(α)  implica  que  si  U  es  un  algoritmo  de  actualización  de  base  de  datos  T(α),  dada  cualquier  
secuencia  máxima  de  actualización  de  base  de  datos  (U,  x,  Q,  α,  U),  la  base  de  datos  definitiva
DL  debe  satisfacer  maxf Q  f(x)  −  f(DL)  ≤  α  o  de  lo  contrario  existiría
Machine Translated by Google

5.2.  El  mecanismo  de  construcción  iterativo 93

otra  consulta  que  satisfaga  la  propiedad  2  de  la  Definición  5.3,  y  por  lo  tanto  existiría  una  (U,  x,  
Q,  α,  L  +  1)­secuencia  de  actualización  de  la  base  de  datos,  contradiciendo  la  maximalidad.  Es  
decir,  el  objetivo  de  una  regla  de  actualización  de  base  de  datos  T(α)  es  generar  una  secuencia  
de  actualización  de  base  de  datos  máxima,  y  la  estructura  de  datos  final  en  una  secuencia  de  
actualización  de  base  de  datos  máxima  necesariamente  codifica  las  respuestas  aproximadas  a  
cada  consulta  f     Q.
Ahora  que  hemos  definido  los  algoritmos  de  actualización  de  la  base  de  datos,  podemos  
señalar  que  lo  que  realmente  probamos  en  el  teorema  4.10  fue  que  el  algoritmo  de  pesos  
multiplicativos  es  un  algoritmo  de  actualización  de  la  base  de  datos  T(α)  para  T(α)  =  4  log  |X  |/
α2 .
Antes  de  continuar,  desarrollemos  una  cierta  intuición  de  lo  que  es  un  algoritmo  de  
actualización  de  base  de  datos.  Un  algoritmo  de  actualización  de  base  de  datos  T(α)  comienza  
con  una  suposición  inicial  D1  sobre  cómo  se  ve  la  verdadera  base  de  datos  x .
Debido  a  que  esta  conjetura  no  se  basa  en  ninguna  información,  es  bastante  probable  que  D1  
y  x  se  parezcan  poco,  y  que  haya  algo  de  f     Q  que  sea  capaz  de  distinguir  entre  estas  dos  
bases  de  datos  por  al  menos  α:  es  decir,  que  f( x)  yf  (D1 )  difieren  en  valor  por  al  menos  α.  Lo  
que  hace  un  algoritmo  de  actualización  de  base  de  datos  es  actualizar  su  hipótesis  Dt  dada  la  
evidencia  de  que  su  hipótesis  actual  Dt−1  es  incorrecta:  en  cada  etapa,  toma  como  entrada  
alguna  consulta  en  Q  que  distingue  su  hipótesis  actual  de  la  verdadera  base  de  datos,  y  luego  
genera  una  nueva  hipótesis.  El  parámetro  T(α)  es  un  límite  superior  en  el  número  de  veces  que  
el  algoritmo  de  actualización  de  la  base  de  datos  tendrá  que  actualizar  su  hipótesis:  es  una  
promesa  de  que  después  de  que  se  hayan  proporcionado  como  máximo  T(α)  consultas  
distintivas,  el  algoritmo  finalmente  han  producido  una  hipótesis  que  se  parece  a  la  verdadera  
base  de  datos  con  respecto  a  Q,  al  menos  hasta  el  error  α.  algoritmo  de  actualización,  los  límites  
más  pequeños  T  (α)  son  más  deseables.
1 para  una  base  de  datos

Algoritmos  de  actualización  de  bases  de  datos  y  algoritmos  de  aprendizaje  en  línea:  destacamos  
que  los  algoritmos  de  actualización  de  bases  de  datos  son  esencialmente  aprendizaje  en  línea

1
Imagine  que  el  algoritmo  de  actualización  de  la  base  de  datos  intenta  esculpir  x  a  partir  de  una  base  de  
bloque  de  arcilla.  Inicialmente,  su  escultura  D  es   1 datos  que  no  se  parece  en  nada  a  la  verdadera  base  de  datos:
simplemente  un  bloque  de  arcilla.  Sin  embargo,  un  distintivo  útil  señala  al  escultor  los  lugares  en  los  que  la  
arcilla  sobresale  mucho  más  que  la  verdadera  base  de  datos  de  destino:  el  escultor  palpa  diligentemente  esos  
bultos.  Si  el  distinguidor  siempre  encuentra  grandes  protuberancias,  de  magnitud  al  menos  α,  la  escultura  estará  
terminada  pronto,  ¡y  el  distinguidor  no  perderá  el  tiempo!
Machine Translated by Google

94 generalizaciones

algoritmos  en  el  modelo  de  límite  de  error.  En  el  entorno  del  aprendizaje  en  línea,  los  
ejemplos  sin  etiquetar  llegan  en  un  orden  arbitrario  y  el  algoritmo  de  aprendizaje  debe  
intentar  etiquetarlos.

Antecedentes  de  la  teoría  del  aprendizaje.  En  el  modelo  de  aprendizaje  limitado  por  
error,  los  ejemplos  etiquetados  (xi ,  yi)     X  ×  {0,  1}  llegan  uno  a  la  vez,  en  un  orden  
potencialmente  antagónico.  En  el  tiempo  i,  el  algoritmo  de  aprendizaje  A  observa  xi  y  
debe  hacer  una  predicción  
, yˆi  sobre  la  etiqueta  para  xi .  Luego  ve  la  etiqueta  verdadera  
yi ,  y  se  dice  que  comete  un  error  si  su  predicción  fue  incorrecta:  es  decir,  si  yi  =  ̂yi .  
Se  dice  que  un  algoritmo  de  aprendizaje  A  para  una  clase  de  funciones  C  tiene  un  
límite  erróneo  de  M,  si  para  todo  f     C,  y  para  todas  las  secuencias  de  ejemplos  
seleccionadas  adversariamente  (x1,  f(x1)), . . . ,(xi ,  f(xi)), . . .,  A  nunca  comete  más  
de  M  errores.
Sin  pérdida  de  generalidad,  podemos  pensar  en  un  algoritmo  de  aprendizaje  como  el  
que  mantiene  alguna  hipótesis  ̂f :  X  →  {0,  1}  en  todo  momento,  y  la  actualiza  solo  
cuando  comete  un  error.  El  adversario  en  este  modelo  es  bastante  poderoso:  puede  
elegir  la  secuencia  de  ejemplos  etiquetados  de  forma  adaptativa,  conociendo  la  
hipótesis  actual  del  algoritmo  de  aprendizaje  y  su  historial  completo  de  predicciones.  
Por  lo  tanto,  los  algoritmos  de  aprendizaje  que  tienen  límites  de  error  finitos  pueden  
ser  útiles  en  entornos  extremadamente  generales.

No  es  difícil  ver  que  los  algoritmos  de  aprendizaje  en  línea  limitados  por  error  
siempre  existen  para  clases  finitas  de  funciones  C.  Considere,  por  ejemplo,  el  
algoritmo  de  reducción  a  la  mitad.  El  algoritmo  de  reducción  a  la  mitad  inicialmente  
mantiene  un  conjunto  S  de  funciones  de  C  consistente  con  los  ejemplos  que  ha  visto  
hasta  ahora:  Inicialmente  S  =  C.  Cada  vez  que  llega  un  nuevo  ejemplo  sin  etiquetar,  
predice  de  acuerdo  con  el  voto  mayoritario  de  sus  hipótesis  consistentes:  es  decir ,  
predice  la  etiqueta  1  siempre  que  |{f     S :  f(xi)  =  1}|  ≥  |S|/2.
, actualiza  S  por  eliminación
Siempre  que  se  equivoque  en  un  ejemplo  xi  ing  cualquier  
función  inconsistente:  S  ←  {f     S :  f(xi)  =  yi}.  Tenga  en  cuenta  que  cada  vez  que  
comete  un  error,  ¡el  tamaño  de  S  se  reduce  a  la  mitad!  Siempre  que  todos  los  
ejemplos  estén  etiquetados  por  alguna  función  f     C,  hay  al  menos  una  función  f     
C  que  nunca  se  elimina  de  S.  Por  lo  tanto,  el  algoritmo  de  reducción  a  la  mitad  tiene  
un  límite  erróneo  de  log  |C|.
Generalizando  más  allá  de  las  etiquetas  booleanas,  podemos  ver  los  algoritmos  de  
actualización  de  bases  de  datos  como  algoritmos  de  aprendizaje  en  línea  en  el  modelo  de  límite  de  error:
Machine Translated by Google

5.2.  El  mecanismo  de  construcción  iterativo 95

aquí,  los  ejemplos  que  llegan  son  las  consultas  (que  pueden  venir  en  orden  
adversario).  Las  etiquetas  son  los  valores  aproximados  de  las  consultas  cuando  
se  evalúan  en  la  base  de  datos.  La  hipótesis  del  algoritmo  de  actualización  de  la  
base  de  datos  Dt  comete  un  error  en  la  consulta  f  si  |f(Dt )  −  f(x)|  ≥  α,  en  cuyo  
caso  aprendemos  la  etiqueta  de  f  (es  decir,  vt)  y  permitimos  que  el  algoritmo  de  
actualización  de  la  base  de  datos  actualice  la  hipótesis.  Decir  que  un  algoritmo  U  
es  un  algoritmo  de  actualización  de  base  de  datos  T(α)  es  similar  a  decir  que  
tiene  un  límite  erróneo  de  T(α):  ninguna  secuencia  de  consultas  elegida  por  el  
adversario  puede  hacer  que  genere  más  de  T(α)  ­errores.  De  hecho,  los  algoritmos  
de  actualización  de  bases  de  datos  que  veremos  están  tomados  de  la  literatura  
de  aprendizaje  en  línea.  El  mecanismo  de  pesos  multiplicativos  se  basa  en  un  
algoritmo  de  aprendizaje  en  línea  conocido  como  Hedge,  que  ya  hemos  comentado.
El  mecanismo  de  la  mediana  (más  adelante  en  esta  sección)  se  basa  en  el  
algoritmo  de  reducción  a  la  mitad,  y  el  algoritmo  de  Perceptron  se  basa  
(casualmente)  en  un  algoritmo  conocido  como  Perceptron.  No  hablaremos  de  
Perceptron  aquí,  pero  funciona  haciendo  actualizaciones  aditivas ,  en  lugar  de  
las  actualizaciones  multiplicativas  que  usan  los  pesos  multiplicativos.
Un  algoritmo  de  actualización  de  base  de  datos  para  una  clase  Q  será  útil  
junto  con  un  distintivo  correspondiente,  cuyo  trabajo  es  generar  una  función  que  
se  comporte  de  manera  diferente  en  la  verdadera  base  de  datos  x  y  la  hipótesis   ,
Dt ,  es  decir,  para  señalar  un  error.

Definición  5.5  ((F(ε),  γ)­Distinguidor  privado).  Sea  Q  un  conjunto  de  consultas,  
sea  γ  ≥  0  y  sea  F(ε) :  R  →  R  una  función.  Un  algoritmo  Distingueε :  N  |X|  ×  D  →  
Q  es  un  distintivo  privado  (F(ε),  γ)  para  Q  si  para  cada  configuración  del  
parámetro  de  privacidad  ε,  en  cada  par  de  entradas  x     N  |X|  D     D  es  (ε,  0)­
,   Q  tal  que  |f     (x)  −  f     (D)|  ≥  con  respecto  a  x  y  
diferencialmente  privado  con  
F(ε)  con  probabilidad  de  al  menos  1  −  γ. genera  un  f     maxf Q  |f(x)  −  f(D)|  −  

Observación  5.1.  En  el  aprendizaje  automático,  el  objetivo  es  encontrar  una  
función  f :  X  →  {0,  1}  de  una  clase  de  funciones  Q  que  etiquete  mejor  una  
colección  de  ejemplos  etiquetados  (x1,  y1), . . . ,(xm,  ym)     X  ×  {0,  1}.  (Los  
ejemplos  (x,  0)  se  conocen  como  ejemplos  negativos  y  los  ejemplos  (x,  1)  se  
conocen  como  ejemplos  positivos).  Cada  ejemplo  xi  tiene  una   y  una  funcion
etiqueta  verdadera  yi ,  f  etiqueta  correctamente  a  xi  si  f(xi)  =  yi .  Un  algoritmo  de  
aprendizaje  agnóstico  para  una  clase  Q  es  un  algoritmo  que  puede  encontrar  la  función  en  Q  que  etiqueta
Machine Translated by Google

96 generalizaciones

todos  los  puntos  de  datos  aproximadamente  así  como  la  mejor  función  en  Q,  incluso  si  
ninguna  función  en  Q  puede  etiquetarlos  perfectamente.  Tenga  en  cuenta  que,  de  
manera  equivalente,  un  algoritmo  de  aprendizaje  agnóstico  es  aquel  que  maximiza  el  
número  de  ejemplos  positivos  etiquetados  como  1  menos  el  número  de  ejemplos  
negativos  etiquetados  como  1.  Expresado  de  esta  manera,  podemos  ver  que  un  
distintivo  como  se  definió  anteriormente  es  solo  un  algoritmo  de  aprendizaje  agnóstico . :  
imagine  que  x  contiene  todos  los  ejemplos  "positivos"  y  que  y  contiene  todos  los  
"ejemplos  negativos".  (Tenga  en  cuenta  que  está  bien  que  x  e  y  no  sean  disjuntos:  en  
el  problema  de  aprendizaje,  el  mismo  ejemplo  puede  ocurrir  con  una  etiqueta  tanto  
positiva  como  negativa,  ya  que  el  aprendizaje  agnóstico  no  requiere  que  ninguna  
función  etiquete  perfectamente  cada  ejemplo). ,  tenga  en  cuenta  también  que  para  las  
clases  de  consultas  lineales  Q,  un  distintivo  es  simplemente  un  algoritmo  de  
optimización.  Porque  para  consultas  lineales  f,  f(x)  −  f(y)  =  f(x  −  y),  un  distinguidor  
simplemente  busca  encontrar  arg  maxf Q  |f(x  −  y)|.

Tenga  en  cuenta  que,  a  priori,  un  distintivo  diferencialmente  privado  es  un  objeto  
más  débil  que  un  algoritmo  de  liberación  diferencialmente  privado:  un  distintivo  
simplemente  encuentra  una  consulta  en  un  conjunto  Q  con  el  valor  aproximadamente  
más  grande,  mientras  que  un  algoritmo  de  liberación  debe  encontrar  la  respuesta  a  
cada  consulta  en  Q  En  el  algoritmo  que  sigue,  sin  embargo,  reducimos  la  liberación  a  la  optimización.
Primero  analizaremos  el  algoritmo  IC  y  luego  lo  instanciaremos  con  un  distintivo  
específico  y  un  algoritmo  de  actualización  de  la  base  de  datos.  Lo  que  sigue  es  un  
análisis  formal,  pero  la  intuición  del  mecanismo  es  simple:  simplemente  ejecutamos  el  
algoritmo  iterativo  de  construcción  de  la  base  de  datos  para  construir  una  hipótesis  
que  coincida  aproximadamente  con  x  con  respecto  a  las  consultas  Q.  Si  en  cada  ronda  
nuestro  distinguidor  logra  encontrar  un  consulta  que  tiene  una  gran  discrepancia  entre  
la  base  de  datos  de  hipótesis  y  la  base  de  datos  verdadera,  entonces  nuestro  algoritmo  
de  actualización  de  la  base  de  datos  generará  una  base  de  datos  que  es  β­precisa  con  
respecto  a  Q.  Si  el  distinguidor  alguna  vez  falla  en  encontrar  tal  consulta,  entonces  
debe  ser  que  hay  no  existen  tales  consultas,  y  nuestro  algoritmo  de  actualización  de  la  
base  de  datos  ya  ha  aprendido  una  hipótesis  precisa  con  respecto  a  las  consultas  de  
interés.  Esto  requiere  como  máximo  T  iteraciones,  por  lo  que  accedemos  a  los  datos  
solo  2T  veces  usando  (ε0,  0)  métodos  privados  diferencialmente  (ejecutando  el  distintivo  
dado  y  luego  verificando  su  respuesta  con  el  mecanismo  de  Laplace).  Por  lo  tanto,  la  
privacidad  se  derivará  de  nuestros  teoremas  de  composición.
Machine Translated by Google

5.2.  El  mecanismo  de  construcción  iterativo 97

Algoritmo  8  El  mecanismo  de  construcción  iterativa  (IC).  Toma  como  entrada  un  
parámetro  ε0,  un  (F(ε0),  γ)­Private  Distinguir  Distinguir  para  Q,  junto  con  un  
algoritmo  de  actualización  de  base  de  datos  iterativo  T(α)  U  para  Q.

IC(x,  α,  ε0,  Distingue,  U):  Sea  
D0  =  U( ,  ∙,  ∙).  para  t  
=  1  a  T(α/2)  do  Sea  f  (t)
=  Distinguir(x,  Dt−1 )
Sea  vˆ  (t)  =  f  (t)  (x)  +  Lap  si   1 .
x1ε0
|vˆ  (t)  −  f  (t)  (Dt−1 )|  <  3α/4  entonces  
Salida  y  =  Dt−1 .  
demás
Sea  Dt  =  U(Dt−1 ,  f(t) ,  vˆ  (t) ).
terminar  si  

terminar  para

Salida  y  =  DT(α/2) .

El  análisis  de  este  algoritmo  consiste  simplemente  en  comprobar  los  
detalles  técnicos  de  una  simple  intuición.  La  privacidad  seguirá  porque  el  
algoritmo  es  solo  la  composición  de  2T(α)  pasos,  cada  uno  de  los  cuales  es  (ε0,  
0)  diferencialmente  privado.  La  precisión  sigue  porque  siempre  estamos  
generando  la  última  base  de  datos  en  una  secuencia  máxima  de  actualización  de  la  base  de  datos.
Si  el  algoritmo  aún  no  ha  formado  una  secuencia  de  actualización  de  base  de  
datos  máxima,  entonces  el  algoritmo  de  distinción  encontrará  una  consulta  de  
distinción  para  agregar  otro  paso  a  la  secuencia.

Teorema  5.3.  El  algoritmo  IC  es  (ε,  0)­diferencialmente  privado  para  ε0  ≤  ε/2T(α/
2).  El  algoritmo  IC  es  (ε,  δ)­diferencialmente  privado  para  ε0  ≤  4  √  T(α/2)  log(1/δ)
ε .

Prueba.  El  algoritmo  ejecuta  como  máximo  composiciones  2T(α/2)  de  algoritmos  
diferencialmente  privados  ε0 .  Recuerde  del  Teorema  3.20  que  los  algoritmos  
ε0  diferencialmente  privados  son  2kε0  diferencialmente  privados  bajo  una  
composición  de  2k  veces,  y  son  (ε,  δ)  privados  para  ε  =  4k  ln(1/δ)ε0  +  2kε0(e  ε0  
−1).  Reemplazar  los  valores  indicados  para  ε0  prueba  la  afirmación.
Machine Translated by Google

98 generalizaciones

Teorema  5.4.  Dado  un  distintivo  privado  (F(ε),  γ),  un  parámetro  ε0  y  un  algoritmo  
de  actualización  de  base  de  datos  T(α),  con  probabilidad  de  al  menos  1−β,  el  
algoritmo  IC  devuelve  una  base  de  datos  y  tal  que:  maxf Q  |f(x)−f(y)|  ≤  α  para  
cualquier  α  tal  que  donde:

8  log(2T(α/2)/β)
α  ≥  máx. , 8F  (ε0)
ε0x1

siempre  que  γ  ≤  β/(2T(α/2)).

Prueba.  El  análisis  es  sencillo.
Recuerda  que  si  Yi     Lap(1/(εx1)),  tenemos:  Pr[|Yi  |  ≥  t/(εx1)]  =  exp(−t).  Por  
unión  unida,  si  Y1, . . . ,  Yk     Lap(1/(εx1)),  luego  Pr[maxi  |Yi  |  ≥  t/(εx1)]  ≤  k  exp(−t).  
Por  lo  tanto,  debido  a  que  hacemos  como  máximo  T(α/2)  extracciones  de  Lap(1/
(ε0x1)),  excepto  con  probabilidad  como  máximo  β/2,  para  todo  t:

1 2T(α/2)   α
|vˆ  (t)  −  f  (t)  (x)|  ≤ log   ≤ .
β  ε0x1 8

Tenga  en  cuenta  que  por  supuesto,  γ  ≤  β/(2T(α/2)),  por  lo  que  también  tenemos  eso  
excepto  con  probabilidad  β/2:

|f  (t)  (x)  −  f  (t)  (Dt−1 )|  ≥  máx  |f(x)  −  f(Dt−1 )|  −  F(ε0)
f Q

α
≥  máx   |f(x)  −  f(Dt−1 )|  − .
f Q 8

Para  el  resto  del  argumento,  condicionaremos  a  que  ocurran  ambos  eventos,  que  
es  el  caso  excepto  con  probabilidad  β.
Hay  dos  casos.  Se  emite  una  estructura  de  datos  D  =  DT(α/2) ,  o  se  emite  
una  estructura  de  datos  D  =  Dt  para  t  <  T(α/2) .  Primero,  supongamos  que  D  =  
DT(α/2).  Ya  que  para  todo  t  <  T(α/2)  debe  haber  sido  el  caso  que  |vˆ  (t)  −  f  (t)  
(Dt−1 )|  ≥  3α/4  y  por  nuestro  condicionamiento,  |vˆ  (t)  −  f  (t)  (x)|  ≤  sabemos  para  
α  
todo  t:  |f  (t)  (x)  
8 , −  f  (t)  (Dt−1 )|  ≥  α/2.  Por  lo  tanto,  la  secuencia  (Dt ,  f(t) ,  vˆ  (t) ),  formó  

una  máxima  (U,  x,  Q,  α/2,  T(α/2))  ­  Secuencia  de  actualización  de  la  base  de  datos  
(recuerde  la  Definición  5.3),  y  tenemos  que  maxf Q  |f(x)  −  f(x )|  ≤  α/2  según  se  
desee.
A  continuación,  suponga  que  D  =  Dt−1  para  t  <  T(α/2).  Entonces  debe  haber  
sido  el  caso  que  para  t,  |vˆ  (t)  −  f  (t)  (Dt−1 )|  <  3α/4.  Por  nuestro  condicionamiento,  en
Machine Translated by Google

5.2.  El  mecanismo  de  construcción  iterativo 99

en  este  caso  debe  ser  que  |f  (t)  (x)−f  (t)  (Dt−1 )|  <  por  las   7α  y  que  por  lo  tanto  8 ,

propiedades  de  un  (F(ε0),  γ)­distinguidor:


f Q   |f(x)  −  f(D )|  < +  F(ε0)  ≤  α
máx. 8

como  se  desee.

Note  que  podemos  usar  el  mecanismo  exponencial  como  un  distintivo  privado:  tome  
el  dominio  como  Q,  y  deje  que  el  puntaje  de  calidad  sea:  q(D,  f)  =  |f(D)  −  f(Dt )|,  que  tiene  
sensibilidad  1/x1.  Aplicando  el  teorema  de  la  utilidad  del  mecanismo  exponencial,  
obtenemos:

Teorema  5.5.  El  mecanismo  exponencial  es  un  distintivo  (F(ε),  γ)  para:

2 |P|  
F(ε)  = registro .
x1ε γ

Por  lo  tanto,  usando  el  mecanismo  exponencial  como  distintivo,  el  Teorema  5.4  da:

Teorema  5.6.  Dado  un  algoritmo  de  actualización  de  base  de  datos  T(α)  y  un  parámetro  
ε0  junto  con  el  mecanismo  exponencial  distintivo,  con  probabilidad  de  al  menos  1  −  β,  el  
algoritmo  IC  devuelve  una  base  de  datos  y  tal  que:  maxf Q  |f(x)  −  f  (y)|  ≤  α  donde:

8  log(2T(α/2)/β) dieciséis
|P|  
α  ≤  máx. , registro
ε0x1 x1ε0 γ

siempre  que  γ  ≤  β/(2T(α/2)).

Conectando  nuestros  valores  de  ε0:

Teorema  5.7.  Dado  un  algoritmo  de  actualización  de  base  de  datos  T(α),  junto  con  el  
mecanismo  exponencial  distintivo,  el  mecanismo  IC  es  ε­diferencialmente  privado  y  con  
una  probabilidad  de  al  menos  1  −  β,  el  algoritmo  IC  devuelve  una  base  de  datos  y  tal  que:  
maxf Q  |  f(x)−f(y)|  ≤  α  donde:

8T(a/2)  a   |P|  
≤ registro
x1ε γ
Machine Translated by Google

100 generalizaciones

y  (ε,  δ)­privado  diferencialmente  para:

16  T(α/2)  log(1/δ)  α  ≤ |P|  
registro
x1ε γ

siempre  que  γ  ≤  β/(2T(α/2)).

Tenga  en  cuenta  que  en  el  lenguaje  de  esta  sección,  lo  que  demostramos  en  el  
Teorema  4.10  fue  exactamente  que  el  algoritmo  de  pesos  multiplicativos  es  un  algoritmo  de  
4  registro  |X|
actualización  de  base  de  datos  T(α)  para  T(α)  =  α2 .  Reemplazando  este  límite  en  el  
Teorema  5.7  recupera  el  límite  que  obtuvimos  para  el  algoritmo  de  pesos  multiplicativos  en  
línea.  Tenga  en  cuenta  que  ahora,  sin  embargo,  también  podemos  conectar  otros  algoritmos  
de  actualización  de  bases  de  datos.

5.2.1  Aplicaciones:  otros  algoritmos  de  actualización  de  bases  de  datos

Aquí  damos  varios  otros  algoritmos  de  actualización  de  bases  de  datos.  El  primero  funciona  
directamente  desde  α­nets  y,  por  lo  tanto,  puede  obtener  límites  no  triviales  incluso  para  
consultas  no  lineales  (a  diferencia  de  los  pesos  multiplicativos,  que  solo  funcionan  para  
consultas  lineales).  El  segundo  es  otro  algoritmo  de  actualización  de  base  de  datos  para  
consultas  lineales,  pero  con  límites  incomparables  a  los  pesos  multiplicativos.
(En  general,  producirá  mejores  límites  cuando  el  conjunto  de  datos  tenga  un  tamaño  cercano  
al  tamaño  del  universo  de  datos,  mientras  que  las  ponderaciones  multiplicativas  darán  
mejores  límites  cuando  el  conjunto  de  datos  sea  mucho  más  pequeño  que  el  universo  de  
datos).
Primero  discutimos  el  mecanismo  de  la  mediana,  que  aprovecha  las  redes  α.  El  
mecanismo  mediano  no  opera  en  bases  de  datos,  sino  en  estructuras  de  datos  medianos:

Definición  5.6  (Estructura  de  datos  mediana).  Una  estructura  de  datos  mediana  D  es  una  
colección  de  bases  de  datos:  D     N  |X|.  Cualquier  consulta  f  puede  evaluarse  en  una  
estructura  de  datos  mediana  de  la  siguiente  manera:  f(D)  =  Median({f(x) :  x     D}).

En  palabras,  una  estructura  de  datos  mediana  es  solo  un  conjunto  de  bases  de  datos.  
Para  evaluar  una  consulta  en  él,  simplemente  evaluamos  la  consulta  en  cada  base  de  datos  
del  conjunto  y  luego  devolvemos  el  valor  medio.  Tenga  en  cuenta  que  las  respuestas  dadas  
por  la  estructura  de  datos  mediana  no  necesitan  ser  consistentes  con  ninguna  base  de  datos.
Sin  embargo,  tendrá  la  propiedad  útil  de  que  siempre  que  haga  una
Machine Translated by Google

5.2.  El  mecanismo  de  construcción  iterativo 101

error,  descartará  al  menos  la  mitad  de  los  conjuntos  de  datos  en  su  colección  como  
inconsistentes  con  el  verdadero  conjunto  de  datos.
El  mecanismo  mediano  es  entonces  muy  simple:

Algoritmo  9  La  regla  de  actualización  del  mecanismo  mediano  (MM).  Ingresa  y  genera  
una  estructura  de  datos  mediana.  Se  instancia  con  una  red  α  Nα(Q)  para  una  clase  
de  consulta  Q,  y  su  estado  inicial  es  D  =  Nα(Q)
MMα,Q(Dt ,  ft ,  vt):  si  
Dt  =     entonces  
Salida  D0  ←  Nα(Q).
terminara  si

si  vt  <  ft(Dt )  entonces  
Salida  Dt+1  ←  Dt  \  {x     D :  ft(x)  ≥  ft(Dt )}.
demás

Salida  Dt+1  ←  Dt  \  {x     D :  pies(x)  ≤  pies(Dt )}.  terminara  
si

La  intuición  del  mecanismo  de  la  mediana  es  la  siguiente.  mantiene
un  conjunto  de  bases  de  datos  que  son  consistentes  con  las  respuestas  a  la  dis
preguntas  incisivas  que  ha  visto  hasta  ahora.  Cada  vez  que  recibe  una  consulta  y  una  
respuesta  que  difiere  sustancialmente  de  la  base  de  datos  real,  se  actualiza  para  
eliminar  todas  las  bases  de  datos  que  son  inconsistentes  con  la  base  de  datos.
nueva  información.  Debido  a  que  siempre  elige  su  respuesta  como  la  base  de  datos  
mediana  entre  el  conjunto  de  bases  de  datos  consistentes  que  mantiene,  ¡cada  paso  
de  actualización  elimina  al  menos  la  mitad  de  las  bases  de  datos  consistentes!  
Además,  debido  a  que  el  conjunto  de  bases  de  datos  que  elige  inicialmente  es  una  
red  α  con  respecto  a  Q,  siempre  hay  alguna  base  de  datos  que  nunca  se  elimina,  
porque  permanece  consistente  en  todas  las  consultas.  Esto  limita  la  cantidad  de  
rondas  de  actualización  que  puede  realizar  el  mecanismo.  ¿Cómo  funciona  el  
mecanismo  de  la  mediana?

Teorema  5.8.  Para  cualquier  clase  de  consultas  Q,  The  Median  Mechanism  es  un  
algoritmo  de  actualización  de  base  de  datos  T(α)  para  T(α)  =  log  |Nα(Q)|.

Prueba.  Debemos  demostrar  que  cualquier  sucesión  {(Dt ,  ft ,  vt)}t=1,...,L  con  la  
propiedad  de  que  |f  t  (Dt )  −  f  L   t (x)|  >  α  y  |vt  −  f t
(x)|  <  α  no  puede  tener
>  log  |Nα(Q)|.  Primero  observe  que  debido  a  que  D0  =  Nα(Q)  es  una  red  α
Machine Translated by Google

102 generalizaciones

para  Q,  por  definición,  hay  al  menos  una  y  tal  que  y     Dt  para  todo  t  (Recuerde  que  la  
regla  de  actualización  solo  se  invoca  en  consultas  con  un  error  de  al  menos  α.  Como  se  
garantiza  que  habrá  una  base  de  datos  y  que  tiene  un  error  menor  que  α  en  todas  las  
consultas,  nunca  se  elimina  con  un  paso  de  actualización).  Así,  siempre  podemos  
responder  consultas  con  Dt  y  para  todo  t,  |Dt  |  ≥  1.  A,   continuación  observe  que  para  cada  
t,  |Dt  |  ≤  |Dt−1  |/2.  Esto  se  debe  a  que  cada  paso  de  actualización  elimina  al  menos  la  mitad  
de  los  elementos:  todos  los  elementos  al  menos  tan  grandes  como  el  elemento  mediano  
en  Dt  con  respecto  a  la  consulta  ft .  Por  lo  tanto,  después  de  los  pasos  de  actualización  de  
L
L ,  |DL|  ≤  1/2  ∙  |Nα(Q)|.
Ajuste  L  >  log  |Nα(Q)|  da  |DL|  <  1,  una  contradicción.

Observación  5.2.  Para  las  clases  de  consultas  lineales  Q,  podemos  referirnos  al  límite  
superior  de  Nα(Q)  dado  en  el  Teorema  4.2  para  ver  que  el  Mecanismo  de  la  Mediana  es  
un  algoritmo  de  actualización  de  la  base  de  datos  T(α)  para  T(α)  =  log  |Q|  registro  |X  |/α2 .  
Esto  es  peor  que  el  límite  que  le  dimos  al  algoritmo  de  pesos  multiplicativos  por  un  factor  
de  log  |Q|.  Por  otro  lado,  nada  en  el  algoritmo  del  mecanismo  mediano  es  específico  para  
consultas  lineales:  funciona  igual  de  bien  para  cualquier  clase  de  consultas  que  admita  una  
red  pequeña.  Podemos  aprovechar  este  hecho  para  consultas  no  lineales  de  baja  
sensibilidad.

Tenga  en  cuenta  que  si  queremos  un  mecanismo  que  prometa  privacidad  (ε,  δ)  para  
δ  >  0,  ni  siquiera  necesitamos  una  red  particularmente  pequeña.  De  hecho,  la  red  trivial  
que  simplemente  incluye  todas  las  bases  de  datos  de  tamaño  x1  será  suficiente:

Teorema  5.9.  Para  cada  clase  de  consultas  Q  y  cada  α  ≥  0,  existe  una  red  α  para  bases  de  
datos  de  tamaño  x1  =  n  de  tamaño  Nα(Q)  ≤  |X  |n .

Prueba.  Simplemente  podemos  dejar  que  Nα(Q)  sea  el  conjunto  de  todas  las  |X  |n  bases  
de  datos  y  de  tamaño  y1  =  n.  Entonces,  para  todo  x  tal  que  x1  =  n,  tenemos  x     Nα(Q),  y  
así  claramente:  miny Nα(Q)  maxf Q  |f(x)  −  f(y)|  =  0.

Podemos  usar  este  hecho  para  obtener  algoritmos  de  liberación  de  consultas  para  
consultas  arbitrarias  de  baja  sensibilidad,  no  solo  para  consultas  lineales.  Aplicando  el  
Teorema  5.7  a  la  cota  anterior,  encontramos:
Machine Translated by Google

5.2.  El  mecanismo  de  construcción  iterativo 103

Teorema  5.10.  Utilizando  el  mecanismo  de  la  mediana,  junto  con  el  mecanismo  
exponencial  distintivo,  el  mecanismo  IC  es  (ε,  δ)­  diferencialmente  privado  y  con  
probabilidad  de  al  menos  1  −  β,  el  algoritmo  IC  devuelve  una  base  de  datos  y  tal  que:  
maxf Q  |f( x)−f(y)|  ≤  α  donde:

2|Q|n  registro  |X|  
16  registro  |X  |   1  δ
registro
β
registro  α  ≤ ,
√  no

donde  Q  puede  ser  cualquier  familia  de  consultas  de  sensibilidad  1/n ,  no  necesariamente  
lineal.

Prueba.  Esto  se  sigue  simplemente  combinando  los  teoremas  5.8  y  5.9  para  encontrar  
que  el  mecanismo  de  la  mediana  es  un  algoritmo  de  actualización  de  base  de  datos  T(α)  
para  T(α)  =  n  log  |X  |  para  bases  de  datos  de  tamaño  x1  =  n  para  cada  α  >  0  y  cada  
clase  de  consultas  Q.  Reemplazando  esto  en  el  Teorema  5.7  se  obtiene  el  límite  deseado.

Tenga  en  cuenta  que  este  límite  es  casi  tan  bueno  como  el  que  pudimos  lograr  para  
el  caso  especial  de  consultas  lineales  en  el  teorema  4.15.  Sin  embargo,  a  diferencia  del  
caso  de  las  consultas  lineales,  debido  a  que  las  consultas  arbitrarias  pueden  no  tener  
redes  α  que  son  significativamente  más  pequeñas  que  la  red  trivial  utilizada  aquí,  no  
podemos  obtener  garantías  de  precisión  no  trivial  si  queremos  (ε,  0)  ­  privacidad  
diferencial .
El  siguiente  algoritmo  de  actualización  de  la  base  de  datos  que  presentamos  es  
nuevamente  para  consultas  lineales,  pero  logra  límites  incomparables  a  los  del  algoritmo  
de  actualización  de  la  base  de  datos  de  pesos  multiplicativos.  Se  basa  en  el  algoritmo  
Perceptron  del  aprendizaje  en  línea  (al  igual  que  los  pesos  multiplicativos  se  derivan  del  
algoritmo  de  cobertura  del  aprendizaje  en  línea).  Como  el  algoritmo  es  para  consultas  
lineales,  tratamos  cada  consulta  ft     Q  como  un  vector  ft     [0,  1]|X|.  Tenga  en  cuenta  
que  en  lugar  de  hacer  una  actualización  multiplicativa,

Algoritmo  10  La  regla  de  actualización  de  Perceptron
t
Perceptrónα,Q(x ,  pies ,  vt):
t
Si:  x =     entonces:  salida  x t+1   =  0|X|
t t+1 t  =  x − α
De  lo  contrario  si:  ft(x )  >  vt  entonces:  salida  x ∙  pies
|X|  
t t+1 =  x t  +   α
De  lo  contrario  si:  ft(x )  ≤  vt  entonces:  salida  x ∙  pies
|X|
Machine Translated by Google

104 generalizaciones

como  en  el  algoritmo  de  actualización  de  la  base  de  datos  MW,  aquí  hacemos  una  
actualización  aditiva.  En  el  análisis,  veremos  que  este  algoritmo  de  actualización  de  la  
base  de  datos  tiene  una  dependencia  exponencialmente  peor  (en  comparación  con  los  
pesos  multiplicativos)  del  tamaño  del  universo,  pero  una  dependencia  superior  del  tamaño  
de  la  base  de  datos.  Por  lo  tanto,  logrará  un  mejor  rendimiento  para  las  bases  de  datos  
que  son  grandes  en  comparación  con  el  tamaño  del  universo  de  datos  y  un  peor  
rendimiento  para  las  bases  de  datos  que  son  pequeñas  en  comparación  con  el  tamaño  
del  universo  de  datos.

Teorema  5.11.  Perceptron  es  un  algoritmo  de  actualización  de  base  de  datos  T(α)  para:

2
x2 ∙ |X  |  .
T(a)  =
x1 α2

Prueba.  A  diferencia  de  los  pesos  multiplicativos,  será  más  conveniente  analizar  el  
algoritmo  de  Perceptron  sin  normalizar  la  base  de  datos  para  que  sea  una  distribución  de  
probabilidad  y  luego  probar  que  es  una  base  de  datos  T(α )  |X|
2  
X 2
algoritmo  de  actualización  para  T(α )  =  α2 .  Reemplazando  α  =  αx1  completará  la  prueba.  
Recuerde  que  dado  que  cada  consulta  ft  es  lineal,  podemos  ver  ft     [0,  1]|X|  como  un  
vector  con  la  evaluación  de  ft(x)  siendo  igual  a  ft ,  Debemos  mostrar  que  cualquier  
X.
t
secuencia  {(x  erty  que  |ft(x  L  >  Usamos  un   ,  ft ,  vt)}t=1,...,L  con  la  utilería
t
argumento  potencial  )  −  pies(x)|  >  α  y  |vt  −  ft(x)|  <  α  no  puede  tener
X 2 |X|  
2  
para   α2 .
mostrar  que  para  cada  t  =  1,  2, . . . ,  L,  t+1  está  significativamente  más  cerca  de  x  
X que  de  la  norma  x  de  la  base  de  datos  x  −  x t
.  Específicamente,  nuestra  función  potencial  
2  ción  es  la  L t
2 , definida  como

= 2
x(yo) .
2  
X
2
i X

Observe  que  x  −  x  2 1  2 =  x 2   1  desde  x =  0,  yx 2  


2 2
≥  0.  Por  lo  tanto,  
basta  con  mostrar  que  en  cada  paso,  el  potencial  disminuye  en  α  2/|X  |.
t
Analizamos  el  caso  donde  ft(x  el  análisis  para   , contrario  será  similar.  Sea  Rt  =  x  −  
)  >  vetl  caso  
x.  Observe  que  en  este  caso  tenemos t

t t
pies(R )  =  pie(x )  −  pies(x)  ≥  α .
Machine Translated by Google

5.2.  El  mecanismo  de  construcción  iterativo 105

Ahora  podemos  analizar  la  caída  de  potencial.
t  2
R  2 −  R  2 t+1  2 =  R  2 t  2 −  R t
−  (α /|X  |)  ∙  pies  t  
2  
2

= t
((R (i))2  −  (R (i)  −  (α /|X  |)  ∙  ft(i))2 )
i X

2α 2a  _
2
= ∙  R t (i)ft(i)  −  ft(i)
i X
|X  | |X  |2
2α t
2a  _
2
= )  ­ pies(i)
|X  |pies(R |X  |2 i X
2α   t
2a  _
≥ )  ­ |X  |
|X  |pies(R |X  |2
2   2a  _ 2a  _
2α  ≥
− =
|X  | |X  | |X  |.
2  
Esto  limita  el  número  de  pasos  por  x  prueba. 2 |X  |/α2 ,  y  completa  el

Ahora  podemos  sustituir  este  límite  en  el  Teorema  5.7  para  obtener  el  siguiente
Límite  inferior  en  el  mecanismo  de  construcción  iterativo:

Teorema  5.12.  Usando  el  algoritmo  de  actualización  de  la  base  de  datos  del  perceptrón,  
junto  con  el  mecanismo  exponencial  distintivo,  el  mecanismo  IC  es  (ε,  δ)­
diferencialmente  privado  y  con  una  probabilidad  de  al  menos  1  −  β,  el  algoritmo  IC  
devuelve  una  base  de  datos  y  tal  que:  maxf Q  |  f(x)−f(y)|  ≤  α  donde:

2
2)
4  √  4  x2  (4|X  |  ln(1/δ))1/4  log(2|QX|∙x  √  x1  donde  
β Q  
α  ≤ ,
es  una  

clase  de  consultas  lineales.

Si  la  base  de  datos  x  representa  el  conjunto  de  aristas  de  un  gráfico,  por  ejemplo,  
tendremos  xi     [0,  1]  para  todo  i,  y  así:

x2 1 3/4
≤ .
x1 x1

Por  lo  tanto,  el  algoritmo  de  actualización  de  la  base  de  datos  de  perceptrones  superará  al  
algoritmo  de  actualización  de  la  base  de  datos  de  pesos  multiplicativos  en  gráficos  densos.
Machine Translated by Google

106 generalizaciones

5.2.2  Mecanismos  de  construcción  iterativos  y  algoritmos  en  línea

En  esta  sección,  generalizamos  el  marco  de  construcción  iterativo  a  la  configuración  en  
línea  mediante  el  uso  del  algoritmo  NumericSparse.  El  algoritmo  de  pesos  multiplicativos  
en  línea  que  vimos  en  el  último  capítulo  es  una  instancia  de  este  enfoque.  Una  forma  de  
ver  el  algoritmo  en  línea  es  que  el  algoritmo  NumericSparse  está  sirviendo  como  el  
distintivo  privado  en  el  marco  de  IC,  pero  que  el  "trabajo  duro"  de  distinguir  está  siendo  
impuesto  al  usuario  desprevenido.  Es  decir:  si  el  usuario  hace  una  consulta  que  no  sirve  
como  una  buena  consulta  distintiva,  este  es  un  buen  caso.  No  podemos  usar  el  algoritmo  
de  actualización  de  la  base  de  datos  para  actualizar  nuestra  hipótesis,  ¡pero  no  es  
necesario!  Por  definición,  la  hipótesis  actual  es  una  buena  aproximación  a  la  base  de  
datos  privada  con  respecto  a  esta  consulta.  Por  otro  lado,  si  el  usuario  hace  una  consulta  
para  la  cual  nuestra  hipótesis  actual  no  es  una  buena  aproximación  a  la  verdadera  base  
de  datos,  entonces,  por  definición,  el  usuario  ha  encontrado  una  buena  consulta  distintiva,  
y  nuevamente  estamos  en  un  buen  caso:  podemos  ejecutar  ¡el  algoritmo  de  actualización  
de  la  base  de  datos  para  actualizar  nuestra  hipótesis!

La  idea  de  este  algoritmo  es  muy  simple.  Usaremos  un  algoritmo  de  actualización  de  
base  de  datos  para  mantener  públicamente  una  base  de  datos  de  hipótesis.  Cada  vez  que  
llega  una  consulta,  la  clasificaremos  como  consulta  difícil  o  consulta  fácil.  Una  consulta  
fácil  es  aquella  para  la  cual  la  respuesta  dada  por  la  base  de  datos  de  hipótesis  es  
aproximadamente  correcta,  y  no  se  necesita  ningún  paso  de  actualización:  si  sabemos  
que  una  consulta  dada  es  fácil,  simplemente  podemos  calcular  su  respuesta  en  la  base  
de  datos  de  hipótesis  conocida  públicamente  en  lugar  de  en  la  base  de  datos  privada  y  no  
incurre  en  pérdida  de  privacidad.  Si  sabemos  que  una  consulta  es  difícil,  podemos  calcular  
y  publicar  su  respuesta  usando  el  mecanismo  de  Laplace  y  actualizar  nuestra  hipótesis  
usando  el  algoritmo  de  actualización  de  la  base  de  datos.
De  esta  manera,  nuestra  pérdida  de  privacidad  total  no  es  proporcional  a  la  cantidad  de  
consultas  realizadas,  sino  proporcional  a  la  cantidad  de  consultas  difíciles  realizadas.  
Debido  a  que  el  algoritmo  de  actualización  de  la  base  de  datos  garantiza  que  no  será  
necesario  realizar  muchos  pasos  de  actualización,  podemos  estar  seguros  de  que  la  
pérdida  total  de  privacidad  será  pequeña.

Teorema  5.13.  OnlineIC  es  (ε,  δ)­diferencialmente  privado.
Machine Translated by Google

5.2.  El  mecanismo  de  construcción  iterativo 107

Algoritmo  11  El  mecanismo  de  construcción  iterativo  en  línea  parametrizado  por  un  
algoritmo  U  de  actualización  de  base  de  datos  T(α).  Toma  como  entrada  una  base  de  
datos  privada  x,  parámetros  de  privacidad  ε,  δ,  parámetros  de  precisión  α  y  β,  y  un  flujo  de  
consultas  {fi}  que  se  puede  elegir  de  forma  adaptativa  de  una  clase  de  consultas  Q.  
Produce  un  flujo  de  respuestas  {ai}.
UCI  en  línea  (x,  {fi},  ε,  δ,  α,  β)
Sea  c  ←  T(α),  si  δ  
=  0  entonces
Sea  T  ← 18c(registro(2|Q|)+registro(4c/
β))  ||x||1
demás
2   4c  
(2+32√  2)  c  registro (registro  k+registro )
Sea  T  ← δ β
||x||1
terminara  si

Initialize  NumericSparse(x,  {f  {f  Sea  t  ←  i },  T,  c,  ε,  δ)  con  un  flujo  de  consultas
0,  i },  generando  un  flujo  de  respuestas  a yo  _

D0     x  tal  que  D0  =  1/|X  |  para  todo  i     [|X  |].  


i para  cada  consulta  fi  do  Sea  f

2i−1 (∙)  =  fi(∙)  −  fi(Dt ).
Sea  f   2i (∙)  =  fi(Dt )  −  fi(∙)  =     y  
si  a  2i−1 a  =     entonces  2i

Sea  ai  =  fi(Dt )
demás

si  un  
2i−1   R  entonces

Sea  ai  =  fi(Dt )  +  a 2i−1
demás

Sea  ai  =  fi(Dt )  −  a  fin  si 2i

Sea  Dt+1  =  U(Dt ,  fi ,  ai)
Sea  t  ←  t  +  1.  
termina  si
fin  para

Prueba.  Esto  se  deriva  directamente  del  análisis  de  privacidad  de  Numeric  Sparse,  porque  
el  algoritmo  OnlineIC  accede  a  la  base  de  datos  solo  a  través  de  NumericSparse.
Machine Translated by Google

108 generalizaciones

Teorema  5.14.  Para  δ  =  0,  con  probabilidad  de  al  menos  1  −  β,  para  todas  las  
consultas  fi ,  OnlineIC  devuelve  una  respuesta  ai  tal  que  |fi(x)  −  ai  |  ≤  3α  para  
cualquier  α  tal  que:

9T(α)(log(2|Q|)  +  log(4T(α)/β))  α  ≥  ||x||1
.

Prueba.  Recuerde  que  por  el  Teorema  3.28,  dadas  k  consultas  y  un  número  máximo  
de  consultas  por  encima  del  umbral  de  c,  Sparse  Vector  es  (α,  β)­  preciso  para:

9c(log  k  +  log(4c/β))  ||  x||
α  = .
1  
Aquí  tenemos  c  =  T(α)  yk  =  2|Q|.  Tenga  en  cuenta  que  hemos  establecido  el  umbral  
T  =  2α  en  el  algoritmo.  Primero  supongamos  que  el  algoritmo  de  vector  disperso  no  
se  detiene  prematuramente.  En  este  caso,  por  el  teorema  de  la  utilidad,  excepto  con  
probabilidad  a  lo  sumo  β,  tenemos  para  todo  i  tal  que  ai  =  fi(Dt ):  |fi(D)−fi(Dt )|  ≤  T  +α  
=  3α,  como  queríamos.  Además,  para  todo  i  tal  que  ai  =  a
2i−1 o  ai  =  a  2i , tenemos  |fi(D)  −  a  Note  
i |  ≤  α.
que  también  tenemos  para  todo  i  tal  que  ai  =  a  |fi(D)  −  fi(D )|  2i−1 o  ai  =  a :  2i
≥  T  −  α  =  α,  ya  que  T  =  2α.  Por  lo  tanto,  fi ,  ai  forman  un  paso  válido  en  una  secuencia  
de  actualización  de  base  de  datos.  Por  lo  tanto,  puede  haber  como  máximo  c  =  T(α)  
tales  pasos  de  actualización,  por  lo  que  el  algoritmo  de  vector  disperso  no  se  detiene  
prematuramente.

De  manera  similar,  podemos  probar  un  límite  correspondiente  para  (ε,  δ)­privacidad.

Teorema  5.15.  Para  δ  >  0,  con  probabilidad  de  al  menos  1  −  β,  para  todas  las  
consultas  fi ,  OnlineIC  devuelve  una  respuesta  ai  tal  que  |fi(x)  −  ai  |  ≤  3α  para  
cualquier  α  tal  que:

2  
( √  512  +  1)(ln(2|Q|)  +  ln  4T(α) )  T(a)  ln  ||x||1 δ
β
α  ≥

Podemos  recuperar  los  límites  que  demostramos  para  los  pesos  multiplicativos  
en  línea  recordando  que  el  algoritmo  de  actualización  de  la  base  de  datos  MW  es  un  
4  log  |X|
Algoritmo  de  actualización  de  la  base  de  datos  T(α)  para  T(α)  = α2 .  De  manera  más  
general,  tenemos  que  cualquier  algoritmo  en  el  marco  de  construcción  iterativo  se  
puede  convertir  en  un  algoritmo  que  funciona  en  el  entorno  interactivo  sin  pérdida  de  
precisión.  (es  decir,  igualmente  podríamos  conectar
Machine Translated by Google

5.3.  Conexiones 109

el  algoritmo  de  actualización  de  la  base  de  datos  del  mecanismo  mediano  o  el  
algoritmo  de  actualización  de  la  base  de  datos  Perceptron,  o  cualquier  otro).  De  
manera  tentadora,  esto  significa  que  (al  menos  en  el  marco  de  construcción  iterativo),  
no  hay  brecha  en  la  precisión  alcanzable  en  los  modelos  de  publicación  de  consultas  
en  línea  y  fuera  de  línea,  a  pesar  de  que  el  modelo  en  línea  parece  que  debería  ser  
más  difícil.

5.3  Conexiones

5.3.1  Mecanismo  de  construcción  iterativo  y  redes  α

El  mecanismo  de  construcción  iterativa  se  implementa  de  manera  diferente  al  
mecanismo  de  red,  pero  en  el  fondo,  su  análisis  aún  se  basa  en  la  existencia  de  
pequeñas  redes  α  para  las  consultas  C.  Esta  conexión  es  explícita  para  el  mecanismo  
de  la  mediana,  que  está  parametrizado  por  una  red ,  pero  se  mantiene  para  todos  los  
algoritmos  de  actualización  de  bases  de  datos.  Tenga  en  cuenta  que  la  salida  de  la  
base  de  datos  por  el  algoritmo  iterativo  de  construcción  de  la  base  de  datos  está  
completamente  determinada  por  las  funciones  como  máximo  T  f1, . . . ,  fT     Q  
alimentado  en  él,  según  lo  seleccionado  por  el  distintivo  mientras  se  ejecuta  el  
algoritmo.  Cada  una  de  estas  funciones  puede  indexarse  como  máximo  log  |Q|  bits,  
por  lo  que  cada  salida  de  la  base  de  datos  por  el  mecanismo  se  puede  describir  usando  solo  T  log  |Q|  pedacitos
En  otras  palabras,  el  propio  algoritmo  IC  describe  una  red  α  para  Q  de  tamaño  como  
máximo  Nα(Q)  ≤  |Q|T .  Para  obtener  el  error  α  usando  el  algoritmo  de  Pesos  
Multiplicativos  como  un  constructor  de  base  de  datos  iterativo,  es  suficiente  por  el  
Teorema  4.10  tomar  T  =  4  log  |X  |/α2 ,  lo  que  nos  da  Nα(Q)  ≤  |Q|4  log  |X|/  α2  =  |X  |4  
log  |Q|/α2 .  Tenga  en  cuenta  que  hasta  el  factor  
de  4  en  el  exponente,  este  es  
exactamente  el  límite  que  dimos  usando  una  red  α  diferente  en  el  teorema  4.2.  Allí,  
construimos  una  red  α  considerando  todas  las  colecciones  de  puntos  de  datos  log  |
Q|/α2 ,  cada  uno  de  los  cuales  podría  indexarse  por  log  |X  |  pedacitos  Aquí,  
consideramos  todas  las  colecciones  de  funciones  log  |X  |/α2  en  Q,  cada  una  de  las  
cuales  podría  ser  indexada  por  log  |Q|  pedacitos  ¡En  ambos  sentidos,  tenemos  redes  
α  del  mismo  tamaño!  De  hecho,  también  podríamos  ejecutar  el  mecanismo  Net  
utilizando  la  red  α  definida  por  el  mecanismo  IC,  para  obtener  los  mismos  límites  de  
utilidad.  En  cierto  sentido,  una  red  es  el  "dual"  de  la  otra:  una  está  construida  de  
bases  de  datos,  la  otra  está  construida  de  consultas,  pero  ambas  redes  son  del  
mismo  tamaño.  Veremos  el  mismo  fenómeno  en  el
Machine Translated by Google

110 generalizaciones

Algoritmo  de  "impulso  para  consultas"  en  la  siguiente  sección:  también  responde  a  una  
gran  cantidad  de  consultas  lineales  utilizando  una  estructura  de  datos  que  está  
completamente  determinada  por  una  pequeña  "red"  de  consultas.

5.3.2  Aprendizaje  agnóstico

Una  forma  de  ver  lo  que  está  haciendo  el  mecanismo  IC  es  que  está  reduciendo  el  
problema  aparentemente  más  difícil  (teóricamente  de  la  información)  de  la  liberación  de  
consultas  al  problema  más  fácil  de  distinguir  o  aprender  consultas.  Recuerde  que  el  
problema  distintivo  es  encontrar  la  consulta  f     Q  que  varía  más  entre  dos  bases  de  datos  
x  e  y.  Recuerde  que  en  el  aprendizaje,  el  alumno  recibe  una  colección  de  ejemplos  
etiquetados  (x1,  y1), . . . ,(xm,  ym)     X  ×  {0,  1},  donde  yi     {0,  1}  es  la  etiqueta  de  xi .

Si  consideramos  que  x  representa  los  ejemplos  positivos  en  un  gran  conjunto  de  datos  e  y  
representa  los  ejemplos  negativos  en  el  mismo  conjunto  de  datos,  entonces  podemos  ver  
que  el  problema  de  distinguir  es  exactamente  el  problema  del  aprendizaje  agnóstico.  Es  
decir,  un  distinguidor  encuentra  la  consulta  que  mejor  etiqueta  los  ejemplos  positivos,  
incluso  cuando  no  hay  ninguna  consulta  en  la  clase  que  garantice  etiquetarlos  perfectamente  
(observe  que  en  esta  configuración,  el  mismo  ejemplo  puede  aparecer  tanto  con  un  
positivo  como  con  un  etiqueta  negativa,  por  lo  que  la  reducción  todavía  tiene  sentido  
incluso  cuando  x  e  y  no  son  disjuntos).  Intuitivamente,  el  aprendizaje  debería  ser  un  
problema  de  información  teóricamente  más  fácil  que  la  liberación  de  consultas.  El  problema  
de  liberación  de  consultas  requiere  que  liberemos  el  valor  aproximado  de  cada  consulta  f  
en  alguna  clase  Q,  evaluada  en  la  base  de  datos.  Por  el  contrario,  el  problema  de  
aprendizaje  agnóstico  solo  pide  que  devolvamos  la  evaluación  y  la  identidad  de  una  sola  
consulta:  la  consulta  que  mejor  etiqueta  el  conjunto  de  datos.  Está  claro  que  la  información  
teóricamente,  el  problema  de  aprendizaje  no  es  más  difícil  que  el  problema  de  liberación  
de  consulta.  Si  podemos  resolver  el  problema  de  liberación  de  consultas  en  las  bases  de  
datos  x  e  y,  entonces  podemos  resolver  el  problema  de  distinción  sin  más  acceso  al  
verdadero  conjunto  de  datos  privado,  simplemente  verificando  las  evaluaciones  aproximadas  
de  cada  consulta  f     Q  en  x  e  y  que  se  realizan  disponible  para  nosotros  con  nuestro  
algoritmo  de  liberación  de  consultas.  Lo  que  hemos  mostrado  en  esta  sección  es  que  lo  
contrario  también  es  cierto:  dado  el  acceso  a  un  algoritmo  de  aprendizaje  agnóstico  o  de  
distinción  privada,  podemos  resolver  el  problema  de  liberación  de  consultas  haciendo  un  
pequeño  (es  decir,  solo  log  |X  |/  α2 )  número  de  llamadas  a  la
Machine Translated by Google

5.3.  Conexiones 111

algoritmo  distintivo  privado,  sin  más  acceso  al  conjunto  de  datos  privado.

¿Cuáles  son  las  implicaciones  de  esto?  Nos  dice  que  hasta  factores  pequeños,  la  
complejidad  de  la  información  del  aprendizaje  agnóstico  es  igual  a  la  complejidad  de  la  
información  de  la  liberación  de  consultas.  Computacionalmente,  la  reducción  es  tan  
eficiente  como  nuestro  algoritmo  de  actualización  de  la  base  de  datos,  que,  dependiendo  
de  nuestra  configuración  y  algoritmo,  puede  o  no  ser  eficiente.  Pero  nos  dice  que  cualquier  
tipo  de  límite  teórico  de  la  información  que  podamos  probar  para  un  problema  puede  
transferirse  al  otro  problema,  y  viceversa.
Por  ejemplo,  la  mayoría  de  los  algoritmos  que  hemos  visto  (¡y  la  mayoría  de  los  algoritmos  
que  conocemos!)  finalmente  acceden  al  conjunto  de  datos  realizando  consultas  lineales  
a  través  del  mecanismo  de  Laplace.  Resulta  que  cualquier  algoritmo  de  este  tipo  puede  
verse  como  operando  dentro  del  llamado  modelo  de  consulta  estadística  de  acceso  a  
datos,  definido  por  Kearns  en  el  contexto  del  aprendizaje  automático.  Pero  el  aprendizaje  
agnóstico  es  muy  difícil  en  el  modelo  de  consulta  estadística:  incluso  ignorando  las  
consideraciones  computacionales,  no  existe  un  algoritmo  que  pueda  realizar  solo  un  
número  polinomial  de  consultas  al  conjunto  de  datos  y  aprender  de  forma  agnóstica  
conjunciones  a  errores  subconstantes.  Para  la  liberación  de  consultas,  esto  significa  que,  
en  el  modelo  de  consulta  estadística,  no  existe  un  algoritmo  para  liberar  conjunciones  (es  
decir,  tablas  de  contingencia)  que  se  ejecute  en  un  polinomio  de  tiempo  en  1/α,  donde  α  
es  el  nivel  de  precisión  deseado.  Si  hay  un  algoritmo  de  publicación  de  consultas  que  
preserva  la  privacidad  con  esta  garantía  de  tiempo  de  ejecución,  debe  operar  fuera  del  
modelo  SQ  y,  por  lo  tanto,  debe  verse  muy  diferente  de  los  algoritmos  conocidos  
actualmente.
Debido  a  que  las  garantías  de  privacidad  se  componen  de  forma  lineal,  esto  también  
nos  dice  que  (hasta  el  posible  factor  de  log  |X  |/α2 )  no  deberíamos  esperar  poder  
aprender  de  forma  privada  con  una  precisión  significativamente  mayor  que  la  que  
podemos  realizar  de  forma  privada  y  viceversa. :  un  algoritmo  preciso  para  un  problema  
automáticamente  nos  da  un  algoritmo  preciso  para  el  otro.

5.3.3  Una  visión  teórica  del  juego  de  la  liberación  de  consultas

En  esta  sección,  hacemos  un  breve  recorrido  por  la  teoría  de  juegos  para  interpretar  
algunos  de  los  algoritmos  de  liberación  de  consultas  que  tenemos  (y  veremos).  
Consideremos  una  interacción  entre  dos  jugadores  adversarios,  Alice  y  Bob.
Machine Translated by Google

112 generalizaciones

Alice  tiene  un  conjunto  de  acciones  que  podría  realizar,  A,  y  Bob  tiene  un  conjunto  de  
acciones  B.  El  juego  se  desarrolla  de  la  siguiente  manera:  simultáneamente,  Alice  elige  
una  acción  a     A  (posiblemente  al  azar)  y  Bob  elige  una  acción  b     B  (posiblemente  al  
azar).  Alice  experimenta  un  costo  c(a,  b)     [−1,  1].
Alice  desea  jugar  para  minimizar  este  costo,  y  como  él  es  adversario,  Bob  desea  jugar  
para  maximizar  este  costo.  Esto  es  lo  que  se  llama  un  juego  de  suma  cero.

Entonces,  ¿cómo  debería  jugar  Alice?  Primero,  consideramos  una  pregunta  más  fácil.
Supongamos  que  ponemos  en  desventaja  a  Alice  y  le  exigimos  que  anuncie  su  estrategia  
aleatoria  a  Bob  antes  de  que  la  juegue,  y  permitimos  que  Bob  responda  de  manera  óptima  
utilizando  esta  información.  Si  Alice  anuncia  que  dibujará  alguna  acción  a     A  de  acuerdo  
con  una  distribución  de  probabilidad  DA,  entonces  Bob  responderá  de  manera  óptima  para  
maximizar  el  costo  esperado  de  Alice.  Es  decir,  Bob  jugará:

b =  argumento  máx  Ea DA  [c(a,  b)].
b B

Por  lo  tanto,  una  vez  que  Alice  anuncia  su  estrategia,  sabe  cuál  será  su  costo,  ya  que  Bob  
podrá  responder  de  manera  óptima.  Por  lo  tanto,  Alice  deseará  jugar  una  distribución  
sobre  acciones  que  minimice  su  costo  una  vez  que  Bob  responda.  Es  decir,  Alice  deseará  
reproducir  la  distribución  DA  definida  como:

DA  =  argumento  mínimo máximo Ea D[c(a,  b)].


D ∆A  b B

Si  juega  DA  (y  Bob  responde  de  manera  óptima),  Alice  experimentará  el  costo  más  bajo  
posible  que  pueda  garantizar,  con  el  hándicap  de  que  debe  anunciar  su  estrategia  con  
anticipación.  Tal  estrategia  para  Alice  se  llama  estrategia  min­max .  Llamemos  al  costo  
que  logra  Alicia  cuando  A:  juega  una  estrategia  mínima­máxima  el  valor  de  Alicia  para  el  
juego,  denotado  v

A  =  mín  v  
máx Ea D[c(a,  b)].
D ∆A  b B

De  manera  similar,  podemos  preguntar  qué  debería  jugar  Bob  si,  en  cambio,  lo  colocamos  
en  desventaja  y  lo  obligamos  a  anunciar  su  estrategia  primero  a  Alice.
Si  hace  esto,  jugará  la  base  de  datos  de  distribución  sobre  las  acciones  b     B  que  
maximiza  el  costo  esperado  de  Alice  cuando  Alice  responde  de  manera  óptima.
Llamamos  a  tal  estrategia  DB  para  Bob  una  estrategia  max­min .  podemos  definir
Machine Translated by Google

5.3.  Conexiones 113

El  valor  de  Bob  para  el  juego,  v  B,  como  el  costo  máximo  que  puede  asegurar  mediante  cualquier  
estrategia  que  pueda  anunciar:

v B =  máx mín   Mib D[c(a,  b)].


D ∆B  a A

B
Claramente,  v. ≤  v  A,  ya  que  anunciar  la  estrategia  de  uno  es  solo  una  desventaja.
Uno  de  los  resultados  fundamentales  de  la  teoría  de  juegos  es  Von­Neumann  =  v  B.  2
A
Teorema  min­max,  que  establece  que  en  cualquier  juego  de  suma  cero,  v
En  otras  palabras,  no  hay  ninguna  desventaja  en  "ir  primero"  en  un  juego  de  suma  cero,  y  si  los  
jugadores  juegan  de  manera  óptima,  podemos  predecir  exactamente  el  costo  de  Alice:
A  
sera  v segundo  =  v
≡  v,  al  que  nos  referimos  como  el  valor  del  juego.

Definición  5.7.  En  un  juego  de  suma  cero  definido  por  los  conjuntos  de  acciones  A,  B  y  una  función  
de  costo  c :  A  ×  B  →  [−1,  1],  sea  v  el  valor  del  juego.  Una  estrategia  min­max  aproximada  de  α  es  
una  distribución  DA  tal  que:

máx   Ea DA  [c(a,  b)]  ≤  v  +  α
b B

De  manera  similar,  una  estrategia  máxima­mínima  aproximada  de  α  es  una  base  de  datos  de  
distribución  tal  que:
min   Mib DB  [c(a,  b)]  ≥  v  −  α
a A

Si  DA  y  DB  son  estrategias  min­max  y  max­min  aproximadas  en  α  respectivamente,  entonces  
decimos  que  el  par  (DA,  DB)  es  un  equilibrio  de  Nash  aproximado  en  α  del  juego  de  suma  cero.

Entonces,  ¿cómo  se  relaciona  esto  con  la  liberación  de  consultas?

Considere  un  juego  de  suma  cero  particular  adaptado  al  problema  de  lanzar  un  conjunto  de  
consultas  lineales  Q  sobre  un  universo  de  datos  X.  Primero,  suponga  sin  pérdida  de  generalidad  
que  para  cada  f     Q,  existe  una  consulta  ̂f     Q  tal  que  ̂f  =  1−f  (es  decir,  para  cada  χ     X,  ̂f(χ)  =  
1−f(χ)).  Defina  el  conjunto  de  acciones  de  Alice  como  A  =  X  y  defina  el  conjunto  de  acciones  de  
Bob  como  B  =  Q.  Nos  referiremos  a  Alice  como  el  jugador  de  la  base  de  datos  ya  Bob  como  el  

jugador  de  consultas.
Finalmente,  fijando  una  verdadera  base  de  datos  privada  x  normalizada  para  ser  una  distribución  
de  probabilidad  (es  decir,  x1  =  1),  defina  la  función  de  costo  c :  A×B  →  [−1,  1]

2  Se  cita  a  Von  Neumann  diciendo:  “Hasta  donde  puedo  ver,  no  podría  haber  teoría  
de  juegos...  sin  ese  teorema. . .  Pensé  que  no  había  nada  que  valiera  la  pena  publicar  
hasta  que  se  demostró  el  Teorema  Minimax” [10].
Machine Translated by Google

114 generalizaciones

ser:  c(χ,  f)  =  f(χ)  −  f(x).  Llamemos  a  este  juego  el  "Juego  de  liberación  de  consultas".

Comenzamos  con  una  simple  observación:

Proposición  5.16.  El  valor  del  juego  de  liberación  de  consulta  es  v  =  0.

Prueba.  Primero  mostramos  que  v   A =  v  ≤  0.  Considere  lo  que  sucede  si  dejamos
la  estrategia  del  jugador  de  la  base  de  datos  corresponde  a  la  verdadera  base  de  datos:  DA  =  x.
Entonces  nosotros  tenemos:

una  v ≤  f B   Eχ DA  [c(χ,  f)]


máx.

|X|  
=  máx   f(χi)  ∙  xi  −  f(x)
f B
yo=1

=  f(x)  −  f(x)
=  0.

A  continuación  observamos  que  v  =  v B ≥  0.  Por  punto  de  contradicción,  suponga  que  v  <  0.  

En  otras  palabras,  que  existe  una  distribución  DA  tal  que  para  todo  f     Q

Eχ DA  c(χ,  f)  <  0.

Aquí,  simplemente  observamos  que,  por  definición,  si  Eχ DA  c(χ,  f)  =  c  <  0,  entonces  Eχ DA  


c(χ,  ̂f)  =  −c  >  0,  lo  cual  es  una  contradicción  ya  que  ̂f     Q.

Lo  que  hemos  establecido  implica  que  para  cualquier  distribución  DA  que  sea  una  
estrategia  min­max  aproximada  de  α  para  el  jugador  de  la  base  de  datos,  tenemos  que  para  
todas  las  consultas  f     Q:  |Eχ DA  f(χ)−f(x)|  ≤  α.  En  otras  palabras,  la  distribución  DA  puede  
verse  como  una  base  de  datos  sintética  que  responde  a  cada  consulta  en  Q  con  precisión  α.

¿Qué  tal  para  las  consultas  no  lineales?  Podemos  repetir  el  mismo  argumento  anterior  si  
cambiamos  ligeramente  el  juego  de  liberación  de  consultas.  En  lugar  de  permitir  que  el  jugador  
de  la  base  de  datos  tenga  estrategias  correspondientes  a  los  elementos  del  universo  χ     X,  
¡dejamos  ,que  el  jugador  de  la  base  de  datos  tenga  estrategias  correspondientes  a  las  bases  
de  datos  mismas!  Entonces,  c(f,  y)  =  |f(x)  −  f(y)|.  No  es  difícil  ver  que  este  juego  todavía  tiene  
un  valor  de  0  y  que  las  estrategias  mínimas­máximas  aproximadas  de  α  corresponden  a  datos  
sintéticos  que  brindan  respuestas  precisas  de  α  a  las  consultas  en  Q.
Machine Translated by Google

5.4.  notas  bibliograficas 115

Entonces,  ¿cómo  calculamos  estrategias  min­max  aproximadas  en  juegos  de  
suma  cero?  ¡Hay  muchas  maneras!  Es  bien  sabido  que  si  Alice  juega  el  juego  
repetidamente,  actualizando  su  distribución  de  acciones  utilizando  un  algoritmo  de  
aprendizaje  en  línea  con  garantía  de  no  arrepentimiento  (definido  en  la  Sección  
11.2),  y  Bob  responde  en  cada  ronda  con  una  respuesta  que  maximiza  el  costo  
aproximado ,  entonces  la  distribución  de  Alice  convergerá  rápidamente  a  una  
estrategia  mínima­máxima  aproximada.  Los  pesos  multiplicativos  son  un  algoritmo  
de  este  tipo,  y  una  forma  de  entender  el  mecanismo  de  los  pesos  multiplicativos  es  
como  una  estrategia  para  que  Alice  juegue  en  el  juego  de  liberación  de  consultas  
definido  en  esta  sección.  (El  distinguidor  privado  está  jugando  aquí  el  papel  de  Bob,  
eligiendo  en  cada  ronda  la  consulta  que  corresponde  a  maximizar  aproximadamente  
el  costo  de  Alice).  El  mecanismo  de  la  mediana  es  otro  algoritmo  de  este  tipo,  para  
el  juego  en  el  que  las  estrategias  de  Alice  corresponden  a  bases  de  datos,  en  lugar  
de  elementos  del  universo,  y  también  calcula  una  solución  mínima­máxima  
aproximada  para  el  juego  de  liberación  de  consultas.
Sin  embargo,  ¡también  hay  otras  formas  de  calcular  los  equilibrios  aproximados!  
Por  ejemplo,  Bob,  el  jugador  que  consulta,  podría  jugar  el  juego  utilizando  un  
algoritmo  de  aprendizaje  sin  arrepentimiento  (como  pesos  multiplicativos),  y  Alice  
podría  responder  repetidamente  en  cada  ronda  con  una  base  de  datos  que  
minimiza  aproximadamente  los  costos.  En  este  caso,  el  promedio  de  las  bases  de  
datos  que  Alice  reproduce  en  el  transcurso  de  este  experimento  también  convergerá  
en  una  solución  mínima­máxima  aproximada.  Esto  es  exactamente  lo  que  se  está  
haciendo  en  la  Sección  6,  en  la  que  el  desinfectante  de  base  privado  desempeña  
el  papel  de  Alice,  en  cada  ronda  jugando  una  base  de  datos  que  minimiza  
aproximadamente  los  costos  dada  la  distribución  de  Bob  sobre  las  consultas.
De  hecho,  una  tercera  forma  de  calcular  un  equilibrio  aproximado  de  un  juego  
de  suma  cero  es  hacer  que  tanto  Alice  como  Bob  jueguen  de  acuerdo  con  
algoritmos  de  aprendizaje  sin  arrepentimiento.  No  cubriremos  este  enfoque  aquí,  
pero  este  enfoque  tiene  aplicaciones  para  garantizar  la  privacidad  no  solo  para  la  
base  de  datos,  sino  también  para  el  conjunto  de  consultas  que  se  realizan  y  para  
resolver  de  forma  privada  ciertos  tipos  de  programas  lineales.

5.4  Notas  bibliográficas

La  abstracción  del  mecanismo  de  construcción  iterativa  (junto  con  el  algoritmo  de  
actualización  de  la  base  de  datos  basada  en  la  percepción)  fue  formalizada  por
Machine Translated by Google

116 generalizaciones

Gupta  et  al.  [39],  generalizando  el  mecanismo  de  la  mediana  de  Roth  y  Roughgarden  [74]  
(presentado  inicialmente  como  un  algoritmo  en  línea),  el  mecanismo  de  pesos  
multiplicativos  privados  en  línea  de  Hardt  y  Roth  blum  [44],  y  su  variante  fuera  de  línea  
de  Gupta  et  al.  [38];  véase  también  Hardt  et  al.  [41].  Todos  estos  algoritmos  pueden  verse  
como  instanciaciones.  La  conexión  entre  la  liberación  de  consultas  y  el  aprendizaje  
agnóstico  se  observó  en  [38].  La  observación  de  que  el  mecanismo  de  la  mediana,  cuando  
se  analiza  utilizando  los  teoremas  de  composición  de  Dwork  et  al.  [32]  para  (ε,  δ)  
privacidad,  se  puede  usar  para  responder  consultas  arbitrarias  de  baja  sensibilidad  debido  
a  Hardt  y  Rothblum.  La  visión  de  la  teoría  del  juego  de  la  publicación  de  consultas,  junto  
con  sus  aplicaciones  a  la  privacidad  de  los  analistas,  se  debe  a  Hsu,  Roth  y  Ullman  [48].
Machine Translated by Google

6
Impulso  para  Consultas

En  las  secciones  anteriores,  nos  hemos  centrado  en  el  problema  de  la  liberación  de  
consultas  privadas  en  el  que  insistimos  en  delimitar  el  error  del  peor  de  los  casos  
sobre  todas  las  consultas.  ¿Sería  más  fácil  nuestro  problema  si,  en  cambio,  solo  
pidiéramos  un  error  bajo  en  promedio,  dada  alguna  distribución  sobre  las  consultas?  
En  esta  sección,  vemos  que  la  respuesta  es  no:  dado  un  mecanismo  que  es  capaz  de  
resolver  el  problema  de  liberación  de  consultas  con  un  error  promedio  bajo  dada  
cualquier  distribución  en  las  consultas,  podemos  "impulsarlo"  a  un  mecanismo  que  
resuelva  el  problema  de  liberación  de  consultas  para  error  en  el  peor  de  los  casos.  
Esto  arroja  luz  sobre  la  dificultad  de  la  liberación  de  consultas  privadas  y  nos  brinda  
una  nueva  herramienta  para  diseñar  algoritmos  de  liberación  de  consultas  privadas.
El  impulso  es  un  método  general  y  ampliamente  utilizado  para  mejorar  la  precisión  
de  los  algoritmos  de  aprendizaje.  Dado  un  conjunto  de  ejemplos  de  entrenamiento  
etiquetados

{(x1,  y1),(x2,  y2), . . . ,(xm,  ym)},

donde  cada  xi  se  extrae  de  una  distribución  subyacente  D  en  un  universo  U,  y  cada  yi  
  {+1,  −1},  un  algoritmo  de  aprendizaje  produce  una  hipótesis  h :  U  →  {+1,  −1}.  
Idealmente,  h  no  solo  "describirá"  el  etiquetado  en  las  muestras  dadas,  sino  que  
también  generalizará ,  brindando  un  método  razonablemente  preciso  para  clasificar  
otros  elementos  extraídos  de  las  muestras  subyacentes.

117
Machine Translated by Google

118 Impulso  para  Consultas

distribución.  El  objetivo  de  impulsar  es  convertir  a  un  aprendiz  de  base  débil,  lo  que  
produce  una  hipótesis  que  puede  funcionar  un  poco  mejor  que  adivinar  al  azar,  en  
un  aprendiz  fuerte,  lo  que  produce  un  predictor  muy  preciso  para  las  muestras  
extraídas  de  acuerdo  con  D.  Muchos  algoritmos  de  refuerzo  comparten  la  siguiente  
estructura  básica.  Primero,  se  impone  una  distribución  de  probabilidad  inicial  
(típicamente  uniforme)  en  el  conjunto  de  la  muestra.  Luego,  el  cálculo  procede  en  
rondas.  En  cada  ronda  t:

1.  El  alumno  base  se  ejecuta  en  la  distribución  actual,  denominada  Dt ,
producir  una  hipótesis  de  clasificación  ht ;  y

2.  Las  hipótesis  h1, . . . ,  ht  se  utilizan  para  volver  a  ponderar  las  muestras,  
definiendo  una  nueva  distribución  Dt+1.

El  proceso  se  detiene  después  de  un  número  predeterminado  de  rondas  o  cuando  
se  determina  que  una  combinación  adecuada  de  las  hipótesis  es  lo  suficientemente  
precisa.  Por  lo  tanto,  dado  un  alumno  base,  las  decisiones  de  diseño  para  un  
algoritmo  de  refuerzo  son  (1)  cómo  modificar  la  distribución  de  probabilidad  de  una  
ronda  a  la  siguiente  y  (2)  cómo  combinar  las  hipótesis  {ht}t=1, .. .,T  para  formar  una  
hipótesis  de  salida  final.
En  esta  sección,  utilizaremos  el  impulso  en  las  consultas,  es  decir,  a  los  efectos  
del  algoritmo  de  impulso,  el  universo  U  es  un  conjunto  de  consultas  Q,  para  obtener  
un  algoritmo  fuera  de  línea  para  responder  a  un  gran  número  de  consultas  
arbitrarias  de  baja  sensibilidad.  Este  algoritmo  requiere  menos  espacio  que  el  
mecanismo  mediano  y,  según  el  alumno  base,  también  es  potencialmente  más  
eficiente  en  el  tiempo.
El  algoritmo  gira  en  torno  a  un  hecho  un  tanto  mágico  (Lema  6.5):  si  podemos  
encontrar  una  sinopsis  que  proporcione  respuestas  precisas  sobre  unas  pocas  
consultas  seleccionadas,  ¡entonces  de  hecho  esta  sinopsis  proporciona  respuestas  
precisas  sobre  la  mayoría  de  las  consultas !  Aplicamos  este  hecho  al  alumno  base,  
que  toma  muestras  de  una  distribución  en  Q  y  produce  como  resultado  una  sinopsis  
"débil"  que  arroja  respuestas  "buenas"  para  la  mayoría  del  peso  en  Q,  impulsando,  
de  manera  diferencialmente  privada,  para  obtener  una  sinopsis  que  es  buena  para  
todo  Q.
Aunque  el  impulso  se  realiza  sobre  las  consultas,  la  privacidad  sigue  siendo  
para  las  filas  de  la  base  de  datos.  El  desafío  de  privacidad  al  impulsar  las  consultas  
proviene  del  hecho  de  que  cada  fila  en  la  base  de  datos  afecta  el
Machine Translated by Google

6.1.  El  algoritmo  boosting  for  queries 119

respuestas  a  todas  las  consultas.  Esto  se  manifestará  en  la  reponderación  de  las  consultas:  las  
bases  de  datos  adyacentes  podrían  causar  reponderaciones  radicalmente  diferentes,  lo  que  será  
observable  en  el  ht  generado  que,  en  conjunto,  formará  la  sinopsis.

El  tiempo  de  ejecución  del  procedimiento  de  refuerzo  depende  casi  linealmente  del  número  |
Q|  de  consultas  y  del  tiempo  de  ejecución  del  generador  de  sinopsis  base,  independientemente  
del  tamaño  del  universo  de  datos  |X|.  Esto  genera  una  nueva  vía  para  construir  mecanismos  de  
preservación  de  la  privacidad  eficientes  y  precisos,  análogos  al  enfoque  que  permite  impulsar  la  
literatura  sobre  aprendizaje  automático:  un  diseñador  de  algoritmos  puede  abordar  la  tarea  
(potencialmente  mucho  más  fácil)  de  construir  un  generador  de  sinopsis  de  base  de  preservación  
de  la  privacidad  débil,  y  obtener  automáticamente  un  mecanismo  más  fuerte.

6.1  El  algoritmo  boosting  for  queries

Usaremos  la  representación  de  filas  para  bases  de  datos,  descrita  en  la  Sección  2,  donde  
pensamos  en  la  base  de  datos  como  un  conjunto  múltiple  de  filas  o  elementos  de  X .
Fijar  un  tamaño  de  base  de  datos  n,  un  universo  de  datos  X,   y  un  conjunto  de  consultas  Q  =  {q :  X
→  R}  de  consultas  de  valores  reales  de  sensibilidad  como  máximo  ρ.
Asumimos  la  existencia  de  un  generador  de  sinopsis  base  (en  la  Sección  6.2  veremos  cómo  
construirlos).  La  propiedad  que  necesitaremos  del  generador  base,  formulada  a  continuación,  es  
que,  para  cualquier  distribución  D  en  el  conjunto  de  consultas  Q,  la  salida  del  generador  base  se  
puede  usar  para  calcular  respuestas  precisas  para  una  gran  fracción  de  las  consultas,  donde  el  "  
gran  fracción”  se  define  en  términos  de  los  pesos  dados  por  D.  El  generador  base  está  
parametrizado  por  k,  el  número  de  consultas  a  muestrear;  λ,  un  requisito  de  precisión  para  sus  
salidas;  η,  una  medida  de  "grande"  que  describe  lo  que  queremos  decir  con  una  gran  fracción  de  
las  consultas,  y  β,  una  probabilidad  de  falla.

Definición  6.1  ( generador  de  sinopsis  base  (k,  λ,  η,  β)).  Para  un  tamaño  de  base  de  datos  fijo  n,  
un  universo  de  datos  X  y  un  conjunto  de  consultas  Q,  considere  un  generador  de  sinopsis  M,  que  
muestrea  k  consultas  independientemente  de  una  distribución  D  en  Q  y  genera  una  sinopsis.  
Decimos  que  M  es  un  generador  de  sinopsis  de  base  (k,  λ,  η,  β)  si  para  cualquier  distribución  D  
en  Q,  con  todas  las  probabilidades  menos  β
Machine Translated by Google

120 Impulso  para  Consultas

sobre  los  lanzamientos  de  moneda  de  M,  la  sinopsis  S  que  M  genera  tiene  una  
precisión  de  λ  para  una  fracción  (1/2  +  η)  de  la  masa  de  Q  ponderada  por  D:

[|q(S)  −  q(x)|  ≤  λ]  ≥  1/2  +  η. (6.1)
Prq D  _

El  algoritmo  de  aumento  de  consultas  se  puede  utilizar  para  cualquier  clase  de  
consultas  y  cualquier  generador  de  sinopsis  de  base  diferencialmente  privado.  El  
tiempo  de  ejecución  se  hereda  del  generador  de  sinopsis  base.  El  booster  invierte  
un  tiempo  adicional  que  es  casi  lineal  en  |Q|  y,  en  particular,  su  tiempo  de  ejecución  
no  depende  directamente  del  tamaño  del  universo  de  datos.
Para  especificar  el  algoritmo  de  impulso,  necesitaremos  especificar  una  
condición  de  parada,  un  mecanismo  de  agregación  y  un  algoritmo  para  actualizar  la  
distribución  actual  en  Q.

Condición  de  parada.  Ejecutaremos  el  algoritmo  para  un  número  fijo  T  de  rondas:  
esta  será  nuestra  condición  de  parada.  T  se  seleccionará  de  modo  que  garantice  
una  precisión  suficiente  (con  una  probabilidad  muy  alta);  como  veremos,  log  |Q|/η2  
rondas  serán  suficientes.

Actualización  de  la  Distribución.  Aunque  las  distribuciones  nunca  se  
revelan  directamente  en  los  resultados,  las  sinopsis  base  A1,  A2, . . . ,  
AT  se  revelan,  y  cada  Ai  puede,  en  principio,  filtrar  información  sobre  
las  consultas  elegidas,  de  Di  a, l  construir  Ai .  Por  lo  tanto,  necesitamos  
restringir  la  divergencia  máxima  entre  las  distribuciones  de  probabilidad  
obtenidas  en  las  bases  de  datos  vecinas.  Esto  es  técnicamente  
desafiante   , la  base  de  datos  está  muy  involucrada  en  la  construcción
porque,  dado  Ai  Di+1.
La  distribución  inicial,  D1,  será  uniforme  sobre  Q.  Un  método  estándar  para  
actualizar  Dt  es  aumentar  el  peso  de  los  elementos  mal  manejados,  en  nuestro  caso,  
consultas  para  las  cuales  |q(x)  −  q(At)|  >  λ,  por  un  factor  fijo,  digamos,  e,  y  disminuya  
el  peso  de  los  elementos  bien  manejados  por  el  mismo  factor.  (Luego,  los  pesos  se  
normalizan  para  que  sumen  1).  Para  tener  una  idea  de  la  dificultad,  sea  x  =  y     {ξ},  
y  suponga  que  todas  las  consultas  q  son  manejadas  bien  por  At  cuando  la  base  de  
datos  es  y,  pero  el  la  adición  de  ξ  hace  que  esto  falle,  por  ejemplo,  en  una  fracción  
de  1/10  de  las  consultas;  es  decir,  |q(y)−q(At)|  ≤  λ  para  todas  las  consultas  q,  pero  |
q(x)−q(At)|  >  λ  para  algunas  consultas  |Q|/10 .  Tenga  en  cuenta  que,  dado  que  At  
"va  bien"  en  9/10  de  las  consultas,  incluso
Machine Translated by Google

6.1.  El  algoritmo  boosting  for  queries 121

cuando  la  base  de  datos  es  x,  podría  devolverse  desde  el  desinfectante  base  sin  importar  
cuál  de  x,  y  es  el  conjunto  de  datos  verdadero.  Nuestra  preocupación  es  con  los  efectos  
de  la  actualización:  cuando  la  base  de  datos  es  y  todas  las  consultas  se  manejan  bien  y  
no  hay  reponderación  (después  de  la  normalización),  pero  cuando  la  base  de  datos  es  x  
hay  una  reponderación:  una  décima  parte  de  las  consultas  tienen  sus  pesos  aumentados ,  
los  nueve  décimos  restantes  tienen  sus  pesos  disminuidos.  Esta  diferencia  en  la  
reponderación  puede  detectarse  en  la  próxima  iteración  a  través  de  At+1,  que  es  
observable  y  que  se  construirá  a  partir  de  muestras  extraídas  de  distribuciones  bastante  
diferentes  dependiendo  de  si  la  base  de  datos  es
x  o  y.
Por  ejemplo,  supongamos  que  partimos  de  la  distribución  uniforme  D1.  (z)  donde  por  
Entonces  D (y)  (y)
=  re  1 , D  
2 nos  referimos  ai   la  distribución  en  la  ronda  i
cuando  la  base  de  datos  es  z.  Esto  se  debe  a  que  el  peso  de  cada  consulta  se  reduce  en  
un  factor  de  e,  que  desaparece  en  la  normalización.  Entonces  (y)  a  cada  q     Q  se  le  
asigna  un  peso  1/|Q|  en  D  2 .  Por  el  contrario,  cuando  la  base  de  datos  es  x ,  las  consultas  
"insatisfactorias"  tienen  un  peso  normalizado
mi

|P|  
.
9  1  10 mi
1  +
|P| mi 1  10|P|

(x)  (y)  (q)/D  
cualquier  consulta  infeliz  q.  La  relación  D  dada  por 2 (q)  es  C2onsidere  

mi

|P|  
D  2(x)  (q) 1 1  1  +  10 mi

= 9  10 |P| mi
|P|

(y) 1
D  (q)  2 |P|
10
= =  F  ≈  4,5085.
definitivamente

1  + 9  
2  
mi

Ahora,  ln  F  ≈  1.506,  y  aunque  la  selección  de  consultas  utilizadas  en  la  ronda  2  por  el  
generador  base  no  se  hace  pública  explícitamente,  pueden  detectarse  a  partir  del  A2  
resultante,  que  se  hace  público.  Por  lo  tanto,  existe  una  pérdida  potencial  de  privacidad  
de  hasta  1.506  por  consulta  (por  supuesto,  esperamos  cancelaciones;  simplemente  
estamos  tratando  de  explicar  el  origen  de  la  dificultad).  Esto  se  soluciona  parcialmente  al  
garantizar  que  la  cantidad  de  muestras  utilizadas  por  el  generador  base  sea  relativamente  
pequeña,  aunque  aún  tenemos  el  problema  de  que,  en  múltiples  iteraciones,  las  
distribuciones  Dt  pueden  evolucionar  de  manera  muy  diferente  incluso  en  bases  de  datos  
vecinas.
Machine Translated by Google

122 Impulso  para  Consultas

La  solución  será  atenuar  el  procedimiento  de  reponderación.
En  lugar  de  usar  siempre  una  relación  fija  para  aumentar  el  peso  (cuando  la  respuesta  es  
"exacta")  o  disminuirlo  (cuando  no  lo  es),  establecemos  umbrales  separados  para  
"exactitud" (λ)  e  "inexactitud  " ( λ  +  µ ,  para  un  µ  elegido  apropiadamente  que  se  escala  
con  el  tamaño  de  bit  de  la  salida  del  generador  base;  véase  el  Lema  6.5  a  continuación).  
Las  consultas  para  las  que  el  error  está  por  debajo  o  por  encima  de  estos  umbrales  tienen  
su  peso  disminuido  o  aumentado,  respectivamente,  por  un  factor  de  e.  Para  las  consultas  
cuyo  error  se  encuentra  entre  estos  dos  umbrales,  escalamos  el  logaritmo  natural  del  
cambio  de  peso  linealmente:  1  −  2(|q(x)  −  q(At)|  −  λ)/µ,  por  lo  que  las  consultas  con  errores  
de  magnitud  superior  a  λ  +  µ/2  aumentan  de  peso,  y  aquellos  con  errores  de  magnitud  
inferior  a  λ  +  µ/2  disminuyen  de  peso.

La  escala  atenuada  reduce  el  efecto  de  cualquier  individuo  en  la  reponderación  de  
cualquier  consulta.  Esto  se  debe  a  que  un  individuo  solo  puede  afectar  la  respuesta  
verdadera  a  una  consulta,  y  por  lo  tanto  también  la  precisión  de  la  salida  q(At)  del  
generador  de  sinopsis  base ,  en  una  pequeña  cantidad,  y  la  atenuación  divide  esta  
cantidad  por  un  parámetro  µ  que  será  elegido  para  compensar  las  muestras  de  kT  
elegidas  (total)  de  las  distribuciones  T  obtenidas  en  el  transcurso  de  la  ejecución  del  
algoritmo  de  refuerzo.
Esto  ayuda  a  garantizar  la  privacidad.  Intuitivamente,  vemos  cada  una  de  estas  muestras  
de  kT  como  un  "mini­mecanismo".  Primero  acotamos  la  pérdida  de  privacidad  del  muestreo  
en  cualquier  ronda  (afirmación  6.4)  y  luego  acotamos  la  pérdida  acumulativa  a  través  del  
teorema  de  composición.
Cuanto  mayor  sea  la  brecha  (µ)  entre  los  umbrales  de  "exacto"  e  "inexacto",  menor  
puede  ser  el  efecto  de  cada  individuo  en  el  peso  de  una  consulta.  Esto  significa  que  los  
espacios  más  grandes  son  mejores  para  la  privacidad.  Sin  embargo,  para  la  precisión,  los  
espacios  grandes  son  malos.  Si  el  umbral  de  inexactitud  es  grande,  solo  podemos  
garantizar  que  las  consultas  para  las  que  el  generador  de  sinopsis  base  es  muy  inexacto  
tendrán  un  peso  sustancialmente  mayor  durante  la  reponderación.  Esto  degrada  la  
garantía  de  precisión  del  algoritmo  boosting:  los  errores  son  aproximadamente  iguales  
al  umbral  de  “inexactitud” (λ  +  µ).

Agregación.  Para  t     [T]  ejecutaremos  el  generador  base  para  obtener  una  sinopsis  At .  
Las  sinopsis  se  agregarán  tomando  la  mediana:  dado  A1, . . . ,  AT  la  cantidad  q(x)  se  
estima  tomando  la  T ,
Machine Translated by Google

6.1.  El  algoritmo  boosting  for  queries 123

valores  aproximados  para  q(x)  calculados  usando  cada  uno  de  los  , y  luego
Ai  calculando  su  mediana.  Con  este  método  de  agregación,  podemos  mostrar  
la  precisión  de  la  consulta  q  argumentando  que  la  mayoría  de  Ai  1  ≤  i  ≤  T  
,
proporciona  una  precisión  de  λ  +  µ  (o  mejor)  para  q.  Esto  implica  que  el  valor  
de  la  mediana  de  las  T  aproximaciones  a  q(x)  estará  dentro  de  λ  +  µ  del  valor  
verdadero.

Notación.

1.  A  lo  largo  de  la  operación  del  algoritmo,  hacemos  un  seguimiento  de  varias  
variables  (explícita  o  implícitamente).  Las  variables  indexadas  por  q     Q  
contienen  información  relacionada  con  la  consulta  q  en  el  conjunto  de  consultas.  
Las  variables  indexadas  por  t     [T],  generalmente  calculadas  en  la  ronda  t,  se  
utilizarán  para  construir  la  distribución  Dt+1  utilizada  para  el  muestreo  en  el  
período  de  tiempo  t  +  1.

2.  Para  un  predicado  P  usamos  [[P]]  para  denotar  1  si  el  predicado  es  
verdadero  y  0  si  es  falso.

3.  Hay  un  parámetro  de  ajuste  final  α  utilizado  en  el  algoritmo.  Va  a
ser  elegido  (ver  Corolario  6.3  a  continuación)  para  tener  valor

1  +  2η  
α  =  α(η)  =  (1/2)  ln .
1  −  2η

El  algoritmo  aparece  en  la  Figura  6.1.  La  cantidad  ut,q  en  el  Paso  
2(2b)  es  el  nuevo  peso  no  normalizado  de  la  consulta.  Por  el  momento,  
fijemos  α  =  1  (solo  para  que  podamos  ignorar  cualquier  factor  α ).  Sea  
aj,q  el  logaritmo  natural  del  cambio  de  peso  en  la  ronda  j,  1  ≤  j  ≤  t,  el  
nuevo  peso  viene  dado  por:

t
ut,q  ←  exp
aj,q  
   −     .
j=1

Así,  al  final  del  paso  anterior  el  peso  no  normalizado  era  ut−1,q  
t−1  
=  exp(− j=1  aj,q)  y  la  actualización  corresponde  a  la  multiplicación  
por  e  −aj,t .  cuando  la  suma j=1  
t aj,q  es  grande,  el  peso  es  pequeño.  Cada  
vez  que  una  sinopsis  da  una  muy  buena  aproximación  a  q(x),  sumamos  1  
a  esta  suma;  si  la  aproximación  es  sólo  moderadamente  buena  (entre  λ  y
Machine Translated by Google

124 Impulso  para  Consultas

Figura  6.1:  Impulso  de  consultas.

λ  +  µ/2),  sumamos  una  cantidad  positiva,  pero  menor  que  1.  Por  el  contrario,  cuando  
la  sinopsis  es  muy  mala  (peor  que  la  precisión  de  λ  +  µ ),  restamos  1;  cuando  es  
apenas  aceptable  (entre  λ  +  µ/2  y  λ  +  µ),  restamos  una  cantidad  menor.

En  el  teorema  a  continuación,  vemos  una  relación  inversa  entre  la  pérdida  de  
privacidad  debido  al  muestreo,  capturada  por  εsample,  y  la  brecha  µ  entre  los  
umbrales  de  precisión  e  inexactitud.

Teorema  6.1.  Sea  Q  una  familia  de  consultas  con  una  sensibilidad  máxima  de  ρ.  
Para  una  configuración  adecuada  de  los  parámetros,  y  con  T  =  log  |Q|/η2  rondas,  el  
algoritmo  de  la  Figura  6.1  es  un  algoritmo  de  impulso  de  consultas  preciso  y  
diferencialmente  privado:

1.  Cuando  se  crea  una  instancia  con  un  generador  de  sinopsis  de  base  (k,  λ,  η,  
β),  la  salida  del  algoritmo  de  impulso  proporciona  respuestas  precisas  (λ  +  µ)  
a  todas  las  consultas  en  Q  con  una  probabilidad  de  al  menos  1  −  T  β,  dónde
3
µ     O(((log3/2  |Q|)  √  k  log(1/β)ρ)/(εmuestra  ∙  η )). (6.2)
Machine Translated by Google

6.1.  El  algoritmo  boosting  for  queries 125

2.  Si  el  generador  de  sinopsis  base  es  (εbase,  δbase)  diferencialmente  privado,  
entonces  el  algoritmo  de  refuerzo  es  (εmuestra  +  T  ∙  εbase,  δmuestra  +  T  δbase)  
diferencialmente  privado.

Permitiendo  que  la  constante  η  se  absorba  en  la  notación  O  grande  y  tomando  ρ  =  
1  por  simplicidad,  obtenemos  µ  =  O(((log3/2  |Q|)  √  k  log(1/β))/εsample ).  Por  lo  tanto,  
vemos  que  reducir  el  número  k  de  consultas  de  entrada  que  necesita  el  desinfectante  
base  mejora  la  calidad  de  la  salida.
De  manera  similar,  a  partir  del  enunciado  completo  del  teorema,  vemos  que  mejorar  el  
poder  de  generalización  del  desinfectante  base,  que  corresponde  a  tener  un  valor  mayor  
de  η  (una  “mayoría  fuerte”  mayor),  también  mejora  la  precisión.

Prueba  del  Teorema  6.1.  Primero  probamos  la  precisión,  luego  la  privacidad.  

+  
Introducimos  la  notación  a  y  una  satisfactoria  t,qt,q,

1.  a  
t,  

q, un+
t  q   {−1,  1};  y
2.  a   +
t,q ≤  en,  q  ≤  a t,  q.

Recuérdese  que  un  mayor  at,q  indica  una  mayor  calidad  de  la  aproximación  de  la  sinopsis  
At  para  q(x).

1.  a  
t,  q es  1  si  At  es  λ­exacta  en  q,  y  −1  en  caso  contrario.  para  comprobar  eso
− −

una  t,q =  1  entonces  At  es  λ­exacto  para  q,  y  t,q  =  −1  
≤  at,q,  tenga  en  cuenta  que  si  un

entonces
entonces  por  definición  en,q  =  1  también.  Si  en  cambio  tenemos  t  q
a  ya  que  siempre  tenemos  at,q     [−1,  1],  hemos  terminado.

Usaremos  a  para  el  límite  inferior  de  una  medida  de  la  calidad  t,q  de  la  salida  
del  generador  base.  Por  la  promesa  del  generador  base,  At  tiene  una  precisión  
de  λ  para  al  menos  una  fracción  de  1/2  +  η  de  la  masa  de  Dt .  De  este  modo,


rt Dt  [q]  ∙  la t  q ≥  (1/2  +  η)  −  (1/2  −  η)  =  2η. (6.3)
q Q

2.  a   +   es  −1  si  At  es  (λ  +  µ)­inexacta  para  q,  y  1  en  caso  contrario.  To  =  −1  entonces  


t,q
+ +  
verifique  que  at,q  ≤  a   t,  q, nota  que  si  a  t,q At  es  (λ  +  µ)­
inexacto  para  q,  entonces  por  definición  at,q  =  −1  también.  Si  en  cambio  =  1  
+  
una  t,q entonces  ya  que  siempre  tenemos  at,q     [−1,  1],  hemos  terminado.  +  
Por  lo   es  positivo  si  y  solo  si  At  es  al  menos  mínimamente  para  probar  
+
tanto ,  una  t,q  adecuadamente  precisa  para  q.  Usaremos  
t  qla  
la  
a precisión
Machine Translated by Google

126 Impulso  para  Consultas

+ un  número  
de  la  agregación.  Cuando  sumamos  los  valores  a,  obtenemos  
positivo  t,q,  si  y  solo  si  la  mayoría  de  los  At  proporcionan  aproximaciones  
aceptables,  es  decir,  dentro  de  λ  +  µ ,  a  q(x).  En  este  caso  el  valor  de  la  mediana  
estará  dentro  de  λ  +  µ.

Lema  6.2.  Después  de  T  rondas  de  potenciación,  con  todas  las  probabilidades  menos  
T  β ,  las  respuestas  a  todas  menos  una  fracción  exp(−η  2T)  de  las  consultas  son  (λ+µ)­
preciso.

Prueba.  En  la  última  ronda  de  impulso,  tenemos:

DT  +1[q]  = uT,  q . (6.4)


ZT

Como  en,q  ≤  a t  q tenemos:


+

T + T
+   −α a −α en  q
tu mi t=1 t,  q  ≤  e t=1
=  uT,q. (6.5)
T  q

(El  superíndice  “+”  nos  recuerda  que  este  valor  no  ponderado  era  com  t,q.)  Note  que  
+ +
a  combinando  las  ecuaciones  siempre  tenemos  u  ≥  0.  Calculado  usando  
T  q los  términos  
(6.4)  y  (6.5),  para  todo  q     Q:
+  
tu
DT  +1[q]  ≥ T  q . (6.6)
ZT

Recordando  que  [[P]]  denota  la  variable  booleana  que  tiene  valor  1  si  y  solo  si  el  
predicado  P  es  verdadero,  pasamos  a  examinar  el  valor  [[A  es  (λ+µ)­inexacto  para  q]].  
Si  este  predicado  es  1,  entonces  debe  darse  el  caso  de  que  la  mayoría  de  {Aj}  sean  (λ  
+  µ)­inexactos,  de  lo  contrario Tj  =1
su  mediana  sería  (λ  +  µ)  precisa.
T  +  a  t=1  
De  nuestra  discusión  sobre  el  significado  del  signo  de  tener: t,q,
nosotros

T
A  es  (λ  +  µ)­inexacta  para  q   +  
≤  0
una  t,  q
t=1
T
−α   +  
  mi un  t  =  1 t,  q  ≥  1
+  
tú ≥  1     
T  q
+ 0,  concluimos  que:
Como  u  ≥  
T  q
+
[[A  es  (λ  +  µ)­inexacta  para  q]]  ≤  u
T  q
Machine Translated by Google

6.1.  El  algoritmo  boosting  for  queries 127

Usando  esto  junto  con  la  Ecuación  (6.6)  se  obtiene:
1 1 +  
∙ ∙ tu
[[A  es  (λ  +  µ)­inexacta  para  q]]  ≤ T  q
|P| q Q
|P| q Q

1  ≤ ∙
DT  +1[q]  ∙  ZT
|P| q Q

=
ZT  
|Q|.
Así,  la  siguiente  afirmación  completa  la  prueba:

Reclamación  6.3.  En  la  ronda  t  de  potenciación,  con  todas  las  probabilidades  menos  tβ :
2
Zt  ≤  exp(−η ∙  t)  ∙  |Q|

Prueba.  Por  definición  de  un  generador  de  sinopsis  base,  con  todas  las  probabilidades  
excepto  β ,  la  sinopsis  generada  tiene  una  precisión  de  λ  para  al  menos  una  (1/2  +  

1}  fracción  de  la  masa  de  la  distribución  Dt .  Recuerde  que  a  t,q η)­     {−1,  



es  1  si  y  solo  si  At  es  λ­exacto  en  q,  y  que  a  t,q  además  de  la   ≤  at,q  y  recuerdo  

cantidad  rt  Dt  [q]  ∙  a  Como  se  discutió  
q Q t  q definido  en  la  Ecuación  (6.3).
anteriormente,  rt  mide  el  “éxito”  del  generador  de  sinopsis  base  en  la  ronda  t,  donde  
por  "éxito"  nos  referimos  a  la  noción  más  estricta  de  precisión  λ.  Como  se  resume  en  
la  Ecuación  (6.3),  si  una  fracción  (1/2  +  η)  de  la  masa  de  Dt  se  calcula  con  precisión  
λ,  entonces  rt  ≥  2η.  Ahora  observe  también  que  para  t     [T],  asumiendo  que  el  
desinfectante  base  no  falló  en  la  ronda  t:

Zt  = ut,q  
q Q

= −α∙at,q  
ut−1,q  ∙  e  
q Q

= Zt−1  ∙  Dt  [q]  ∙  e
−α∙en,q

q Q
−α∙a −

≤ Zt−1  ∙  Dt  [q]  ∙  e t  q

q Q
− −
1  +  a  t,q 1  ­  un  
−α t,  q α
=  Zt−1  ∙ Dt  [q]  ∙   ∙  mi + ∙  mi
2 2
q Q
(analisis  de  CASO)
Machine Translated by Google

128 Impulso  para  Consultas

= Zt−1 (e  α +  mi−α )  +  rt(e  −α ­  mi α )


2
Zt−1  
≤ (e  α  −α )  +  2η(e  −α  +  e ­  mi α )  (rt  ≥  2η  y  (e  −α  −  e  α)  ≤  0)
2

Por  simple  cálculo  vemos  que  (e  α+e  −α)+2η(e  −α−e  α)  se  minimiza  cuando

1  +  2η  
α  =  (1/2)  ln .
1  −  2η

Reemplazando  esto  en  la  recurrencia,  obtenemos

t 2
Zt  ≤  ( 1  −  4η  2) |P|  ≤  exp(−2η t)|P|.

Esto  completa  la  demostración  del  Lema  6.2.

El  lema  implica  que  la  precisión  para  todas  las  consultas  simultáneamente  puede
lograrse  estableciendo
en  |Q|
T  > .
2  η

Privacidad.  Mostraremos  que  la  secuencia  completa  (S1,  A1, . . . ,  ST)  puede   , en )
generarse  mientras  se  preserva  la  privacidad  diferencial.  Tenga  en  cuenta  que  esto  es  
más  fuerte  de  lo  que  necesitamos:  en  realidad  no  generamos  los  conjuntos  S1, . . . ,  ST .
Por  nuestros  teoremas  de  composición  adaptativa,  la  privacidad  de  cada  Ai  estará  
garantizada  por  las  garantías  de  privacidad  del  generador  de  sinopsis  base,  junto  con  el  
hecho  de  que  Si−1  se  calculó  de  forma  diferencialmente  privada.  Por  lo  tanto,  basta  
probar  que  dado  que  (S1,  A1, . . . ,  Si ,  Ai)  es  diferencialmente  privado,  Si+1  también  
lo  
es.  Entonces  podemos  combinar  los  parámetros  de  privacidad  usando  nuestros  teoremas  
de  composición  para  calcular  una  garantía  final.

Lema  6.4.  Sea  ε = 4αT   .  Para  todo  i     [T],  una  vez  fijado  (S1,  A1, . . . ,  Si ,  


ρµ
Ai) ,  el  cálculo  de  cada  elemento  de  Si+1  es  (ε    ,  0)­diferencialmente  
privado.

, todo  j  ≤  i,  la  cantidad  dq,j  tiene  sensibilidad  ρ,  ya  que  
Prueba.  Fijación  A1, . . . ,  Ai  para  
Aj  (q)  es  independiente  de  la  base  de  datos  (porque  Aj  es  fijo),  y
Machine Translated by Google

6.1.  El  algoritmo  boosting  for  queries 129

todo  q     Q  tiene  una  sensibilidad  acotada  por  ρ.  Por  lo  tanto,  para  todo  j  ≤  i,  aj,q  es  
2ρ/µ  sensible  por  construcción,  y  así
i
=
definitivamente

gi(q) aj,q  
j=1

definitivamente

tiene  una  sensibilidad  máxima  de  2iρ/µ  ≤  2T  ρ/µ.  Entonces   =  2T  ρ/µ  es  superior
∆gi  se  une  a  la  sensibilidad  de  gi .
Para  argumentar  la  privacidad,  mostraremos  que  la  selección  de  consultas  para  
Si+1  es  una  instancia  del  mecanismo  exponencial.  Piense  en  −gi(q)  como  la  utilidad  
de  una  consulta  q  durante  el  proceso  de  selección  en  la  ronda  i  +  1.  El  mecanismo  
exponencial  dice  que  para  lograr  privacidad  diferencial  (ε    ,  0),  debemos  elegir  q  
con  probabilidad  proporcional  a

  ε

exp  −gi(q)  2∆gi .

Dado  que  ε   /2∆gi  =  α  y  el  algoritmo  selecciona  q  con  probabilidad  pro  −αgi(q)  
proporcional  a  e ,  vemos  ,que  esto  es  exactamente  lo  que  hace  el  algoritmo.

Limitamos  la  pérdida  de  privacidad  de  liberar  el  Sis  al  tratar  cada  selección  de  
una  consulta  como  un  "mecanismo  en  miniatura"  que,  en  el  transcurso  de  T  rondas  
de  impulso,  se  invoca  kT  veces.  Por  el  Lema  6.4  cada  mini­mecanismo  es  (4αT  ρ/µ,  
0)­diferencialmente  privado.  Por  el  Teorema  3.20,  para  todo  β  >  0  la  composición  de  
los  mecanismos  kT ,  cada  uno  de  los  cuales  es  (α4T  ρ/µ,  0)­  diferencialmente  privado,  
es  (εmuestra,  δmuestra)­diferencialmente  privado,  donde
2
α4T  ρ
.
definitivamente

εmuestra =  2kT  log(1/δmuestra)(α4T  ρ/µ)  +  kT (6.7)


µ

Nuestra  pérdida  de  privacidad  total  proviene  de  la  composición  de  llamadas  T  al  
desinfectante  base  y  la  pérdida  acumulada  de  las  muestras  de  kT .  Concluimos  que  
el  algoritmo  boosting  en  su  totalidad  es:  (εboost,  δboost)­  diferencialmente  privado,  
donde

εboost  =  T  εbase  +  εmuestra  
δboost  =  T  δbase  +  δmuestra
Machine Translated by Google

130 Impulso  para  Consultas

Para  obtener  los  parámetros  reclamados  en  el  enunciado  del  teorema,  podemos  tomar:

µ     O((T  3/2  √  k  log(1/β)αρ)/εmuestra). (6.8)

6.2  Generadores  de  sinopsis  base

El  algoritmo  SmallDB  (Sección  4)  se  basa  en  la  idea  de  que  un  pequeño  subconjunto  
de  filas  de  la  base  de  datos  seleccionado  al  azar  proporciona  buenas  respuestas  a  
grandes  conjuntos  de  consultas  de  conteo  fraccional.  Los  generadores  de  sinopsis  
básicos  descritos  en  la  sección  actual  tienen  una  idea  análoga:  una  pequeña  sinopsis  
que  ofrece  buenas  aproximaciones  a  las  respuestas  a  un  pequeño  subconjunto  de  
consultas  también  brinda  buenas  aproximaciones  a  la  mayoría  de  las  consultas.  
Ambos  son  ejemplos  de  límites  de  generalización.  En  el  resto  de  esta  sección,  primero  
probaremos  un  límite  de  generalización  y  luego  lo  usaremos  para  construir  generadores  
de  sinopsis  de  base  diferencial.

6.2.1  Un  límite  de  generalización

Tenemos  una  distribución  D  sobre  un  gran  conjunto  Q  de  consultas  a  aproximar.  El  
lema  a  continuación  dice  que  una  sinopsis  suficientemente  pequeña  que  proporcione  
aproximaciones  suficientemente  buenas  a  las  respuestas  de  un  subconjunto  S     Q  
de  consultas  seleccionado  al  azar ,  muestreado  de  acuerdo  con  la  distribución  D  en  
Q,  con  alta  probabilidad  sobre  la  elección  de  S,  también  dará  buenas  aproximaciones  
a  las  respuestas  a  la  mayoría  de  las  consultas  en  Q  (es  decir,  a  la  mayor  parte  de  la  
masa  de  Q,  ponderada  por  D).  Por  supuesto,  para  que  tenga  algún  sentido,  la  sinopsis  
debe  incluir  un  método  para  proporcionar  una  respuesta  a  todas  las  consultas  en  Q,  
no  solo  al  subconjunto  S     Q  recibido  como  entrada.  Nuestros  generadores  
particulares,  descritos  en  las  Secciones  6.2.2  y  el  Teorema  6.6  producirán  bases  de  
datos  sintéticas;  para  responder  a  cualquier  consulta,  simplemente  se  puede  aplicar  
la  consulta  a  la  base  de  datos  sintética,  pero  el  lema  se  establecerá  con  total  
generalidad.
Sea  R(y,  q)  la  respuesta  dada  por  la  sinopsis  y  (cuando  se  usa  como  entrada  para  
el  procedimiento  de  reconstrucción)  en  la  consulta  q.  Una  sinopsis  y  λ  se  ajusta  a  una  
base  de  datos  x  con  un  conjunto  S  de  consultas  si  maxq S  |R(y,  q)−q(x)|  ≤  λ.  Sea  |y|
Machine Translated by Google

6.2.  Generadores  de  sinopsis  base 131

denote  el  número  de  bits  necesarios  para  representar  y.  Dado  que  nuestras  sinopsis  
serán  bases  de  datos  sintéticas,  |y|  =  N  log2  |X  |  para  algún  número  N  apropiadamente  
elegido  de  elementos  del  universo.  El  límite  de  generalización  muestra  que  si  y  λ  se  
ajusta  a  x  con  respecto  a  un  conjunto  S  suficientemente  grande  (mayor  que  |y|)  
elegido  al  azar  de  consultas  muestreadas  de  una  distribución  D,  entonces  con  alta  
probabilidad  y  λ  se  ajusta  a  x  para  la  mayor  parte  de  la  masa  de  d

Lema  6.5.  Sea  D  una  distribución  arbitraria  en  un  conjunto  de  consultas  Q  =  {q :  X  →  
R}.  Para  todo  m     N ,  γ     (0,  1),  η     [0,  1/2),  sea  a  =  2(log(1/γ)  +  m)/(m(1  −  2η)).  
Entonces,  con  una  probabilidad  de  al  menos  1−γ  sobre  la  elección  de  S     Da∙m,  
toda  sinopsis  y  de  tamaño  como  máximo  m  bits  que  λ  se  ajusta  a  x  con  respecto  al  
conjunto  de  consultas  S,  también  λ  se  ajusta  a  x  con  respecto  a  al  menos  una  (1/2  +  
η)­fracción  de  D.

Antes  de  probar  el  lema,  observamos  que  a  es  un  factor  de  compresión:  estamos  
comprimiendo  las  respuestas  a  las  consultas  am  en  una  salida  de  m  bits,  por  lo  que  
mayor  a  corresponde  a  una  mayor  compresión.  Por  lo  general,  esto  significa  una  
mejor  generalización  y,  de  hecho,  vemos  que  si  a  es  más  grande,  manteniendo  m  y  
γ  fijos,  podríamos  tener  η  más  grande.  El  lema  también  dice  que,  para  cualquier  
tamaño  de  salida  dado  m,  el  número  de  consultas  necesarias  como  entrada  para  
obtener  una  salida  que  funcione  bien  en  la  mayoría  (1/2  +  η  fracción)  de  D  es  solo  
O(log(1/γ)  +  m).  Esto  es  interesante  porque  un  número  menor  de  consultas  k  que  
necesita  el  generador  base  conduce,  a  través  de  la  pérdida  de  privacidad  εsample  
debido  al  muestreo  de  consultas  kT  y  su  relación  inversa  con  la  holgura  µ  (Ecuación  
6.7),  a  una  precisión  mejorada  de  la  salida  del  impulso.  algoritmo.

Prueba  del  Lema  6.5.  Fijar  un  conjunto  de  consultas  S     Q  elegidas  de  forma  
independiente  según  Da∙m.  Examinar  una  sinopsis  arbitraria  de  m  bits  y.  Tenga  en  
cuenta  que  y  se  describe  mediante  una  cadena  de  bits  m.  Digamos  que  y  es  malo  si  |
R(y,  q)  −  q(x)|  >  λ  para  al  menos  una  (log(1/γ)  +  m)/(a  ∙  m)  fracción  de  D,  lo  que  
significa  que  Prq D[|R(y,  q)  −  q(x)|  >  λ]  ≥  (log(1/γ)  +  m)/(a  ∙  m).
En  otras  palabras,  y  es  malo  si  existe  un  conjunto  Qy     Q  de  peso  fraccionario  
al  menos  (log(1/γ)  +m)/(a  ∙m)  tal  que  |R(y,  q)−q(x)  |  >  λ  para  q     Qy.  Para  tal  y,  ¿cuál  
es  la  probabilidad  de  que  y  dé  respuestas  λ­exactas  para  cada  q     S?  Esta  es  
exactamente  la  probabilidad  de  que  ninguno  de
Machine Translated by Google

132 Impulso  para  Consultas

las  consultas  en  S  están  en  Qy,  o

−  (log(1/γ)  +  m)/(a  ∙  m))a∙m  ≤  e −(log(1/γ)+m)  ≤  γ  ∙  2  (1   −m

Tomando  un  límite  de  unión  sobre  las  2  m  opciones  posibles  para  y,  la  probabilidad  de  
que  exista  una  sinopsis  de  m  bits  y  que  sea  precisa  en  todas  las  consultas  en  S  pero  
inexacta  en  un  conjunto  de  peso  fraccionario  (log(1/β)  +m )/(a  ∙m)  es  como  mucho  γ.  
Haciendo  k  =  am  =  |S|  vemos  que  es  suficiente  tener

2(log(1/γ)  +  m)  m  ∙  
un  > . (6.9)
(1  −  2η)

Este  simple  lema  es  extremadamente  poderoso.  Nos  dice  que  al  construir  un  
generador  base  en  la  ronda  t,  solo  debemos  preocuparnos  por  garantizar  buenas  
respuestas  para  el  pequeño  conjunto  de  consultas  aleatorias  muestreadas  de  Dt ;  
hacerlo  bien  durante  la  mayor  parte  de  Dt  sucederá  automáticamente!

6.2.2  El  generador  base

Nuestro  primer  generador  funciona  por  fuerza  bruta.  Después  de  muestrear  un  conjunto  
S  de  k  consultas  de  forma  independiente  de  acuerdo  con  una  distribución  D,  el  
generador  base  producirá  respuestas  ruidosas  para  todas  las  consultas  en  S  a  través  
del  mecanismo  de  Laplace.  Luego,  sin  hacer  más  uso  de  la  base  de  datos  real,  el  
algoritmo  busca  cualquier  base  de  datos  de  tamaño  n  para  la  cual  estas  ruidosas  
respuestas  sean  lo  suficientemente  cercanas  y  genera  esta  base  de  datos.  La  privacidad  
será  inmediata  porque  todo  después  de  las  k  invocaciones  del  mecanismo  de  Laplace  
está  en  posprocesamiento.  Por  lo  tanto,  la  única  fuente  de  pérdida  de  privacidad  es  la  
pérdida  acumulativa  de  estas  k  invocaciones  del  mecanismo  de  Laplace,  que  sabemos  
cómo  analizar  a  través  del  teorema  de  composición.  La  utilidad  se  derivará  de  la  utilidad  
del  mecanismo  de  Laplace,  que  dice  que  es  poco  probable  que  tengamos  un  error  "muy  
grande"  incluso  en  una  consulta,  junto  con  el  hecho  de  que  la  verdadera  base  de  datos  
x  es  una  base  de  datos  de  n  elementos  que
se  ajusta  a  estas  respuestas  ruidosas.1

1Este  argumento  supone  que  se  conoce  el  tamaño  n  de  la  base  de  datos.  Alternativamente,  
podemos  incluir  una  consulta  ruidosa  de  la  forma  "¿Cuántas  filas  hay  en  la  base  de  datos?"  y  busque  
exhaustivamente  todas  las  bases  de  datos  de  tamaño  cercano  a  la  respuesta  a  esta  consulta.
Machine Translated by Google

6.2.  Generadores  de  sinopsis  base 133

Teorema  6.6  (Generador  de  sinopsis  base  para  consultas  arbitrarias).  Para  cualquier  
universo  de  datos  X  tamaño  
, de  base  de  datos  n,  y  clase  Q :  {X     →  R}  de  consultas  
de  sensibilidad  como  máximo  ρ,  para  cualquier  εbase,  δbase  >  0,  existe  una  (εbase,  
δbase)  diferencialmente  privada  (k,  λ ,  η  =  1/3,  generador  de  sinopsis  de  base  β)  para  
Q,  donde  k  =  am  >  6(m+log(2/β))  =  6(n  log  |X  |+log(2/β))  y  λ  >  2b(log  k  +  log(2/β)),  donde  
b  =  ρ  am  log(1/δbase)/εbase.
El  tiempo  de  funcionamiento  del  generador  es

|X  |n  ∙  poli(n,  log(1/β),  log(1/εbase),  log(1/δbase)).

Prueba.  Primero  describimos  el  generador  base  en  un  nivel  alto,  luego  determinamos  
los  valores  para  ky  λ .  La  sinopsis  y  producida  por  el  generador  base  será  una  base  de  
datos  sintética  de  tamaño  n.  Así  m  =  |y|  =  n  ∙  registro  |X  |.  El  generador  comienza  
eligiendo  un  conjunto  S  de  k  consultas,  muestreadas  independientemente  de  acuerdo  
con  D.  Calcula  una  respuesta  ruidosa  para  cada  consulta  q     S  usando  el  mecanismo  
de  Laplace,  agregando  a  cada  respuesta  verdadera  una  extracción  independiente  de  
Lap(b)  para  una  respuesta  apropiada.  b  se  determinará  más  adelante.  Sea  {q(x)}q Q  
la  colección  de  respuestas  ruidosas.
El  generador  enumera  sobre  todas  las  |X  |n  bases  de  datos  de  tamaño  n,  y  saca  la  
primera  base  de  datos  lexicográficamente  y  de  tal  manera  que  para  cada  q     S  
tenemos  |q(y)  −  q(x)|  ≤  λ/2.  Si  no  se  encuentra  tal  base  de  datos,  genera     en  su  lugar,  
y  decimos  que  falla.  Tenga  en  cuenta  que  si  |q(x)  −  q(x)|  <  λ/2  y  |q(y)  −  q(x)|  <  λ/2,  
entonces  |q(y)  −  q(x)|  <  λ.
Existen  dos  fuentes  potenciales  de  falla  para  nuestro  generador  en  particular.  Una  
posibilidad  es  que  y  falle  en  generalizar,  o  sea  malo  como  se  define  en  la  prueba  del  
Lema  6.5.  Una  segunda  posibilidad  es  que  una  de  las  muestras  de  la  distribución  de  
Laplace  sea  de  una  magnitud  excesivamente  grande,  lo  que  podría  provocar  la  falla  del  
generador.  Elegiremos  nuestros  parámetros  para  acotar  la  probabilidad  de  cada  uno  de  
estos  eventos  individualmente  como  máximo  β/2.

Sustituyendo  η  =  1/3  y  m  =  n  log  |X|  en  la  Ecuación  6.9  muestra  que  tomar  a  >  6(1  
+  log(2/β)/m)  es  suficiente  para  que  la  probabilidad  de  falla  debido  a  la  elección  de  S  
esté  acotada  por  β/2.  Por  lo  tanto,  tomando  k  =  am  >  6(m  +  log(2/β))  =  6(n  log  |X  |  +  
log(2/β))  es  suficiente.
Tenemos  k  consultas  de  sensibilidad  como  mucho  ρ.  Usando  el  mecanismo  de  
Laplace  con  parámetro  b  =  2  2k  log(1/δbase)ρ/εbase,  asegura  que  cada  consulta  incurra  
en  pérdida  de  privacidad  como  máximo  εbase/  2k  ln(1/δbase),  que  por
Machine Translated by Google

134 Impulso  para  Consultas

El  corolario  3.21  asegura  que  todo  el  procedimiento  será  (εbase,  δbase)­  diferencialmente  
privado.
Elegiremos  λ  de  modo  que  la  probabilidad  de  que  cualquier  sorteo  de  Lap(b)  tenga  
una  magnitud  superior  a  λ/2  sea  como  mucho  β/2.  Condicionado  al  evento  de  que  todos  
los  sorteos  de  k  tengan  una  magnitud  máxima  de  λ ,  sabemos  que  la  base  de  datos  de  
entrada  en  sí  se  ajustará  a  nuestras  respuestas  ruidosas,  por  lo  que  el  procedimiento  no  fallará.
Recuerde  que  las  propiedades  de  concentración  de  la  distribución  de  Laplace  
t
que,  con  probabilidad,  al  menos  1−e  magnitud   extraídas  de  Lap(b)  garantizarán  
limitada  por  tb.  Al  establecer  λ/2  =  tb,  la  probabilidad  de  que  una  determinada  extracción  
−t =  mi de  −λ /.
2b  tenga  una  magnitud  superior  a  λ/2  está  limitada  por  e .  tener

ke−λ/2b  <  β/2

  e  2  λ/2b  >  k  
β     λ/2  >  

b(log  k  +  log(2/β))     λ  >  2b(log  k  +  

log(2/β)).

El  caso  especial  de  las  consultas  lineales.  Para  el  caso  especial  de  consultas  lineales,  
es  posible  evitar  la  búsqueda  de  fuerza  bruta  para  una  base  de  datos  pequeña.  La  técnica  
requiere  tiempo  que  es  polinomial  en  (|Q|,  |X  |,  n,  log(1/β)).  Nos  centraremos  en  el  caso  
de  consultas  de  conteo
y  esbozar  la  construcción.

Como  en  el  caso  del  generador  base  para  consultas  arbitrarias,  el  generador  base  
comienza  seleccionando  un  conjunto  S  de  k  =  am  consultas  según  D  y  calculando  
respuestas  ruidosas  utilizando  el  ruido  de  Laplace.  El  generador  de  consultas  lineales  
luego  ejecuta  un  sintetizador  en  S  que,  en  términos  generales,  transforma  cualquier  
sinopsis  que  proporcione  buenas  aproximaciones  a  cualquier  conjunto  R  de  consultas  en  
una  base  de  datos  sintética  que  produzca  aproximaciones  de  calidad  similar  en  el  conjunto  
R.  La  entrada  al  sintetizador  será  la  valores  ruidosos  para  las  consultas  en  S,  es  decir,  R  
=  S.  (Recuerde  que  cuando  modificamos  el  tamaño  de  la  base  de  datos  siempre  pensamos  
en  términos  de  la  versión  fraccionaria  de  las  consultas  de  conteo:  “¿Qué  fracción  de  las  
filas  de  la  base  de  datos  satisface  la  propiedad  P ?”)
Machine Translated by Google

6.2.  Generadores  de  sinopsis  base 135

La  base  de  datos  resultante  puede  ser  bastante  grande,  lo  que  significa  que  puede  
tener  muchas  filas.  Luego,  el  generador  base  submuestrea  solo  n  =  (log  k  log(1/β))/α2  
de  las  filas  de  la  base  de  datos  sintética,  creando  una  base  de  datos  sintética  más  
pequeña  que  con  una  probabilidad  de  al  menos  1  −  β  tiene  una  precisión  α  con  respecto  
a  las  respuestas  dada  por  la  gran  base  de  datos  sintética.  Esto  produce  una  sinopsis  
de  m  =  ((log  k  log(1/β))/α2 )  log  |X  |­bit  que,  según  el  lema  de  generalización,  con  
probabilidad  (1−log(1/β))  sobre  la  elección  del  k  consultas,  responde  bien  en  una  (1/2  +  
η)  fracción  de  Q  (ponderada  por  D).

Como  en  el  caso  del  generador  base  para  consultas  arbitrarias,  requerimos
k  =  am  >  6  log(1/β)  +  6m.  Tomando  α  6log  k   2 =  (log  Q)/n  obtenemos  que

β)  + log(1/β)  log  |X  |  k  >  6  log(1/
α2
registro  
|X  |  =  6  log(1/β)  +  6n  log  k  log(1/β)  log  |
Q|.
El  sintetizador  no  es  trivial.  Sus  propiedades  se  resumen  en
el  siguiente  teorema.

Teorema  6.7.  Sea  X  un  universo  de  datos,  Q  un  conjunto  de  consultas  de  conteo  
fraccionario  y  A  un  generador  de  sinopsis  diferencialmente  privado  (ε,  δ)  con  utilidad  (α,  
β,  0)  y  salida  arbitraria.  Entonces  existe  un  sintetizador  A  que  es  (ε,  δ)­diferencialmente  
privado  y  tiene  utilidad  (3α,  β,  0).  Una  salida  pone  una  base  de  datos  sintética  
(potencialmente  grande).  Su  tiempo  de  ejecución  es  polinomial  en  el  tiempo  de  
ejecución  de  A  y  (|X  |,  |Q|,  1/α,  log(1/β)).

En  nuestro  caso,  A  es  el  mecanismo  de  Laplace,  y  la  sinopsis  es  simplemente  el  
conjunto  de  respuestas  ruidosas.  El  teorema  de  la  composición  dice  que  para  que  A  
sea  (εbase,  δbase)  diferencialmente  privado,  el  parámetro  del  mecanismo  de  Laplace  
debe  ser  ρ/(εbase/  2k  log(1/δbase)).  Para  consultas  de  conteo  fraccionario,  la  
sensibilidad  es  ρ  =  1/n.
Así,  cuando  apliquemos  el  Teorema  tendremos  un  α  de  orden  ( k  log(1/β)/εbase)ρ.  
Aquí,  ρ  es  la  sensibilidad.  Para  consultas  de  conteo  es  1,  pero  cambiaremos  a  consultas  
de  conteo  fraccionario,  por  lo  que  ρ  =  1/n.

Bosquejo  de  prueba  para  el  teorema  6.7.  Ejecute  A  para  obtener  conteos  
(diferencialmente  privados)  (fraccionales)  en  todas  las  consultas  en  R.  Luego  usaremos  
la  programación  lineal  para  encontrar  una  base  de  datos  fraccionaria  de  bajo  peso  que  se  aproxime
Machine Translated by Google

136 Impulso  para  Consultas

estos  recuentos  fraccionarios,  como  se  explica  a  continuación.  Finalmente,  transformamos  
esta  base  de  datos  fraccionaria  en  una  base  de  datos  sintética  estándar  redondeando  los  
recuentos  fraccionarios.
La  salida  de  A  produce  un  recuento  fraccionario  para  cada  consulta  q     Q.  Nunca  se  
vuelve  a  acceder  a  la  base  de  datos  de  entrada  x ,  por  lo  que  A  es  (ε,  δ)  diferencialmente  
privada.  Sea  v  el  vector  resultante  de  conteos,  es  decir,  vq  es  el  conteo  fraccionario  que  da  
la  salida  de  A  en  la  consulta  q.  Con  probabilidad  1  −  β,  todas  las  entradas  en  v  son  α­
exactas.
Una  base  de  datos  “fraccional”  z  que  aproxima  estos  conteos  se  obtiene  de  la  siguiente  
manera.  Recuerde  la  representación  del  histograma  de  una  base  de  datos,  donde  para  
cada  elemento  del  universo  X,  el  histograma  contiene  el  número  de  instancias  de  este  
elemento  en  la  base  de  datos.  Ahora,  para  cada  i     X  introducimos  una  variable  ai  ≥  0  que  
, el  número  (fraccional)  de  ocurrencias  de  i  en  la  base  de  datos  fraccionaria  z.  
“contará”  
Impondremos  la  restricción

ia  =  1.
i X

Representamos  el  recuento  de  consultas  q  en  z  como  la  suma  del  recuento  de  elementos  i  
que  satisfacen  q:

ai
i X  st  q(i)=1

Queremos  que  todos  estos  conteos  estén  dentro  de  una  precisión  aditiva  α  de  los  conteos  
respectivos  en  vq.  Escribiendo  esto  como  una  desigualdad  lineal  obtenemos:

(vq  −  α) yo  ≤ ai  ≤  (vq  +  α) ay  _

i X i X  st  q(i)=1 i X

Cuando  todos  los  conteos  tienen  una  precisión  α  con  respecto  a  los  conteos  en  vc,  también  
ocurre  que  (con  probabilidad  1  −  β)  todos  tienen  una  precisión  2α  con  respecto  a  los  
conteos  verdaderos  en  la  base  de  datos  original  x.
Escribimos  un  programa  lineal  con  dos  restricciones  de  este  tipo  para  cada  consulta  
(un  total  de  2|Q|  restricciones).  A  trata  de  encontrar  una  solución  fraccionaria  para  este  
programa  lineal.  Para  ver  que  tal  solución  existe,  observe  que  la  propia  base  de  datos  x  es  
α­cercana  al  vector  de  conteos  v,  por  lo  que  existe  una  solución  para  el  programa  lineal  (de  
hecho,  incluso  una  solución  entera),  y  por  lo  tanto  A  encontrará  alguna  solución  fraccionaria.
Machine Translated by Google

6.2.  Generadores  de  sinopsis  base 137

Concluimos  que  A  puede  generar  una  base  de  datos  fraccionaria  con  (2α,  β,  0)­utilidad,  
pero  realmente  queremos  una  base  de  datos  sintética  (enteros).  Para  transformar  la  base  
de  datos  fraccionaria  en  una  entera,  redondeamos  hacia  abajo  cada  ai  para  i     X  al  
múltiplo  m, ás  cercano  de  
, α/|X  |,  esto  cambia  cada  conteo  fraccionario  en  un  máximo  de  α/|
X  |  factor  aditivo,  por  lo  que  los  recuentos  redondeados  tienen  una  utilidad  (3α,  β,  0).  Ahora  
podemos  tratar  la  base  de  datos  fraccionaria  redondeada  (que  tiene  un  peso  total  de  1),  
como  una  base  de  datos  sintética  de  enteros  de  tamaño  (polinomio)  como  máximo  |X  |/α.

Recuerde  que  en  nuestra  aplicación  del  Teorema  6.7  definimos  A  como  el  mecanismo  
que  suma  el  ruido  de  Laplace  con  el  parámetro  ρ/(εbase/  2k  log(1/δbase)).  Tenemos  k  
sorteos,  por  lo  que  al  tomar

α  =  ρ  2k  log(1/δbase)(log  k  +  log(1/β))

tenemos  que  A  es  (α ,  β,  0)­exacta.  Para  el  generador  base  elegimos  =  (log  |Q|)/n.  Si  la  
2  errores salida  del  sintetizador  es  demasiado  grande,  submuestreamos

registro  |Q|  log(1/β)   = log  k  log(1/β)  α2
norte  =
α2

filas  Con  probabilidad  1  −  β ,  la  base  de  datos  resultante  mantiene  una  precisión  O(ρ  (log  |
Q|)/n  +  ( 2k  log(1/δbase)/εbase)(log  k  +  log(1/β))  en  todos  los  conceptos  simultáneamente.

Finalmente,  el  generador  base  puede  fallar  si  la  elección  de  las  consultas  S     Dk  no  
conduce  a  una  buena  generalización.  Con  los  parámetros  que  hemos  elegido  esto  ocurre  
con  probabilidad  a  lo  sumo  β,  lo  que  lleva  a  una  probabilidad  de  falla  total  de  todo  el  
generador  de  3β.

Teorema  6.8  (Generador  base  para  consultas  lineales  fraccionarias).  Para  cualquier  
universo  de  datos  X , tamaño  de  base  de  datos  n,  y  clase  Q:  {X  n  →  R}  de  consultas  

lineales  fraccionarias  (con  sensibilidad  como  máximo  1/n),  para  cualquier  εbase,  δbase  >  
0,  existe  una  (εbase,  δbase)  diferencialmente  privada  ( generador  de  sinopsis  de  base  k,  
λ,  1/3,  3β)  para  Q,  donde  n  log(|X  |)  log(1/

β)  log  |Q|  log(1/β)  √  
k  =  O
norte

registro|X  |   1
λ  =  O ∙ .
registro  |Q|  +
registro|Q| εbase
Machine Translated by Google

138 Impulso  para  Consultas

El  tiempo  de  ejecución  del  generador  base  es  poli(|X  |,  n,  log(1/β),  log(1/εbase)).

El  límite  de  muestreo  utilizado  aquí  es  el  mismo  que  el  utilizado  en  la  
construcción  del  mecanismo  SmallDB,  pero  con  diferentes  parámetros.
Aquí  estamos  usando  estos  límites  para  un  generador  base  en  un  algoritmo  de  impulso  
complicado  con  un  conjunto  de  consultas  muy  pequeño;  allí  los  estamos  usando  para  
una  generación  de  un  solo  disparo  de  una  base  de  datos  sintética  con  un  enorme  
conjunto  de  consultas.

6.2.3  Montaje  de  los  ingredientes

El  error  total  proviene  de  la  elección  de  µ  (ver  Ecuación  6.2)  y  λ,  el  parámetro  de  
precisión  para  el  generador  basado.
Recordemos  el  Teorema  6.1:

Teorema  6.9  (Teorema  6.1).  Sea  Q  una  familia  de  consulta  con  sensibilidad  a  lo  
sumo  ρ.  Para  una  configuración  adecuada  de  los  parámetros,  y  con  T  =  log  |Q|/η2  
rondas,  el  algoritmo  de  la  Figura  6.1  es  un  algoritmo  de  impulso  de  consultas  preciso  
y  diferencialmente  privado:

1.  Cuando  se  crea  una  instancia  con  un  generador  de  sinopsis  de  base  (k,  λ,  η,  
β),  la  salida  del  algoritmo  de  impulso  proporciona  respuestas  precisas  (λ  +  µ)  
a  todas  las  consultas  en  Q  con  una  probabilidad  de  al  menos  1  −  T  β,  dónde
3
µ     O(((log3/2  |Q|)  √  k  log(1/β)ρ)/(εsample  ∙  η  2.  Si  el   )).  (6.10)
generador  de  sinopsis  base  es  (εbase,  δbase)  diferencialmente  privado,  
entonces  el  algoritmo  de  refuerzo  es  ((εmuestra  +  T  ∙  εbase),  T(β  +  δbase))­
privada  diferencialmente.

Por  la  Ecuación  6.7,
2
def   α4T  ρ
εmuestra =  2kT  log(1/β)(α4T  ρ/µ)  +  kT ,
µ
donde  α  =  (1/2)(ln(1  +  2η)(1  −  2η))     O(1).  Siempre  tenemos  T  =  (log  |Q|)/η2 ,  por  lo  
que  sustituyendo  este  valor  en  la  ecuación  anterior  vemos  que  el  límite

3
µ     O(((log3/2  |Q|)  √  k  log(1/β)ρ)/(εmuestra  ∙  η ))

en  el  enunciado  del  teorema  es  aceptable.
Machine Translated by Google

6.3.  notas  bibliograficas 139

Para  el  caso  de  consultas  arbitrarias,  con  η  constante,  tenemos

ρ
λ     O ( n  log  |X  |  log(1/δbase)(log(n  log  |X  |)  +  log(2/β))) .
εbase

Ahora,  εboost  =  T  εbase  +  εsample.  Iguale  estos  dos  términos,  de  modo  que  T  εbase  
=  εboost/2  =  εsample,  por  lo  que  podemos  reemplazar  el  término  1/εbase  con  2T /
εboost  =  (log  |Q|/η2 )/2εboost.  Ahora  nuestros  términos  para  λ  y  µ  tienen  
denominadores  similares,  ya  que  η  es  constante.  Por  lo  tanto,  podemos  concluir  que  
el  error  total  está  acotado  por:

n  log  |X  |ρ  log3/2  |Q|(log(1/β))3/2
λ  +  µ     O˜ .
impulsar

Con  un  razonamiento  similar,  para  el  caso  de  consultas  de  conteo  fraccionario  
obtenemos
registro  |X  |  registro  |Q|  log(1/β)  3/2  
λ  +  µ     O˜ .
εimpulso√  norte

Para  convertir  a  un  límite  para  consultas  de  conteo  ordinarias,  no  fraccionarias,  
multiplicamos  por  n  para  obtener

n  registro  |X  |  registro  |Q|  log(1/β)  3/2
λ  +  µ     O˜ .
impulsar

6.3  Notas  bibliográficas

El  algoritmo  boosting  (Figura  6.1)  es  una  variante  del  algoritmo  AdaBoost  de  Schapire  
y  Singer  [78].  Consulte  Schapire  [77]  para  obtener  un  excelente  estudio  sobre  el  
impulso,  y  el  libro  de  texto  "Boosting"  de  Freund  y  Schapire  [79]  para  un  tratamiento  
completo.  El  algoritmo  de  impulso  privado  cubierto  en  esta  sección  se  debe  a  Dwork  
et  al.  [32],  que  también  contiene  el  generador  base  para  consultas  lineales.  Este  
generador  base,  a  su  vez,  se  basa  en  el  sintetizador  de  Dwork  et  al.  [28].  En  particular,  
el  Teorema  6.7  proviene  de  [28].  Dwork,  Rothblum  y  Vadhan  también  abordaron  el  
impulso  diferencialmente  privado  en  el  sentido  habitual.
Machine Translated by Google

7
Cuando  la  sensibilidad  en  el  peor  de  los  casos  es  atípica

En  esta  sección,  describimos  brevemente  dos  técnicas  generales,  ambas  con  
garantías  de  privacidad  incondicionales,  que  a  menudo  pueden  facilitarle  la  vida  
al  analista  de  datos,  especialmente  cuando  se  trata  de  una  función  que  tiene  una  
sensibilidad  arbitraria  o  difícil  de  analizar  en  el  peor  de  los  casos.  Estos  algoritmos  
son  más  útiles  en  las  funciones  informáticas  que,  por  alguna  razón  exógena,  el  
analista  tiene  razones  para  creer  que  son  "generalmente"  insensibles  en  la  práctica.

7.1  Submuestra  y  agregado

La  técnica  de  Submuestra  y  Agregado  produce  un  método  para  “forzar”  el  cálculo  
de  una  función  f(x)  para  que  sea  insensible,  incluso  para  una  función  f  arbitraria .  
Probar  la  privacidad  será  trivial.  La  precisión  depende  de  las  propiedades  de  la  
función  f  y  del  conjunto  de  datos  específico  x;  en  particular,  si  f(x)  se  puede  
estimar  con  precisión,  con  alta  probabilidad,  en  f(S),  donde  S  es  un  subconjunto  
aleatorio  de  los  elementos  en  x,  entonces  la  precisión  debería  ser  buena.  Muchos  
estimadores  estadísticos  de  máxima  verosimilitud  disfrutan  de  esta  propiedad  en  
conjuntos  de  datos  "típicos";  es  por  eso  que  estos  estimadores  se  emplean  en  la  
práctica.

140
Machine Translated by Google

7.1.  Submuestra  y  agregado 141

Figura  7.1:  Submuestra  y  agregado  con  un  algoritmo  genérico  de  agregación  diferencialmente  privada  
M.

En  Submuestra  y  Agregado,  las  n  filas  de  la  base  de  datos  x  se  dividen  
aleatoriamente  en  m  bloques  B1, . . . ,  Bm,  cada  uno  de  tamaño  n/m.  La  función  
f  se  calcula  exactamente,  sin  ruido,  independientemente  en  cada  bloque.  Los  
resultados  intermedios  f(B1), . . . ,  f(Bm)  luego  se  combinan  a  través  de  un  
mecanismo  de  agregación  diferencialmente  privado;  los  ejemplos  típicos  
incluyen  agregaciones  estándar,  como  la  media  recortada  en  α,1  la  media  
sorizada  de  Win2  y  la  mediana,  pero  no  hay  restricciones,  y  luego  agregando  
Laplace  ruido  escalado  a  la  sensibilidad  de  la  función  de  agregación  en  cuestión;  
consulte  la  Figura  7.1.
La  observación  clave  en  Submuestra  y  Agregado  es  que  cualquier  elemento  
individual  puede  afectar  como  máximo  un  bloque  y,  por  lo  tanto,  el  valor  de  un  
solo  f(Bi).  Por  lo  tanto,  cambiar  los  datos  de  cualquier  individuo  puede  cambiar  
como  máximo  una  sola  entrada  a  la  función  de  agregación.  Incluso  si  f  es  
arbitraria,  el  analista  elige  la  función  de  agregación  y,  por  lo  tanto,  es  libre  de  
elegir  una  que  sea  insensible,  ¡ siempre  que  la  elección  sea  independiente  de  
la  base  de  datos!  La  privacidad  es  por  lo  tanto  inmediata:  Para  cualquier  δ  ≥  0  
y  cualquier  función  f,  si  el  mecanismo  de  agregación  M  es  (ε,  δ)­diferencialmente  privado

1La  media  recortada  de  α  es  la  media  después  de  la  fracción  α  superior  e  inferior  de  la
las  entradas  han  sido  descartadas.
2La  media  Winsorizada  es  similar  a  la  media  α  recortada  excepto  que,  en  lugar  de  descartarse,  las  
fracciones  α  superior  e  inferior  se  reemplazan  con  los  valores  restantes  más  extremos.
Machine Translated by Google

142 Cuando  la  sensibilidad  en  el  peor  de  los  casos  es  atípica

entonces  también  lo  es  la  técnica  Submuestra  y  Agregado  cuando  se  instancia  con  f  y  
M. 3

La  utilidad  es  una  historia  diferente,  y  es  frustrantemente  difícil  argumentar  incluso  
en  el  caso  en  que  los  datos  sean  abundantes  y  es  muy  probable  que  grandes  
subconjuntos  aleatorios  den  resultados  similares.  Por  ejemplo,  los  datos  se  pueden  
etiquetar  como  puntos  de  entrenamiento  en  un  espacio  dimensional  alto  y  la  función  
es  una  regresión  logística,  que  produce  un  vector  v  y  etiqueta  un  punto  p  con  +1  si  y  
solo  si  p  ∙  v  ≥  T  para  algunos  (digamos,  fijo)  umbral  t
Intuitivamente,  si  las  muestras  son  lo  suficientemente  abundantes  y  típicas,  entonces  
todos  los  bloques  deberían  generar  vectores  similares  v.  La  dificultad  surge  al  obtener  
un  buen  límite  en  la  sensibilidad  de  la  función  de  agregación  en  el  peor  de  los  casos:  
es  posible  que  necesitemos  usar  el  tamaño  del  rango  como  un  retroceder.  No  obstante,  
se  conocen  algunas  buenas  aplicaciones,  especialmente  en  el  ámbito  de  los  
estimadores  estadísticos,  donde,  por  ejemplo,  se  puede  demostrar  que,  bajo  el  
supuesto  de  “normalidad  genérica”,  se  puede  lograr  la  privacidad  sin  costo  adicional  
en  eficiencia  estadística  ( aproximadamente,  precisión  a  medida  que  crece  el  número  
de  muestras).  Aquí  no  definimos  la  normalidad  genérica,  pero  tenga  en  cuenta  que  los  
estimadores  que  se  ajustan  a  estos  supuestos  incluyen  el  estimador  de  máxima  
verosimilitud  para  familias  de  distribuciones  paramétricas  "agradables",  como  las  
gaussianas,  y  los  estimadores  de  máxima  verosimilitud  para  la  regresión  lineal  y  la  
regresión  logística.
Supongamos  que  la  función  f  tiene  un  rango  discreto  de  cardinalidad  m,  digamos,  
[m].  En  este  caso,  Subsample  y  Aggregate  necesitarán  agregar  un  conjunto  de  b  
elementos  extraídos  de  [m],  y  podemos  usar  Report  Noisy  Arg­Max  para  encontrar  el  
resultado  más  popular.  Este  enfoque  de  agregación  requiere  b  ≥  log  m  para  obtener  
resultados  significativos  incluso  cuando  los  resultados  intermedios  son  unánimes.  
Veremos  una  alternativa  a  continuación  sin  tal  requisito.

Ejemplo  7.1  (Elección  de  un  modelo).  Gran  parte  del  trabajo  en  estadística  y  
aprendizaje  automático  aborda  el  problema  de  la  selección  de  modelos:  dado  un  
conjunto  de  datos  y  una  colección  discreta  de  "modelos",  cada  uno  de  los  cuales  es  
una  familia  de  distribuciones  de  probabilidad,  el  objetivo  es  determinar  el  modelo  que  mejor  "se  ajusta".

3La  elección  de  la  función  de  agregación  puede  incluso  depender  de  la  base  de  datos,  
pero  la  selección  debe  hacerse  de  manera  diferencialmente  privada.  El  costo  de  privacidad  
es  entonces  el  costo  de  componer  la  operación  de  elección  con  la  función  de  agregación.
Machine Translated by Google

7.2.  Proponer­Prueba­Lanzamiento 143

los  datos.  Por  ejemplo,  dado  un  conjunto  de  datos  d­dimensionales  etiquetados,  la  
colección  de  modelos  puede  ser  todos  los  subconjuntos  de,  como  máximo,  
características  sd ,  y  el  objetivo  es  encontrar  el  conjunto  de  características  que  mejor  
permita  la  predicción  de  las  etiquetas.  La  función  f  podría  elegir  el  mejor  modelo  del  
conjunto  dado  de  m  modelos,  un  proceso  conocido  como  ajuste  de  modelo,  a  través  
de  un  algoritmo  de  aprendizaje  arbitrario.  La  agregación  para  encontrar  el  valor  más  
popular  se  puede  realizar  a  través  de  Report  Noisy  Max,  que  también  proporciona  
una  estimación  de  su  popularidad.

Ejemplo  7.2  (Características  significativas).  Este  es  un  caso  especial  de  ajuste  de  
modelos.  Los  datos  son  una  colección  de  puntos  en  R   d y  la  función  es  la
LASSO  muy  popular,  que  produce  como  resultado  una  lista  L     [d]  s  de  características  
significativas  como  máximo  sd .  Podemos  agregar  la  salida  de  dos  maneras:  
característica  por  característica,  equivalente  a  ejecutar  d  ejecuciones  de  Submuestra  
y  Agregado,  una  para  cada  característica,  cada  una  con  un  rango  de  tamaño  2,  o  en  
d .
el  conjunto  como  un  todo,  en  cuyo  caso  la  cardinalidad  de  el  rango  es s

7.2  Proponer­Prueba­Liberar

En  este  punto  cabría  preguntarse:  ¿cuál  es  el  sentido  de  la  agregación  si  no  existe  un  
acuerdo  sustancial  entre  los  bloques?  En  términos  más  generales,  para  cualquier  
análisis  estadístico  razonablemente  grande  en  la  vida  real,  esperamos  que  los  
resultados  sean  bastante  estables,  independientemente  de  la  presencia  o  ausencia  
de  un  solo  individuo.  De  hecho,  esta  es  toda  la  intuición  detrás  de  la  importancia  de  
una  estadística  y  la  utilidad  de  la  privacidad  diferencial.  Incluso  podemos  ir  más  allá  
y  argumentar  que  si  una  estadística  no  es  estable,  no  deberíamos  tener  interés  en  
calcularla.  A  menudo,  nuestra  base  de  datos  será  de  hecho  una  muestra  de  una  
población  más  grande,  y  nuestro  verdadero  objetivo  no  es  calcular  el  valor  de  la  
estadística  en  la  base  de  datos  en  sí,  sino  estimarlo  para  la  población  subyacente.  
Implícitamente,  por  lo  tanto,  al  calcular  una  estadística  ya  estamos  asumiendo  que  la  
estadística  es  estable  bajo  submuestreo.

Todo  lo  que  hemos  visto  hasta  ahora  ha  brindado  privacidad  incluso  en  conjuntos  
de  datos  muy  "idiosincrásicos",  para  los  cuales  los  algoritmos  "típicamente"  estables  
pueden  ser  muy  inestables.  En  esta  sección  presentamos  una  metodología,  Proponer  
Test­Release,  que  está  motivada  por  la  filosofía  de  que  si  hay
Machine Translated by Google

144 Cuando  la  sensibilidad  en  el  peor  de  los  casos  es  atípica

estabilidad  insuficiente,  entonces  se  puede  abandonar  el  análisis  porque  los  resultados  
no  son  de  hecho  significativos.  Es  decir,  la  metodología  permite  al  analista  verificar  
que,  en  el  conjunto  de  datos  dado,  la  función  satisface  algún  criterio  de  “robustez”  o  
“estabilidad”  y,  si  no  lo  hace,  detener  el  análisis.

El  objetivo  de  nuestra  primera  aplicación  de  Proponer­Prueba­Liberar  es  crear  una  
variante  del  mecanismo  de  Laplace  que  agregue  ruido  escalado  a  algo  estrictamente  
más  pequeño  que  la  sensibilidad  de  una  función.  Esto  conduce  a  la  noción  de  
sensibilidad  local,  que  se  define  para  un  par  (función,  base  de  datos),  por  ejemplo,  (f,  
x).  Sencillamente,  la  sensibilidad  local  de  f  con  respecto  a  x  es  la  cantidad  en  la  que  
f(y)  puede  diferir  de  f(x)  para  cualquier  y  adyacente  a  x.

Definición  7.1  (Sensibilidad  local).  La  sensibilidad  local  de  una  función  f :  X
k  →  R con  respecto  a  una  base  de  datos  x  es:
norte

max   f(x)  −  f(y)1.
y  adyacente  a  x

El  enfoque  Proponer­Prueba­Liberar  consiste  en  proponer  primero  un  límite,  
digamos  b,  en  la  sensibilidad  local  (por  lo  general,  el  analista  de  datos  tiene  una  idea  
de  cuál  debería  ser)  y  luego  ejecutar  una  prueba  privada  diferencial  para  garantizar  que  
la  base  de  datos  esté  "lejos".  de  cualquier  base  de  datos  para  la  que  este  límite  no  se  
cumpla.  Si  se  pasa  la  prueba,  se  supone  que  la  sensibilidad  está  limitada  por  b,  y  se  
utiliza  un  mecanismo  diferencialmente  privado  como,  por  ejemplo,  el  mecanismo  de  
Laplace  con  el  parámetro  b/,  para  liberar  la  respuesta  (ligeramente)  ruidosa  a  la  consulta.

Tenga  en  cuenta  que  podemos  ver  este  enfoque  como  un  algoritmo  de  dos  partes  
donde  una  parte  juega  un  analista  de  datos  honesto  y  la  otra  es  el  mecanismo  de  
Laplace.  Existe  una  interacción  entre  el  analista  honesto  y  el  mecanismo  en  el  que  el  
algoritmo  solicita  una  estimación  de  la  sensibilidad  y  luego  "instruye"  al  mecanismo  
para  que  use  esta  sensibilidad  estimada  para  responder  a  consultas  posteriores.  ¿Por  
qué  tiene  que  ser  tan  complicado?  ¿Por  qué  el  mecanismo  no  puede  simplemente  
agregar  ruido  escalado  a  la  sensibilidad  local  sin  jugar  este  juego  de  estimación  
privado?  La  razón  es  que  la  sensibilidad  local  en  sí  misma  puede  ser  sensible.  Este  
hecho,  combinado  con  cierta  información  auxiliar  sobre  la  base  de  datos,  puede  generar  
problemas  de  privacidad:  el  adversario  puede  saber  que  la  base  de  datos  es  una  de  x,
Machine Translated by Google

7.2.  Proponer­Prueba­Lanzamiento 145

que  tiene  una  sensibilidad  local  muy  baja  para  el  cálculo  en  cuestión,  y  una  vecina  y,  para  la  cual  
la  función  tiene  una  sensibilidad  local  muy  alta.  En  este  caso ,  el  adversario  puede  adivinar  con  
bastante  precisión  cuál  de  xey  es  la  verdadera  base  de  datos.  Por  ejemplo,  si  f(x)  =  f(y)  =  s  y  la  
respuesta  está  lejos  de  s,  entonces  el  adversario  adivinaría  y.

Esto  es  capturado  por  las  matemáticas  de  la  privacidad  diferencial.  Hay  instancias  vecinas  
de  la  función  mediana  que  tienen  la  misma  mediana,  digamos,  m,  pero  espacios  arbitrariamente  
grandes  en  la  sensibilidad  local.  Suponga  que  la  respuesta  R  a  la  consulta  de  la  mediana  se  calcula  
a  través  del  mecanismo  de  Laplace  con  ruido  escalado  a  la  sensibilidad  local.  Cuando  la  base  de  
datos  es  x ,  la  masa  de  probabilidad  está  cerca  de  m,  porque  la  sensibilidad  es  pequeña,  pero  
cuando  la  base  de  datos  es  y,  la  masa  está  muy  lejos,  porque  la  sensibilidad  es  grande.  Como  
caso  extremo,  suponga  que  la  sensibilidad  local  en  x  es  exactamente  cero,  por  ejemplo,  X  =  {0,  
106},  n  es  par  y  x,  que  tiene  tamaño  n  +  1,  contiene  1  +  n/2  ceros.  Entonces,  la  mediana  de  x  es  
cero  y  la  sensibilidad  local  de  la  mediana,  cuando  la  base  de  datos  es  x,  es  0.  Por  el  contrario,  la  
base  de  datos  vecina  y  tiene  un  tamaño  n,  contiene  n/2  ceros,  tiene  una  mediana  cero  (hemos  
definido  mediana  para  desempatar  a  favor  del  menor  valor),  y  la  sensibilidad  local  de  la  mediana,  
cuando  la  base  de  datos  es  y,  es  106 .  En  x  toda  la  masa  del  mecanismo  de  Laplace  (con  parámetro  
0/ε  =  0)  se  concentra  en  el  único  punto  0;  pero  en  y  la  distribución  de  probabilidad  tiene  una  
desviación  estándar  √  2  ∙  106 .  Esto  destruye  toda  esperanza  de  privacidad  diferencial.

Para  probar  que  la  base  de  datos  está  “lejos”  de  una  con  una  sensibilidad  local  mayor  que  el  
límite  b  propuesto,  podemos  plantear  la  consulta:  “¿Cuál  es  la  distancia  de  la  base  de  datos  real  a  
la  más  cercana  con  una  sensibilidad  local  superior  a  b?”  La  distancia  a  un  conjunto  fijo  de  bases  

de  datos  es  una  consulta  de  sensibilidad  (global)  1,  por  lo  que  esta  prueba  se  puede  ejecutar  de  
manera  diferencialmente  privada  agregando  ruido  Lap(1/ε)  a  la  respuesta  verdadera.  Para  errar  
por  el  lado  de  la  privacidad,  el  algoritmo  puede  comparar  esta  distancia  ruidosa  con  un  umbral  
conservador,  uno  que  es  insignificantemente  probable  que  se  exceda  debido  a  un  evento  extraño  
de  ruido  de  Laplace  de  gran  magnitud.  Por  ejemplo,  si  el  umbral  utilizado  es,  digamos,  ln2  n,  la  
probabilidad  de  un  falso  positivo  (pasar  la  prueba  cuando  la  sensibilidad  local  de  hecho  excede  b)  
es  como  máximo  O(n  −ε  ln  n ),  por  las  propiedades  del  distribución  de  Laplace.  Debido  a  la  
probabilidad  insignificante  de  un  falso  positivo,  la  técnica  no  puede  producir  privacidad  diferencial  
(ε,  0)  para  cualquier  ε.
Machine Translated by Google

146 Cuando  la  sensibilidad  en  el  peor  de  los  casos  es  atípica

Para  aplicar  esta  metodología  al  consenso  en  bloques,  como  en  nuestra  
discusión  de  Submuestra  y  Agregado,  vea  los  resultados  intermedios  f(B1), . . . ,  
f(Bm)  como  un  conjunto  de  datos  y  considere  alguna  medida  de  la  concentración  
de  estos  valores.  Intuitivamente,  si  los  valores  están  fuertemente  concentrados,  
entonces  tenemos  consenso  entre  los  bloques.  Por  supuesto,  todavía  necesitamos  
encontrar  la  noción  correcta  de  concentración,  una  que  sea  significativa  y  que  tenga  
una  instanciación  diferencialmente  privada.  En  una  sección  posterior  definiremos  y  
entrelazaremos  dos  nociones  de  estabilidad  que  parecen  relevantes  para  
Submuestra  y  Agregado:  insensibilidad  (a  la  eliminación  o  adición  de  algunos  
puntos  de  datos)  y  estabilidad  bajo  submuestreo,  capturando  la  noción  de  que  una  
submuestra  debe  producir  resultados  similares.  resultados  al  conjunto  completo  de  
datos.

7.2.1  Ejemplo:  la  escala  de  un  conjunto  de  datos

Dado  un  conjunto  de  datos,  una  pregunta  natural  es:  "¿Cuál  es  la  escala  o  la  
dispersión  del  conjunto  de  datos?"  Esta  es  una  pregunta  diferente  de  la  ubicación  
de  los  datos,  que  puede  ser  capturada  por  la  mediana  o  la  media.  La  escala  de  
datos  es  más  a  menudo  capturada  por  la  varianza  o  un  rango  intercuantílico.  Nos  
centraremos  en  el  rango  intercuartílico  (RIC),  un  estimador  robusto  bien  conocido  
para  la  escala  de  los  datos.  Comenzamos  con  una  intuición  aproximada.  Suponga  
que  los  datos  son  muestras  iid  extraídas  de  una  distribución  con
función  de  distribución  F.  Entonces  IQR(F),  definida  como  F  −1 (3/4)−F −1
(1/4),
es  una  constante,  que  depende  solo  de  F.  Puede  ser  muy  grande  o  muy  pequeña,  
pero  de  cualquier  manera,  si  la  densidad  de  F  es  suficientemente  alta  en  los  dos  
cuartiles,  entonces,  dadas  suficientes  muestras  de  F,  la  distancia  intercuartil  
empírica  (es  decir,  la  muestra)  debería  estar  cerca  de  IQR(F).
Nuestro  algoritmo  Proponer­Prueba­Liberar  para  la  distancia  intercuartil  primero  
prueba  cuántos  puntos  de  la  base  de  datos  deben  cambiarse  para  obtener  un  
conjunto  de  datos  con  una  distancia  intercuartil  "suficientemente  diferente".  Solo  si  
la  respuesta  (ruidosa)  es  "suficientemente  grande",  el  algoritmo  liberará  una  
aproximación  al  rango  intercuartílico  del  conjunto  de  datos.
La  definición  de  “suficientemente  diferente”  es  multiplicativa,  ya  que  una  noción  
aditiva  para  la  diferencia  de  escala  no  tiene  sentido:  ¿cuál  sería  la
escala  correcta  para  la  cantidad  de  aditivo?  Por  lo  tanto,  el  algoritmo  trabaja  con  el  
logaritmo  de  la  escala,  lo  que  conduce  a  un  ruido  multiplicativo
Machine Translated by Google

7.2.  Proponer­Prueba­Lanzamiento 147

en  el  IQR.  Para  ver  esto,  supongamos  que,  como  en  lo  que  podría  ser  el  caso  típico,  la  
distancia  intercuartil  de  la  muestra  no  puede  cambiar  por  un  factor  de  2  modificando  un  
solo  punto.  Luego,  el  logaritmo  (base  2)  del  intercuartil  de  la  muestra  tiene  una  sensibilidad  
local  limitada  por  1.  Esto  nos  permite  publicar  de  forma  privada  una  aproximación  al  
logaritmo  del  rango  intercuartílico  de  la  muestra  agregando  a  este  valor  un  sorteo  aleatorio  
de  Lap(1/ε).
Sea  IQR(x)  el  rango  intercuartílico  de  la  muestra  cuando  el  conjunto  de  datos  es  x.  El  
algoritmo  propone  (implícitamente)  agregar  ruido  extraído  de  Lap(1/ε)  al  valor  log2  
(IQR(x)).  Para  probar  si  esta  magnitud  de  ruido  es  suficiente  para  la  privacidad  diferencial,  
discretizamos  R  en  contenedores  separados  {[k  ln  2,(k+1)  ln  2)}k Z  y  preguntamos  
cuántos  puntos  de  datos  deben  modificarse  para  obtener  una  nueva  base  de  datos,  el  
logaritmo  (base  2)  de  cuyo  rango  intercuartílico  está  en  un  contenedor  diferente  al  de  log2  
(IQR(x)).  Si  la  respuesta  es  al  menos  dos,  la  sensibilidad  local  (del  logaritmo  del  rango  
intercuartílico)  está  limitada  por  el  ancho  del  intervalo.  Ahora  damos  más  detalles.

Para  comprender  la  elección  del  tamaño  del  contenedor,  escribimos

ln  IQR(x)   c  en  2
log2  (IQR(x))  =  ln  2 = ,
en  2

de  donde  encontramos  que  mirar  ln(IQR(x))  en  la  escala  de  ln  2  es  equivalente  a  mirar  
log2  (IQR(x))  en  la  escala  de  1.  Así  tenemos  contenedores  escalados  que  son  intervalos  
cuyos  extremos  son  un  par  de  enteros  adyacentes:  Bk  =  [k,  k  +  1),  k     Z,  y  hacemos  k1  
=  log2  (IQR(x)),  entonces  log2  (IQR(x))     [k1,  k1  +  1)  y  informalmente  decimos  que  el  
logaritmo  del  IQR  está  en  bin  k1.  Considere  la  siguiente  consulta  de  prueba:

P0 :  ¿Cuántos  puntos  de  datos  se  deben  cambiar  para  obtener  una  nueva  
base  de  datos  z  tal  que  log2  (IQR(z))   /  Bk1 ?

Sea  A0(x)  la  respuesta  verdadera  a  Q0  cuando  la  base  de  datos  es  x.
Si  A0(x)  ≥  2,  entonces  los  vecinos  y  de  x  satisfacen  |  log2  (RIQ(y))  −  log2  (RIQ(x))|  ≤  1.  Es  
decir,  están  cerca  uno  del  otro.  Esto  no  es  equivalente  a  estar  en  el  mismo  intervalo  en  la  
discretización:  log2  (IQR(x))  puede  estar  cerca  de  uno  de  los  extremos  del  intervalo  [k1,  
k1  +  1)  y  log2  (IQR(y))  puede  estar  justo  al  otro  lado  del  punto  final.  Haciendo  R0  =  A0(x)  
+  Lap(1/ε),  un  R0  pequeño,  incluso  cuando  el
Machine Translated by Google

148 Cuando  la  sensibilidad  en  el  peor  de  los  casos  es  atípica

extraer  de  la  distribución  de  Laplace  tiene  una  magnitud  pequeña,  en  realidad  podría  no  indicar  
una  alta  sensibilidad  del  rango  intercuartílico.  Para  hacer  frente  al  caso  de  que  la  sensibilidad  
local  sea  muy  pequeña,  pero  log2  (IQR(x))  esté  muy  cerca  de  la  frontera,  consideramos  una  
segunda  discretización  (2)  =  [k−0.5,  k+0.5)}k Z .  Denotamos  las  dos  discretizaciones  por  B(1)
{B   k
y  B(2)  respectivamente.  El  valor  log2  (IQR(x))  —de  hecho,  cualquier  valor—  no  puede  estar  
cerca  de  un  límite  en  ambas  discretizaciones.  La  prueba  se  pasa  si  R0  es  grande  en  al  menos  
una  discretización.
El  algoritmo  de  escala  (algoritmo  12)  a  continuación  para  calcular  la  escala  de  la  base  de  
datos  supone  que  se  conoce  n,  el  tamaño  de  la  base  de  datos,  y  la  consulta  de  distancia  ("¿A  
qué  distancia  de  una  base  de  datos  cuyo  rango  intercuartílico  tiene  una  sensibilidad  superior  a  
b?")  pregunta  cómo  se  deben  mover  muchos  puntos  para  llegar  a  una  base  de  datos  con  alta  
sensibilidad  del  IQR.  Podemos  evitar  esta  suposición  haciendo  que  el  algoritmo  primero  haga  la  
consulta  (sensibilidad  1):  "¿Cuántos  puntos  de  datos  hay  en  x?"  Observamos  que,  por  razones  
técnicas,  para  hacer  frente  al  caso  IQR(x)  =  0,  definimos  log  0  =  −∞,  −∞  =  −∞,  y  sea  [−∞,  −∞)  =  
{−∞}.

Algoritmo  12  El  Algoritmo  de  Escala  (liberando  el  rango  intercuartílico)

Requerir:  conjunto  de  datos:  x     X parámetros  de  privacidad: ,  1:   δ  >  0 ,  


para  la  j­ésima  discretización  (j  =  1,  2)  hacer  2:  Calcular  
R0(x)  =  A0(x)  +  z0,  donde  z0   R  Lap(1/ε).  si  R0  ≤  1  +  ln(1/δ)  entonces  (j)
3:
4: Sea  s  =   .  5:  
más
z  s(j) (j)  
6: Vamos  _ (j) =  RIQ(x)  ×  2 , donde  z s   Vuelta(1/ε).
7:  termina  si  8:  
termina  para  
(1)  9:  si  s  =     entonces  
10:  Volver  s  11:  más(1) .

12:  Devolver  s  13:   (2) .
Terminar  si
Machine Translated by Google

7.2.  Proponer­Prueba­Lanzamiento 149

Tenga  en  cuenta  que  el  algoritmo  es  eficiente:  sea  x(1),  x(2), . . . ,  x(n)  denota  los  n  
puntos  de  la  base  de  datos  después  de  la  clasificación,  y  deje  que  x(m)  denote  la  mediana,  
por  lo  que  m  =  (n+1)/2.  Entonces,  la  sensibilidad  local  de  la  mediana  es  max{x(m)−  x(m  −  
1),  x(m  +  1)  −  x(m)}  y,  lo  que  es  más  importante,  se  puede  calcular  A0(x)  considerando  
O( n)  intervalos  deslizantes  con  ancho  2  k1  y  2  k1+1  cada  uno  con  un  punto  final  en  x.  El  ,
costo  computacional  para  cada  intervalo  es  constante.

No  probaremos  los  límites  de  convergencia  para  este  algoritmo  porque,  en  aras  de  la  
simplicidad,  hemos  usado  una  base  para  el  logaritmo  que  está  lejos  de  ser  óptima  (una  
mejor  base  es  1  +  1/  ln  n ) .  Describimos  brevemente  los  pasos  en  la  prueba  de  privacidad.

Teorema  7.1.  La  escala  del  algoritmo  (algoritmo  12)  es  (4ε,  δ)  diferencialmente  privada.

Prueba.  (Esquema).  Si  s  es  la  abreviatura  del  resultado  obtenido  con  una  sola  discretización  
y  definiendo  D0  =  {x :  A0(x)  ≥  2},  la  prueba  muestra:

1.  La  sensibilidad  en  el  peor  de  los  casos  de  la  consulta  Q0  es  como  máximo  1.
2.  Es  casi  igualmente  probable  que  las  bases  de  datos  vecinas  den  como  resultado   :
Para  todas  las  bases  de  datos  vecinas  x,  y:

Pr[s  =   |x]  ≤  e  ε  Pr[s  =   |y].

3.  Es  poco  probable  que  las  bases  de  datos  que  no  están  en  D0  pasen  la  prueba:

δ   x /   D0 :  Pr[s  =   |x]  ≤ .


2

4.   C     R  +,  x     D0  y  todos  los  vecinos  y  de  x:


Pr[s     C|x]  ≤  e Pr[s     C|y] .

Por  lo  tanto,  obtenemos  privacidad  diferencial  (2ε,  δ/2)  para  cada  discretización.
Aplicando  el  Teorema  3.16  (Apéndice  B),  que  dice  que  “los  épsilons  y  los  deltas  se  suman”,  
se  obtiene  (4ε,  δ)­privacidad  diferencial.
Machine Translated by Google

150 Cuando  la  sensibilidad  en  el  peor  de  los  casos  es  atípica

7.3  Estabilidad  y  privacidad

7.3.1  Dos  nociones  de  estabilidad

Comenzamos  por  hacer  una  distinción  entre  las  dos  nociones  de  estabilidad  
entrelazadas  en  esta  sección:  estabilidad  bajo  submuestreo,  que  produce  
resultados  similares  bajo  submuestras  aleatorias  de  los  datos,  y  estabilidad  de  
perturbación,  o  sensibilidad  local  baja,  para  un  conjunto  de  datos  dado.  En  esta  
sección  definiremos  y  haremos  uso  de  versiones  extremas  de  ambos.

•  Estabilidad  de  submuestreo:  Decimos  que  f  es  q­submuestreo  estable  en  x  
si  f(ˆx)  =  f(x)  con  probabilidad  de  al  menos  3/4  cuando  xˆ  es  una  submuestra  
aleatoria  de  x  que  incluye  cada  entrada  independientemente  con  
probabilidad  q.  Usaremos  esta  noción  en  Algorithm  Asamp,  una  variante  
de  Sample  and  Aggregate.

•  Estabilidad  de  la  perturbación:  Decimos  que  f  es  estable  en  x  si  f  toma  el  
valor  f(x)  en  todos  los  vecinos  de  x  (e  inestable  en  caso  contrario).
En  otras  palabras,  f  es  estable  en  x  si  la  sensibilidad  local  de  f  en  x  es  cero.  
Usaremos  esta  noción  (implementada  en  Algorithm  Adist  a  continuación)  
para  el  paso  de  agregación  de  Asamp.

En  el  corazón  de  Algorithm  Asamp  se  encuentra  una  versión  relajada  de  
estabilidad  de  perturbaciones,  donde  en  lugar  de  requerir  que  el  valor  no  cambie  
en  las  bases  de  datos  vecinas,  una  noción  que  tiene  sentido  para  rangos  
arbitrarios,  incluidos  rangos  discretos  arbitrarios,  solo  requerimos  que  el  valor  sea  
"  close”  en  bases  de  datos  vecinas,  una  noción  que  requiere  una  métrica  en  el  
rango.
Las  funciones  f  con  rangos  arbitrarios,  y  en  particular  el  problema  de  agregar  
salidas  en  Submuestra  y  Agregado,  motivan  el  siguiente  algoritmo,  Adist.  En  la  
entrada  f,  x,  Adist  genera  f(x)  con  alta  probabilidad  2  log(1/δ)  si  x  está  a  una  
al  menos  de  los  datos  inestables  m distancia  
ás  cercanos
ε
colocar.  El  algoritmo  es  conceptualmente  trivial:  calcule  la  distancia  al  conjunto  
de  datos  inestable  más  cercano,  agregue  el  ruido  de  Laplace  Lap(1/ε)  y  verifique  
que  2  
log(1/δ)  esta  distancia  ruidosa  sea  al  menos .  
ε
Si  es  así,  suelte  f(x),  de  lo  contrario,  
emita   .  Ahora  hacemos  esto  un  poco  más  formal.
Comenzamos  definiendo  una  medida  cuantitativa  de  la  estabilidad  de  la  
perturbación.
Machine Translated by Google

7.3.  Estabilidad  y  privacidad 151

Definición  7.2.  Una  función  f :  X  →  R  es  k­estable  en  la  entrada  x  si  agregar  o  quitar  
cualquier  elemento  k  de  x  no  cambia  el  valor  de  f,  es  decir,  f(x)  =  f(y)  para  todo  y  tal  que  |
xy  |  ≤  k.  Decimos  que  f  es  estable  en  x  si  es  (al  menos)  1­estable  en  x,  e  inestable  en  caso  
contrario.

Definición  7.3.  La  distancia  a  la  inestabilidad  de  un  conjunto  de  datos  x     X  con   con


respecto  a  una  función  f  es  el  número  de  elementos  que  deben  agregarse  o  quitarse  de  y  
para  llegar  a  un  conjunto  de  datos  que  no  es  estable  bajo  f.

Tenga  en  cuenta  que  f  es  k­estable  en  x  si  y  solo  si  la  distancia  de  x  a
la  inestabilidad  es  al  menos  k.
Algorithm  Adist,  una  instanciación  de  Propose­Test­Release  para  funciones  discretas  
g,  aparece  en  la  Figura  13.

Algoritmo  13  Adist  (liberando  g(x)  basado  en  la  distancia  a  la  inestabilidad)  δ  >  0,  función  
Requerir:  conjunto  de  datos:  x     X privacidad: , g : ,  parámetros  de  
X →  R
1:  d  ←  distancia  de  x  a  la  instancia  inestable  más  cercana

2:  ̂d  ←  d  +  Vuelta(1/ε)  3:  
si  ̂d  > registro  (1/δ) entonces
ε
4:  Salida  g(x)
5:  más
6:  Salida     7:  
finaliza  si

La  demostración  de  la  siguiente  proposición  es  inmediata  a  partir  de  la  prop
erties  de  la  distribución  de  Laplace.

Proposición  7.2.  Para  cada  función  g:

1.  Adist  es  (ε,  δ)­diferencialmente  privado.  ln(1/
δ)+ln(1/β)  
todo  β  >  0:  si  g  es  g(x)  con   ε
­estable  en  x,  entonces  Adist(x)  =  2.  Para  
probabilidad  de  al  menos  1  −  β,  donde  la  probabilidad  el  espacio  son  los  
lanzamientos  de  moneda  de  Adist.

Este  resultado  basado  en  la  distancia  es  el  mejor  posible,  en  el  siguiente  sentido:  si  
hay  dos  conjuntos  de  datos  x  e  y  para  los  que  Adist  genera  diferentes
Machine Translated by Google

152 Cuando  la  sensibilidad  en  el  peor  de  los  casos  es  atípica

valores  g(x)  y  g(y),  respectivamente,  con  al  menos  una  probabilidad  constante,  entonces  la  
distancia  de  x  a  y  debe  ser  Ω(log(1/δ)/ε).
La  distancia  a  la  inestabilidad  puede  ser  difícil  de  calcular,  o  incluso  el  límite  inferior,  por  lo  
que,  en  general,  esta  no  es  una  solución  práctica.  Dos  ejemplos  donde  la  distancia  a  la  inestabilidad  
resulta  ser  fácil  de  acotar  son  la  mediana  y  la  moda  (valor  que  ocurre  con  mayor  frecuencia).

Adist  también  puede  ser  insatisfactorio  si  la  función,  digamos  f,  no  es  estable  en  los  conjuntos  
de  datos  específicos  de  interés.  Por  ejemplo,  suponga  que  f  no  es  estable  debido  a  la  presencia  
de  algunos  valores  atípicos  en  x.  Las  instancias  de  la  media  se  comportan  de  esta  forma,  aunque  
para  esta  función  existen  alternativas  robustas  bien  conocidas  como  la  media  winsorizada,  la  
media  recortada  y  la  mediana.  ¿Por  qué  para  las  funciones  generales  f?  ¿Existe  algún  método  
para  "forzar"  que  una  f  arbitraria  sea  estable  en  una  base  de  datos  x?

Este  será  el  objetivo  de  Asamp,  una  variante  de  Subsample  y  Aggreg  gate  que  genera  f(x)  
con  alta  probabilidad  (sobre  sus  propias  elecciones  aleatorias)  siempre  que  f  sea  un  submuestreo  
estable  en  x.

7.3.2  Algoritmo  Asamp

En  Asamp,  los  bloques  B1, . . . ,  Bm  se  eligen  con  reemplazo,  de  modo  que  cada  bloque  tenga  la  
misma  distribución  que  las  entradas  (aunque  ahora  un  elemento  de  x  puede  aparecer  en  varios  
bloques).  Los  llamaremos  xˆm  submuestreados.  Las  salidas  intermedias  z  =  {f(ˆx1), . . . ,  f(ˆxm)}  
función  g  =  modo.  La   conjuntos  de  datos  xˆ1, . . . ,  luego  se  agregan  a  través  de  Adist  con  la  
medida  de  distancia  utilizada  para  estimar  la  estabilidad  del  modo  en  z  es  una  versión  escalada  de  
la  diferencia  entre  la  popularidad  del  modo  y  la  del  segundo  valor  más  frecuente.  Algoritmo  
Asamp,  aparece  en  la  Figura  14.

Su  tiempo  de  ejecución  está  dominado  por  la  ejecución  de  f  aproximadamente  1/q2  veces;  por  
tanto,  es  eficiente  siempre  que  f  lo  sea.

La  propiedad  clave  del  algoritmo  Asamp  es  que,  en  la  entrada  f,  x,  genera  f(x)  con  alta  
probabilidad,  sobre  sus  propias  elecciones  aleatorias,  siempre  que  f  sea  estable  en  el  submuestreo  
ε
q  en  x  para  q  =  64  log(1/  δ) .  Este  resultado  tiene  una  importante  interpretación  
estadística.  
Recuerde  la  discusión  sobre  la  selección  del  modelo  del  ejemplo  7.1.  Dada  una  colección  de  
modelos,  la  complejidad  muestral  de  la  selección  del  modelo  es  el  número  de  muestras  de  una  
distribución  en  uno  de  los  modelos  necesarios  para  seleccionar  el  modelo  correcto.
Machine Translated by Google

7.3.  Estabilidad  y  privacidad 153

con  probabilidad  de  al  menos  2/3.  El  resultado  dice  que  la  selección  diferencial  de  
modelos  privados  aumenta  la  complejidad  de  la  muestra  de  la  selección  de  modelos  
(no  privados)  en  un  factor  independiente  del  problema  (y  del  rango)  de  O(log(1/δ)/ε).

Algoritmo  14  Asamp:  Bootstrapping  para  Submuestreo­Estable  f
Requerir:  conjunto  de  datos:  x,  función  f :  X →  R,  parámetros  de  privacidad , δ  >  
0.
1:  q  ←  64  ln(1/δ) ,   m  ← registro  (n/δ) .
2  q
2:  Submuestra  m  conjuntos  de  datos  xˆ1, ...,  xˆm  de  x,  donde  xˆi  incluye  cada
posición  de  x  independientemente  con  probabilidad  q.
3:  si  algún  elemento  de  x  aparece  en  más  de  2mq  establece  xˆi  entonces  4:  
Alto  y  salida   .  5:  sino  6:  z  
←  
{f(ˆx1),  ∙  ∙  ∙ ,  f(ˆxm)}.
7:  Para  cada  r     R,  sea  count(r)  =  #{i :  f(ˆxi)  =  r}.
8:  Deje  que  count(i)  denote  la  i­ésima  cuenta  más  grande,  i  =  1,  2.  9:  d  
←  (count(1)  −  count(2))/(4mq)  −  1  10:  Comente  
Ahora  ejecute  Adist(g,  z)  utilizando  d  para  estimar  la  distancia  a  la  inestabilidad:  ̂d  
←  d  +  Lap( ).  
1
11: si  ̂d  >  ln(1/δ)/ε  
12: entonces
13: Salida  g(z)  =  modo(z).
14:  más
15: Salida   .  
16:  terminar  si
17:  terminar  si

Teorema  7.3.

1.  El  algoritmo  Asamp  es  (ε,  δ)  diferencialmente  privado.

2.  Si  f  es  q­submuestreo  estable  en  la  entrada  x  donde  q  =  entonces  6ε4  ln(1/δ) ,
el  algoritmo  Asamp(x)  genera  f(x)  con  una  probabilidad  de  al  menos  1−3δ.

3.  Si  f  se  puede  calcular  en  el  tiempo  T(n)  con  entradas  de  longitud  n,  entonces  
log  
n  Asamp  se  ejecuta  en  el  tiempo  esperado  O( 2 )(T(qn)  +  n).
q
Machine Translated by Google

154 Cuando  la  sensibilidad  en  el  peor  de  los  casos  es  atípica

Tenga  en  cuenta  que  la  declaración  de  utilidad  aquí  es  una  garantía  de  insumo  
por  insumo;  f  no  necesita  ser  q­submuestreo  estable  en  todas  las  entradas.  Es  
importante  destacar  que  no  depende  del  tamaño  del  rango  R.  En  el  contexto  de  la  
selección  del  modelo,  esto  significa  que  uno  puede  satisfacer  de  manera  eficiente  la  
privacidad  diferencial  con  un  aumento  modesto  en  la  complejidad  de  la  muestra  
(alrededor  de  log(1/δ)/ε)  siempre  que  haya  es  un  modelo  particular  que  se  selecciona  
con  una  probabilidad  razonable.
La  prueba  de  privacidad  proviene  de  la  insensibilidad  del  cálculo  de  d,  la  
privacidad  de  la  técnica  Proponer­Prueba­Liberar  y  la  privacidad  de  Submuestra  y  
Agregado,  ligeramente  modificado  para  permitir  el  hecho  de  que  este  algoritmo  realiza  
muestreo  con  reemplazo  y,  por  lo  tanto,  el  agregador  tiene  mayor  sensibilidad,  ya  que  
cualquier  individuo  puede  afectar  bloques  de  hasta  2mq .  La  principal  observación  
para  analizar  la  utilidad  de  este  enfoque  es  que  la  estabilidad  del  modo  es  una  
función  de  la  diferencia  entre  la  frecuencia  del  modo  y  la  del  siguiente  elemento  más  
popular.  El  siguiente  lema  dice  que  si  f  es  submuestreo  estable  en  x,  entonces  x  está  
lejos  de  ser  inestable  con  respecto  al  modo  g(z)  =  g(f(ˆx1), . . . ,  f(ˆxm))  (pero  no  
necesariamente  con  respecto  a  f),  y  además  se  puede  estimar  la  distancia  a  la  
inestabilidad  de  x  de  manera  eficiente  y  privada.

Lema  7.4.  Fija  q     (0,  1).  Dada  f :  X  la  función  ̂f  =   →  R,  sea  ̂f :  X   →  R  ser


modo(f(ˆx1), ...,  f(ˆxm))  donde  cada  xˆi  incluye  cada  elemento  de  x  independientemente  
con  probabilidad  q  y  m  =  ln(n/δ)/q2 .  Sea  d(z)  =  (contar(1)  −contar(2))/(4mq)−1;  es  
decir,  dada  una  "base  de  datos"  z  de  valores,  d(z)+  1  es  una  diferencia  escalada  entre  
el  número  de  ocurrencias  de  los  dos  valores  más  populares.  Fijar  un  conjunto  de  
datos  x.  Sea  E  el  evento  de  que  ninguna  posición  de  x  está  incluida  en  más  de  2mq  
de  los  subconjuntos  xˆi .
Entonces,  cuando  q  ≤  ε/64  ln(1/δ)  tenemos:

1.  E  ocurre  con  una  probabilidad  de  al  menos  1  −  δ.

2.  Condicionado  a  E,  d  cota  inferior  la  estabilidad  de  ̂f  en  x,  y  d
Tiene  sensibilidad  global  1.

3.  Si  f  es  q­submuestreo  estable  en  x,  entonces  con  una  probabilidad  de  al  menos  
1  −  δ  sobre  la  elección  de  submuestras,  tenemos  ̂f(x)  =  f(x),  y,  condicionado  a  
este  evento,  la  prueba  final  será  pasó  con
Machine Translated by Google

7.3.  Estabilidad  y  privacidad 155

probabilidad  al  menos  1  −  δ,  donde  la  probabilidad  está  sobre  el  sorteo  de  Lap(1/
ε).

Los  eventos  en  las  Partes  2  y  3  ocurren  simultáneamente  con  una  probabilidad  de  al  
menos  1  −  2δ.

Prueba.  La  parte  1  se  deriva  del  límite  de  Chernoff.  Para  probar  la  Parte  2,  observe  
que,  condicionado  al  evento  E,  agregar  o  eliminar  una  entrada  en  el  conjunto  de  datos  
original  cambia  cualquiera  de  los  conteos  conteo  (r)  en  2mq  como  máximo .  Por  lo  
tanto,  count(1)  −  count(2)  cambia  como  máximo  4mq.  Esto,  a  su  vez,  significa  que  
d(f(ˆx1), . . . ,  f(ˆxm))  cambia  como  máximo  en  uno  para  cualquier  x  y,  por  lo  tanto,  tiene  
una  sensibilidad  global  de  uno.  Esto  también  implica  que  d  es  el  límite  inferior  de  la  
estabilidad  de  ̂f  en  x.
Pasamos  ahora  a  la  parte  3.  Queremos  argumentar  dos  hechos:

1.  Si  f  es  q­submuestreo  estable  en  x,  entonces  es  probable  que  haya  una  gran  
brecha  entre  los  conteos  de  los  dos  contenedores  más  populares.  
Específicamente,  queremos  mostrar  que  con  alta  probabilidad  count(1)  −count(2)  
≥  m/4.  Tenga  en  cuenta  que  si  el  contenedor  más  popular  tiene  un  conteo  de  al  
menos  5  m/8 ,  entonces  el  segundo  contenedor  más  popular  puede  tener  un  
conteo  de  3  m/8  como  máximo,  con  una  diferencia  de  m/4.  Por  definición  de  
estabilidad  de  submuestreo,  el  contenedor  más  popular  tiene  un  recuento  
esperado  de  al  menos  3  m/4  y,  por  lo  tanto,  según  el  límite  de  Chernoff,  tomando  
−2mα2  
como  máximo  e =  mi α  =  1/8,  tiene  una  probabilidad  −m/32  de  tener  un  recuento  inferior  a  5  m/8.  (Todo
las  probabilidades  están  sobre  el  submuestreo.)

2.  Cuando  la  brecha  entre  los  conteos  de  los  dos  contenedores  más  populares  es  
grande,  es  poco  probable  que  el  algoritmo  falle;  es  decir,  es  probable  que  la  
1
prueba  tenga  éxito.  La  preocupación  es  que  el  sorteo  de  Lap( )  sea  nεegativo  y  
tenga  un  valor  absoluto  grande,  de  modo  que  ̂d  caiga  por  debajo  del  umbral  
(ln(1/δ)/ε)  incluso  cuando  d  sea  grande.  Para  que  esto  suceda  con  probabilidad  
como  máximo  δ  basta  con  que  d  >  2  ln(1/δ)/ε.
Por  definición,  d  =  (count(1)  −count(2))/(4mq)−1,  y,  asumiendo  que  estamos  en  
el  caso  de  alta  probabilidad  que  acabamos  de  describir,  esto  implica

m/4   1
d  ≥   −  1  = −  1  
4mq 16q
Machine Translated by Google

156 Cuando  la  sensibilidad  en  el  peor  de  los  casos  es  atípica

así  que  es  suficiente  tener

1
>  2  ln(1/δ)/ε.  16q

Tomando  q  ≤  ε/64  ln(1/δ)  es  suficiente.
−m/32  
Finalmente,  observe  que  con  estos  valores  de  q  y  m  tenemos  e  <  δ.

Ejemplo  7.3.  [El  problema  de  los  datos  sin  procesar]  Supongamos  que  tenemos  un  
analista  en  quien  podemos  confiar  para  seguir  las  instrucciones  y  solo  publicar  la  
información  obtenida  de  acuerdo  con  estas  instrucciones.  Mejor  aún,  supongamos  que  
tenemos  tales  analistas  y  podemos  confiar  en  que  no  se  comunicarán  entre  ellos.  No  es  
necesario  que  los  analistas  sean  idénticos,  pero  sí  deben  considerar  un  conjunto  común  
de  opciones.  Por  ejemplo,  estas  opciones  pueden  ser  estadísticas  diferentes  en  un  
conjunto  fijo  S  de  estadísticas  posibles,  y  en  este  primer  paso  el  objetivo  del  analista  es  
elegir,  para  su  eventual  publicación,  la  estadística  más  significativa  en  S.  Posteriormente,  
la  estadística  elegida  se  volverá  a  calcular  en  una  manera  diferencialmente  privada,  y  el  
resultado  puede  ser  publicado.

Tal  como  se  describe,  el  procedimiento  no  es  privado  en  absoluto:  ¡la  elección  de  la  
estadística  realizada  en  el  primer  paso  puede  depender  de  los  datos  de  un  solo  individuo!
No  obstante,  podemos  usar  el  marco  Subsample­and­Ggregate  para  llevar  a  cabo  el  
primer  paso,  con  el  i­ésimo  analista  recibiendo  una  submuestra  de  los  puntos  de  datos  y  
aplicando  a  esta  base  de  datos  más  pequeña  la  función  fi  para  obtener  una  opción.  
Luego,  las  opciones  se  agregan  como  en  el  algoritmo  Asamp;  si  hay  un  claro  ganador,  es  
muy  probable  que  sea  la  estadística  seleccionada.  Esto  se  eligió  de  manera  
diferencialmente  privada,  y  en  el  segundo  paso  se  computará  con  privacidad  diferencial.

Notas  bibliográficas

La  submuestra  y  el  agregado  fueron  inventados  por  Nissim,  Raskhodnikova  y  Smith  [68],  
quienes  fueron  los  primeros  en  definir  y  explotar  la  baja  sensibilidad  local.
Proponer­Prueba­Liberar  se  debe  a  Dwork  y  Lei  [22],  al  igual  que  el  algoritmo  para  liberar  
el  rango  intercuartílico.  La  discusión  sobre  estabilidad  y  privacidad,  y  el  algoritmo  Asamp  
que  combina  estas  dos  técnicas,  se  debe  a  Smith  y  Thakurta  [80].  Este  artículo  demuestra  
el  poder  de
Machine Translated by Google

7.3.  Estabilidad  y  privacidad 157

Asamp  analizando  las  condiciones  de  estabilidad  de  submuestreo  del  famoso  
algoritmo  LASSO  y  mostrando  que  la  privacidad  diferencial  se  puede  obtener  
"gratis",  a  través  de  (una  generalización  de  Asamp),  precisamente  bajo  las  
condiciones  (de  datos  fijos  y  de  distribución)  por  las  que  se  conoce  a  LASSO.  
tener  un  buen  poder  explicativo.
Machine Translated by Google

8
Límites  inferiores  y  resultados  de  separación

En  esta  sección,  investigamos  varios  límites  inferiores  y  compensaciones:

1.  ¿Cuán  inexactas  deben  ser  las  respuestas  para  no  destruir  por  completo  
cualquier  noción  razonable  de  privacidad?
2.  ¿Cómo  depende  la  respuesta  a  la  pregunta  anterior  del  número  de  consultas?

3.  ¿Podemos  separar  la  privacidad  diferencial  (ε,  0)  de  la  privacidad  diferencial  (ε,  
δ)  en  términos  de  la  precisión  que  cada  una  permite?
4.  ¿Existe  una  diferencia  intrínseca  entre  lo  que  se  puede  lograr  para

consultas  lineales  y  para  consultas  arbitrarias  de  baja  sensibilidad  mientras  se  
mantiene  la  privacidad  diferencial  (ε,  0)?

Un  sabor  diferente  del  resultado  de  la  separación  distingue  la  complejidad  
computacional  de  generar  una  estructura  de  datos  que  maneja  todas  las  consultas  en  
una  clase  dada  de  la  de  generar  una  base  de  datos  sintética  que  logra  el  mismo  
objetivo.  Posponemos  una  discusión  de  este  resultado  para  la  Sección  9.

158
Machine Translated by Google

8.1.  Ataques  de  reconstrucción 159

8.1  Ataques  de  reconstrucción

En  la  Sección  1  argumentamos  que  cualquier  mecanismo  no  trivial  debe  ser  aleatorio.  
De  ello  se  deduce  que,  al  menos  para  alguna  base  de  datos,  consulta  y  elección  de  bits  
aleatorios,  la  respuesta  producida  por  el  mecanismo  no  es  perfectamente  precisa.  La  
pregunta  de  cuán  inexactas  deben  ser  las  respuestas  para  proteger  la  privacidad  tiene  
sentido  en  todos  los  modelos  computacionales:  interactivos,  no  interactivos  y  los  modelos  
discutidos  en  la  Sección  12.
Para  los  límites  inferiores  de  la  distorsión,  asumimos  por  simplicidad  que  la  base  de  
datos  consta  de  un  solo  bit,  pero  muy  sensible,  por  persona,  por  lo  que  podemos  pensar  
en  la  base  de  datos  como  un  vector  booleano  de  n  bits  d  =  ( d1 , . . . ,  dn).  Esta  es  una  
abstracción  de  un  entorno  en  el  que  las  filas  de  la  base  de  datos  son  bastante  complejas,  
por  ejemplo,  pueden  ser  registros  médicos,  pero  el  atacante  está  interesado  en  un  campo  
específico,  como  la  presencia  o  ausencia  del  rasgo  de  células  falciformes.  El  ataque  
abstracto  consiste  en  emitir  una  cadena  de  consultas,  cada  una  de  las  cuales  se  describe  
mediante  un  subconjunto  S  de  las  filas  de  la  base  de  datos.  La  consulta  pregunta  cuántos  
1  hay  en  las  filas  seleccionadas.  Representando  la  consulta  como  el  vector  S  característico  
de  n  bits  del  conjunto  S,  con  1  en  todas  las  posiciones  correspondientes  a  las  filas  en  S  y  
0  en  todas  las  demás,  la  verdadera  respuesta  a  la  consulta  es  el  producto  interno  A(S)  =  
diSi .
n  
i  =  1
Arreglar  un  mecanismo  de  privacidad  arbitrario.  Dejaremos  que  r(S)  denote  la  
respuesta  a  la  consulta  S.  Esto  puede  obtenerse  explícitamente,  digamos,  si  el  mecanismo  
es  interactivo  y  se  emite  la  consulta  S ,  o  si  al  mecanismo  se  le  dan  todas  las  consultas  
por  adelantado  y  produce  una  lista  de  respuestas,  o  implícitamente,  lo  que  ocurre  si  el  
mecanismo  produce  una  sinopsis  de  la  cual  los  analistas  extraen  r(S).  Tenga  en  cuenta  
que  r(S)  puede  depender  de  elecciones  aleatorias  realizadas  por  el  mecanismo  y  el  
historial  de  consultas.  Sea  E(S,  r(S))  el  error,  también  llamado  ruido  o  distorsión,  de  la  
respuesta  r(S),  entonces  E(S,  r(S))  =  |A(S)  −  r(S)| .

La  pregunta  que  queremos  hacer  es:  "¿Cuánto  ruido  se  necesita  para  preservar  la  
privacidad?"  La  privacidad  diferencial  es  una  garantía  de  privacidad  específica,  pero  
también  se  podrían  considerar  nociones  más  débiles,  por  lo  que  en  lugar  de  garantizar  la  
privacidad,  el  objetivo  modesto  en  los  argumentos  del  límite  inferior  será  simplemente  
evitar  catástrofes  de  privacidad.
Machine Translated by Google

160 Límites  inferiores  y  resultados  de  separación

Definición  8.1.  Un  mecanismo  es  manifiestamente  no  privado  si  un  adversario  puede  
construir  una  base  de  datos  candidata  c  que  concuerde  con  la  base  de  datos  real  d  en  
todas  las  entradas  excepto  en  o(n) ,  es  decir,  c  −  d0     o(n).

En  otras  palabras,  un  mecanismo  es  descaradamente  no  privado  si  permite  un  
ataque  de  reconstrucción  que  permite  al  adversario  adivinar  correctamente  el  bit  secreto  
de  todos  los  miembros  de  la  base  de  datos  excepto  uno .  (No  hay  ningún  requisito  de  
que  el  adversario  sepa  en  qué  respuestas  es  correcta).

Teorema  8.1.  Sea  M  un  mecanismo  con  distorsión  de  magnitud  limitada  por  E.  Entonces  
existe  un  adversario  que  puede  reconstruir  la  base  de  datos  dentro  de  las  posiciones  
4E .

Una  consecuencia  sencilla  del  teorema  es  que  un  mecanismo  de  privacidad  que  
agrega  ruido  con  una  magnitud  siempre  limitada  por,  digamos,  n/401,  permite  que  un  
adversario  reconstruya  correctamente  el  99%  de  las  entradas.

Prueba.  Sea  d  la  verdadera  base  de  datos.  El  adversario  ataca  en  dos  fases:

1.  Estime  el  número  de  1  en  todos  los  conjuntos  posibles:  Consulta  M
en  todos  los  subconjuntos  S     [n].

2.  Descartar  bases  de  datos  “distantes”:  Para  cada  base  de  datos  candidata  c     {0,  
1}  n  si   S     ,[n]  tal  que  |  i Sci  −  M(S)  |  >  E,  luego  descartar  c.  Si  no  se  descarta  
c ,  entonces  emita  c  y  deténgase.

Dado  que  M(S)  nunca  se  equivoca  más  que  E,  la  base  de  datos  real  no  se  descartará,  
por  lo  que  este  algoritmo  simple  (¡pero  ineficiente!)  generará  alguna  base  de  datos  
candidata  c.  Argumentaremos  que  el  número  de  posiciones  en  las  que  c  y  d  difieren  es  
como  máximo  4  ∙  E.
Sean  I0  los  índices  en  los  que  di  =  0,  es  decir,  I0  =  {i  |  di  =  0}.
De  manera  similar,  defina  I1  =  {i  |  di  =  1}.  Como  no  se  descartó  c ,  |M(I0)  −  i I0  ci  |  ≤  E.  
Sin  embargo,  por  supuesto  |M(I0)  −  di  |  ≤  E.  De  la  desigualdad  del  
i triángulo  
I0 se  deduce  
que  c  y  d  difieren  como  máximo  en  2E  posiciones  en  I0;  el  mismo  argumento  muestra  
que  difieren  en  la  mayoría  de  las  posiciones  2E  en  I1.  Por  lo  tanto,  c  y  d  concuerdan  en  
todas  las  posiciones  excepto  en  la  mayoría  de  las  4E .

¿Qué  pasa  si  consideramos  límites  más  realistas  en  el  número  de  consultas?
Pensamos  en  √  n  como  un  umbral  interesante  sobre  el  ruido,  por  la  siguiente  razón:  si  
la  base  de  datos  contiene  n  personas  extraídas  uniformemente  al  azar
Machine Translated by Google

8.1.  Ataques  de  reconstrucción 161

de  una  población  de  tamaño  N  n,  y  la  fracción  de  la  población  que  satisface  una  condición  
dada  es  p,  entonces  esperamos  que  el  número  de  filas  en  la  base  de  datos  que  satisfagan  
la  propiedad  sea  aproximadamente  np  ±  Θ(√  n),  por  las  propiedades  de  la  Distribución  
binomial.  Es  decir,  el  error  de  muestreo  es  del  orden  de  √  n.  Nos  gustaría  que  el  ruido  
introducido  por  privacidad  sea  menor  que  el  error  de  muestreo,  idealmente  o( √  n).  El  
siguiente  resultado  investiga  la  viabilidad  de  un  error  tan  pequeño  cuando  el  número  de  
consultas  es  lineal  en  n.  El  resultado  es  negativo.

Ignorando  la  complejidad  computacional,  para  ver  por  qué  podría  existir  un  ataque  
de  consulta  eficiente,  modificamos  el  problema  ligeramente,  analizando  las  bases  de  
datos  d     {−1,  1}  n  y  los  vectores  de  consulta  v     {−1,  1}  n ,  la  respuesta   .  La  verdad
se  define  nuevamente  como  ser  d  ∙  v,  y  la  respuesta  es  una  versión  ruidosa  de  la  
respuesta  verdadera.  Ahora,  considere  una  base  de  datos  candidata  c  que  está  lejos  de  
d,  digamos,  c−d0     Ω(n).  Para  una  probabilidad  aleatoria  v   R  {−1,   , con  constante
1}  n  tenemos  (c  −  d)  ∙  v     Ω(√  n).  Para  ver  esto,  fija  x     {−1,  1}  n  y  elige  v   R  {−1,  1}  n .  
Entonces  x  ∙  v  es  una  suma  de  variables  aleatorias  independientes  xivi   R  {−1,  1},  que  
tiene  expectativa  0  y  varianza  n,  y  se  distribuye  de  acuerdo  con  una  distribución  binomial  
escalada  y  desplazada.
Por  la  misma  razón,  si  c  y  d  difieren  en  al  menos  αn  filas,  y  v  se  elige  al  azar,  entonces  (c  
−  d)  ∙  v  se  distribuye  binomialmente  con  media  0  y  varianza  de  al  menos  αn.  Por  lo  tanto,  
esperamos  que  c  ∙  vy  d  ∙  v  difieran  en  al  menos  α  √  n  con  probabilidad  constante ,  por  las  
propiedades  de  la  distribución  binomial.  Tenga  en  cuenta  que  estamos  utilizando  la  
propiedad  anti­concentración  de  la  distribución,  en  lugar  de  la  apelación  habitual  a  la  
concentración.
Esto  abre  un  ataque  para  descartar  c  cuando  el  ruido  está  restringido  a  ser  o( √  n):  
calcule  la  diferencia  entre  c∙v  y  la  respuesta  ruidosa  r(v).  Si  la  magnitud  de  esta  diferencia  
excede  √  n ,  lo  que  ocurrirá  con  probabilidad  constante  sobre  la  elección  de  v ,  entonces  
descarte  c.
El  siguiente  teorema  formaliza  este  argumento  y  muestra  además  que  el  ataque  es  
resistente  incluso  a  una  gran  fracción  de  respuestas  completamente  arbitrarias:  usando  
un  número  lineal  de  ±1  preguntas,  un  atacante  puede  reconstruir  casi  toda  la  base  de  
datos  si  el  curador  está  limitado  a  +  η  de  las  preguntas  dentro  de  un  error  absoluto  de  

o( √  n).  responde  al  menos
1  2

Teorema  8.2.  Para  cualquier  η  >  0  y  cualquier  función  α  =  α(n),  existe  una  constante  b  y  
un  ataque  usando  bn  ±1  preguntas  que  reconstruye  a
Machine Translated by Google

162 Límites  inferiores  y  resultados  de  separación

2α 2
base  de  datos  que  concuerda  con  la  base  de  datos  real  en  todas  menos  en  la   )
η
mayoría  de  las  entradas  (,  si  el  curador  responde  1  2 +  η  de  las  preguntas  dentro  de  un
al  menos  error  absoluto  de  α.

Prueba.  Comenzamos  con  un  lema  simple.

Lema  8.3.  Sea  Y  =  Xi  donde  cada  Xi  es  una  variable  aleatoria  de  Bernoulli  independiente  
k  i  =  1
de  ±2  con  media  cero.  Entonces  para  cualquier  y  y  cualquier
+1   .
  N,  P  r[Y     [2y,  2(y  + )]]  ≤
√  k

1
k  Prueba.  Tenga  en  cuenta  que  Y  siempre  es  par  y  que  P  r[Y  =  2y]  =  ( (k+y)/2  Esta   2 ) k .
1 k
( 2 ) k de  Stirling,  que  dice  que  n!  puede  
expresión  es  como  máximo .  Usando  la  aproximación  
k/2
aproximarse  mediante  √  2nπ(n/e )  n  está  acotado  por  πk .La  afirmación  se  deriva   , este
2
de  una  unión  acotada  sobre  los  +  1  valores  posibles  para  Y  en  [2y,  2(y  + )].

El  ataque  del  adversario  es  elegir  bn  vectores  aleatorios  v     {−1,  1}  n  obtener   ,
respuestas  (y1, . . . ,  ybn),  y  luego  generar  cualquier  base  de  datos  c  tal  que  |yi  −  (Ac)i  |  ≤  
α  para  al  menos  +  η  de  los  índices  i,  donde  
A  es  la  matriz  bn  ×  n  cuyas  filas  son  los  
1  2

vectores  de  consulta  aleatorios  v.
Sea  d  la  verdadera  base  de  datos  y  sea  c  la  base  de  datos  reconstruida.

Por  suposición  sobre  el  comportamiento  del  mecanismo,  |(Ad)i−yi  |  ≤  α  para  una  fracción  
1/2+η  de  i     [bn].  Como  no  se  descartó  c ,  también  tenemos  que  |(Ac)i−yi  |  ≤  α  para  una  
fracción  1/2+η  de  i     [bn].  Dado  que  cualquiera  de  estos  dos  conjuntos  de  índices  
concuerdan  en  al  menos  una  fracción  de  2η  de  i     [bn],  de  la  desigualdad  del  triángulo  
tenemos  que  para  al  menos  2ηbn  valores  de  i,  |[(c  −  d)A]i  |  ≤  2α.  entradas.  Mostraremos  
2α 2 que  si  la  c  
Deseamos  argumentar  que  c  concuerda  con  d  en  todo  excepto  ( )
η
reconstruida  está  lejos  de  d,  discrepando  en  al  menos  (2α/η)  entradas,  la  probabilidad  de  
2
que  una  A  elegida  al  azar  satisfaga  |[A(c−d)]i  |  ≤  2α  para  al  menos  2ηbn  valores  de  i  será  
extremadamente  pequeño,  tan  pequeño  que,  para  un  A  aleatorio,  es  extremadamente  
improbable  que  exista  un  c  lejos  de  d  que  no  sea  eliminado  por  las  consultas  en  A.

Suponga  que  el  vector  z  =  (c  −  d)     {−2,  0,  2}  n  tiene  peso  de  Hamming  al  menos  
2α   2
) ,lejos  de  d.  Hemos  argumentado  que,  dado  que  el  atacante  produce  c ,  |
( por  lo  que  c  está  
η
(Az)  i  |  ≤  2α  para  al  menos  2ηbn  valores  de  i.
Llamaremos  a  tal  z  malo  con  respecto  a  A.  Mostraremos  que,  con  alta  probabilidad  sobre  
la  elección  de  A,  ningún  z  es  malo  con  respecto  a  A.
Machine Translated by Google

8.1.  Ataques  de  reconstrucción 163

2α 2 ±2  valores  aleatorios.
Para  cualquier  i,  a  saber,  es  la  suma  de  al  menos  ( η
)
2
Haciendo  k  =  (2α/η)  y  =  2α,  tenemos  por  el  Lema  8.3  que  la  probabilidad  de  que  viz  se  
encuentre  en  un  intervalo  de  tamaño  4α  es  como  máximo  η,  por  lo  que  el  número  
esperado  de  consultas  para  las  cuales  |viz|  ≤  2α  es  como  mucho  ηbn.
Los  límites  de  Chernoff  ahora  implican  que  la  probabilidad  de  que  este  número  exceda  
ηbn  
2ηbn  es  como  máximo  exp(−  ηbn  z  =   4 ).  Así,  la  probabilidad  de  un  determinado
c  −  d  siendo  malo  con  respecto  a  A  
es  como  máximo  exp(−).  4
Tomando  un  límite  de  unión  sobre  los  máximos  3  n  zs  posibles ,  obtenemos  que  −ln  
ηb  
con  probabilidad  de  al  menos  1−exp(−n( b  >   4 3)),  no  existe  ningún  z  malo.  Tomando
4  ln  3/η,  la  probabilidad  de  que  exista  una  z  tan  mala  es  exponencialmente
pequeño  en  n.

Prevenir  la  falta  de  privacidad  flagrante  es  un  requisito  muy  bajo  para  un  mecanismo  
de  privacidad,  por  lo  que  si  la  privacidad  diferencial  es  significativa,  los  límites  inferiores  
para  prevenir  la  falta  de  privacidad  flagrante  también  se  aplicarán  a  cualquier  mecanismo  
que  garantice  la  privacidad  diferencial.  Aunque  en  su  mayor  parte  ignoramos  los  
problemas  computacionales  en  esta  monografía,  también  está  la  cuestión  de  la  
eficiencia  del  ataque.  Supongamos  que  pudiéramos  probar  que  (quizás  bajo  alguna  
suposición  computacional)  existen  mecanismos  de  baja  distorsión  que  son  "difíciles"  de  
romper;  por  ejemplo,  ¿mecanismos  para  los  cuales  es  difícil  producir  una  base  de  datos  
candidata  c  cercana  a  la  base  de  datos  original?  Entonces,  aunque  un  mecanismo  de  
baja  distorsión  podría  no  ser  diferencialmente  privado  en  teoría,  posiblemente  podría  
proporcionar  privacidad  contra  adversarios  limitados.  Desafortunadamente,  este  no  es  
el  caso.  En  particular,  cuando  el  ruido  siempre  está  en  o( √  n),  hay  un  ataque  eficiente  
usando  exactamente  n  consultas  fijas;  además,  existe  incluso  un  ataque  
computacionalmente  eficiente  que  requiere  un  número  lineal  de  consultas  en  las  que  
una  fracción  de  0,239  puede  responderse  con  ruido  salvaje.

En  el  caso  de  conjuntos  de  datos  de  "escala  de  Internet",  la  obtención  de  respuestas  
a  n  consultas  es  inviable,  ya  que  n  es  extremadamente  grande,  digamos,  n  ≥  108 .  ¿Qué  
sucede  si  el  curador  permite  solo  un  número  sublineal  de  preguntas?
Esta  investigación  condujo  a  los  primeros  resultados  algorítmicos  en  (lo  que  se  ha  
convertido  en)  (ε,  δ)­privacidad  diferencial,  en  los  que  se  mostró  cómo  mantener  la  
privacidad  frente  a  un  número  sublineal  de  consultas  de  conteo  agregando  ruido  
binomial  de  orden  o( √  n)  —  ¡menor  que  el  error  de  muestreo!  —  a  cada  respuesta  
verdadera.  Usando  las  herramientas  de  privacidad  diferencial  podemos  hacer  esto  ya  sea
Machine Translated by Google

164 Límites  inferiores  y  resultados  de  separación

utilizando  (1)  el  mecanismo  de  Gauss  o  (2)  el  mecanismo  de  Laplace  y  composición  
avanzada.

8.2  Límites  inferiores  para  la  privacidad  diferencial

Los  resultados  de  la  sección  anterior  arrojaron  límites  inferiores  sobre  la  distorsión  
necesaria  para  garantizar  una  noción  razonable  de  privacidad.  En  cambio,  el  resultado  
de  este  apartado  es  específico  de  la  privacidad  diferencial.  Aunque  algunos  de  los  
detalles  de  la  prueba  son  bastante  técnicos,  la  idea  principal  es  elegante:  supongamos  
(de  alguna  manera)  que  el  adversario  ha  reducido  el  conjunto  de  bases  de  datos  posibles  
s
a  un  conjunto  relativamente  pequeño  S  de  2  entre   vectores,  donde  la  distancia  L1
cada  par  de  vectores  es  un  número  grande  ∆ .  Supongamos  además  que  podemos  
encontrar  una  consulta  F,  1­Lipschitz  k­dimensional  en  cada  una  de  sus  coordenadas  de  
salida,  con  la  propiedad  de  que  las  verdaderas  respuestas  a  la  consulta  se  ven  muy  
diferentes  (en  la  norma  L∞ )  en  los  diferentes  vectores  de  nuestro  conjunto;  por  ejemplo,  
la  distancia  en  dos  elementos  cualesquiera  del  conjunto  puede  ser
k
Ω(k).  Es  útil  pensar  geométricamente  sobre  el  “espacio  de  respuesta”  R  Cada  elemento  .
x  en  el  conjunto  S  da  lugar  a  un  vector  F(x)  en  el  espacio  de  respuesta.
La  respuesta  real  será  una  perturbación  de  este  punto  en  el  espacio  de  respuesta.  Luego,  
un  argumento  de  casillero  basado  en  el  volumen  (en  el  espacio  de  respuestas)  muestra  
que,  si  incluso  con  una  probabilidad  moderada  las  respuestas  (ruidosas)  son  
"razonablemente"  cercanas  a  las  respuestas  verdaderas,  entonces  no  pueden  ser  muy  pequeñas.
Esto  surge  del  hecho  de  que  para  (ε,  0)­mecanismos  diferencialmente  privados  M,  
para  bases  de  datos  arbitrariamente  diferentes  x,  y,  cualquier  respuesta  en  apoyo  de  
M(x)  también  está  en  apoyo  de  M(y).  Junto  con  la  construcción  de  una  colección  
adecuada  de  vectores  y  una  consulta  (artificial,  no  contable),  el  resultado  produce  un  
límite  inferior  de  distorsión  que  es  lineal  k/  ε.  El  argumento  apela  al  Teorema  2.2,  que  
analiza  la  privacidad  del  grupo.  En  nuestro  caso  el  grupo  en  cuestión  corresponde  a  los  
índices  que  contribuyen  a  la  distancia  (L1)  entre  un  par  de  vectores  en  S.

8.2.1  Límite  inferior  por  argumentos  de  empaquetado

Comenzamos  con  una  observación  que  dice,  intuitivamente,  que  si  las  regiones  de  
respuesta  "probables",  cuando  la  consulta  es  F,  son  disjuntas,  entonces  podemos  unir
Machine Translated by Google

8.2.  Límites  inferiores  para  la  privacidad  diferencial 165

desde  abajo,  mostrando  que  la  privacidad  no  puede  ser  demasiado  buena.  Cuando  
F(xi)  −  F(xj )∞  es  grande,  esto  significa  que  para  obtener  muy  buena  privacidad,  incluso  
cuando  se  restringe  a  bases  de  datos  que  difieren  en  muchos  lugares,  debemos  obtener  
respuestas  muy  erróneas  en  alguna  coordenada  de  F.
El  argumento  utiliza  la  representación  de  histograma  de  las  bases  de  datos.  En  la  
continuación,  d  =  |X  |  indica  el  tamaño  del  universo  del  que  se  extraen  los  elementos  de  
la  base  de  datos.

Lema  8.4.  Suponga  la  existencia  de  un  conjunto  S  =  {x1, . . . ,  x2  s },  donde  cada  xi     
N  tal  que  para  i  d=,  j,  xi  −  xj1  ≤  ∆.  Además,  sea  F :  sea  Bi  una  región  en  R  el  espacio  de  
d k  →  R s
, respuesta,  y  
norte
sea  una  consulta  k­dimensional.  Para  1  ≤  yo  ≤  2
suponga  que  los  
k , Bi  son  mutuamente  disjuntos.  Si  M  es  un  mecanismo  (ε,  0)­

diferencialmente  privado  para  F  tal  ln(2)(s−1)
s
que,   1  ≤  yo  ≤  2 ,  Pr[M(xi)     Bi ]  ≥  1/2,  entonces  ε  ≥  ∆ .

−1
Prueba.  Por  supuesto  Pr[M(xj )     Bj ]  ≥  2  B2  s  son  disjuntos,   .  Dado  que  las  regiones
menos   j  =  i     [2s ]  tales  que  Pr[M(xi)     Bj ]  ≤  2  B1, . . . ,  Es  decir,  para  al  
−s .
s
una  de  las  2  −  1  regiones  Bj ,  M(xi)  se  asigna  a  esta  Bj  es   la  probabilidad  de  que .  
−s
como  máximo  2  privacidad  referencial,  tenemos Combinando  esto  con  dif

−1  
2 PrM[Bj  |xj ]  ≤  
exp(ε∆).  ≤  
2−s PrM[Bj  |xi ]

Corolario  8.5.  Sea  S  =  {x1, . . . ,  x2  s }  sea  como  en  el  Lema  8.4,  y  suponga  que  para  
cualquier  i  =  j,  F(xi)−F(xj )∞  ≥  η.  Sea  Bi  la  bola  L∞  de  radio  η/2  con  centro  en  xi .  Sea  M  
R k cualquier  mecanismo  ε­diferencialmente  privado  para  F  que  satisfaga

s
1  ≤  yo  ≤  2 :  Pr[M(xi)     Bi ]  ≥  1/2.

Entonces  ε  ≥  (ln  
∆ .
2)(s−1)

Prueba.  Las  regiones  B1, . . . ,  B2  s  son  disjuntos,  por  lo  que  se  cumplen  las  condiciones  
del  Lema  8.4.  El  corolario  sigue  aplicando  el  lema  y  tomando  logaritmos.

En  el  Teorema  8.8  a  continuación,  veremos  las  consultas  F  que  son  simplemente  
consultas  generadas  independientemente  y  aleatoriamente  (¡no  lineales!).  Para
Machine Translated by Google

166 Límites  inferiores  y  resultados  de  separación

S  y  F  adecuados  (trabajaremos  para  encontrarlos)  el  corolario  dice  que  si  con  probabilidad  
al  menos  la  mitad  de  todas  las  respuestas  tienen  un  pequeño  error  simultáneamente,  
entonces  la  privacidad  no  puede  ser  demasiado  buena.  En  otras  palabras,

Reclamación  8.6  (Reformulación  informal  del  Corolario  8.5).  Para  obtener  (ε,  0)­  ln(2)
(s−1)  
privacidad  diferencial  para  ε  ≤  el  mecanismo  
∆ , debe  agregar  ruido
con  norma  L∞  mayor  que  η/2  con  probabilidad  superior  a  1/2.

Como  ejercicio  de  calentamiento,  demostramos  un  teorema  más  sencillo  que  requiere  
un  gran  universo  de  datos.

k .  Sea  M :  X k  →  R
Teorema  8.7.  Sea  X  =  {0,  1}  un   norte
sea  un  (ε,  0)­
mecanismo  diferencialmente  privado  tal  que  para  cada  base  de  datos  x     X  con  una   norte

probabilidad  de  al  menos  1/2  M(x)  genera  todos  los  marginales  de  1  vía  de  x  con  un  
error  menor  que  n/2.  Es  decir,  para  cada  j     [k],  la  j­ésima  componente  de  M(x)  debería  
ser  aproximadamente  igual  al  número  de  filas  de  x  cuyo  j­ésimo  bit  es  1,  hasta  un  error  
menor  que  n/2.  Entonces  n     Ω(k/ε).

Tenga  en  cuenta  que  este  límite  es  estrecho  dentro  de  un  factor  constante,  por  el  
teorema  de  composición  simple,  y  que  separa  (ε,  0)­privacidad  diferencial  de  (ε,  δ)­
privacidad  diferencial,  para  δ     2  −o(n) ,  ya  que,  por  el  teorema  de  composición  
avanzado  (Teorema  3.20),  el  ruido  de  Laplace  con  parámetro  b  =  k  ln(1/δ)/ε  es  
suficiente  para  el  primero,  en  contraste  con  Ω(k/ε)  necesario  para  el  segundo.  Tomando  
k     Θ(n)  y,  digamos,  δ  =  2−  log2  n ,  se  obtiene  la  separación
racionar.

Prueba.  Para  cada  cadena  w     {0,  1}  de  k , considere  la  base  de  datos  xw  que  consta  


n  filas  idénticas,  todas  iguales  a  w.  Sean  Bw     R  tuplas  de  números  k de  todos
que  dan  respuestas  a  los  marginales  de  1  vía  en  x  con  error  menor  que  n/2.  Eso  es,

k
Bw  =  {(a1, . . . ,  ak)}     R :   i     [k]  |ai  −  nwi  |  <  n/2}.

Dicho  de  otra  manera,  Bw  es  el  ∞  abierto   de  radio  n/2  alrededor  de  nw     {0,  n} k .


Observe  que  los  conjuntos  Bw  son  mutuamente  disjuntos.
Si  M  es  un  mecanismo  preciso  para  responder  marginales  de  1  vía,  entonces  para  
cada  w  la  probabilidad  de  aterrizar  en  Bw  cuando  la  base  de  datos  es  xw  debería  ser  
al  menos  1/2:  Pr[M(xw)     Bw]  ≥  1/2.  Así,  haciendo  ∆  =  n  (ln  2)(s−1)  y  s  =  k  en  el  
Corolario  
8.5  tenemos  ε  ≥  ∆ .
Machine Translated by Google

8.2.  Límites  inferiores  para  la  privacidad  diferencial 167

Teorema  8.8.  Para  cualquier  k,  d,  n     N  y  ε     (0,  1/40],  donde  n  ≥  min{k/ε,  d/ε},  


d k  →  R
existe  una  consulta  F :  N  con  sensibilidad  por  
coordenada  como  máximo  1  tal  que  
cualquier  mecanismo  diferencialmente  privado  (ε,  0)  agrega  ruido  de  norma  L∞  Ω  
(min{k/ε,  d/ε})  con  una  probabilidad  de  al  menos  1/2  en  algunas  bases  de  datos  de  
peso  como  máximo  n.

Tenga  en  cuenta  que  d  =  |X  |  no  necesita  ser  grande  aquí,  en  contraste  con  el  requisito
ment  en  el  teorema  8.7.

Prueba.  Sea  =  min{k,  d}.  Usando  códigos  de  corrección  de  errores  podemos  estafar
d
estructurar  un  conjunto  S  =  {x1, . . . ,  x2  s },  donde  s  = /400,  tal  que  cada  xi     N
y  además

1.   i :  xi1  ≤  w  = /(1280ε)

2.   i  =  j,  xi  −  xj1  ≥  w/10

No  damos  detalles  aquí,  pero  notamos  que  las  bases  de  datos  en  S  tienen  un  
tamaño  máximo  de  w  <  n,  por  lo  que  xi  −  xj1  ≤  2w.  Tomando  ∆  =  2w  el  conjunto  S  
satisface  las  condiciones  del  Corolario  8.5.  El  resto  de  nuestro  esfuerzo  es  obtener  
las  consultas  F  a  las  que  aplicaremos  el  Corolario  8.5.
Dado  S  =  {x1, . . . ,  x2  s },  donde  cada  xi     N   d
, el  primer  paso  es  definir  a  d  2  
2 s ES :  N →  R s
mapea  desde  el  espacio  de  histogramas  a  vectores  en  R   , .
Intuitivamente  (¡e  imprecisamente!),  dado  un  histograma  x,  el  mapeo  enumera,  para  
cada  xi     S,  la  distancia  L1  de  x  a  xi .  Más  precisamente,  dejando  que  w  sea  un  
límite  superior  en  el  peso  de  cualquier  xi  en  nuestra  colección,  definimos  el  mapeo  
de  la  siguiente  manera.

•  Para  cada  xi     S,  hay  una  coordenada  i  en  el  mapeo.

•  La  i­ésima  coordenada  de  LS(x)  es  max{w/30  −  xi  −  z1,  0}.

Reclamación  8.9.  Si  x1, . . . ,  x2  s  satisfacen  las  condiciones

1.   ixi1  ≤  w;  y

2.   i  =  jxi  −  xj1  ≥  w/10

entonces  el  mapa  LS  es  1­Lipschitz;  en  particular,  si  z1  −  z21  =  1,  entonces  LS(z1)  
−  LS(z2)1  ≤  1,  suponiendo  w  ≥  31.
Machine Translated by Google

168 Límites  inferiores  y  resultados  de  separación

Prueba.  Dado  que  asumimos  w  ≥  31,  tenemos  que  si  z     N  xi      d  está  cerca  de  algunos


S,  es  decir,  w/30  >  xi  −z1,  entonces  z  no  puede  estar  cerca  de  ningún  otro  xj     S,  y  lo  
mismo  es  cierto  para  todo  z  −  z1  ≤  1  Por  lo  tanto,  para  cualquier  z1,  z2  tal  que  z1  −  z2  ≤  
1,  si  A  denota  el  conjunto  de  coordenadas  donde  al  menos  uno  de  LS(z1)  o  LS(z2)  es  
distinto  de  cero,  entonces  A  está  vacío  o  es  un  conjunto  único.  Dado  esto,  la  declaración  
en  la  reivindicación  es  inmediata  por  el  hecho  de  que  la  aplicación  correspondiente  a  
cualquier  coordenada  particular  es  claramente  1­Lipschitz.

Finalmente  podemos  describir  las  consultas  F.  Correspondientes  a  cualquier  r     
2s d
{−1,  1} , definimos  fr :  N →  R,  como
d

fr(x)  = LS(x)i  ∙  ri ,
yo=1

que  es  simplemente  el  producto  interior  LS  ∙  r.  F  será  un  mapa  aleatorio  d  rk     {−1,  1}
2s
k  →  R r1, . . . ,  al  
F :  N :  Seleccione   independiente  y  uniformemente
azar  y  definir

F(x)  =  (fr1  (x), . . . ,  frk  (x)).

Es  decir,  F(x)  es  simplemente  el  resultado  del  producto  interno  de  LS(x)  con  k  vectores  
±1  elegidos  al  azar.
Note  que  para  cualquier  x     S  LS(x)  tiene  una  coordenada  con  valor  w/30  y  x     S  
2s
(y  los  demás  son  todos  cero),  entonces   ri     {−1,  1}  |fri   tenemos

(x)|  =  w/30.  Ahora  considere  cualquier  xh,  xj     S,  donde  h  =  j.  Se  sigue  que  para  
2s
cualquier  ri     {−1,  1} ,
PR [|viernes  (xh)  −  viernes  (xj )|  ≥  c/15]  ≥  1/2
Rhode  Island

(este  evento  ocurre  cuando  (ri)h  =  −(ri)j ).  Una  aplicación  básica  del  límite  de  Chernoff  
implica  que
Pr   [Para  al  menos  1/10  del  ris,
r1,...,rk

|viernes  (xh)  −  viernes  (xj )|  ≥  w/15]  ≥  1  −  2  −k/30   .

Ahora,  el  número  total  de  pares  (xi ,  xj )  de  bases  de  datos  tales  que  xi ,  xj     S  ≤  2  k/
2s  
es  como  máximo  2 200.  Tomando  un  límite  de  unión  esto  implica
Pr   [ h  =  j,  Para  al  menos  1/10  de  los  ris,
r1,...,rk

|viernes  (xh)  −  viernes  (xj )|  ≥  w/15]  ≥  1  −  2  −k/40
Machine Translated by Google

8.2.  Límites  inferiores  para  la  privacidad  diferencial 169

Esto  implica  que  podemos  arreglar  r1, . . . ,  rk  tal  que  lo  siguiente  es  cierto.

h  =  j,  Para  al  menos  1/10  del  ris, |viernes  (xh)  −  viernes  (xj )|  ≥  w/

15  Así,  para  cualquier  xh  =  xj     S,  F(xh)  −  F(xj )∞  ≥  w/15.
Estableciendo  ∆  =  2w  y  s  = /400  >  3εw  (como  hicimos  arriba),  y  η  =  w/15,  
satisfacemos  las  condiciones  del  Corolario  8.5  y  concluimos  ∆  ≤  (s  −  1)/ε,  demostrando  
el  teorema  (a  través  de  la  Reclamación  8.6).

El  teorema  es  casi  estricto:  si  k  ≤  d  entonces  podemos  aplicar  el  mecanismo  de  
Laplace  a  cada  una  de  las  consultas  de  k  sensibilidad  1  componente  en  F  con  parámetro  
k/ε,  y  esperamos  que  la  distorsión  máxima  sea  Θ(k  ln  k/ε) .  Por  otro  lado,  si  d  ≤  k  
entonces  podemos  aplicar  el  mecanismo  de  Laplace  al  histograma  d­dimensional  que  
representa  la  base  de  datos,  y  esperamos  que  la  distorsión  máxima  sea  Θ(d  ln  d/ε).

El  teorema  en  realidad  muestra  que,  dado  el  conocimiento  del  conjunto  S  y  el  
conocimiento  de  que  la  base  de  datos  real  es  un  elemento  x     S,  el  adversario  puede  
determinar  completamente  x  si  la  norma  L∞  de  la  distorsión  es  demasiado  pequeña.  
¿Cómo  podría  el  adversario  obtener  en  la  vida  real  un  conjunto  S  del  tipo  utilizado  en  el  
ataque?  Esto  puede  ocurrir  cuando  un  sistema  de  base  de  datos  no  privado  se  ha  
estado  ejecutando  en  un  conjunto  de  datos,  por  ejemplo,  x.  Por  ejemplo,  x  podría  ser  un  
vector  en  {0,  1}  n  y  el  adversario  podría  haber  aprendido,  a  través  de  una  secuencia  de  
consultas  lineales  de  2/3 ,  que  x     C,  un  código  lineal  de  distancia,  digamos  n .  Por  
supuesto,  si  el  sistema  de  base  de  datos  no  promete  privacidad,  no  hay  problema.
El  problema  surge  si  el  administrador  decide  reemplazar  el  sistema  existente  con  un  
mecanismo  diferencialmente  privado,  después  de  que  varias  consultas  hayan  recibido  
respuestas  sin  ruido.  En  particular,  si  el  administrador  elige  usar  privacidad  diferencial  
(ε,  δ)  para  consultas  k  subsiguientes ,  entonces  la  distorsión  podría  caer  por  debajo  del  
límite  inferior  Ω(k/ε) ,  permitiendo  el  ataque  descrito  en  la  demostración  del  Teorema  8.8.

El  teorema  también  enfatiza  que  existe  una  diferencia  fundamental  entre  la  
información  auxiliar  sobre  (conjuntos  de)  miembros  de  la  base  de  datos  y  la  información  
sobre  la  base  de  datos  como  un  todo.  Por  supuesto,  ya  sabíamos  esto:  que  nos  digan  
que  la  cantidad  de  bits  secretos  suma  exactamente  5  000  destruye  por  completo  la  
privacidad  diferencial,  y  un  adversario  que  ya  conocía  el  bit  secreto  de  cada  miembro  
de  la  base  de  datos,  excepto  un  individuo,  podría  concluir  el  secreto.  poco  del  individuo  
restante.
Machine Translated by Google

170 Límites  inferiores  y  resultados  de  separación

Consecuencias  adicionales.  Suponga  que  k  ≤  d,  entonces  =  k  en  el  Teorema  8.8.
El  límite  inferior  lineal  en  k/ε  sobre  el  ruido  para  k  consultas  esbozadas  en  la  sección  
anterior  produce  inmediatamente  una  separación  entre  consultas  de  conteo  y  consultas  
arbitrarias  de  1  sensibilidad,  como  la  construcción  SmallDB  2/3  mientras  mantiene  
n  consultas  con  ruido  aproximadamente  n  ing  privacidad   respuestas  (más  de)  
diferencial.  De  hecho,  este  resultado  también  nos  permite  concluir  que  no  existe  una  
red  α  pequeña  para  grandes  conjuntos  de  consultas  arbitrarias  de  baja  sensibilidad,  
para  α     o(n)  (ya  que,  de  lo  contrario,  el  mecanismo  de  la  red  produciría  un  algoritmo  
(ε,  0)  de  la  deseada  exactitud).

8.3  Notas  bibliográficas

Los  primeros  ataques  de  reconstrucción,  incluido  el  Teorema  8.1,  se  deben  a  Dinur  y  
Nissim  [18],  quienes  también  realizaron  un  ataque  que  requería  solo  el  cálculo  del  
tiempo  polinomial  y  consultas  O(n  log2  n),  siempre  que  el  ruido  sea  siempre  o( √  n).  Al  
darse  cuenta  de  que  los  ataques  que  requieren  n  consultas  lineales  aleatorias,  cuando  
n  es  "escala  de  Internet",  son  inviables,  Dinur,  Dwork  y  Nissim  dieron  los  primeros  
resultados  positivos,  mostrando  que  para  un  número  sublineal  de  consultas  de  suma  
de  subconjuntos,  una  forma  de  privacidad  (ahora  conocida  para  implicar  (ε,  δ)­
privacidad  diferencial)  se  puede  lograr  agregando  ruido  escalado  a  o( √  n)  [18].  Esto  
fue  emocionante  porque  sugirió  que,  si  pensamos  en  la  base  de  datos  como  extraída  
de  una  población  subyacente,  incluso  para  un  número  relativamente  grande  de  
consultas  de  conteo,  la  privacidad  podría  lograrse  con  una  distorsión  menor  que  el  
error  de  muestreo.  Esto  incluso  conduce,  a  través  de  consultas  más  generales  [31,  6],  
a  la  privacidad  diferencial.
La  visión  de  estas  consultas  como  un  primitivo  de  programación  que  preserva  la  
privacidad  [6]  inspiró  la  plataforma  de  programación  de  consultas  integradas  de  
privacidad  de  McSherry  [59].
El  ataque  de  reconstrucción  del  teorema  8.2  aparece  en  [24],  donde  Dwork,  
McSherry  y  Talwar  demostraron  que  la  reconstrucción  en  tiempo  polinomial  es  posible  
incluso  si  una  fracción  de  0,239  de  las  respuestas  tiene  ruido  salvaje  y  arbitrario,  
siempre  que  las  otras  tengan  ruido  o( √  norte).
El  enfoque  geométrico,  y  en  particular  el  Lema  8.4,  se  debe  a  Hardt  y  Talwar  [45],  
quienes  también  proporcionaron  un  algoritmo  basado  en  geometría  que  demostró  que  
estos  límites  son  estrictos  para  números  pequeños  k  ≤  n  de  consultas ,  bajo  un
Machine Translated by Google

8.3.  notas  bibliograficas 171

conjetura  comúnmente  aceptada.  Posteriormente,  Bhaskara  et  al.  eliminaron  
la  dependencia  de  la  conjetura.  [5].  Nikolov  et  al.  extendieron  el  enfoque  
geométrico  a  un  número  arbitrario  de  consultas.  [66],  quien  dio  un  algoritmo  
con  error  cuadrático  medio  óptimo  de  instancia.  Para  el  caso  de  pocas  
consultas,  esto  conduce,  a  través  de  un  argumento  de  refuerzo,  a  un  error  de  
peor  caso  esperado  bajo.  El  teorema  8.8  se  debe  a  De  [17].
Machine Translated by Google

9
Privacidad  diferencial  
y  complejidad  computacional

Nuestra  discusión  sobre  la  privacidad  diferencial  hasta  ahora  ha  ignorado  los  problemas  
de  la  complejidad  computacional,  lo  que  permite  que  tanto  el  curador  como  el  adversario  
estén  computacionalmente  ilimitados.  En  realidad,  tanto  el  curador  como  el  adversario  
pueden  estar  limitados  computacionalmente.
Limitarnos  a  un  curador  computacionalmente  limitado  restringe  lo  que  el  curador  
puede  hacer,  lo  que  dificulta  lograr  una  privacidad  diferencial.  Y,  de  hecho,  mostraremos  
un  ejemplo  de  una  clase  de  consultas  de  conteo  que,  bajo  supuestos  teóricos  de  
complejidad  estándar,  no  permite  la  generación  eficiente  de  una  base  de  datos  sintética,  
a  pesar  de  que  se  conocen  algoritmos  ineficientes,  como  SmallDB  y  Private  Multiplicative  
Weights.  A  grandes  rasgos,  las  filas  de  la  base  de  datos  son  firmas  digitales,  firmadas  
con  claves  a  las  que  el  curador  no  tiene  acceso.  La  intuición  será  que  cualquier  fila  en  
una  base  de  datos  sintética  debe  ser  copiada  del  original,  violando  la  privacidad,  o  debe  
ser  una  firma  en  un  mensaje  nuevo ,  es  decir,  una  falsificación,  violando  la  propiedad  de  
infalsificación  de  un  esquema  de  firma  digital.  Desafortunadamente,  este  estado  de  cosas  
no  se  limita  a  ejemplos  (potencialmente  inventados)  basados  en  firmas  digitales:  es  
incluso  difícil  crear  una  base  de  datos  sintética  que  mantenga  relativamente

172
Machine Translated by Google

173

marginales  bidireccionales  precisos.1  En  el  lado  positivo,  dado  un  conjunto  Q  de  
consultas  y  una  base  de  datos  de  n  filas  con  filas  extraídas  de  un  universo  X,  se   ,
puede  generar  una  base  de  datos  sintética  en  un  polinomio  de  tiempo  en  n,  |X  |  y  |
Q  |.
Si  abandonamos  el  objetivo  de  una  base  de  datos  sintética  y  nos  conformamos  
con  una  estructura  de  datos  a  partir  de  la  cual  podamos  obtener  una  aproximación  
relativamente  precisa  a  la  respuesta  de  cada  consulta,  la  situación  es  mucho  más  
interesante.  Resulta  que  el  problema  está  íntimamente  relacionado  con  el  problema  
de  rastrear  a  los  traidores ,  en  el  que  el  objetivo  es  desalentar  la  piratería  mientras  
se  distribuye  contenido  digital  a  los  clientes  que  pagan.
Si  el  adversario  está  restringido  al  tiempo  polinomial,  entonces  se  vuelve  más  
fácil  lograr  privacidad  diferencial.  De  hecho,  el  concepto  inmensamente  poderoso  
de  la  evaluación  segura  de  funciones  produce  una  forma  natural  de  evitar  al  
curador  de  confianza  (mientras  brinda  una  mayor  precisión  que  la  respuesta  
aleatoria),  así  como  una  forma  natural  de  permitir  que  múltiples  curadores  de  
confianza,  quienes  por  razones  legales  no  pueden  compartir  sus  opiniones.  
conjuntos  de  datos,  para  responder  a  consultas  sobre  qué  es  efectivamente  un  
conjunto  de  datos  combinados.  En  pocas  palabras,  la  evaluación  de  funciones  
seguras  es  una  primitiva  criptográfica  que  permite  una  colección  de  n  partes  p1,  
p2, . . . ,  pn,  de  las  cuales  menos  de  una  fracción  fija  son  defectuosas  (la  fracción  
varía  según  el  tipo  de  fallas;  para  las  fallas  “honestas  pero  curiosas”,  la  fracción  es  
1),  para  calcular  cooperativamente  cualquier  función  f(x1, . . . ,  xn),  donde  xi  es  la  
entrada,  o  valor,  del  partido  pi ,  de  tal  manera  que  ninguna  coalición  de  partidos  
culpables  puede  interrumpir  el  cálculo  o  aprender  más  sobre  los  valores  de  los  
partidos  no  culpables  de  lo  que  se  puede  deducir  de  la  función  de  salida  y  los  
valores  de  los  miembros  de  la  coalición.  Estas  dos  propiedades  se  denominan  
tradicionalmente  corrección  y  privacidad.  Esta  noción  de  privacidad,  llamémosla  
privacidad  SFE,  es  muy  diferente  de  la  privacidad  diferencial.  Sea  V  el  conjunto  de  
valores  que  tienen  las  partes  infractoras  y  sea  pi  una  parte  no  infractora .  xn)};  por  
lo  tanto,  la  privacidad  diferencial  no  permitiría  la  liberación  exacta  de  f(x1, . . . ,  xn).  
Sin  embargo,  la  evaluación  segura  de  funciones

1Recuerde  que  los  marginales  bidireccionales  son  los  conteos,  para  cada  par  de  atributos
valores,  del  número  de  filas  en  la  base  de  datos  que  tienen  este  par  de  valores.
2
En  el  caso  honesto  pero  curioso,  podemos  dejar  que  V  =  {xj}  para  cualquier  parte  Pj .
Machine Translated by Google

174 Privacidad  diferencial  y  complejidad  computacional

Los  protocolos  para  calcular  una  función  f  pueden  modificarse  fácilmente  para  obtener  
protocolos  diferencialmente  privados  para  f,  simplemente  definiendo  una  nueva  
función,  g,  que  sea  el  resultado  de  sumar  el  ruido  de  Laplace  Lap(∆f /ε)  al  valor  de  f.
En  principio,  la  evaluación  segura  de  funciones  permite  la  evaluación  de  g.  Dado  que  
g  es  diferencialmente  privada  y  la  propiedad  de  privacidad  SFE,  aplicada  a  g,  dice  
que  no  se  puede  aprender  nada  sobre  las  entradas  que  no  se  pueda  aprender  del  
valor  de  g(x1, . . . ,  xn)  junto  con  la  privacidad  diferencial  V,  está  asegurada,  siempre  
que  los  jugadores  defectuosos  estén  restringidos  al  tiempo  polinomial.
Por  lo  tanto,  la  evaluación  segura  de  funciones  permite  lograr  una  noción  
computacional  de  privacidad  diferencial,  incluso  sin  un  curador  de  confianza,  sin  
pérdida  de  precisión  en  comparación  con  lo  que  se  puede  lograr  con  un  curador  de  
confianza.  En  particular,  las  consultas  de  conteo  se  pueden  responder  con  un  error  
esperado  constante  al  tiempo  que  se  garantiza  la  privacidad  diferencial  computacional,  
sin  un  curador  de  confianza.  Veremos  que,  sin  criptografía,  el  error  debe  ser  Ω(n  
1/2 ),  lo  que  demuestra  que  las  suposiciones  computacionales  probablemente  
compran  precisión,  en  el  caso  de  múltiples  partes.

9.1  Curadores  de  tiempo  polinomial

En  esta  sección  mostramos  que,  bajo  supuestos  criptográficos  estándar,  es  
computacionalmente  difícil  crear  una  base  de  datos  sintética  que  brinde  respuestas  
precisas  a  una  clase  apropiadamente  elegida  de  consultas  de  conteo,  asegurando  al  
mismo  tiempo  incluso  una  noción  mínima  de  privacidad.
Este  resultado  tiene  varias  extensiones;  por  ejemplo,  al  caso  en  el  que  el  conjunto  
de  consultas  es  pequeño  (pero  el  universo  de  datos  sigue  siendo  grande)  y  al  caso  
en  el  que  el  universo  de  datos  es  pequeño  (pero  el  conjunto  de  consultas  es  grande).
Además,  se  han  obtenido  resultados  negativos  similares  para  determinadas  familias  
naturales  de  consultas,  como  las  correspondientes  a  las  conjunciones.
Usaremos  el  término  sintetizar  para  denotar  el  proceso  de  generar  una  base  de  
datos  sintética  de  manera  que  se  preserve  la  privacidad3 .  Por  lo  tanto,  los  resultados  
de  esta  sección  se  refieren  a  la  dureza  computacional  de  la  síntesis.
Nuestra  noción  de  privacidad  será  mucho  más  débil  que  la  privacidad  diferencial,  por  
lo  que  la  dureza  de  la  síntesis  implicará  la  dureza  de  la  generación  de  una  síntesis.

3
En  la  Sección  6,  un  sintetizador  tomó  como  entrada  una  sinopsis;  aquí  estamos  empezando  con
una  base  de  datos,  que  es  una  sinopsis  trivial.
Machine Translated by Google

9.1.  Curadores  de  tiempo  polinomial 175

base  de  datos  de  una  manera  diferencialmente  privada.  Específicamente,  diremos  que  
la  síntesis  es  difícil  si  es  difícil  incluso  evitar  la  filtración  de  elementos  de  entrada  en  su  
totalidad.  Es  decir,  algún  elemento  siempre  está  completamente  expuesto.
Tenga  en  cuenta  que  si,  por  el  contrario,  la  filtración  de  algunos  elementos  de  
entrada  no  se  considera  una  violación  de  la  privacidad,  la  síntesis  se  logra  fácilmente  
liberando  un  subconjunto  elegido  al  azar  de  los  elementos  de  entrada.  La  utilidad  de  
esta  "base  de  datos  sintética"  proviene  de  los  límites  de  muestreo:  con  alta  probabilidad,  
este  subconjunto  conservará  la  utilidad  incluso  con  respecto  a  un  gran  conjunto  de  
consultas  de  conteo.
Al  introducir  supuestos  de  complejidad,  requerimos  un  parámetro  de  seguridad  
para  expresar  tamaños;  por  ejemplo,  tamaños  de  conjuntos,  longitudes  de  mensajes,  
número  de  bits  en  una  clave  de  descifrado,  etc.,  así  como  para  expresar  dificultad  
computacional.  El  parámetro  de  seguridad,  denominado  κ,  representa  tamaños  y  
esfuerzos  "razonables".  Por  ejemplo,  se  supone  que  es  factible  buscar  exhaustivamente  
un  conjunto  cuyo  tamaño  sea  un  polinomio  (cualquiera  fijo)  en  el  parámetro  de  seguridad.

La  complejidad  computacional  es  una  noción  asintótica:  nos  preocupa  cómo  
aumenta  la  dificultad  de  una  tarea  a  medida  que  crecen  los  tamaños  de  los  objetos  
(universo  de  datos,  base  de  datos,  familia  de  consultas).  Así,  por  ejemplo,  necesitamos  
pensar  no  solo  en  una  distribución  sobre  bases  de  datos  de  un  solo  tamaño  (lo  que  
hemos  venido  llamando  n  en  el  resto  de  esta  monografía),  sino  en  un  conjunto  de  
distribuciones,  indexadas  por  el  parámetro  de  seguridad .  De  manera  similar,  cuando  
introducimos  la  complejidad,  tendemos  a  "suavizar"  las  afirmaciones:  falsificar  una  firma  
no  es  imposible,  ¡uno  podría  tener  suerte!  Más  bien,  asumimos  que  ningún  algoritmo  
eficiente  tiene  éxito  con  una  probabilidad  no  despreciable,  donde  "eficiente"  y  "no  
despreciable"  se  definen  en  términos  del  parámetro  de  seguridad.  Ignoraremos  estos  
puntos  finos  en  nuestra  discusión  intuitiva,  pero  los  mantendremos  en  las  declaraciones  
de  teoremas  formales.

Hablando  informalmente,  una  distribución  de  bases  de  datos  es  difícil  de  sintetizar  
(con  respecto  a  alguna  familia  Q  de  consultas)  si  para  cualquier  (supuesto)  sintetizador  
eficiente,  con  alta  probabilidad  sobre  una  base  de  datos  extraída  de  la  distribución,  al  
menos  uno  de  los  elementos  de  la  base  de  datos  se  puede  extraer  de  la  supuesta  
salida  del  sintetizador.  Por  supuesto,  para  evitar  trivialidades,  también  exigiremos  que  
cuando  este  elemento  filtrado  se  excluya  de  la  base  de  datos  de  entrada  (y,  digamos,  
se  reemplace  por  un  elemento  diferente  al  azar),
Machine Translated by Google

176 Privacidad  diferencial  y  complejidad  computacional

la  probabilidad  de  que  se  pueda  extraer  de  la  salida  es  muy  pequeña.
Esto  significa  que  cualquier  (supuesto)  sintetizador  eficiente  de  hecho  compromete  
la  privacidad  de  los  elementos  de  entrada  en  un  sentido  fuerte.
La  definición  9.1  a  continuación  formalizará  nuestros  requisitos  de  utilidad  para  
un  sintetizador.  Hay  tres  parámetros:  α  describe  el  requisito  de  precisión  (estar  dentro  
de  α  se  considera  preciso);  γ  describe  la  fracción  de  las  consultas  en  las  que  se  
permite  que  una  síntesis  exitosa  sea  inexacta,  y  β  será  la  probabilidad  de  falla.

Para  un  algoritmo  A  que  produce  bases  de  datos  sintéticas,  decimos  que  una  
salida  A(x)  es  (α,  γ)­precisa  para  un  conjunto  de  consultas  Q  si  |q(A(x))−q(x)|  ≤  α  para  
una  fracción  1  −  γ  de  las  consultas  q     Q.

Definición  9.1  ((α,  β,  γ)­Utilidad).  Sea  Q  un  conjunto  de  consultas  y  X  un  universo  de  
datos.  Un  sintetizador  A  tiene  utilidad  (α,  β,  γ)  para  bases  de  datos  de  n  elementos  
con  respecto  a  Q  y  X  si  para  cualquier  base  de  datos  de  n  elementos  x:

Pr  [A(x)  es  (α,  γ)­exacta  para  Q]  ≥  1  −  β

donde  la  probabilidad  es  sobre  las  monedas  de  A.

Sea  Q  =  {Qn}n=1,2,...  un  conjunto  de  familia  de  consultas,  X  =  {Xn}n=1,2,...  un  
conjunto  de  universo  de  datos.  Se  dice  que  un  algoritmo  es  eficiente  si  su  tiempo  de  
ejecución  es  poli(n,  log(|Qn|),  log(|Xn|)).
En  la  siguiente  definición  describimos  lo  que  significa  que  una  familia  de  
distribuciones  sea  difícil  de  sintetizar.  Un  poco  más  específicamente  diremos  lo  que  
significa  ser  difícil  generar  bases  de  datos  sintéticas  que  proporcionen  precisión  (α,  
γ).  Como  de  costumbre,  tenemos  que  hacer  de  esto  un  asintótico
declaración.

Definición  9.2  ((µ,  α,  β,  γ,  Q)­Distribución  de  base  de  datos  difícil  de  sintetizar).  Sea  
Q  =  {Qn}n=1,2,...  un  conjunto  de  familia  de  consultas,  X  =  {Xn}n=1,2,...  sea  un  conjunto  
de  universo  de  datos,  y  sean  µ,  α,  β,  γ     [0,  1].
Sea  n  el  tamaño  de  una  base  de  datos  y  D  un  conjunto  de  distribuciones,  donde  Dn  
es  sobre  colecciones  de  n  +  1  elementos  de  Xn.
Denotamos  por  (x,  i,  x i )     Dn  el  experimento  de  elegir  una  base  de  datos  
de  n  elementos,  un  índice  i  elegido  uniformemente  de  [n]  y  un  elemento  adicional  x  i
de  Xn.  Una  muestra  de  Dn  nos  da  un  par  de  bases  de  datos:  x  
y  el  resultado  de  reemplazar  el  i­ésimo  elemento  de  x  (bajo
Machine Translated by Google

9.2.  Algunas  distribuciones  difíciles  de  sintetizar 177

un  ordenamiento  canónico)  con  x  i .  Por  lo  tanto,  pensamos  que  Dn  especifica  una  
distribución  en  bases  de  datos  de  n  elementos  (y  sus  vecinos).
Decimos  que  D  es  (µ,  α,  β,  γ,  Q)  difícil  de  sintetizar  si  existe  un  algoritmo  
eficiente  T  tal  que  para  cualquier  supuesto  sintetizador  eficiente  A  se  cumplen  las  
dos  condiciones  siguientes:

1.  Con  una  probabilidad  de  1−µ  sobre  la  elección  de  la  base  de  datos  x     D  y  
las  monedas  de  A  y  T,  si  A(x)  mantiene  una  utilidad  α  para  una  fracción  de  
consultas  de  1  −  γ ,  entonces  T  puede  recuperar  una  de  las  filas  de  x  de  A(x):

(x,i,xiPr ) Dn
lanzamientos  de  moneda  de  A,T

[(A(x)  mantiene  (α,  β,  γ)­utilidad)  y  (x  ∩  T(A(x))  =   )]  ≤  µ

2.  Para  todo  algoritmo  eficiente  A,  y  para  todo  i     [n],  si  dibujamos  para  formar  
(x,  i,  x   )  de  D,  y  reemplaza  xi  con  x x  T  no  puede,
i i
extrae  xi  de  A(x )  excepto  con  una  pequeña  probabilidad:

[xi     T(A(x ))]  ≤  µ.
(x,i,xiPr ) Dn
lanzamientos  de  moneda  de  A,  T

Más  adelante,  nos  interesaremos  en  los  mecanismos  fuera  de  línea  que  
producen  sinopsis  arbitrarias,  no  necesariamente  bases  de  datos  sintéticas.  En  
este  caso,  nos  interesará  la  noción  relacionada  de  difícil  de  desinfectar  (en  lugar  de  
difícil  de  sintetizar),  para  lo  cual  simplemente  eliminamos  el  requisito  de  que  A  
produzca  una  base  de  datos  sintética.

9.2  Algunas  distribuciones  difíciles  de  sintetizar

Ahora  construimos  tres  distribuciones  que  son  difíciles  de  sintetizar.
Un  esquema  de  firma  está  dado  por  un  triple  de  (posiblemente  aleatorio)
algoritmos  (Gen,  Sign,  Verify):

•  Gen :  1N  →  {(SK,  VK)n}n=1,2,...  se  utiliza  para  generar  un  par  que  consta  de  
una  clave  de  firma  (secreta)  y  una  clave  de  verificación  (pública).
Toma  solo  el  parámetro  de  seguridad  κ     N,  escrito  en  unario,  como  
entrada,  y  produce  un  par  extraído  de  (SK,  VK)  κ,  la  distribución  en  (firma,  
verificación)  pares  de  claves  indexados  por  κ;  dejamos
Machine Translated by Google

178 Privacidad  diferencial  y  complejidad  computacional

ps(κ),  pv(κ),  s(κ)  indican  las  longitudes  de  la  clave  de  firma,  la  clave  de  
verificación  y  la  firma,  respectivamente.  •  

Signo :  SKκ  ×  {0,  1}  (κ)  →  {0,  1}  s(κ)  toma  como  entrada  una  clave  de  firma  de  un  
par  extraído  de  (SK,  VK)κ  y  un  mensaje  m  de  longitud  (κ),  y  produce  una  firma  
en  m;  ×  {0,  1}  (κ)  •  Verificar:  VKκ  ×  {0,  1}     
como  entrada  una  clave  de  verificación,  
→  {0,  1u}  na  
toma  
cadena  σ  y  un  mensaje  m  de  longitud  
(κ),  y  comprueba  que  σ  es  de  hecho  una  firma  válida  de  m  bajo  la  clave  de  
verificación  dada.

Las  claves,  las  longitudes  de  los  mensajes  y  las  longitudes  de  las  firmas  son  todos  polinomios  en  κ.
La  noción  de  seguridad  requerida  es  que,  dado  cualquier  número  polinomial  (en  
κ)  de  pares  válidos  (mensaje,  firma),  es  difícil  falsificar  una  nueva  firma,  incluso  una  
nueva  firma  de  un  mensaje  previamente  firmado  (recuerde  que  el  algoritmo  de  firma  
puede  ser  aleatorio,  por  lo  que  pueden  existir  múltiples  firmas  válidas  del  mismo  
mensaje  bajo  la  misma  clave  de  firma).
Dicho  esquema  de  firma  puede  construirse  a  partir  de  cualquier  función  unidireccional.
Hablando  informalmente,  estas  son  funciones  que  son  fáciles  de  calcular:  f(x)  se  
puede  calcular  en  polinomio  de  tiempo  en  la  longitud  (número  de  bits)  de  x,  pero  es  
difícil  de  invertir:  para  cada  algoritmo  de  tiempo  polinomial  probabilístico,  se  ejecuta  
en  polinomio  de  tiempo  en  el  parámetro  de  seguridad  κ,  la  probabilidad,  sobre  una  x  
elegida  al  azar  en  el  dominio  de  f,  de  encontrar  cualquier  preimagen  válida  de  f(x),  
crece  más  lentamente  que  el  inverso  de  cualquier  polinomio  en  κ.

Difícil  de  sintetizar  la  distribución  I:  corregir  un  esquema  de  firma  arbitrario.  El  conjunto  
Qκ  de  consultas  de  conteo  contiene  una  consulta  de  conteo  qvk  para  cada  clave  de  
verificación  vk     VKκ.  El  universo  de  datos  Xκ  consiste  en  el  conjunto  de  todos  los  
pares  posibles  (mensaje,  firma)  de  la  forma  para  mensajes  de  longitud  (κ)  firmados  
con  claves  en  VKκ.
La  distribución  Dκ  en  las  bases  de  datos  se  define  mediante  el  siguiente  
procedimiento  de  muestreo.  Ejecute  el  generador  de  esquemas  de  firma  Gen(1κ )  para  
obtener  (sk,  vk).  Elija  aleatoriamente  n  =  κ  mensajes  en  {0,  1}  (κ)  y  ejecute  el  
procedimiento  de  firma  para  cada  uno,  obteniendo  un  conjunto  de  n  (mensaje,  firma)  
pares,  todos  firmados  con  la  clave  sk.  Esta  es  la  base  de  datos  x.  Tenga  en  cuenta  
que  todos  los  mensajes  en  la  base  de  datos  están  firmados  con  la  misma  clave  de  firma.
Machine Translated by Google

9.2.  Algunas  distribuciones  difíciles  de  sintetizar 179

Un  elemento  del  universo  de  datos  (m,  σ)  satisface  el  predicado  qvk  si  y  solo  si  
Verify(vk,  m,  σ)  =  1,  es  decir,  σ  es  una  firma  válida  para  m  según  la  clave  de  verificación  
vk.
Sea  x   R  Dκ  una  base  de  datos,  y  sea  sk  la  clave  de  firma  utilizada,  con  la  
correspondiente  clave  de  verificación  vk.  Suponiendo  que  el  sintetizador  haya  producido  
y,  debe  darse  el  caso  de  que  casi  todas  las  filas  de  y  sean  firmas  válidas  bajo  vk  (porque  
el  recuento  fraccionario  de  x  para  la  consulta  vk  es  1).  Por  las  propiedades  de  
infalsificación  del  esquema  de  firma,  todos  estos  deben  provenir  de  la  base  de  datos  de  
entrada  x :  el  curador  limitado  en  el  tiempo  polinomial,  que  se  ejecuta  en  el  tiempo  
poli(κ),  no  puede  generar  generar  un  nuevo  par  válido  (mensaje,  firma).  (Solo  un  poco)  
más  formalmente,  la  probabilidad  de  que  un  algoritmo  eficiente  pueda  producir  un  par  
(mensaje,  naturaleza  de  signo)  que  sea  verificable  con  la  clave  vk,  pero  que  no  esté  en  
x,  es  insignificante,  por  lo  que  con  una  probabilidad  abrumadora  cualquier  y  que  sea  
producido  por  un  El  sintetizador  eficiente  solo  contendrá  filas  de  x.  noción  razonable  
de)  privacidad. 4
Esto  contradice  (cualquier

En  esta  construcción,  tanto  Qκ  (el  conjunto  de  claves  de  verificación)  como  Xκ  (el  
conjunto  de  pares  (mensaje,  firma))  son  grandes  (superpolinomio  en  κ).
Cuando  ambos  conjuntos  son  pequeños,  es  posible  generar  conjuntos  de  datos  sintéticos  
diferencialmente  privados  y  eficientes.  Es  decir,  existe  un  sintetizador  diferencialmente  
privado  cuyo  tiempo  de  ejecución  es  polinomial  en  n  =  κ,  |Qκ|  y  |Xκ|:  calcule  conteos  
ruidosos  usando  el  mecanismo  de  Laplace  para  obtener  una  sinopsis  y  luego  ejecute  el  
sintetizador  de  la  Sección  6.  Por  lo  tanto,  cuando  ambos  tienen  polinomio  de  tamaño  en  
κ,  el  tiempo  de  ejecución  del  sintetizador  es  polinomial  en  κ.

Ahora  discutimos  brevemente  las  generalizaciones  del  primer  resultado  de  dureza  
para  los  casos  en  los  que  uno  de  estos  conjuntos  es  pequeño  (pero  el  otro  sigue  siendo  
grande).

Distribución  difícil  de  sintetizar  II:  En  la  distribución  de  la  base  de  datos  anterior,  
elegimos  un  solo  par  de  claves  (sk,  vk)  y  generamos  una  base  de  datos  de

4El  orden  de  cuantificación  es  importante,  ya  que,  de  lo  contrario,  el  sintetizador  podría  
tener  la  clave  de  firma  cableada.  Primero  reparamos  el  sintetizador,  luego  ejecutamos  el  
generador  y  construimos  la  base  de  datos.  La  probabilidad  está  sobre  toda  la  aleatoriedad  en  
el  experimento:  elección  del  par  de  claves,  construcción  de  la  base  de  datos  y  aleatoriedad  
utilizada  por  el  sintetizador.
Machine Translated by Google

180 Privacidad  diferencial  y  complejidad  computacional

mensajes,  todos  firmados  usando  sk;  La  dureza  se  obtuvo  al  requerir  que  el  
sintetizador  generara  una  nueva  firma  bajo  sk,  para  que  la  base  de  datos  sintetizada  
proporcione  una  respuesta  precisa  a  la  consulta  qvk.
Para  obtener  dureza  para  la  síntesis  cuando  el  tamaño  del  conjunto  de  consultas  es  
solo  polinomial  en  el  parámetro  de  seguridad,  nuevamente  usamos  firmas  digitales,  
firmadas  con  una  clave  única,  pero  no  podemos  darnos  el  lujo  de  tener  una  consulta  
para  cada  posible  clave  de  verificación  vk,  ya  que  estas  son  demasiado  numerosos.
Para  solucionar  esto,  hacemos  dos  cambios:

1.  Las  filas  de  la  base  de  datos  ahora  tienen  el  formulario  (clave  de  verificación,  
mensaje,  firma).  más  precisamente,  el  universo  de  datos  consta  de  (clave,  
mensaje,  firma)  triples  X  =  {(vk,  m,  s) :  vk     VKκ,  m     {0,  1}  (κ)
, s     {0,  1}  s(κ)}.
2.  Agregamos  a  la  clase  de  consulta  exactamente  consultas  2pv(κ) ,  donde  pv(κ)  
es  la  longitud  de  las  claves  de  verificación  producidas  al  ejecutar  el  algoritmo  
de  generación  Gen(1κ ).  Las  consultas  tienen  la  forma  (i,  b)  donde  1  ≤  i  ≤  
pv(κ)  y  b     {0,  1}.  El  significado  de  la  consulta  "(i,  b)"  es  "¿Qué  fracción  de  
las  filas  de  la  base  de  datos  son  de  la  forma  (vk,  m,  s)  donde  Verificar  (vk,  m,  
s)  =  1  y  el  i­ésimo  bit  de  vk  es  ¿b?"
Al  llenar  una  base  de  datos  con  mensajes  firmados  de  acuerdo  con  una  única  
clave  vk,  nos  aseguramos  de  que  las  respuestas  a  estas  consultas  sean  
cercanas  a  uno  para  todos  1  ≤  i  ≤  p(κ)  cuando  vki  =  b,  y  cercanas  a  cero  
cuando  vki  =  1  −  segundo

Con  esto  en  mente,  la  distribución  difícil  de  sintetizar  en  las  bases  de  datos  se  
construye  mediante  el  siguiente  procedimiento  de  muestreo:  Genere  un  par  de  
claves  de  verificación  de  firma  (sk,  vk)  ←  Gen(1κ ),  y  elija  mn  uniformemente  entre  
n  =  κ  mensajes  m1, . . . ,   {0,  1}  ( k) .  la  base  de  datos  x
tendrá  n,  filas;  para  j     [n]  la  j­ésima  fila  es  la  clave  de  verificación,  el  j­ésimo  
mensaje  y  su  firma  válida,  es  decir,  la  tupla  (vk,  mj ,  Sign(mj ,  sk)).
A  continuación,  elija  i  uniformemente  de  [n].  Para  generar  el  (n  +  1)  st  elemento  x ,   yo ,

simplemente  genere  un  nuevo  par  mensaje­firma  (usando  la  misma  clave  sk).

Difícil  de  sintetizar  la  distribución  III:  para  probar  la  dureza  en  el  caso  de  un  espacio  
de  mensaje  de  tamaño  polinomial  (en  κ)  (pero  un  conjunto  de  consultas  de  tamaño  
superpolinomio)  usamos  una  función  pseudoaleatoria.  En  términos  generales,  estas  
son  funciones  computables  en  tiempo  polinomial  con  pequeñas  descripciones  que
Machine Translated by Google

9.2.  Algunas  distribuciones  difíciles  de  sintetizar 181

no  se  pueden  distinguir  eficientemente,  basándose  únicamente  en  su  comportamiento  de  
entrada­salida,  de  funciones  verdaderamente  aleatorias  (cuyas  descripciones  son  largas).
Este  resultado  solo  da  dificultad  de  síntesis  si  insistimos  en  mantener  la  utilidad  para  
todas  las  consultas.  De  hecho,  si  solo  estamos  interesados  en  asegurar  una  utilidad  
promedio,  entonces  el  generador  base  para  consultas  de  conteo  descrito  en  la  Sección  6  
produce  un  algoritmo  eficiente  para  sintetizar  cuando  el  universo  X  es  de  tamaño  
polinomial,  incluso  cuando  Q  es  exponencialmente  grande.

Sea  {fs}s {0,1}  κ  una  familia  de  funciones  pseudoaleatorias  de  []  a  [],  donde     
poli(κ).  Más  específicamente,  necesitamos  que  el  conjunto  de  todos  los  pares  de  
elementos  en  []  sea  “pequeño”,  pero  mayor  que  κ;  de  esta  manera,  la  cadena  de  bits  κ  
que  describe  una  función  en  la  familia  es  más  corta  que  los  bits  log2  necesarios  para  
describir  una  función  aleatoria  que  asigna  []  a  [].  Tal  familia  de  funciones  pseudoaleatorias  
se  puede  construir  a  partir  de  cualquier  función  unidireccional.

Nuestro  universo  de  datos  será  el  conjunto  de  todos  los  pares  de  elementos  en  []:
X  =  {(a,  b) :  a,  b     []}.  Qκ  contendrá  dos  tipos  de  consultas:

1.  Habrá  una  consulta  para  cada  función  {fs}s {0,1}  κ en  la  familia

ilía  Un  elemento  del  universo  (a,  b)     X  satisface  la  consulta  s  si  y  solo  si  fs(a)  =  
b.

2.  Habrá  un  número  relativamente  pequeño,  digamos  κ,  consultas  verdaderamente  
aleatorias.  Tal  consulta  se  puede  construir  eligiendo  aleatoriamente,  para  cada  (a,  
b)     X , si  (a,  b)  satisfará  o  no  la  consulta.

La  distribución  difícil  de  sintetizar  se  genera  de  la  siguiente  manera.  Primero,  
seleccionamos  una  cadena  aleatoria  s     {0,  1}  κ ,  especificando  una  función  en  nuestra  
familia.  A  continuación,  generamos,  para  n  =  κ  valores  distintos  a1, . . . ,  un  elegido  al  
azar  de  []  sin  reemplazo,  el  elemento  del  universo  (a,  fs(a)).
La  intuición  es  simple,  se  basa  solo  en  el  primer  tipo  de  consulta  y  no  hace  uso  de  la  
distinción  de  ai .  Dada  una  base  de  datos  x  generada  de  acuerdo  con  nuestra  distribución,  
donde  la  función  pseudoaleatoria  está  dada  por  s,  el  sintetizador  debe  crear  una  base  
de  datos  sintética  (casi)  cuyas  filas  deben  satisfacer  la  consulta  s.  La  intuición  es  que  no  
puede  encontrar  de  forma  fiable  pares  de  entrada­salida  que  no  aparezcan  en  x.

Un  poco  más  precisamente,  para  un  elemento  arbitrario  a     []  tal  que  no
Machine Translated by Google

182 Privacidad  diferencial  y  complejidad  computacional

fila  en  x  es  de  la  forma  (a,  fs(a)),  la  pseudo­aleatoriedad  de  fs  dice  que  un  sintetizador  
eficiente  debería  tener  una  probabilidad  como  mucho  despreciable  de  más  de  1/  de  
encontrar  fs(a).  En  este  sentido,  la  pseudoaleatoriedad  nos  da  propiedades  similares,  
aunque  algo  más  débiles,  a  las  que  obtuvimos  de  las  firmas  digitales.

Por  supuesto,  para  cualquier  a     []  dado,  el  sintetizador  puede  adivinar  con  
probabilidad  1/  el  valor  fs(a),  por  lo  que  sin  el  segundo  tipo  de  consulta,  nada  obvio  
evitaría  que  ignore  x,  elija  una  a  arbitraria  y  generando  una  base  de  datos  de  n  copias  de  
(a,  b),  donde  b  se  elige  uniformemente  al  azar  de  [].  La  intuición  ahora  es  que  tal  base  de  
datos  sintética  daría  la  fracción  incorrecta,  ya  sea  cero  o  uno,  cuando  la  respuesta  
correcta  debería  ser  aproximadamente  1/2 ,  en  las  consultas  verdaderamente  aleatorias.

Formalmente,  tenemos:

Teorema  9.1.  Sea  f :  {0,  1}  κ  →  {0,  1}  κ  una  función  unidireccional.  Para  todo  a  >  0,  y  para  
todo  entero  n  =  poli(κ),  existe  una  familia  de  consulta  Q  de  tamaño  exp(poli(κ)),  un  
universo  de  datos  X  de  tamaño  O(n  y  una  distribución  en  bases  de  datos  de   2+2a ),

tamaño  n  es  decir  (µ,  α,  β,  0,  Q)­difícil  de  sintetizar  (es  decir,  difícil  de  sintetizar  para  
consultas  en  el  peor  de  los  casos)  para  α  ≤  1/3,  β  ≤  1/10  y  µ  =  1/40n
1+a .

El  teorema  anterior  muestra  la  dureza  de  la  desinfección  con  datos  sintéticos.  Tenga  
en  cuenta,  sin  embargo,  que  cuando  el  conjunto  de  consultas  es  pequeño,  siempre  se  
pueden  liberar  recuentos  ruidosos  para  cada  consulta.  Concluimos  que  la  desinfección  
de  clases  de  consulta  pequeñas  (con  grandes  universos  de  datos)  es  una  tarea  que  
separa  la  síntesis  eficiente  de  la  generación  de  sinopsis  eficiente  (desinfección  con  
resultados  arbitrarios).

9.2.1  Resultados  de  dureza  para  sinopsis  generales

Los  resultados  de  dureza  de  la  sección  anterior  se  aplican  solo  a  los  sintetizadores:  
mecanismos  fuera  de  línea  que  crean  bases  de  datos  sintéticas.  Existe  una  estrecha  
conexión  entre  la  dureza  de  formas  más  generales  de  mecanismos  fuera  de  línea  que  
preservan  la  privacidad,  a  los  que  hemos  estado  llamando  mecanismos  de  publicación  de  
consultas  fuera  de  línea  o  generadores  de  sinopsis,  y  la  existencia  de  esquemas  de  
rastreo  de  traidores ,  un  método  de  distribución  de  contenido  en  el  que  la  clave  (breve)
Machine Translated by Google

9.2.  Algunas  distribuciones  difíciles  de  sintetizar 183

las  cadenas  se  distribuyen  a  los  suscriptores  de  tal  manera  que  un  remitente  puede  
transmitir  mensajes  cifrados  que  cualquier  suscriptor  puede  descifrar,  y  cualquier  
decodificador  "pirata"  útil  construido  por  una  coalición  de  suscriptores  maliciosos  
puede  rastrearse  hasta  al  menos  un  colusivo.
Un  esquema  de  rastreo  de  traidores  (clave  privada,  sin  estado)  consta  de  
algoritmos  de  configuración,  cifrado,  descifrado  y  seguimiento.  El  algoritmo  de  
configuración  genera  una  clave  bk  para  el  emisor  y  N  claves  de  suscriptor  k1, . . . ,  kN .
El  algoritmo  Encrypt  cifra  un  bit  determinado  utilizando  la  clave  bk  de  la  emisora.  El  
algoritmo  Decrypt  descifra  un  texto  cifrado  dado  utilizando  cualquiera  de  las  claves  
del  suscriptor.  El  algoritmo  Trace  obtiene  la  clave  bk  y  el  acceso  de  Oracle  a  un  
cuadro  de  descifrado  (pirata,  sin  estado)  y  genera  el  índice  i     {1, . . . ,  N}  de  una  
clave  ki  que  se  usó  para  crear  la  caja  pirata.
Un  parámetro  importante  de  un  esquema  de  rastreo  de  traidores  es  su  resistencia  
a  la  colusión:  un  esquema  es  t­resiliente  si  se  garantiza  que  el  rastreo  funcione  
siempre  que  no  se  usen  más  de  t  claves  para  crear  el  decodificador  pirata.  Cuando  t  
=  N,  el  rastreo  funciona  incluso  si  todos  los  suscriptores  se  unen  para  intentar  crear  
un  decodificador  pirata.  A  continuación  se  presenta  una  definición  más  completa.

Definición  9.3.  Un  esquema  (Configurar,  Cifrar,  Descifrar,  Rastrear)  como  el  anterior  
es  un  esquema  de  rastreo  de  traidores  t­resilient  si  (i)  los  textos  cifrados  que  genera  
son  semánticamente  seguros  (en  términos  generales,  los  algoritmos  de  tiempo  
polinomial  no  pueden  distinguir  los  cifrados  de  0  de  los  cifrados  de  1) ,  y  (ii)  ningún  
adversario  de  tiempo  polinomial  A  puede  "ganar"  en  el  siguiente  juego  con  una  
probabilidad  no  despreciable  (sobre  las  monedas  de  Configuración,  A  y  Traza):
A  recibe  el  número  de  usuarios  N  y  un  parámetro  de  seguridad  κ  y  (de  forma  
adaptativa)  solicita  las  claves  de  hasta  t  usuarios  {i1, . . . ,  eso}.  Luego,  el  adversario  
emite  un  decodificador  pirata  Dec.  El  algoritmo  Trace  se  ejecuta  con  la  tecla  bk  y  el  
acceso  de  caja  negra5  a  Dec;  genera  el  nombre  i     [N]  de  un  usuario  o  el  símbolo  de  
error   .  Decimos  que  un  adversario  A  "gana"  si  Dec  tiene  una  ventaja  no  despreciable  
en  el  descifrado  de  textos  cifrados  (incluso  una  condición  más  débil  que  la  creación  
de  un  dispositivo  de  descifrado  pirata  utilizable),  y  la  salida  de  Trace  no  está  en  
{i1 , . . . ,  it},  lo  que  significa  que  el  adversario  evitó  la  detección.

5El  acceso  de  caja  negra  a  un  algoritmo  significa  que  uno  no  tiene  acceso  a  la
interiores;  uno  solo  puede  alimentar  entradas  al  algoritmo  y  observar  sus  salidas.
Machine Translated by Google

184 Privacidad  diferencial  y  complejidad  computacional

La  intuición  de  por  qué  los  esquemas  de  rastreo  de  traidores  implican  resultados  de  dureza  
para  contar  el  lanzamiento  de  consultas  es  la  siguiente.  Arreglar  un  esquema  de  rastreo  de  traidor.  
Debemos  describir  las  bases  de  datos  y  las  consultas  de  conteo  para  las  cuales  la  liberación  de  
consultas  es  computacionalmente  difícil.
Para  cualquier  n  =  κ  dado,  la  base  de  datos  x     {{0,  1}  d}  n  contendrá  claves  de  usuario  del  
esquema  de  rastreo  de  traidores  de  un  conjunto  en  connivencia  de  n  usuarios;  aquí  d  es  la  longitud  
de  las  claves  de  descifrado  obtenidas  cuando  el  algoritmo  de  instalación.  La  familia  de  consultas  
se  ejecuta  en  la  entrada  k Qκ  tendrá  una  consulta  qc  para  cada
1  posible  texto  cifrado  c  preguntando  "¿Para  qué  fracción  de  las  filas  i     [n]  c  descifra  a  1  debajo  
de  la  clave  en  la  fila  i?"  Tenga  en  cuenta  que,  dado  que  todos  los  usuarios  pueden  descifrar,  si  el  
remitente  distribuye  un  cifrado  c  del  bit  1,  la  respuesta  será  1:  todas  las  filas  se  descifran  c  a  1,  por  
lo  que  la  fracción  de  tales  filas  es  1.  Si  en  cambio  el  remitente  distribuye  un  cifrado  c  del  bit  0,  la  
respuesta  será  0:  dado  que  ninguna  fila  descifra  c  a  1,  la  fracción  de  filas  que  descifran  c  a  1  es  0.  
Por  lo  tanto,  la  respuesta  exacta  a  una  consulta  qc,  donde  c  es  un  cifrado  de  a  1  ­bit  mensajes  b,  
es  b  mismo.

Ahora,  supongamos  que  hubiera  un  mecanismo  eficiente  de  liberación  de  consultas  
diferencialmente  privado  fuera  de  línea  para  consultas  en  Q.  Los  colusionadores  podrían  usar  este  
algoritmo  para  producir  de  manera  eficiente  una  sinopsis  de  la  base  de  datos  que  permita  a  un  
analista  de  datos  calcular  de  manera  eficiente  respuestas  aproximadas  a  las  consultas  qc .  Si  estas  
aproximaciones  no  son  triviales,  entonces  el  analista  puede  usarlas  para  descifrar  correctamente.  
Es  decir,  los  cómplices  podrían  usar  esto  para  formar  una  caja  decodificadora  pirata.  Pero  el  rastreo  
de  traidores  asegura  que,  para  cualquier  casilla  de  este  tipo,  el  algoritmo  Trace  puede  recuperar  la  
clave  de  al  menos  un  usuario,  es  decir,  una  fila  de  la  base  de  datos.  Esto  viola  la  privacidad  
diferencial,  contradiciendo  la  suposición  de  que  existe  un  algoritmo  diferencialmente  privado  
eficiente  para  liberar  Q.

Esta  dirección  se  ha  utilizado  para  descartar  la  existencia  de
desinfectantes  fuera  de  línea  para  una  clase  particular  de  2  O˜( √  n)  consultas  de  conteo;  este
puede  extenderse  para  descartar  la  existencia  de  desinfectantes  en  línea  eficientes  que  respondan  

Θ( clase  (grande).
˜ norte
2  

)  contando  consultas  extraídas  adaptativamente  de  un  segundo

La  intuición  de  por  qué  la  dureza  de  la  publicación  de  consultas  fuera  de  línea  para  contar  
consultas  implica  el  rastreo  de  traidores  es  que  la  falta  de  protección  de  la  privacidad  produce  
inmediatamente  alguna  forma  de  rastreabilidad;  es  decir,  la  dificultad  de  proporcionar  un  objeto  que  
produzca  una  equivalencia  funcional  (aproximada)  para  un  conjunto  de
Machine Translated by Google

9.3.  Adversarios  de  tiempo  polinomial 185

filas  (claves  de  descifrado)  mientras  se  preserva  la  privacidad  de  cada  fila  individual  (clave  
de  descifrado),  es  decir,  la  dificultad  de  producir  un  decodificador  imposible  de  rastrear,  es  
precisamente  lo  que  estamos  buscando  en  un  esquema  de  rastreo  de  traidores.

Con  un  poco  más  de  detalle,  dada  una  distribución  de  base  de  datos  difícil  de  
desinfectar  y  una  familia  de  consultas  de  conteo,  una  base  de  datos  de  n  elementos  aleatoria  
puede  actuar  como  una  "clave  maestra",  donde  el  secreto  utilizado  para  descifrar  mensajes  
es  el  conteo  de  datos  aleatorios.  consultas  en  esta  base  de  datos.  Para  un  subconjunto  S  
elegido  aleatoriamente  de  consultas  polylog(n) ,  un  conjunto  aleatorio  de  filas  polylog(n)  
extraídas  de  la  base  de  datos  (muy  probablemente)  produce  una  buena  aproximación  a  
todas  las  consultas  en  S.  Por  lo  tanto,  las  claves  de  usuario  individuales  se  pueden  obtener  
ejecutando  Particionando  la  base  de  datos  de  forma  automática  en  n/polylog(n)  conjuntos  
de  filas  de  polylog(n)  y  asignando  cada  conjunto  a  un  usuario  diferente.  Estos  conjuntos  son  
lo  suficientemente  grandes  como  para  que,  con  una  probabilidad  abrumadora,  sus  recuentos  
en  una  colección  aleatoria  de,  por  ejemplo,  consultas  polylog(n),  estén  todos  cerca  de  los  
recuentos  de  la  base  de  datos  original.
Para  completar  el  argumento,  se  diseña  un  esquema  de  cifrado  en  el  que  el  descifrado  
equivale  a  calcular  recuentos  aproximados  en  pequeños  conjuntos  de  consultas  aleatorias.  
Dado  que,  por  definición,  una  caja  de  descifrado  pirata  puede  descifrar,  se  puede  usar  una  
caja  pirata  para  calcular  recuentos  aproximados.  Si  vemos  este  cuadro  como  una  
desinfección  de  la  base  de  datos,  concluimos  (porque  la  desinfección  es  difícil)  que  el  

cuadro  de  descifrado  se  puede  "rastrear"  hasta  las  claves  (elementos  de  la  base  de  datos)  
que  se  usaron  para  crearlo.

9.3  Adversarios  de  tiempo  polinomial

Definición  9.4  (Privacidad  diferencial  computacional).  Un  algoritmo  aleatorio  Cκ :  X  →  Y  es  
norte

ε­computacionalmente  privado  diferencialmente  si  y  solo  si  para  todas  las  bases  de  datos  x,  
y  difieren  en  una  sola  fila,  y  para  todos  los  algoritmos  polinómicos  no  uniformes  (en  κ)  T,

Pr[T(Cκ(x))  =  1]  ≤  e  ε  Pr[T(Cκ(y))  =  1]  +  ν(κ),

donde  ν(∙)  es  cualquier  función  que  crece  más  lentamente  que  la  inversa  de  cualquier  
polinomio  y  el  agoritmo  Cκ  se  ejecuta  en  el  polinomio  en  el  tiempo  en  n,  log  |X  |  y  κ.
Machine Translated by Google

186 Privacidad  diferencial  y  complejidad  computacional

Intuitivamente,  esto  dice  que  si  el  adversario  está  restringido  al  tiempo  polinomial,  
entonces  los  mecanismos  computacionalmente  privados  diferencialmente  proporcionan  
el  mismo  grado  de  privacidad  que  los  algoritmos  privados  diferencialmente  (ε,  ν(κ)).  En  
general,  no  hay  esperanza  de  deshacerse  del  término  ν(κ) ;  por  ejemplo,  cuando  se  trata  
de  cifrado,  siempre  hay  alguna  posibilidad  (insignificantemente  pequeña)  de  adivinar  la  
clave  de  descifrado.
Una  vez  que  asumimos  que  el  adversario  está  restringido  al  tiempo  polinomial,  
podemos  usar  las  poderosas  técnicas  de  computación  multipartita  segura  para  proporcionar  
algoritmos  distribuidos  de  liberación  de  consultas  en  línea,  reemplazando  el  servidor  
confiable  con  un  protocolo  distribuido  que  simula  un  curador  confiable.  Así,  por  ejemplo,  
un  conjunto  de  hospitales,  cada  uno  con  los  datos  de  muchos  pacientes,  puede  realizar  
de  forma  colaborativa  análisis  estadísticos  de  la  unión  de  sus  pacientes,  al  tiempo  que  
garantiza  una  privacidad  diferencial  para  cada  paciente.  Una  implicación  más  radical  es  
que  las  personas  pueden  mantener  sus  propios  datos,  participando  o  no  en  cada  consulta  
o  estudio  estadístico  específico,  al  tiempo  que  garantizan  la  privacidad  diferencial  de  sus  
propios  datos.
Ya  hemos  visto  una  solución  distribuida,  al  menos  para  el  problema  de  calcular  una  
suma  de  n  bits:  respuesta  aleatoria.  Esta  solución  no  requiere  supuestos  computacionales  
y  tiene  un  error  esperado  de  Θ(√  n).  Por  el  contrario,  el  uso  de  suposiciones  criptográficas  
permite  análisis  mucho  más  precisos  y  extensos,  ya  que  al  simular  el  curador  puede  
ejecutar  una  implementación  distribuida  del  mecanismo  de  Laplace,  que  tiene  un  error  
esperado  constante.

Esto  lleva  a  la  pregunta  natural  de  si  existe  algún  otro  enfoque,  que  no  se  base  en  
suposiciones  criptográficas,  que  produzca  una  mayor  precisión  en  el  entorno  distribuido  
que  la  respuesta  aleatoria.  O,  de  manera  más  general,  ¿existe  una  separación  entre  lo  
que  se  puede  lograr  con  la  privacidad  diferencial  computacional  y  lo  que  se  puede  lograr  
con  la  privacidad  diferencial  “tradicional”?  Es  decir,  ¿probablemente  la  criptografía  nos  
compra  algo?

En  el  escenario  multipartidista  la  respuesta  es  sí.  Todavía  limitando  nuestra  atención
ción  a  la  suma  de  n  bits,  tenemos:

Teorema  9.2.  Para  ε  <  1,  cada  protocolo  diferencialmente  privado  de  n  partes  (ε,  0)  para  
calcular  la  suma  de  n  bits  (uno  por  parte)  incurre  en  el  error  Ω  (n  1/2 )  con  alta  probabilidad.
Machine Translated by Google

9.4.  notas  bibliograficas 187

Un  teorema  similar  se  cumple  para  (ε,  δ)­privacidad  diferencial  siempre  que  δ  
  o(1/n).

Prueba.  (boceto)  Sea  X1, . . . ,  Xn  ser  bits  independientes  uniformes.  La  
transcripción  T  del  protocolo  es  una  variable  aleatoria  T  =  T(P1(X1), . . . ,  Pn(Xn),  
donde  para  i     [n]  el  protocolo  del  jugador  i  se  denota  Pi .  Condicionado  a  T  =  t,  
los  bits  X1, . . . ,  Xn  siguen  siendo  bits  independientes,  cada  uno  con  sesgo  O(ε).  
Además,  por  privacidad  diferencial,  la  uniformidad  de  los  Xi
, y  la  Ley  de  Bayes  tenemos:

Pr[Xi  =  1|T  =  t] = Pr[T  =  t|Xi  =  1]  ≤  e ε <  1  +  2ε.


Pr[Xi  =  0|T  =  t] Pr[T  =  t|Xi  =  0]

Para  terminar  la  prueba  notamos  que  la  suma  de  n  bits  independientes,  cada  
uno  con  sesgo  constante,  cae  fuera  de  cualquier  intervalo  de  tamaño  o( √  n)  con  
alta  probabilidad.  Así,  con  alta  probabilidad,  la  suma  Xi  no  está  en  el  
i intervalo  
[output(T)  −  o(n  1/2 ),  output(T)  +  o(n  1/2 )].

Una  prueba  más  complicada  muestra  una  separación  entre  la  privacidad  
diferencial  computacional  y  la  privacidad  diferencial  ordinaria,  incluso  para  el  caso  
de  dos  partes.  Es  una  pregunta  abierta  fascinante  si  las  suposiciones  
computacionales  nos  compran  algo  en  el  caso  del  curador  de  confianza.  Los  
resultados  iniciales  son  negativos:  para  un  pequeño  número  de  consultas  de  valor  
real ,  es  decir,  para  un  número  de  consultas  que  no  crece  con  el  parámetro  de  
seguridad,  existe  una  clase  natural  de  medidas  de  utilidad,  incluidas  las  distancias  
Lp  y  los  errores  cuadráticos  medios,  para  los  cuales  cualquier  mecanismo  
computacionalmente  privado  se  puede  convertir  en  un  mecanismo  estadísticamente  
privado  que  es  más  o  menos  igual  de  eficiente  y  logra  casi  la  misma  utilidad.

9.4  Notas  bibliográficas

Los  resultados  negativos  para  curadores  polinómicos  limitados  en  el  tiempo  y  la  
conexión  con  el  rastreo  de  traidores  se  deben  a  Dwork  et  al.  [28].  La  conexión  con  
el  rastreo  de  traidores  fue  investigada  más  a  fondo  por  Ullman  [82],  quien  demostró  
que,  asumiendo  la  existencia  de  funciones  de  1  vía,  es  computar  2+o(1)  consultas  
difíciles  de  responder  en   lineales  arbitrarias  con  diferenciales  cionalmente  
privacidad  (incluso  si  sin  privacidad  las  respuestas  son  fáciles  de  calcular).  En  
“Nuestros  datos,  nosotros  mismos”,  Dwork,  Kenthapadi,  McSherry,  Mironov  y
Machine Translated by Google

188 Privacidad  diferencial  y  complejidad  computacional

Naor  consideró  una  versión  distribuida  del  precursor  de  la  privacidad  diferencial,  
utilizando  técnicas  de  evaluación  de  funciones  seguras  en  lugar  del  curador  de  confianza  
[21].  En  [64]  se  inició  un  estudio  formal  de  la  privacidad  diferencial  computacional ,  y  la  
separación  entre  la  precisión  que  se  puede  lograr  con  la  privacidad  diferencial  (ε,  0)  en  
los  casos  de  múltiples  partes  y  curador  único  en  el  Teorema  9.2  se  debe  a  McGregor  et  
al.  [58].
Los  resultados  iniciales  sobre  si  las  suposiciones  computacionales  sobre  el  adversario  
compran  algo  en  el  caso  de  un  curador  de  confianza  se  deben  a  Groce  et  al.  [37].

La  construcción  de  funciones  pseudoaleatorias  a  partir  de  cualquier  función  
unidireccional  se  debe  a  Håstad  et  al.  [40].
Machine Translated by Google

10
Privacidad  diferencial  y  diseño  de  mecanismos

Una  de  las  áreas  más  fascinantes  de  la  teoría  de  juegos  es  el  diseño  de  mecanismos,  
que  es  la  ciencia  de  diseñar  incentivos  para  que  las  personas  hagan  lo  que  usted  
quiere  que  hagan.  La  privacidad  diferencial  ha  demostrado  tener  conexiones  
interesantes  con  el  diseño  de  mecanismos  en  un  par  de  formas  inesperadas.  
Proporciona  una  herramienta  para  cuantificar  y  controlar  la  pérdida  de  privacidad,  lo  
cual  es  importante  si  las  personas  a  las  que  el  diseñador  del  mecanismo  intenta  
manipular  se  preocupan  por  la  privacidad.  Sin  embargo,  también  proporciona  una  
forma  de  limitar  la  sensibilidad  del  resultado  de  un  mecanismo  a  las  elecciones  de  
una  sola  persona,  lo  que  resulta  ser  una  herramienta  poderosa  incluso  en  ausencia  
de  preocupaciones  por  la  privacidad.  En  esta  sección,  damos  una  breve  reseña  de  algunas  de  estas  ideas.
El  diseño  de  mecanismos  es  el  problema  del  diseño  de  algoritmos  cuando  las  
entradas  al  algoritmo  están  controladas  por  agentes  individuales  e  interesados,  en  
lugar  del  propio  diseñador  del  algoritmo.  El  algoritmo  asigna  sus  entradas  informadas  
a  algún  resultado,  sobre  el  cual  los  agentes  tienen  preferencias.  La  dificultad  es  que  
los  agentes  pueden  informar  incorrectamente  sus  datos  si  hacerlo  hace  que  el  
algoritmo  genere  un  resultado  preferido  diferente,  por  lo  que  el  diseñador  del  
mecanismo  debe  diseñar  el  algoritmo  para  que  los  agentes  siempre  tengan  incentivos  
para  informar  sus  datos  verdaderos.

189
Machine Translated by Google

190 Privacidad  diferencial  y  diseño  de  mecanismos

Las  preocupaciones  del  diseño  de  mecanismos  son  muy  similares  a  las  
preocupaciones  del  diseño  de  algoritmos  privados.  En  ambos  casos,  se  considera  
que  las  entradas  del  algoritmo  pertenecen  a  un  tercero1  que  tiene  preferencias  sobre  
el  resultado.  En  el  diseño  de  mecanismos,  normalmente  pensamos  que  los  
individuos  obtienen  algún  valor  explícito  de  los  resultados  del  mecanismo.  En  el  
diseño  de  algoritmos  privados,  generalmente  pensamos  que  el  individuo  experimenta  
algún  daño  explícito  por  (las  consecuencias  de)  los  resultados  del  mecanismo.  De  
hecho,  podemos  dar  una  definición  teórica  de  utilidad  de  la  privacidad  diferencial  
que  es  equivalente  a  la  definición  estándar,  pero  hace  explícita  la  conexión  con  las  
utilidades  individuales:

Definición  10.1.  Un  algoritmo  A :  N  |X|  →  R  es  ­diferencialmente  privado  si  para  cada  
función  f :  R  →  R+,  y  para  cada  par  de  bases  de  datos  vecinas  x,  y     N  |X|:

exp(−)Ez A(y)  [f(z)]  ≤  Ez A(x)  [f(z)]  ≤  exp()Ez A(y)  [f(z)].

Podemos  pensar  en  f  como  una  función  que  asigna  resultados  a  la  utilidad  de  
un  agente  arbitrario  para  esos  resultados.  Con  esta  interpretación,  un  mecanismo  
es  diferencialmente  privado,  si  para  cada  agente  promete  que  su  participación  en  el  
mecanismo  no  puede  afectar  su  utilidad  futura  esperada  por  más  de  un  factor  de  
exp()  independientemente  de  cuál  sea  su  función  de  utilidad.

Demos  ahora  una  breve  definición  de  un  problema  en  el  diseño  de  mecanismos.
Un  problema  de  diseño  de  mecanismo  está  definido  por  varios  objetos.  Hay  n  
agentes  i     [n],  y  un  conjunto  de  resultados  O.  Cada  agente  tiene  un  tipo,  ti     T  que  
solo  él  conoce,  y  existe  una  función  de  utilidad  sobre  los  resultados  u :  T  ×O  →  [0,  
1].  La  utilidad  que  obtiene  el  agente  i  de  un  resultado  o     O  es  u(ti ,  o),  que  a  
menudo  abreviaremos  como  ui(o).  Escribiremos  t     T  n  para  denotar  vectores  de  
todos  los  n  tipos  de  agentes,  con  ti  denotando  el  tipo  de  agente  i,  y  t−i  ≡  (t1, . . . ,  
ti−1,  ti+1, . . . ,  tn )  que  denota  el  vector  de  tipos  de  todos  los  agentes  excepto  el  
agente  i.  El  tipo  de  un  agente  i  especifica  completamente  su  utilidad  sobre  los  
resultados,  es  decir,  dos  agentes  i  =  j  tales  que  ti  =  tj  evaluarán  cada  resultado  de  
manera  idéntica:  ui(o)  =  uj  (o)  para  todo  o     O.
1
En  la  configuración  de  privacidad,  el  administrador  de  la  base  de  datos  (como  un  hospital)  
puede  que  ya  tenga  acceso  a  los  datos  en  sí,  pero,  sin  embargo,  actúa  para  proteger  los  
intereses  de  los  agentes  que  poseen  los  datos  cuando  se  esfuerza  por  proteger  la  privacidad.
Machine Translated by Google

10.1.  La  privacidad  diferencial  como  concepto  de  solución 191

Un  mecanismo  M  toma  como  entrada  un  conjunto  de  tipos  informados,  uno  de  cada  jugador,  y  
selecciona  un  resultado.  Es  decir,  un  mecanismo  es  un  mapeo  M :  T  n  →  O.  Los  agentes  
elegirán  informar  sus  tipos  estratégicamente  para  optimizar  su  utilidad,  posiblemente  teniendo  

en  cuenta  lo  que  (creen)  que  harán  los  demás  agentes.  En  particular,  no  necesitan  informar  
sus  verdaderos  tipos  al  mecanismo.  Si  un  agente  siempre  tiene  incentivos  para  informar  algún  
tipo,  sin  importar  lo  que  informen  sus  oponentes,  informar  ese  tipo  se  denomina  estrategia  
dominante.  Si  informar  sobre  el  verdadero  tipo  de  uno  es  una  estrategia  dominante  para  cada  
agente,  entonces  el  mecanismo  se  llama  veraz  o,  de  manera  equivalente,  estrategia  dominante  
veraz.

Definición  10.2.  Dado  un  mecanismo  M :  T  n  →  O,  la  información  veraz  es  una  estrategia  
dominante  aproximada  para  el  jugador  i  si  para  cada  par  de  tipos  ti
, yo   T,  y  para  todo  vector  de  tipos  t−i :

u(ti ,  METRO(ti ,  t−i))  ≥  u(ti ,  METRO(t  
yo ,  t−i))  − .

Si  la  información  veraz  es  una  estrategia  dominante  aproximada  para  cada  jugador,  decimos  
que  M  es  una  estrategia  dominante  aproximada  veraz.
Si  =  0,  entonces  M  es  exactamente  veraz.

Es  decir,  un  mecanismo  es  veraz  si  ningún  agente  puede  mejorar  su  utilidad  tergiversando  
su  tipo,  sin  importar  lo  que  informen  los  otros  jugadores.
Aquí  podemos  observar  inmediatamente  una  conexión  sintáctica  con  la  definición  de  
privacidad  diferencial.  Podemos  identificar  el  espacio  tipo  T  con  el  universo  de  datos  X.  La  
entrada  al  mecanismo  por  lo  tanto  consiste  en  una  base  de  datos  de  tamaño  n,  compuesta  
por  los  informes  de  cada  agente.
De  hecho,  cuando  un  agente  está  considerando  si  debe  reportar  con  veracidad  su  tipo  ti  o  
mentir,  y  reportar  erróneamente  su  tipo  como  t ,  está  decidiendo  cuál  de  yo ,
las  dos  bases  de  
datos  debe  recibir  el  mecanismo:  (t1, . . . ,  tn),  o  (t1 , . . . ,  ti−1,  ti ,  ti+1, . . . ,  tn) .  Tenga  en  
cuenta  que  estas  dos  bases  de  datos  difieren  solo  en  el  informe  del  agente  i!  Es  decir,  son  
bases  de  datos  vecinas.  ¡Así,  la  privacidad  diferencial  da  una  garantía  de  veracidad  aproximada!

10.1  La  privacidad  diferencial  como  concepto  de  solución

Uno  de  los  puntos  de  partida  para  investigar  la  conexión  entre  la  privacidad  diferencial  y  la  
teoría  de  juegos  es  observar  que  la  privacidad  diferencial
Machine Translated by Google

192 Privacidad  diferencial  y  diseño  de  mecanismos

es  una  condición  más  fuerte  que  la  veracidad  aproximada.  Tenga  en  cuenta  que  
para  ≤  1,  exp()  ≤  1  +  2,  por  lo  que  la  siguiente  proposición  es  inmediata.

Proposición  10.1.  Si  un  mecanismo  M  es  ­diferencialmente  privado,  entonces  M  
también  es  2­aproximadamente  una  estrategia  dominante  veraz.

Como  concepto  de  solución,  tiene  varias  propiedades  de  robustez  que  los  
mecanismos  de  prueba  de  estrategia  no  tienen.  Por  la  propiedad  de  composición  
de  la  privacidad  diferencial,  la  composición  de  2  ­mecanismos  diferencialmente  
privados  sigue  siendo  veraz­  estrategia  4­aproximadamente  dominante.  Por  el  
contrario,  las  propiedades  de  incentivo  de  los  mecanismos  generales  de  prueba  de  
estrategia  pueden  no  conservarse  bajo  composición.
Otra  propiedad  útil  de  la  privacidad  diferencial  como  concepto  de  solución  es  
que  se  generaliza  a  la  privacidad  grupal:  supongamos  que  t  y  t     T  n  no  son  
vecinos,  sino  que  difieren  en  k  índices.  Recuerde  que  por  privacidad  de  grupo  
tenemos  para  cualquier  jugador  i:  Eo M(t)  [ui(o)]  ≤  exp(k)Eo M(t )  [ui(o)].  Es  decir,  
los  cambios  en  hasta  k  tipos  cambian  la  salida  esperada  como  máximo  ≈  (1+k),  
cuando  k  1/.  Por  lo  tanto,  los  mecanismos  de  privacidad  diferencial  hacen  que  la  
información  veraz  sea  una  estrategia  dominante  aproximada  de  2k,  incluso  para  
coaliciones  de  agentes  k ,  es  decir,  la  privacidad  diferencial  proporciona  
automáticamente  solidez  a  la  colusión.  Una  vez  más,  esto  contrasta  con  los  
mecanismos  veraces  de  la  estrategia  dominante  general,  que  en  general  no  ofrecen  
garantías  contra  la  colusión.
En  particular,  la  privacidad  diferencial  permite  estas  propiedades  en  entornos  
muy  generales  sin  el  uso  de  dinero.  En  cambio,  el  conjunto  de  mecanismos  veraces  
de  la  estrategia  exactamente  dominante  cuando  no  se  permiten  las  transferencias  
monetarias  es  extremadamente  limitado.
Concluimos  con  una  desventaja  de  usar  la  privacidad  diferencial  como  un  
concepto  de  solución  como  se  indicó:  ¡no  solo  informar  verazmente  el  propio  tipo  es  
una  estrategia  dominante  aproximada,  sino  que  cualquier  informe  es  una  estrategia  
dominante  aproximada!  Es  decir,  la  privacidad  diferencial  hace  que  el  resultado  
sea  aproximadamente  independiente  del  informe  de  cualquier  agente  individual.  En  
algunos  entornos,  esta  deficiencia  se  puede  paliar.  Por  ejemplo,  suponga  que  M  
es  un  mecanismo  diferencialmente  privado,  pero  que  las  funciones  de  utilidad  del  
agente  se  definen  como  funciones  tanto  del  resultado  del  mecanismo  como  del  tipo  
informado  t  O  =  O  i del  agente:  formalmente,  vemos  el  espacio  de  resultado  como  
×  T.  Cuando  el  agente  informa  el  tipo  t i el  mecanismo,  y
Machine Translated by Google

10.2.  La  privacidad  diferencial  como  herramienta  en  el  diseño  de  mecanismos 193

el  mecanismo  selecciona  el  resultado  o     O,  entonces  la  utilidad  experimentada  por  el  
agente  está  controlada  por  el  resultado  o  =  (o,  t  función  de   i ).  Ahora  considere  el
utilidad  subyacente  u :  T  ×  O  →  [0,  1].  Supongamos  que  tenemos  que  fijando  una  selección  
o  de  el  mecanismo,  la  información  veraz  es  una  estrategia  dominante,  es  decir,  para  todos  
los  tipos  de  ti  y  para  todos  los  resultados  o   ,  O :
yo ,

u(ti ,(o,  ti))  ≥  u(ti ,(o,  t i )).

Entonces  queda  el  hecho  de  que  informar  verazmente  a  un  ­diferencialmente  →  O  sigue  
dominante  aproximado  2 ,  porque   siendo  una  estrategia  M :  T  de  mecanismo  privado  
norte

para  cualquier  informe  erróneo  t  que  el  jugador  piodría  considerar,  tenemos:

u(ti ,(M(t),  ti))  =  Eo M(t)  [u(ti ,(o,  ti))]  ≥  (1  +  

2)Eo M(t i
,t−i)  [u(ti ,(o,  ti))]

≥  Eo M(t  =  i ,t−i)  [u(ti ,(o,  t i ))]

u(ti ,(M(t  yo ,  t−i),  t i )).

Sin  embargo,  ya  no  tenemos  que  cada  informe  sea  una  estrategia  dominante  
aproximada,  porque  la  utilidad  del  jugador  i  puede  depender  arbitrariamente  de  o  =  (o,  t  
privado.   i ),  y  solo  o  (y  no  el  informe  del  jugador  i  t i mismo)  es  diferencialmente
Este  será  el  caso  en  todos  los  ejemplos  que  consideramos  aquí.

10.2  La  privacidad  diferencial  como  herramienta  en  el  diseño  de  mecanismos

En  esta  sección,  mostramos  cómo  la  maquinaria  de  la  privacidad  diferencial  puede  utilizarse  
como  herramienta  para  diseñar  mecanismos  novedosos.

10.2.1  Preparación:  subastas  de  bienes  digitales

Para  calentar,  consideremos  un  caso  especial  simple  de  la  primera  aplicación  de  privacidad  
diferencial  en  el  diseño  de  mecanismos.  Considere  una  subasta  de  bienes  digitales,  es  decir,  
una  en  la  que  el  vendedor  tiene  un  suministro  ilimitado  de  un  bien  con  un  costo  marginal  de  
producción  cero,  por  ejemplo,  una  pieza  de  software  u  otro  medio  digital.  Hay  n  compradores  
de  demanda  unitaria  para  este  bien,  cada  uno  con  una  valoración  desconocida  vi     [0,  1].  
Informalmente,  la  valoración  vi  de  un  postor  i  representa  la  cantidad  máxima  de  dinero  que  
el  comprador  i
Machine Translated by Google

194 Privacidad  diferencial  y  diseño  de  mecanismos

estaría  dispuesto  a  pagar  por  un  bien.  No  existe  una  distribución  previa  sobre  las  
valoraciones  de  los  postores,  por  lo  que  una  referencia  natural  de  ingresos  es  el  
ingreso  del  mejor  precio  fijado.  A  un  precio  p     [0,  1],  cada  postor  i  con  vi  ≥  p  
comprará.  Por  lo  tanto,  los  ingresos  totales  del  subastador  son

Rev(p,  v)  =  p  ∙  |{i :  vi  ≥  p}|.

El  ingreso  óptimo  es  el  ingreso  del  mejor  precio  fijo:  OPT  =  maxp  Rev(p,  v).  Esta  
configuración  está  bien  estudiada:  el  resultado  más  conocido  para  mecanismos  
veraces  de  estrategia  exactamente  dominante  es  un  mecanismo  que  logra  ingresos  
al  menos  OPT  ­  O  ( √  n).
Mostramos  cómo  una  simple  aplicación  del  mecanismo  exponencial  logra  
ingresos  al  menos  OPT  −  O  log  n .  Es  decir,  el  mecanismo  cambia  exacto  por  
veracidad  aproximada,  pero  logra  una  garantía  de  ingresos  exponencialmente  
mejor.  Por  supuesto,  también  hereda  los  beneficios  de  la  privacidad  diferencial  
discutidos  anteriormente,  como  la  resiliencia  a  la  colusión  y  la  componibilidad.

La  idea  es  seleccionar  un  precio  del  mecanismo  exponencial,  usando  como  
nuestro  “índice  de  calidad”  los  ingresos  que  obtendría  ese  precio.
Supongamos  que  elegimos  que  el  rango  del  mecanismo  exponencial  sea  R  =  {α,  
2α, . . . ,  1}.  El  tamaño  del  rango  es  |R|  =  1/α.  ¿Qué  hemos  perdido  en  ingresos  
potenciales  si  nos  limitamos  a  seleccionar  un  precio  de  R?  No  es  dificil  ver  eso

OPTR  ≡  max  Rev(p,  v)  ≥  OPT  −  αn.  p R

Esto  se  debe  a  que  si   es  el  precio  que  logra  el  ingreso  óptimo,  y  cada  comprador  
p  usamos  un  precio  p  tal  que  p  al   ­  α  ≤  pags  ≤  pags que  compró
precio  óptimo  continúa  comprando  y  nos  proporciona  como  máximo  α  menos  
ingresos  por  comprador.  Dado  que  hay  como  máximo  n  compradores,  la  pérdida  
total  de  ingresos  es  como  máximo  αn.
Entonces,  ¿cómo  parametrizamos  el  mecanismo  exponencial?  Tenemos  una  
familia  de  rangos  discretos  R,  parametrizados  por  α.  Para  un  vector  de  valores  v  y  
un  precio  p     R,  definimos  nuestra  función  de  calidad  como  q(v,  p)  =  Rev(v,  p).  
Observe  que  debido  a  que  cada  valor  vi     [0,  1],  podemos  restringir  la  atención  a  
los  precios  p  ≤  1  y,  por  lo  tanto,  la  sensibilidad  de  q  es  ∆  =  1:  cambiar  la  valoración  
de  un  postor  solo  puede  cambiar  los  ingresos  a  un  precio  fijo.
Machine Translated by Google

10.2.  La  privacidad  diferencial  como  herramienta  en  el  diseño  de  mecanismos 195

precio  por  a  lo  sumo  vi  ≤  1.  Por  lo  tanto,  si  requerimos  ­privacidad  diferencial,  por  el  
Teorema  3.11,  obtenemos  que  con  alta  probabilidad,  el  mecanismo  exponencial  
devuelve  algún  precio  p  tal  que
1
Rev(p,  v)  ≥  (OPT  −  αn)  −  O 1  en .
α

Eligiendo  nuestro  parámetro  de  discretización  α  para  minimizar  las  dos  fuentes  de  
error,  encontramos  que  este  mecanismo  con  alta  probabilidad  nos  encuentra  un  
precio  que  logra  ingresos
iniciar  sesión

Rev(p,  v)  ≥  OPT  −  O .

¿Cuál  es  el  nivel  correcto  a  elegir  para  el  parámetro  de  privacidad?  Tenga  en  
cuenta  que  aquí  no  vemos  necesariamente  la  privacidad  en  sí  misma  como  un  
objetivo  de  nuestro  cálculo.  Más  bien,  es  una  forma  de  negociar  la  garantía  de  
ingresos  con  un  límite  superior  en  los  incentivos  del  agente  para  desviarse.  En  la  
literatura  sobre  grandes  mercados  en  economía,  un  objetivo  común  cuando  la  
veracidad  exacta  está  fuera  de  alcance  es  la  “veracidad  asintótica”,  es  decir,  el  
incentivo  máximo  que  cualquier  agente  tiene  para  desviarse  de  su  informe  veraz  
tiende  a  0  según  el  tamaño  del  mercado.  n  crece  grande.  Para  lograr  un  resultado  
como  ese  aquí,  todo  lo  que  necesitamos  hacer  es  establecer  una  función  decreciente  
en  el  número  de  agentes  n.  Por  ejemplo,  si  tomamos  =  1/  log(n),  entonces  
obtenemos  un  mecanismo  que  es  asintóticamente  exactamente  veraz  (es  decir,  a  
medida  que  el  mercado  crece,  la  aproximación  a  la  veracidad  se  vuelve  exacta).
También  podemos  preguntar  cuál  es  nuestra  aproximación  al  ingreso  óptimo  a  
medida  que  n  crece.  Tenga  en  cuenta  que  nuestra  aproximación  a  los  ingresos  
,
óptimos  solo  es  aditiva,  por  lo  que  incluso  con  esta  configuración  
de  podemos  
garantizar  ingresos  de  al  menos  (1  −  o(1) )OPT,  siempre  que  OPT  crezca  más  
2
con  el  tamaño  de  la  población  n.
rápido  que  log(n)
Finalmente,  observe  que  podríamos  hacer  que  el  valor  informado  vi  de  cada  
agente  i  sea  vinculante.  En  otras  palabras,  podríamos  asignar  un  artículo  al  agente  
i  y  extraer  el  pago  del  precio  publicado  seleccionado  p  siempre  que  vi  ≥  p.  Si  
hacemos  esto,  el  mecanismo  es  aproximadamente  veraz,  porque  el  precio  se  elige  
mediante  un  mecanismo  diferencialmente  privado.  Además,  no  es  el  caso  que  cada  
informe  sea  una  estrategia  dominante  aproximada:  si  un  agente  informa  en  exceso,  
puede  verse  obligado  a  comprar  el  bien  a  un  precio  superior  a  su  valor  real.
Machine Translated by Google

196 Privacidad  diferencial  y  diseño  de  mecanismos

10.2.2  Mecanismos  de  selección  de  equilibrio  aproximadamente  veraces

Consideremos  ahora  el  problema  de  la  selección  de  equilibrio  aproximadamente  veraz.  
Recordemos  la  definición  de  Equilibrio  de  Nash:  Supongamos  que  cada  jugador  tiene  un  
conjunto  de  acciones  A,  y  puede  elegir  jugar  cualquier  acción  ai     A.
Supongamos,  además,  que  los  resultados  son  meras  elecciones  de  acciones  que  los  
agentes  pueden  elegir  realizar,  y  por  tanto  las  funciones  de  utilidad  de  los  agentes  se  
definen  como  u :  T  ×  An  →  [0,  1].  Entonces:

Definición  10.3.  Un  conjunto  de  acciones  a     An  es  un  equilibrio  de  Nash  ­aproximado  
si  para  todos  los  jugadores  i  y  para  todas  las  acciones  a yo
:  

ui(a)  ≥  ui(a  yo ,  a−i)  −

En  otras  palabras,  cada  agente  está  jugando  simultáneamente  una  mejor  respuesta  
(aproximada)  a  lo  que  están  haciendo  los  otros  agentes,  asumiendo  que  están  jugando  
de  acuerdo  con  a.

En  términos  generales,  el  problema  es  el  siguiente:  supongamos  que  nos  dan  un  
juego  en  el  que  cada  jugador  conoce  sus  propios  pagos,  pero  no  los  pagos  de  los  demás  
(es  decir,  los  jugadores  no  saben  cuáles  son  los  tipos  de  los  otros  agentes).  Por  lo  tanto,  
los  jugadores  no  conocen  la  estructura  de  equilibrio  de  este  juego.  Incluso  si  lo  hicieran,  
podría  haber  múltiples  equilibrios,  con  diferentes  agentes  prefiriendo  diferentes  equilibrios.  
¿Puede  un  mecanismo  ofrecido  por  un  intermediario  incentivar  a  los  agentes  a  reportar  
verazmente  sus  utilidades  y  seguir  el  equilibrio  que  selecciona?

Por  ejemplo,  imagine  una  ciudad  en  la  que  (digamos)  Google  Navigation  es  el  
servicio  dominante.  Cada  mañana,  cada  persona  ingresa  su  punto  de  partida  y  destino,  
recibe  un  conjunto  de  direcciones  y  elige  su  ruta  de  acuerdo  con  esas  direcciones.  ¿Es  
posible  diseñar  un  servicio  de  navegación  tal  que:  Cada  agente  tenga  incentivos  para  
(1)  informar  con  veracidad  y  (2)  luego  seguir  las  instrucciones  de  manejo  provistas?  
Tanto  la  información  errónea  de  los  puntos  de  inicio  y  final,  como  la  información  veraz  de  
los  puntos  de  inicio  y  final,  pero  luego  seguir  un  camino  diferente  (más  corto)  deben  ser  
desincentivados.

Intuitivamente,  nuestros  dos  deseos  están  en  conflicto.  En  el  ejemplo  de  
desplazamiento  anterior,  si  queremos  garantizar  que  todos  los  jugadores  tengan  
incentivos  para  seguir  fielmente  la  ruta  sugerida,  entonces  debemos  calcular  un
Machine Translated by Google

10.2.  La  privacidad  diferencial  como  herramienta  en  el  diseño  de  mecanismos 197

equilibrio  del  juego  en  cuestión  dados  los  informes  de  los  jugadores.  Por  otro  lado,  para  hacerlo,  
nuestra  ruta  sugerida  a  algún  jugador  debe  depender  de  los  pares  de  ubicación/destino  informados  
de  otros  jugadores.  Esta  tensión  planteará  un  problema  en  términos  de  incentivos:  si  calculamos  un  
equilibrio  del  juego  dados  los  informes  de  los  jugadores,  un  agente  puede  beneficiarse  potencialmente  
al  informar  erróneamente,  lo  que  hace  que  calculemos  un  equilibrio  del  juego.

juego  equivocado
Sin  embargo,  este  problema  se  aliviaría  en  gran  medida  si  el  informe  del  agente  i  solo  tuviera  
un  pequeño  efecto  sobre  las  acciones  de  los  agentes  j  =  i.  En  este  caso,  el  agente  i  difícilmente  
podría  obtener  una  ventaja  a  través  de  su  efecto  sobre  otros  jugadores.  Luego,  suponiendo  que  
todos  informaron  verazmente  su  tipo,  el  mecanismo  calcularía  un  equilibrio  del  juego  correcto  y,  por  
definición,  cada  agente  i  no  podría  hacer  nada  mejor  que  seguir  la  acción  de  equilibrio  sugerida.  En  
otras  palabras,  si  pudiéramos  calcular  un  equilibrio  aproximado  del  juego  bajo  la  restricción  de  la  
privacidad  diferencial,  entonces  la  información  veraz,  seguida  de  la  acción  sugerida  del  dispositivo  
de  coordinación  sería  un  equilibrio  de  Nash.  Un  momento  de  reflexión  revela  que  el  objetivo  de  
calcular  de  forma  privada  un  equilibrio  no  es  posible  en  los  juegos  pequeños,  en  los  que  la  utilidad  
de  un  agente  es  una  función  muy  sensible  de  las  acciones  (y,  por  tanto,  de  las  funciones  de  utilidad)  
de  los  otros  agentes.  Pero,  ¿qué  pasa  en  los  juegos  grandes?

Formalmente,  supongamos  que  tenemos  un  juego  de  n  jugadores  con  un  conjunto  de  acciones  
A,  y  cada  agente  con  tipo  ti  tiene  una  función  de  utilidad  ui :  An  →  [0,  1].  Decimos  que  este  juego  es  
∆­grande  si  para  todos  los  jugadores  i  =  j,  vectores  de  acciones  a     An     A:
, y  pares  de  acciones  aj , una  j

ui(aj ,  a−j )  −  ui(a  j ,  a−j )  ≤  ∆.

En  otras  palabras,  si  algún  agente  j  cambia  unilateralmente  su  acción,  entonces  su  efecto  sobre  el  
pago  de  cualquier  otro  agente  i  =  j  es  como  máximo  ∆.  Tenga  en  cuenta  que  si  el  agente  j  cambia  su  
propia  acción,  entonces  su  pago  puede  cambiar  arbitrariamente.
Muchos  juegos  son  “grandes”  en  este  sentido.  En  el  ejemplo  de  viaje  anterior,  si  Alice  cambia  su  ruta  
al  trabajo,  puede  aumentar  o  disminuir  sustancialmente  su  tiempo  de  viaje,  pero  solo  tendrá  un  
impacto  mínimo  en  el  tiempo  de  viaje  de  cualquier  otro  agente  Bob.  Los  resultados  en  esta  sección  
son  más  fuertes  para  ∆  =  O(1/n),  pero  se  mantienen  de  manera  más  general.
Machine Translated by Google

198 Privacidad  diferencial  y  diseño  de  mecanismos

Primero,  podríamos  preguntarnos  si  necesitamos  privacidad  en  absoluto:  
¿podría  ser  el  caso  de  que  en  un  juego  grande,  cualquier  algoritmo  que  calcule  
el  equilibrio  de  un  juego  definido  por  los  tipos  informados  tenga  la  propiedad  de  
estabilidad  que  queremos?  La  respuesta  es  no.  Como  ejemplo  simple,  considere  
n  personas  que  deben  elegir  cada  una  si  ir  a  la  playa  (B)  oa  la  montaña  (M).
Las  personas  conocen  en  privado  sus  tipos:  la  utilidad  de  cada  persona  
depende  de  su  propio  tipo,  su  acción  y  la  fracción  de  otras  personas  p  que  van  
a  la  playa.  Un  tipo  Playa  obtiene  un  pago  de  10p  si  visita  la  playa  y  5(1  −  p)  si  
visita  la  montaña.  Un  tipo  de  montaña  obtiene  un  pago  de  5p  por  visitar  la  playa  
y  10(1−p)  por  visitar  la  montaña.  Tenga  en  cuenta  que  este  es  un  juego  grande  
(es  decir,  de  baja  sensibilidad):  los  pagos  de  cada  jugador  son  insensibles  a  las  
acciones  de  los  demás.  Además,  tenga  en  cuenta  que  "todos  visitan  la  playa"  y  
"todos  visitan  la  montaña"  son  equilibrios  del  juego,  independientemente  de  la  
realización  de  los  tipos.  Considere  el  mecanismo  que  intenta  implementar  la  
siguiente  regla  de  elección  social:  "si  el  número  de  tipos  de  playa  es  inferior  a  
la  mitad  de  la  población,  envíe  a  todos  a  la  playa  y  viceversa".  Debe  quedar  
claro  que  si  los  tipos  de  montaña  son  solo  una  mayoría,  entonces  cada  tipo  de  
montaña  tiene  un  incentivo  para  informar  erróneamente  como  un  tipo  de  playa;  
y  viceversa.  Como  resultado,  a  pesar  de  que  el  juego  es  "grande"  y  las  acciones  
de  los  agentes  no  afectan  significativamente  los  pagos  de  los  demás,  el  simple  
cálculo  de  los  equilibrios  a  partir  de  los  perfiles  de  tipos  informados  en  general  
no  conduce  a  mecanismos  ni  siquiera  aproximadamente  veraces.
Sin  embargo,  resulta  posible  dar  un  mecanismo  con  la  siguiente  propiedad:  
obtiene  el  tipo  ti  de  cada  agente,  y  luego  calcula  un  equilibrio  correlacionado  
aproximado  α  del  juego  definido  por  los  tipos  reportados.2  (En  algunos  casos ,  
es  posible  fortalecer  este  resultado  para  calcular  un  equilibrio  de  Nash  
aproximado  del  juego  subyacente).  Dibuja  un  perfil  de  acción  a     An  del  
equilibrio  correlacionado  e  informa  la  acción  ai  a  cada  agente  i.  El  algoritmo  
tiene  la  garantía  de  que  simultáneamente  para  todos  los  jugadores  i,  la  
distribución  conjunta  a−i  en  los  informes  a  todos  los  jugadores  distintos  de  i  es  
diferencialmente  privada  en

2Un  equilibrio  correlacionado  se  define  por  una  distribución  conjunta  de  perfiles  de  acciones,  
A  n .  Para  un  perfil  de  acción  a  extraído  de  la  distribución,  si  al  agente  i  solo  se  le  dice  ai,  
entonces  ejecutar  la  acción  ai  es  la  mejor  respuesta  dada  la  distribución  condicional  inducida  
sobre  a−i.  Un  equilibrio  correlacionado  aproximado  de  α  es  aquel  en  el  que  la  desviación  mejora  
la  utilidad  de  un  agente  en  un  máximo  de  α.
Machine Translated by Google

10.2.  La  privacidad  diferencial  como  herramienta  en  el  diseño  de  mecanismos 199

el  tipo  informado  de  agente  i.  Cuando  el  algoritmo  calcula  un  equilibrio  
correlacionado  del  juego  subyacente,  esta  garantía  es  suficiente  para  una  forma  
restringida  de  veracidad  aproximada:  agentes  que  tienen  la  opción  de  participar  
o  no  participar  en  el  mecanismo  (pero  no  informar  erróneamente  su  tipo  si  opt­in)  
no  tienen  ningún  desincentivo  para  optar  por  no  participar,  porque  ningún  agente  
i  puede  cambiar  sustancialmente  la  distribución  de  las  acciones  inducidas  en  los  
otros  jugadores  al  optar  por  no  participar.  Además,  dado  que  opta  por  participar,  
ningún  agente  tiene  incentivos  para  no  seguir  su  acción  sugerida,  ya  que  su  
sugerencia  es  parte  de  un  equilibrio  correlacionado.  Cuando  el  mecanismo  
calcula  un  equilibrio  de  Nash  del  juego  subyacente,  el  mecanismo  se  vuelve  
veraz  incluso  cuando  los  agentes  tienen  la  capacidad  de  informar  erróneamente  
su  tipo  al  mecanismo  cuando  optan  por  participar.
Más  específicamente,  cuando  estos  mecanismos  calculan  un  equilibrio  de  
Nash  aproximado  α  mientras  satisfacen  la  privacidad  diferencial,  cada  agente  
que  sigue  el  comportamiento  honesto  (es  decir,  primero  acepta  e  informa  su  
verdadero  tipo,  luego  sigue  la  acción  sugerida)  forma  un  (2  +  α)  ­  equilibrio  de  
Nash  aproximado.  Esto  se  debe  a  que,  por  privacidad,  informar  su  verdadero  
tipo  es  una  estrategia  dominante  aproximada  de  2,  y  dado  que  todos  informan  
su  verdadero  tipo,  el  mecanismo  calcula  un  equilibrio  aproximado  α  del  juego  
verdadero  y,  por  lo  tanto,  por  definición,  siguiendo  el  la  acción  sugerida  es  una  
mejor  respuesta  aproximada  α.  Existen  mecanismos  para  calcular  y  aproximar  el  
equilibrio  α  en  juegos  grandes  con  α  =  O .  Por  lo  tanto,  al  establecer
1  

√ norte

=  O 1  esto  da  un  mecanismo  de  selección  de  equilibrio  n1/4 ,  
aproximadamente  veraz  η  para
1
η  =  2  +  α  =  O
n1/4 .
En  otras  palabras,  proporciona  un  mecanismo  para  coordinar  el  comportamiento  
del  equilibrio  en  juegos  grandes  que  es  asintóticamente  veraz  en  el  tamaño  del  
juego,  todo  ello  sin  necesidad  de  transferencias  monetarias.

10.2.3  Obtención  de  veracidad  exacta

Hasta  ahora  hemos  discutido  mecanismos  que  son  asintóticamente  verdaderos  
en  juegos  de  grandes  poblaciones.  Sin  embargo,  ¿qué  pasa  si  queremos  insistir  
en  mecanismos  que  son  exactamente  la  estrategia  dominante  veraz,  manteniendo
Machine Translated by Google

200 Privacidad  diferencial  y  diseño  de  mecanismos

algunas  de  las  buenas  propiedades  de  las  que  disfrutan  nuestros  mecanismos  
hasta  ahora:  por  ejemplo,  que  los  mecanismos  no  necesitan  poder  extraer  pagos  
monetarios?  ¿Puede  la  privacidad  diferencial  ayudar  aquí?  Puede—en  esta  
sección,  discutimos  un  marco  que  utiliza  mecanismos  diferencialmente  privados  
como  un  bloque  de  construcción  para  diseñar  mecanismos  exactamente  veraces  sin
dinero.
La  idea  básica  es  simple  y  elegante.  Como  hemos  visto,  el  mecanismo  
exponencial  a  menudo  puede  brindar  excelentes  garantías  de  utilidad  al  tiempo  
que  preserva  la  privacidad  diferencial.  Esto  no  produce  un  mecanismo  
exactamente  veraz,  pero  le  da  a  cada  agente  muy  pocos  incentivos  para  
desviarse  del  comportamiento  veraz.  ¿Qué  pasaría  si  pudiéramos  combinar  
esto  con  un  segundo  mecanismo  que  no  necesita  tener  buenas  garantías  de  
utilidad,  pero  le  da  a  cada  agente  un  incentivo  positivo  estricto  para  informar  con  
veracidad,  es  decir,  un  mecanismo  que  esencialmente  solo  castiga  el  
comportamiento  no  veraz?  Entonces,  podríamos  aleatorizar  entre  la  ejecución  
de  los  dos  mecanismos.  Si  ponemos  suficiente  peso  en  el  mecanismo  de  castigo,  
entonces  heredamos  sus  propiedades  de  estricta  veracidad.  El  peso  restante  
que  se  pone  en  el  mecanismo  exponencial  contribuye  a  las  propiedades  de  
utilidad  del  mecanismo  final.  La  esperanza  es  que,  dado  que  el  mecanismo  
exponencial  es  aproximadamente  una  prueba  de  estrategia  para  empezar,  el  
mecanismo  aleatorio  puede  poner  poco  peso  en  el  mecanismo  de  castigo  
estrictamente  veraz  y,  por  lo  tanto,  tendrá  buenas  propiedades  de  utilidad.
Para  diseñar  mecanismos  de  castigo,  tendremos  que  trabajar  en  un  entorno  
ligeramente  no  estándar.  En  lugar  de  simplemente  elegir  un  resultado,  podemos  
modelar  un  mecanismo  que  elige  un  resultado,  y  luego  un  agente  que  elige  una  
reacción  a  ese  resultado,  que  en  conjunto  definen  su  utilidad.
Los  mecanismos  tendrán  entonces  la  facultad  de  restringir  las  reacciones  
permitidas  por  el  agente  en  función  de  su  tipo  informado.  Formalmente,  
trabajaremos  en  el  siguiente  marco:

Definición  10.4  (El  Medio  Ambiente).  Un  entorno  es  un  conjunto  N  de  n  
jugadores,  un  conjunto  de  tipos  ti     ,T,  un  conjunto  finito  O  de  resultados,  un  
conjunto  de  reacciones  R  y  una  función  de  utilidad  u :  T  ×  O  ×  R  →  [0,  1].

Escribimos  ri(t,  s, Rˆ  i)     arg  maxr ui(t,  s,  r)  para  denotar  es  óptimo


Rˆ  
i

reacción  entre  opciones  Rˆ  i     R  a  la  alternativa  s  si  es  de  tipo  t.
Machine Translated by Google

10.2.  La  privacidad  diferencial  como  herramienta  en  el  diseño  de  mecanismos 201

Un  mecanismo  de  revelación  directa  M  define  un  juego  que  se  juega
como  sigue:

1.  Cada  jugador  i  reporta  un  tipo  t  2.   i   T.
El  mecanismo  elige  una  alternativa  s     O  y  un  subconjunto  Rˆ  i     R
de  reacciones,  para  cada  jugador  i.
3.  Cada  jugador  i  elige  una  reacción  ri     Rˆ  u(ti ,   i y  experimenta  la  utilidad
s,  ri).

Los  agentes  juegan  para  maximizar  su  propia  utilidad.  Tenga  en  cuenta  que  dado  
que  no  hay  más  interacción  después  del  tercer  paso,  los  agentes  racionales  
estratégico.   elegirán  Rˆ  i),  por  lo  que  podemos  ignorar  esto  como  un  paso  
Sea  ri  =  ri(ti ,  s,  R  =  2R.  Entonces  un  mecanismo  es  una  aplicación  aleatoria  M :  T  →  O×Rn .
Consideremos  el  criterio  utilitario  de  bienestar:  F(t,  s,  r)  =  u(ti ,  s,  ri),  Nótese  
1
que  este  tiene  una  sensibilidad  ∆  =  1/n,  ya  que  la  utilidad  de  cada  agente  
norte

norte yo=1

se  encuentra  en  el  rango  [0,  1] .  Por  lo  tanto,  si  simplemente  elegimos  un  resultado  
y  permitimos  que  cada  agente  juegue  su  mejor  reacción  de  respuesta,  el  
mecanismo  exponencial  es  un  mecanismo  diferencialmente  privado  que,  por  el  
Teorema  3.11,  logra  el  bienestar  social  al  menos  OPT  −  O  log  |O|  con  alta   norte

probabilidad.  Denotemos  esta  instanciación  del  mecanismo  exponencial,  con  
puntuación  de  calidad  F,  rango  O  y  parámetro  de  privacidad
, como  m
La  idea  es  aleatorizar  entre  el  mecanismo  exponencial  (con  buenas  propiedades  
de  bienestar  social)  y  un  mecanismo  estrictamente  veraz  que  castigue  la  
información  falsa  (pero  con  malas  propiedades  de  bienestar  social).  Si  mezclamos  
adecuadamente,  obtendremos  un  mecanismo  exactamente  veraz  con  garantías  
razonables  de  bienestar  social.
Aquí  hay  uno  de  esos  mecanismos  de  castigo  que  es  simple,  pero  no  
necesariamente  el  mejor  para  un  problema  dado:

Definición  10.5.  El  mecanismo  de  compromiso  MP  (t )  selecciona  s     O  
uniformemente  al  azar  y  establece  Rˆ  
i =  {ri(t  i ,  s,  Ri)},  es  decir,  elige  un  resultado  
aleatorio  y  obliga  a  todos  a  reaccionar  como  si  el  tipo  informado  fuera  el  verdadero.  
tipo.

Defina  la  brecha  de  un  entorno  como

γ  =  mín   s O   u(ti ,  s,  ri(ti ,  s,  Ri))  −  u(ti ,  s,  ri(t  yo ,  s,  Ri)) ,


i,ti=t ,t−i
i
máx .
Machine Translated by Google

202 Privacidad  diferencial  y  diseño  de  mecanismos

es  decir,  γ  es  un  límite  inferior  sobre  los  jugadores  y  los  tipos  del  costo  del  peor  de  los  
casos  (sobre  s)  de  informes  erróneos.  Tenga  en  cuenta  que  para  cada  jugador,  este  peor  
de  los  casos  se  realiza  con  una  probabilidad  de  al  menos  1/|O|.  Por  lo  tanto,  tenemos  la  
siguiente  observación  simple:

Lema  10.2.  Por  todo  yo,  ti , yo ,  _ t−i :

γ
u(ti ,MP  (ti ,  t−i))  ≥  u(ti ,MP  (t  i ,  t−i))  +  |O|.

Nótese  que  el  mecanismo  de  compromiso  es  estrictamente  veraz:  cada
γ
individuo  tiene  al  menos  un  incentivo  
para  no  mentir.
|o|
Esto  sugiere  un  mecanismo  exactamente  veraz  con  buenas  garantías  de  
bienestar  social:

Definición  10.6.  El  mecanismo  exponencial  de  castigo  MP  (t)  definido  con  
parámetro  0  ≤  q  ≤  1  selecciona  el  mecanismo  exponencial  M(t)  con  probabilidad  1  
−  q  y  el  mecanismo  de  castigo  MP  (t)  con  probabilidad  complementaria  q.

Observe  que  por  la  linealidad  de  la  expectativa,  tenemos  para  todo  ti , t  t−i :  yo ,

u(ti ,MP  (ti ,  t−i))  =  (1  −  q)  ∙  u(ti ,M(ti ,  t−i))  +  q  ∙  u(ti ,MP  (ti ,  t−i))

≥  (1  −  q)  u(ti ,M(t  yo ,  t−i))  −  2
γ
+q  u(ti ,MP  (t  i ,  t−i))  +
|o|
γ
=  u(ti ,MP  (t  yo ,  t−i))  −  (1  −  q)2  +  q
|O|
γ
=  u(ti ,MP  (t  yo ,  t−i))  −  2  +  q  2  + .
|o|

Los  siguientes  dos  teoremas  muestran  el  incentivo  y  el  bienestar  social.
erties  de  este  mecanismo.


Teorema  10.3.  Si  2  ≤  |O| entonces  MP  es  estrictamente  veraz.
Machine Translated by Google

10.2.  La  privacidad  diferencial  como  herramienta  en  el  diseño  de  mecanismos 203

Tenga  en  cuenta  que  también  tenemos  garantías  de  utilidad  para  este  mecanismo.  Colocar
ajustando  el  parámetro  q  para  que  tengamos  un  mecanismo  veraz:

mi
s,Rˆ MP  [F(t,  s,  r(t,  s,  Rˆ))]

q)  ∙  E s,Rˆ M  [F(t,  s,  r(t,  s,  Rˆ))]  ≥  (1  −  

2|O|  =  
1  − ∙  mi
s,Rˆ M  [F(t,  s,  r(t,  s,  Rˆ))]
γ

2|O|  ≥   1
1  − ∙  max  t,s,r F(t,  s,  r)  −  O registro  |O|
γ norte

2|O| 1
máx. F(t,  s,  r)  −  ≥   −  O   registro  |O| .
t,s,r γ norte

Configuración

registro  |O|γ
  O
|O|n
encontramos:

|O|  registro  |O|
mi F(t,  s,  r)  −  O .
s,Rˆ MP  [F(t,  s,  r(t,  s,  Rˆ))]  ≥  máx. t,  s,  r γn

Tenga  en  cuenta  que  en  este  cálculo  asumimos  que  ≤  γ/(2|O|)  de  modo  que  ≤  1  y  el  mecanismo  
2|O|
está  bien  definido.  Esto  es  cierto  para  q  =  suficientemente  grande  n.  Es  decir,  
γ
hemos  mostrado:

Teorema  10.4.  Para  n  lo  suficientemente  grande,  MP  logra  el  bienestar  social  al  menos

|o|  registro  |O|
OPT  −  O .
γn

¡Tenga  en  cuenta  que  este  mecanismo  es  veraz  sin  necesidad  de  pagos!
Consideremos  ahora  una  aplicación  de  este  marco:  el  juego  de  localización  de  
instalaciones.  Suponga  que  una  ciudad  quiere  construir  k  hospitales  para  minimizar  la  distancia  
promedio  entre  cada  ciudadano  y  su  hospital  más  cercano.  Para  simplificar  las  cosas,  hacemos  
la  ligera  suposición  de  que  la  ciudad  está  construida  sobre  una  discretización  de  la  línea  
unitaria.3  Formalmente,  sea
3
Si  este  no  es  el  caso,  podemos  arrasar  fácilmente  y  luego  reconstruir  la  ciudad.
Machine Translated by Google

204 Privacidad  diferencial  y  diseño  de  mecanismos

L(m)  =  {0,  1/ m , . . . ,  
2 1}  denota  la  línea  de  unidad  discreta  con  tamaño  de  paso
1  m ,
m.  |L(m)|  =  m+1.  Sea  T  =  Ri  =  L(m)  para  todo  i  y  sea  |O|  =  L(metro) k .
Defina  la  utilidad  del  agente  i  como:

−|ti  −  ri  |,  Si  ri     s;  
u(ti ,  s,  ri)  =
−1, de  lo  contrario.

En  otras  palabras,  los  agentes  están  asociados  con  puntos  en  la  línea  y  
un  resultado  es  la  asignación  de  una  ubicación  en  la  línea  a  cada  una  de  
las  k  instalaciones.  Los  agentes  pueden  reaccionar  ante  un  conjunto  de  
instalaciones  decidiendo  a  cuál  ir,  y  el  costo  de  tal  decisión  es  la  distancia  
entre  su  propia  ubicación  (es  decir,  su  tipo)  y  la  instalación  que  han  elegido.
Note  que  ri(ti ,  s)  es  aquí  la  facilidad  más  cercana  ri     s.
Podemos  instanciar  el  Teorema  10.4.  En  este  caso,  tenemos:  |O|  =  
difieren  por  en
(m  +  1)k  y  γ  =  1/m,  porque  dos  posiciones  cualesquiera  ti  =  t  
i
menos  1/m.  Por  lo  tanto,  tenemos:

Teorema  10.5.  MP  instanciado  para  el  juego  de  ubicación  de  instalaciones  
es  estrictamente  veraz  y  logra  al  menos  el  bienestar  social:

OPT  −  O km(m  +  1)k  log  m
norte

    .
  
Esto  ya  es  muy  bueno  para  un  pequeño  número  de  instalaciones  k,  ya  que  
esperamos  que  OPT  =  Ω(1).

10.3  Diseño  de  mecanismos  para  agentes  conscientes  de  la  privacidad

En  la  sección  anterior,  vimos  que  la  privacidad  diferencial  puede  ser  útil  como  herramienta  
para  diseñar  mecanismos,  para  agentes  que  solo  se  preocupan  por  el  resultado  elegido  
por  el  mecanismo.  Aquí  vimos  principalmente  la  privacidad  como  una  herramienta  para  
lograr  objetivos  en  el  diseño  de  mecanismos  tradicionales.  Como  efecto  secundario,  
estos  mecanismos  también  preservaron  la  privacidad  de  los  tipos  de  jugadores  
informados.  ¿Es  esto  en  sí  mismo  un  objetivo  digno?  ¿ Por  qué  querríamos  que  nuestros  
mecanismos  preservaran  la  privacidad  de  los  tipos  de  agentes?
Un  poco  de  reflexión  revela  que  los  agentes  pueden  preocuparse  por  la  privacidad.
De  hecho,  la  introspección  básica  sugiere  que  en  el  mundo  real,  los  agentes  
valoran  la  capacidad  de  mantener  privada  cierta  información  "sensible",  por  ejemplo,
Machine Translated by Google

10.3.  Diseño  de  mecanismos  para  agentes  conscientes  de  la  privacidad 205

información  de  salud  o  preferencias  sexuales.  En  esta  sección,  consideramos  la  
cuestión  de  cómo  modelar  este  valor  para  la  privacidad  y  varios  enfoques  adoptados  
en  la  literatura.
Dado  que  los  agentes  pueden  tener  preferencias  por  la  privacidad,  vale  la  pena  
considerar  el  diseño  de  mecanismos  que  preserven  la  privacidad  como  un  objetivo  
adicional,  incluso  para  tareas  como  la  maximización  del  bienestar  que  ya  podemos  
resolver  de  manera  no  privada.  Como  veremos,  de  hecho  es  posible  generalizar  el  
mecanismo  de  VCG  para  optimizar  de  manera  privada  el  bienestar  social  en  cualquier  
problema  de  elección  social,  con  un  intercambio  suave  entre  el  parámetro  de  privacidad  
y  el  parámetro  de  aproximación,  todo  mientras  se  garantiza  la  veracidad  exacta  de  la  
estrategia  dominante.
Sin  embargo,  podríamos  querer  ir  más  allá.  En  presencia  de  agentes  con  
preferencias  por  la  privacidad,  si  deseamos  diseñar  mecanismos  veraces,  debemos  
modelar  de  alguna  manera  sus  preferencias  por  la  privacidad  en  su  función  de  utilidad,  
y  luego  diseñar  mecanismos  que  sean  veraces  con  respecto  a  estas  nuevas  funciones  
de  utilidad  "conscientes  de  la  privacidad". .  Como  hemos  visto  con  la  privacidad  
diferencial,  lo  más  natural  es  modelar  la  privacidad  como  una  propiedad  del  propio  
mecanismo.  Así,  nuestras  funciones  de  utilidad  no  son  simplemente  funciones  del  
resultado,  sino  funciones  del  resultado  y  del  mecanismo  mismo.  En  casi  todos  los  
modelos,  las  utilidades  de  los  agentes  para  los  resultados  se  tratan  como  linealmente  
separables,  es  decir,  tendremos  para  cada  agente  i,

ui(o,M,  t)  ≡  µi(o)  −  ci(o,M,  t).

Aquí  µi(o)  representa  la  utilidad  del  agente  para  el  resultado  o  y  ci(o,M,  t)  el  costo  (de  
privacidad)  que  experimenta  el  agente  i  cuando  se  elige  el  resultado  o  con  el  mecanismo  
M.
Primero  consideraremos  quizás  el  modelo  más  simple  (y  más  ingenuo)  para  la  
función  de  costo  de  privacidad  ci .  Recuerde  que  para  1,  la  privacidad  diferencial  
promete  que  para  cada  agente  i,  y  para  cada  posible  función  de  utilidad  fi ,  tipo  vector  t  
  T  n , y  desviación  t   T :
i

|Eo M(ti,t−i)  [fi(o)]  −  Eo M(t i


,t−i)  [fi(o)]|  ≤  2Eo M(t)  [fi(o)].

Si  consideramos  que  fi  representa  la  “utilidad  futura  esperada”  para  el  agente  i,  por  lo  
tanto,  es  natural  modelar  el  costo  del  agente  i  por  tener  sus  datos  utilizados  en  un  
cálculo  diferencialmente  privado  como  lineal  en .  Eso  es,
Machine Translated by Google

206 Privacidad  diferencial  y  diseño  de  mecanismos

pensamos  en  el  agente  i  como  parametrizado  por  algún  valor  vi     R,  y  tomamos:

ci(o,M,  t)  =  vi ,

donde  es  el  valor  más  pequeño  tal  que  M  es  ­diferencialmente  privado.
Aquí  imaginamos  que  vi  representa  una  cantidad  como  Eo M(t)  [fi(o)].  En  este  
escenario,  ci  no  depende  del  resultado  o  ni  del  tipo  de  perfil  t.
Usando  esta  ingenua  medida  de  privacidad,  discutimos  un  problema  básico  
en  el  análisis  de  datos  privados:  cómo  recopilar  los  datos,  cuando  los  propietarios  
de  los  datos  valoran  su  privacidad  e  insisten  en  recibir  una  compensación  por  ello.
En  este  entorno,  no  hay  un  "resultado"  que  los  agentes  valoren,  aparte  de  los  
pagos,  solo  hay  desutilidad  por  la  pérdida  de  privacidad.  Luego  discutiremos  las  
deficiencias  de  esta  (y  otras)  medidas  de  la  desutilidad  para  la  pérdida  de  
privacidad,  así  como  la  privacidad  en  configuraciones  de  diseño  de  mecanismos  
más  generales  cuando  los  agentes  tienen  utilidad  para  el  resultado  del  mecanismo.

10.3.1  Una  generalización  privada  del  mecanismo  VCG

Supongamos  que  tenemos  un  problema  general  de  elección  social,  definido  por  
un  espacio  de  resultados  O,  y  un  conjunto  de  agentes  N  con  preferencias  arbitrarias  
sobre  los  resultados  dados  por  ui :  O  →  [0,  1].  Podríamos  querer  elegir  un  resultado  
1 n  
o     O  para  maximizar  el  bienestar  social  F(o)  =  ui(o).  Es  bien  
i  =s
norte   1abido  que  en  
cualquiera  de  estos  escenarios,  el  mecanismo  de  VCG  puede  implementar  lo  que  
resultado  o maximiza  exactamente  el  bienestar  social,  mientras  cobra  pagos  
que  hacen  que  decir  la  verdad  sea  una  estrategia  dominante.  ¿Y  si  queremos  
conseguir  el  mismo  resultado,  preservando  al  mismo  tiempo  la  privacidad?  ¿Cómo  
debe  compensarse  el  parámetro  de  privacidad  con  nuestra  aproximación  al  
bienestar  social  óptimo?
Recuerde  que  podríamos  usar  el  mecanismo  exponencial  para  elegir  un  
resultado  o     O,  con  un  puntaje  de  calidad  F.  Para  el  parámetro  de  privacidad,  
, esto  daría  una  distribución  M  definida  como  Pr[M  =  o]     2n .  Además,  este  
f(o)
Exp mecanismo  tiene  buenas  propiedades  de  bienestar  social:  con  probabilidad  
1  −  β,  selecciona  algunos  o  tales  que:  F(o)  ≥  ln  |O|  F(o    )  −  β .  Pero  como  vimos,  
2 la  
privacidad  diferencial  
norte sólo  da  una  veracidad  aproximada.
Machine Translated by Google

10.3.  Diseño  de  mecanismos  para  agentes  conscientes  de  la  privacidad 207

Sin  embargo,  se  puede  demostrar  que  M  es  la  solución  al  siguiente  problema  
de  optimización  exacta:
2
M  =  argumento  máximo Eo D[F(o)]  + H(D) ,
D ∆O norte

donde  H  representa  la  Entropía  de  Shannon  de  la  distribución  D.  En  otras  
palabras,  el  mecanismo  exponencial  es  la  distribución  que  maximiza  exactamente  
el  bienestar  social  esperado,  más  la  entropía  de  la  distribución  ponderada  por  2/
(n).  Esto  es  significativo  por  la  siguiente  razón:  se  sabe  que  cualquier  mecanismo  
que  maximice  exactamente  las  utilidades  esperadas  del  jugador  en  cualquier  
rango  finito  (conocido  como  mecanismos  de  rango  distributivo  máximo)  puede  
combinarse  con  pagos  para  hacer  exactamente  la  estrategia  dominante  veraz.  El  
mecanismo  exponencial  es  la  distribución  que  maximiza  exactamente  el  bienestar  
social  esperado,  más  la  entropía.  En  otras  palabras,  si  imaginamos  que  hemos  
agregado  un  solo  jugador  adicional  cuya  utilidad  es  exactamente  la  entropía  de  la  
distribución,  entonces  el  mecanismo  exponencial  es  máximo  en  el  rango  de  
distribución.  Por  lo  tanto,  se  puede  combinar  con  pagos  que  hacen  que  la  
información  veraz  sea  una  estrategia  dominante  para  todos  los  jugadores,  en  
particular,  para  los  n  jugadores  reales.  Además,  se  puede  mostrar  cómo  cargar  
los  pagos  de  tal  manera  que  se  preserve  la  privacidad.
El  resultado  es  que  para  cualquier  problema  de  elección  social,  el  bienestar  social  
se  puede  aproximar  de  una  manera  que  preserva  la  privacidad  diferencial  y  es  
exactamente  veraz.

10.3.2  El  problema  del  topógrafo  sensible

En  esta  sección,  consideramos  el  problema  de  un  analista  de  datos  que  desea  
realizar  un  estudio  utilizando  los  datos  privados  de  una  colección  de  individuos.
¡Sin  embargo,  debe  convencer  a  estas  personas  de  que  entreguen  sus  datos!
Las  personas  experimentan  costos  por  la  pérdida  de  privacidad.  El  analista  de  
datos  puede  mitigar  estos  costos  garantizando  privacidad  diferencial  y  
compensándolos  por  su  pérdida,  mientras  intenta  obtener  una  muestra  representativa  de  datos.
Considere  el  siguiente  problema  estilizado  del  topógrafo  sensible  Alice.  Tiene  
la  tarea  de  realizar  una  encuesta  de  un  conjunto  de  n  individuos  N,  para  determinar  
qué  proporción  de  los  individuos  i     N  satisfacen  alguna  propiedad  P(i).  Su  
objetivo  final  es  descubrir  el  verdadero  valor  de  este  |{i     N :  P(i)}|,  pero  si  eso  no  
1
norte
es  posible,  será  estadística,  s  =
Machine Translated by Google

208 Privacidad  diferencial  y  diseño  de  mecanismos

satisfecho  con  alguna  estimación  sˆ  tal  que  el  error,  |sˆ−s|,  se  minimice.
Adoptaremos  una  noción  de  precisión  basada  en  grandes  límites  de  desviación  y  
diremos  que  un  mecanismo  topográfico  tiene  una  precisión  α  si  Pr[|sˆ−s|  ≥  α]  ≤   1  3 .

El  inconveniente  inevitable  es  que  las  personas  valoran  su  privacidad  y  no  
participarán  en  la  encuesta  de  forma  gratuita.  Los  individuos  experimentan  algún  
costo  en  función  de  su  pérdida  de  privacidad  cuando  interactúan  con  Alice,  y  deben  
ser  compensados  por  esta  pérdida.  Para  empeorar  las  cosas,  estos  individuos  son  
agentes  racionales  (es  decir,  egoístas)  y  tienden  a  informar  erróneamente  sus  
costos  a  Alice  si  al  hacerlo  resultará  en  una  ganancia  financiera.  Esto  coloca  el  
problema  de  Alice  directamente  en  el  dominio  del  diseño  de  mecanismos  y  requiere  
que  Alice  desarrolle  un  esquema  para  intercambiar  precisión  estadística  con  costo,  
todo  mientras  maneja  los  incentivos  de  los  individuos.
Aparte,  este  problema  estilizado  es  ampliamente  relevante  para  cualquier  
organización  que  haga  uso  de  colecciones  de  datos  potencialmente  confidenciales.  
Esto  incluye,  por  ejemplo,  el  uso  de  registros  de  búsqueda  para  proporcionar  la  
finalización  de  consultas  de  búsqueda  y  el  uso  del  historial  de  navegación  para  
mejorar  la  clasificación  del  motor  de  búsqueda,  el  uso  de  datos  de  redes  sociales  
para  seleccionar  anuncios  gráficos  y  recomendar  nuevos  enlaces,  y  la  miríada  de  
otros  datos.  servicios  impulsados  ahora  disponibles  en  la  web.  En  todos  estos  
casos,  el  valor  se  deriva  de  las  propiedades  estadísticas  de  una  recopilación  de  
datos  confidenciales  a  
cambio  de  algún  pago.4  La  recopilación  de  datos  a  cambio  de  un  precio  fijo  
podría  conducir  a  una  estimación  sesgada  de  las  estadísticas  de  población,  porque  
tal  esquema  dar  como  resultado  la  recopilación  de  datos  solo  de  aquellas  personas  
que  valoran  su  privacidad  menos  que  el  precio  que  se  ofrece.  Sin  embargo,  sin  
interactuar  con  los  agentes,  no  tenemos  forma  de  saber  qué  precio  podemos  
ofrecer,  por  lo  que  tendremos  una  participación  lo  suficientemente  amplia  como  
para  garantizar  que  la  respuesta  que  recopilamos  tenga  solo  un  pequeño  sesgo.  
Para  obtener  una  estimación  precisa  de  la  estadística,  es  natural  considerar  la  
compra  de  datos  privados  mediante  una  subasta,  como  medio  para  descubrir  este  
precio.  Hay  dos  obstáculos  obvios  que  uno  debe  enfrentar  al  realizar  una  subasta  
de  datos  privados  y  un  obstáculo  adicional  que  es  menos  obvio  pero  más  insidioso.  
El  primer  obstáculo  es  que  se  debe  tener  un  conocimiento  cuantitativo

4El  pago  no  necesita  ser  explícito  y/o  denominado  en  dólares  —  por  ejemplo,
puede  ser  el  uso  de  un  servicio  “gratuito”.
Machine Translated by Google

10.3.  Diseño  de  mecanismos  para  agentes  conscientes  de  la  privacidad 209

formalización  de  la  “privacidad”  que  se  puede  utilizar  para  medir  los  costos  de  los  
agentes  en  diversas  operaciones  sobre  sus  datos.  Aquí,  la  privacidad  diferencial  
proporciona  una  herramienta  obvia.  Para  valores   , pro  porque  exp()  ≈  (1  + ),  
pequeños  de  y  así,  como  se  discutió  anteriormente,  un  primer  corte  simple  (pero  
posiblemente  ingenuo)  en  un  modelo  es  considerar  que  cada  agente  tiene  algún  
costo  lineal  por  participar  en  un  estudio  privado.  Aquí  imaginamos  que  cada  agente  
,
i  tiene  un  valor  desconocido  
para  la  privacidad  vi  y  experimenta  un  costo  ci()  =  vi  
cuando  sus  datos  privados  se  usan  de  una  manera  ­diferencialmente  privada.5  El  
segundo  obstáculo  es  que  nuestro  objetivo  es  compensar  con  estadísticas  precisión,  
y  este  último  no  es  un  objetivo  bien  estudiado  en  el  diseño  de  mecanismos.
El  obstáculo  final,  más  insidioso,  es  que  el  costo  de  la  pérdida  de  privacidad  de  
un  individuo  puede  estar  altamente  correlacionado  con  sus  propios  datos  privados.  
Supongamos  que  solo  sabemos  que  Bob  tiene  un  alto  valor  por  la  privacidad  de  su  
estado  de  SIDA,  pero  no  conocemos  explícitamente  su  estado  de  SIDA  en  sí.  Esto  
ya  es  revelador  porque  el  estado  de  SIDA  de  Bob  probablemente  se  correlacione  
con  su  valor  por  la  privacidad,  y  saber  que  tiene  un  alto  costo  por  la  privacidad  nos  
permite  actualizar  nuestra  creencia  sobre  cuáles  podrían  ser  sus  datos  privados.  
Más  concretamente,  supongamos  que  en  el  primer  paso  de  una  encuesta  sobre  la  
prevalencia  del  SIDA,  le  pedimos  a  cada  individuo  que  informe  su  valor  para  la  
privacidad,  con  la  intención  de  realizar  una  subasta  para  elegir  a  qué  individuos  comprar  datos.
Si  los  agentes  informan  con  veracidad,  podemos  encontrar  que  los  valores  
informados  forman  naturalmente  dos  grupos:  agentes  de  bajo  valor  y  agentes  de  
alto  valor.  En  este  caso,  es  posible  que  hayamos  aprendido  algo  sobre  la  estadística  
de  población  incluso  antes  de  recopilar  datos  o  realizar  pagos  y,  por  lo  tanto,  los  
agentes  ya  habrán  experimentado  un  costo.  Como  resultado,  los  agentes  pueden  
informar  mal  su  valor,  lo  que  podría  introducir  un  sesgo  en  los  resultados  de  la  
encuesta.  Este  fenómeno  hace  que  los  mecanismos  de  revelación  directa  sean  
problemáticos  y  distingue  este  problema  del  diseño  de  mecanismos  clásicos.

Armados  con  un  medio  para  cuantificar  la  pérdida  de  un  agente  i  por  permitir  
que  sus  datos  sean  usados  por  un  algoritmo  diferencialmente  privado  (ci()  =  vi),  
estamos  casi  listos  para  describir  los  resultados  para  el  problema  del  topógrafo  
sensible.  Recuerde  que  un  algoritmo  diferencialmente  privado  es  algún  mapeo  M :  
T  n  →  O,  para  un  espacio  de  tipo  general  T .  Queda  por  definir  qué

5Como  discutiremos  más  adelante,  esta  suposición  puede  ser  problemática.
Machine Translated by Google

210 Privacidad  diferencial  y  diseño  de  mecanismos

exactamente  el  tipo  de  espacio  T  es.  Consideraremos  dos  modelos.  En  ambos  
modelos  asociaremos  a  cada  individuo  un  bit  bi     {0,  1}  que  representa  si  
cumplen  el  predicado  sensitivo  P(i),  así  como  un  valor  de  privacidad  vi     R  +.

1.  En  el  modelo  de  valor  insensible,  calculamos  el  parámetro  del  mecanismo  
privado  dejando  que  el  espacio  de  tipo  sea  T  =  {0,  1}:  es  decir,  medimos  el  
costo  de  privacidad  solo  con  respecto  a  cómo  el  mecanismo  trata  el  bit  
, los  valores  informados  para  la  privacidad,  
sensible  bi  e  ignora  cómo  trata  
vi . 6

2.  En  el  modelo  de  valor  sensible,  calculamos  el  parámetro  del  mecanismo  
privado  dejando  que  el  espacio  de  tipo  sea  T  =  ({0,  1}×R  +):  es  decir,  
medimos  la  privacidad  con  respecto  a  cómo  trata  al  par  (bi ,  vi)  para  cada  
individuo.

Intuitivamente,  el  modelo  de  valor  insensible  trata  a  los  individuos  como  si  
ignoraran  la  posible  pérdida  de  privacidad  debido  a  las  correlaciones  entre  sus  
valores  de  privacidad  y  sus  bits  privados,  mientras  que  el  modelo  de  valor  
sensible  trata  a  los  individuos  como  si  asumieran  que  estas  correlaciones  son  el  
peor  de  los  casos,  es  decir,  sus  valores  vi  son  solo  tan  revelador  como  sus  bits  
privados  bi .  Se  sabe  que  en  el  modelo  de  valor  insensible,  se  pueden  derivar  
mecanismos  de  revelación  directa  aproximadamente  óptimos  que  logran  alta  precisión  y  bajo  costo.
Por  el  contrario,  en  el  modelo  de  valor  sensible,  ningún  mecanismo  de  revelación  
directa  individualmente  racional  puede  lograr  una  precisión  no  trivial.
Esto  deja  un  estado  de  cosas  algo  insatisfactorio.  El  modelo  de  valor  sensible  
captura  los  temas  delicados  que  realmente  queremos  tratar  y,  sin  embargo,  ¡ahí  
tenemos  un  resultado  de  imposibilidad!  Evitar  este  resultado  de  una  manera  
satisfactoria  (por  ejemplo,  cambiando  el  modelo  o  los  poderes  del  mecanismo)  
sigue  siendo  una  pregunta  abierta  intrigante.

10.3.3  Mejores  medidas  para  el  costo  de  la  privacidad

En  la  sección  anterior,  tomamos  el  supuesto  de  modelado  ingenuo  de  que  el  
costo  experimentado  por  la  participación  en  un  mecanismo  diferencialmente  
privado  M  era  ci(o,M,  t)  =  vi  para  algún  valor  numérico  vi .  esta  medida

6Es  decir,  la  parte  del  mapeo  que  trata  con  los  valores  informados  no  necesita  ser
diferencialmente  privado.
Machine Translated by Google

10.3.  Diseño  de  mecanismos  para  agentes  conscientes  de  la  privacidad 211

es  problemático  por  varias  razones.  Primero,  aunque  la  privacidad  diferencial  
promete  que  la  pérdida  de  utilidad  de  cualquier  agente  tiene  un  límite  superior  
en  una  cantidad  que  es  (aproximadamente)   , lineal,  no  hay  razón  para  creer  que  
los  costos  de  los  agentes  tienen  un  límite  inferior  en  dicha  cantidad.  Es  decir,  
mientras  que  tomar  ci(o,M,  t)  ≤  vi  está  bien  motivado,  hay  poco  apoyo  para  hacer  
de  la  desigualdad  una  igualdad.  En  segundo  lugar,  (resulta)  que  cualquier  medida  
de  privacidad  que  sea  solo  una  función  determinista  (no  solo  una  función  lineal)  
conduce  a  predicciones  conductuales  problemáticas.
Entonces,  ¿de  qué  otra  manera  podríamos  modelar  ci?  Una  medida  natural  
es  la  información  mutua  entre  el  tipo  informado  de  agente  i  y  el  resultado  del  
mecanismo.  Para  que  esto  esté  bien  definido,  debemos  estar  en  un  mundo  
donde  el  tipo  ti  de  cada  agente  se  extrae  de  un  anterior  conocido,  ti     T .  La  
estrategia  de  cada  agente  es  un  mapeo  σi :  T  →  T ,  determinando  qué  tipo  
informa,  dado  su  verdadero  tipo.  Entonces  podríamos  definir

ci(o,M,  σ)  =  I(T ;M(t−i ,  σ(T )),
donde  I  es  la  información  mutua  entre  la  variable  aleatoria  T  que  representa  el  
tipo  del  agente  anterior  y  M(t−i ,  σ(T )),  la  variable  aleatoria  que  representa  el  
resultado  del  mecanismo,  dado  que  el  agente  es  la  estrategia.

Esta  medida  tiene  un  atractivo  significativo,  porque  representa  cuán  
“relacionada”  está  la  salida  del  mecanismo  con  el  verdadero  tipo  de  agente  i.  Sin  
embargo,  además  de  requerir  una  previa  sobre  los  tipos  de  agentes,  observe  
una  paradoja  interesante  que  resulta  de  esta  medida  de  pérdida  de  privacidad.
Considere  un  mundo  en  el  que  hay  dos  tipos  de  pan  para  sándwich:  Centeno  
(R)  y  Trigo  (W).  Además,  en  este  mundo,  las  preferencias  por  los  sándwiches  
son  muy  vergonzosas  y  se  mantienen  en  privado.  La  prioridad  sobre  los  tipos  T  
es  uniforme  sobre  R  y  W,  y  el  mecanismo  M  simplemente  le  da  al  agente  i  un  
emparedado  del  tipo  que  pretende  preferir.  Ahora  considere  dos  posibles  
estrategias,  σveraz  y  σaleatoria.  σveraz  corresponde  a  informar  verazmente  las  
preferencias  de  sándwich  (y,  posteriormente,  lleva  a  comer  el  tipo  de  sándwich  
preferido),  mientras  que  σaleatorio  informa  aleatoriamente  independientemente  
del  tipo  verdadero  (y  da  como  resultado  el  sándwich  preferido  solo  la  mitad  de  las  veces).
El  costo  de  usar  la  estrategia  aleatoria  es  I(T ;M(t−i ,  σrandom(T ))  =  0,  ya  que  el  
resultado  es  independiente  del  tipo  de  agente  i.  Por  otro  lado,  el  costo  de  
informar  verazmente  es  I(T ;M(t−i ,  σveraz(T ))  =  1,  ya  que
Machine Translated by Google

212 Privacidad  diferencial  y  diseño  de  mecanismos

el  resultado  del  emparedado  es  ahora  la  función  de  identidad  en  el  agente  es  tipo.
Sin  embargo,  desde  la  perspectiva  de  cualquier  observador  externo,  ¡las  dos  
estrategias  son  indistinguibles!  En  ambos  casos,  el  agente  i  recibe  un  sándwich  
uniformemente  aleatorio.  Entonces,  ¿por  qué  alguien  debería  elegir  la  estrategia  
aleatoria?  Mientras  un  adversario  crea  que  está  eligiendo  al  azar,  debe  elegir  la  
estrategia  honesta.
Otro  enfoque,  que  no  necesita  información  previa  sobre  los  tipos  de  agentes,  es  
el  siguiente.  Podemos  modelar  agentes  con  una  función  de  costo  ci  que  satisfaga:

Pr[M(ti ,  t−i)  =  o]  |
ci(o,M,  t)|  =  ln  máx .
ti,t  i T Pr[M(t  yo ,  t−i)  =  o]  

Nótese  que  si  M  es  ­diferencialmente  privado,  entonces

Pr[M(ti ,  t−i)  =  o]
máx  máx  t T   máximo ln   ≤ .
n  o O ti,t  i T Pr[M(t  yo ,  t−i)  =  o]

Es  decir,  podemos  ver  la  privacidad  diferencial  como  un  límite  de  la  pérdida  de  
privacidad  en  el  peor  de  los  casos  sobre  todos  los  resultados  posibles,  mientras  que  
la  medida  propuesta  aquí  considera  solo  la  pérdida  de  privacidad  para  el  resultado  
o  (y  el  vector  de  tipo  t)  realmente  realizado.  Así,  para  cualquier  mecanismo  
diferencialmente  privado  M,  |ci(o,M,  t)|  ≤  para  todo  o,  t,  pero  será  importante  que  el  
costo  puede  variar  según  el  resultado.
Entonces  podemos  considerar  la  siguiente  regla  de  asignación  para  maximizar  
el  bienestar  social  F(o)  =  Discutimos  el  c7aso  cuando  |O|  =  2  (que  no  requiere  pagos),  
yo=1 u(o).
norte

pero  es  posible  analizar  el  caso  general  (con  pagos),  que  implementa  de  forma  
privada  el  mecanismo  VCG  para  cualquier  problema  de  elección  social.

1.  Para  cada  resultado  o     O,  elija  un  número  aleatorio  ro  de  la
distribución  Pr[ro  =  x]     exp(−|x|).
2.  Salida  o =  arg  maxo O(F(o)  +  ro).

El  mecanismo  anterior  es  ­diferencialmente  privado,  y  es  veraz  para  los  agentes  
conscientes  de  la  privacidad,  siempre  que  para  cada  agente  i,  y  para  los  dos  
resultados  o,  o     O,  |µi(o)  −  µi(o )|  >  2.  Tenga  en  cuenta  que  esto  será  cierto

7Esta  regla  de  asignación  es  extremadamente  similar  y,  de  hecho,  puede  modificarse  para  ser
idéntico  al  mecanismo  exponencial.
Machine Translated by Google

10.4.  notas  bibliograficas 213

para  lo  suficientemente  pequeño  siempre  que  las  utilidades  de  los  agentes  para  los  resultados  sean  distintas.

El  análisis  procede  considerando  una  realización  fija  arbitraria  de  las  variables  
aleatorias  ro  y  una  desviación  arbitraria  t  del  informe  veraz  para  ei l  i­ésimo  agente.  
Hay  dos  casos:  En  el  primer  caso,  la  desviación  no  cambia  el  resultado  del  
mecanismo.  En  este  caso,  ni  la  utilidad  del  agente  para  el  resultado  µi ,  ni  su  costo  
por  la  pérdida  de  privacidad  ci  cambian  en  absoluto,  por  lo  que  el  agente  no  se  
beneficia  de  desviarse.  En  el  segundo  caso,  si  el  resultado  cambia  de  o  a  o  
cuando  el  agente  i  se  desvía,  debe  ser  que  µi(o )  <  µi(o)  −  2.  Por  privacidad  
diferencial,  sin  embargo,  |ci(o,M,  t)  −  ci(o ,M,  t)|  ≤  2,  por  lo  que  el  cambio  en  el  
costo  de  la  privacidad  no  puede  ser  suficiente  para  que  sea  beneficioso.

Finalmente,  el  enfoque  más  conservador  para  modelar  los  costos  de  la  
privacidad  generalmente  considerado  es  el  siguiente.  Dado  un  mecanismo  M  
­diferencialmente  privado,  supóngase  sólo  que

ci(o,M,  t)  ≤  vi ,

para  algún  número  vi .  Esto  es  similar  a  las  funciones  de  costos  lineales  que  
consideramos  anteriormente,  pero  crucialmente,  aquí  asumimos  solo  un  límite  superior.
Esta  suposición  se  cumple  con  todos  los  otros  modelos  de  costos  de  privacidad  
que  hemos  considerado  hasta  ahora.  Se  puede  demostrar  que  muchos  
mecanismos  que  combinan  un  algoritmo  diferencialmente  privado  con  un  
mecanismo  de  castigo  que  tiene  la  capacidad  de  restringir  las  elecciones  del  
usuario,  como  los  que  consideramos  en  la  Sección  10.2.3,  mantienen  sus  
propiedades  de  veracidad  en  presencia  de  agentes  con  preferencias  por  
privacidad,  siempre  que  los  valores  vi  estén  acotados.

10.4  Notas  bibliográficas

Esta  sección  se  basa  en  una  encuesta  de  Pai  y  Roth  [70]  y  una  encuesta  de  Roth  
[73].  Las  conexiones  entre  la  privacidad  diferencial  y  el  diseño  de  mecanismos  
fueron  sugeridas  por  primera  vez  por  Jason  Hartline  e  investigadas  por  McSherry  
y  Talwar  en  su  trabajo  seminal,  "Mechanism  Design  via  Differential  Privacy" [61],  
donde  consideraron  la  aplicación  de  la  privacidad  diferencial  para  diseñar  
información  digital  aproximadamente  veraz.  subastas  de  bienes.  El  mejor  resultado  
para  mecanismos  exactamente  veraces  en  el  entorno  de  bienes  digitales  se  debe  
a  Balcan  et  al.  [2].
Machine Translated by Google

214 Privacidad  diferencial  y  diseño  de  mecanismos

El  problema  de  diseñar  mecanismos  exactamente  veraces  utilizando  la  privacidad  
diferencial  como  herramienta  fue  explorado  por  primera  vez  por  Nissim,  Smorodinsky  
y  Tennenholtz  en  [69],  quienes  también  plantearon  por  primera  vez  una  crítica  al  uso  
de  la  privacidad  diferencial  (en  sí  misma)  como  concepto  de  solución.  El  ejemplo  de  
esta  sección  del  uso  de  la  privacidad  diferencial  para  obtener  mecanismos  exactamente  
veraces  está  tomado  directamente  de  [69].  El  problema  de  los  topógrafos  sensibles  
fue  considerado  por  primera  vez  por  Ghosh  y  Roth  [36]  y  ampliado  por  [56,  34,  75,  16].
Fleischer  y  Lyu  [34]  consideran  el  escenario  bayesiano  discutido  en  esta  sección,  y  
Ligett  y  Roth  [56]  consideran  el  escenario  del  peor  de  los  casos  con  ofertas  de  tómalo  
o  déjalo,  ambos  en  un  intento  de  sortear  la  imposibilidad  resultado  de  [36].  Ghosh  y  
Ligett  consideran  un  modelo  relacionado  en  el  que  las  decisiones  de  participación  (y  
las  garantías  de  privacidad)  se  determinan  solo  en  equilibrio  [35].

La  cuestión  de  realizar  el  diseño  del  mecanismo  en  presencia  de  agentes  que  
valoran  explícitamente  la  privacidad  como  parte  de  su  función  de  utilidad  fue  planteada  
por  primera  vez  por  el  influyente  trabajo  de  Xiao  [85],  quien  consideró  (entre  otras  
medidas  para  el  costo  de  la  privacidad)  la  función  de  costo  de  información  mutua.
Después  de  esto,  Chen  et  al.  [15]  y  Nissim  et  al.  [67]  mostró  cómo  en  dos  modelos  
distintos,  a  veces  se  pueden  diseñar  mecanismos  veraces  incluso  para  agentes  que  
valoran  la  privacidad.  Chen  Chong,  Kash,  Moran  y  Vadhan  consideraron  la  función  de  
costo  basada  en  resultados  que  discutimos  en  esta  sección,  y  Nissim,  Orlandi  y  
Smorodinsky  consideraron  el  modelo  conservador  de  solo  acotar  por  arriba  el  costo  
de  cada  agente  mediante  una  función  lineal  en  >  El  “sándwich”  paradoja”  de  valorar  la  
privacidad  según  la  información  mutua  se  debe  a  Nissim,  Orlandi  y  Smorodinsky.

Huang  y  Kannan  demostraron  que  el  mecanismo  exponencial  podía  hacerse  
exactamente  veraz  con  la  adición  de  pagos  [49].  Kearns  Pai,  Roth  y  Ullman  
demostraron  cómo  se  puede  utilizar  la  privacidad  diferencial  para  derivar  mecanismos  
de  selección  de  equilibrio  asintóticamente  veraces  [54]  mediante  el  cálculo  privado  de  
equilibrios  correlacionados  en  grandes  juegos.  Estos  resultados  fueron  reforzados  por  
Rogers  y  Roth  [71],  quienes  mostraron  cómo  calcular  de  forma  privada  los  equilibrios  
de  Nash  aproximados  en  juegos  de  gran  congestión,  lo  que  conduce  a  propiedades  
de  incentivo  más  fuertes  del  mecanismo.  Ambos  documentos  utilizan  el  concepto  de  
solución  de  "Privacidad  diferencial  conjunta",
Machine Translated by Google

10.4.  notas  bibliograficas 215

lo  que  requiere  que  para  cada  jugador  i,  la  distribución  conjunta  de  los  
mensajes  enviados  a  otros  jugadores  j  =  i  sea  diferencialmente  privada  en  su  
informe.  Este  concepto  de  solución  también  ha  demostrado  ser  útil  en  otros  
entornos  de  diseño  de  mecanismos  privados,  incluido  un  algoritmo  para  
calcular  coincidencias  privadas  de  Hsu  et  al.  [47].
Machine Translated by Google

11
Privacidad  diferencial  y  aprendizaje  automático

Una  de  las  tareas  más  útiles  en  el  análisis  de  datos  es  el  aprendizaje  automático:  
el  problema  de  encontrar  automáticamente  una  regla  simple  para  predecir  con  
precisión  ciertas  características  desconocidas  de  datos  nunca  antes  vistos.  Muchas  
tareas  de  aprendizaje  automático  se  pueden  realizar  bajo  la  restricción  de  la  
privacidad  diferencial.  De  hecho,  la  restricción  de  la  privacidad  no  está  
necesariamente  reñida  con  los  objetivos  del  aprendizaje  automático,  ya  que  
ambos  tienen  como  objetivo  extraer  información  de  la  distribución  de  la  que  se  
extrajeron  los  datos,  en  lugar  de  puntos  de  datos  individuales.  En  esta  sección,  
examinamos  algunos  de  los  resultados  más  básicos  sobre  el  aprendizaje  
automático  privado,  sin  intentar  cubrir  este  amplio  campo  por  completo.
El  objetivo  del  aprendizaje  automático  suele  ser  similar  al  objetivo  del  análisis  
de  datos  privados.  El  alumno  generalmente  desea  aprender  alguna  regla  simple  
que  explique  un  conjunto  de  datos.  Sin  embargo,  ella  desea  que  esta  regla  se  
generalice,  es  decir,  debería  ser  que  la  regla  que  aprende  no  solo  describa  
correctamente  los  datos  que  tiene  a  mano,  sino  que  también  debería  poder  
describir  correctamente  los  nuevos  datos  que  se  extraen  de  la  misma  distribución.  
En  general,  esto  significa  que  quiere  aprender  una  regla  que  capture  la  información  
de  distribución  sobre  el  conjunto  de  datos  disponible,  de  una  manera  que  no  
dependa  demasiado  específicamente  de  ningún  punto  de  datos  único.  De

216
Machine Translated by Google

217

Por  supuesto,  este  es  exactamente  el  objetivo  del  análisis  de  datos  privados:  
revelar  información  distributiva  sobre  el  conjunto  de  datos  privados,  sin  revelar  
demasiado  sobre  ningún  individuo  en  el  conjunto  de  datos.  No  debería  sorprender  
entonces  que  el  aprendizaje  automático  y  el  análisis  de  datos  privados  estén  
estrechamente  relacionados.  De  hecho,  como  veremos,  a  menudo  podemos  realizar  
el  aprendizaje  automático  privado  con  casi  la  misma  precisión,  con  casi  la  misma  
cantidad  de  ejemplos  que  podemos  realizar  con  el  aprendizaje  automático  no  privado.
Primero  definamos  brevemente  el  problema  del  aprendizaje  automático.  Aquí,  
seguiremos  el  modelo  de  aprendizaje  automático  PAC  (o  probablemente  
aproximadamente  correcto)  de  Valiant .  Sea  Xd  =  {0,  1}  el  dominio  de  "ejemplos  sin  
etiquetar".  Piense  en  cada  x     X  como  un  vector  que  contiene  d  atributos  booleanos.  
Pensaremos  en  los  vectores  x     X  como  emparejados  con  etiquetas  y     {0,  1}.

Definición  11.1.  Un  ejemplo  etiquetado  es  un  par  (x,  y)     X  ×{0,  1}:  un  vector  
emparejado  con  una  etiqueta.

Un  problema  de  aprendizaje  se  define  como  una  distribución  D  sobre  ejemplos  
etiquetados.  El  objetivo  será  encontrar  una  función  f :  X  →  {0,  1}  que  etiquete  
correctamente  casi  todos  los  ejemplos  extraídos  de  la  distribución.

Definición  11.2.  Dada  una  función  f :  X  →  {0,  1}  y  una  distribución  D  sobre  ejemplos  
etiquetados,  la  tasa  de  error  de  f  en  D  es:

errar(f,  D)  =  Pr  [f(x)  =  y]  (x,y) D

También  podemos  definir  la  tasa  de  error  de  f  sobre  una  muestra  finita  D:
1
errar(f,  D)  =  |{(x,  y)     D :  f(x)  =  y}|.
|D|
Un  algoritmo  de  aprendizaje  puede  observar  cierto  número  de  ejemplos  
etiquetados  tomados  de  D,  y  tiene  el  objetivo  de  encontrar  una  función  f  con  una  
tasa  de  error  tan  pequeña  como  sea  posible  cuando  se  mide  en  D.  Dos  parámetros  
para  medir  la  calidad  de  un  algoritmo  de  aprendizaje  son  su  el  tiempo  de  ejecución  
y  la  cantidad  de  ejemplos  que  necesita  ver  para  encontrar  una  buena  hipótesis.

Definición  11.3.  Se  dice  que  un  algoritmo  A  aprende  PAC  una  clase  de  funciones  
C  sobre  d  dimensiones  si  para  cada  α,  β  >  0,  existe  un
Machine Translated by Google

218 Privacidad  diferencial  y  aprendizaje  automático

m  =  poly(d,  1/α,  log(1/β))  tal  que  para  cada  distribución  D  sobre  ejemplos  etiquetados,  
A  toma  como  entrada  m  ejemplos  etiquetados  extraídos  de  D  y  genera  una  hipótesis  f  
  C  tal  que  con  probabilidad  1  −  β:

err(f,  D)  ≤  min error(f ,  D)  +  α


f   C

Si  minf   C  err(f    ,  D)  =  0,  se  dice  que  el  alumno  opera  en  el  entorno  realizable  


(es  decir,  existe  alguna  función  en  la  clase  que  etiqueta  perfectamente  los  datos).  De  lo  
contrario,  se  dice  que  el  alumno  opera  en  el  entorno  agnóstico .  Si  A  también  tiene  un  
tiempo  de  ejecución  polinomial  en  d,  1/α  y  log(1/β),  se  dice  que  el  alumno  es  eficiente.  
Si  hay  un  algoritmo  que  PAC  aprende  C,  entonces  se  dice  que  C  es  aprendible  por  PAC.

La  definición  anterior  de  aprendizaje  permite  que  el  alumno  tenga  acceso  directo  a  
ejemplos  etiquetados.  A  veces  también  es  útil  considerar  modelos  de  aprendizaje  en  
los  que  el  algoritmo  solo  tiene  acceso  de  Oracle  a  cierta  información  ruidosa  sobre  D.

Definición  11.4.  Una  consulta  estadística  es  alguna  función  φ :  X  ×  {0,  1}  →  [0,  1].  Un  
oráculo  de  consulta  estadística  para  una  distribución  sobre  ejemplos  etiquetados  D  
con  tolerancia  τ  es  un  oráculo  Oτ  tal  que  para  cada  
D consulta  estadística  φ:

O τ  D(φ)  −  E(x,y) D[φ(x,  y)]  ≤  τ

En  otras  palabras,  un  oráculo  SQ  toma  como  entrada  una  consulta  estadística  φ  y  
genera  un  valor  que  se  garantiza  que  está  dentro  de  ±  τ  del  valor  esperado  de  φ  en  
ejemplos  extraídos  de  D.

El  modelo  de  consulta  estadística  de  aprendizaje  se  introdujo  para  modelar  el  
problema  del  aprendizaje  en  presencia  de  ruido.

Definición  11.5.  Se  dice  que  un  algoritmo  A  aprende  SQ  una  clase  de  funciones  C  
sobre  d  dimensiones  si  para  cada  α,  β  >  0  existe  un  m  =  poly(d,  1/α,  log(1/β))  tal  que  A  
hace  como  máximo  m  consultas  de  tolerancia  τ  =  1/m  a  Oτ  f     C  tales  que:
D, y  con  probabilidad  1−β,  genera  una  hipótesis

err(f,  D)  ≤  min  err(f  f   C ,  D)  +  α
Machine Translated by Google

11.1  Ejemplo  de  complejidad  del  aprendizaje  automático  diferencialmente  privado  219

Tenga  en  cuenta  que  un  algoritmo  de  aprendizaje  SQ  no  obtiene  ningún  acceso  
a  D  excepto  a  través  del  oráculo  SQ.  Al  igual  que  con  el  aprendizaje  PAC,  podemos  
hablar  sobre  un  algoritmo  de  aprendizaje  SQ  que  opera  en  el  entorno  realizable  o  
agnóstico,  y  hablar  sobre  la  eficiencia  computacional  del  algoritmo  de  aprendizaje.  
Decimos  que  una  clase  C  es  aprendible  SQ  si  existe  un  algoritmo  de  aprendizaje  SQ  
para  C.

11.1  La  complejidad  muestral  de  diferencialmente  privado
aprendizaje  automático

Quizás  la  primera  pregunta  que  uno  podría  hacerse,  con  respecto  a  la  relación  entre  
la  privacidad  y  el  aprendizaje,  es  "¿Cuándo  es  posible  realizar  de  forma  privada  el  
aprendizaje  automático"?  En  otras  palabras,  puede  solicitar  un  algoritmo  de  
aprendizaje  de  PAC  que  tome  como  entrada  un  conjunto  de  datos  (implícitamente  se  
supone  que  se  muestrea  de  alguna  distribución  D),  y  luego  generar  de  forma  privada  
una  hipótesis  f  que  con  alta  probabilidad  tiene  un  error  bajo  sobre  la  distribución .  Una  
pregunta  más  matizada  podría  ser:  "¿Cuántas  muestras  adicionales  se  requieren  para  
aprender  en  privado,  en  comparación  con  la  cantidad  de  muestras  que  ya  se  requieren  
para  aprender  sin  la  restricción  de  la  privacidad  diferencial?"  Del  mismo  modo,  
"¿Cuánto  tiempo  de  ejecución  adicional  se  necesita  para  aprender  de  forma  privada,  
en  comparación  con  el  tiempo  de  ejecución  necesario  para  aprender  de  forma  no  
privada?"  Aquí  esbozaremos  brevemente  los  resultados  conocidos  para  la  privacidad  
diferencial  (ε,  0).  En  general,  mejores  resultados  para  (ε,  δ)­privacidad  diferencial  se  
obtendrán  del  uso  del  teorema  de  composición  avanzado.

Un  resultado  teórico  de  la  información  fundamental  en  el  aprendizaje  automático  
privado  es  que  el  aprendizaje  PAC  privado  es  posible  con  un  número  polinomial  de  
muestras  si  y  solo  si  el  aprendizaje  PAC  no  privado  es  posible  con  un  número  
polinomial  de  muestras,  incluso  en  el  entorno  agnóstico.  De  hecho,  el  aumento  
necesario  en  la  complejidad  de  la  muestra  es  relativamente  pequeño;  sin  embargo,  
este  resultado  no  preserva  la  eficiencia  computacional.  Una  forma  de  hacerlo  es  
directamente  a  través  del  mecanismo  exponencial.  Podemos  instanciar  el  mecanismo  
exponencial  con  un  rango  R  =  C,  igual  a  la  clase  de  consultas  a  aprender.  Dada  una  
base  de  datos  D,  podemos  usar  el  puntaje  de  calidad  q(f,  D)  =  −  |{(x,  y)     D :  f(x)  =  
1
y}|:  es  decir,  buscamos  
minimizar  el  |D|  fracción  de  ejemplos  mal  clasificados  en  el  
conjunto  de  datos  privado.  esto  es  claramente
Machine Translated by Google

220 Privacidad  diferencial  y  aprendizaje  automático

una  función  sensible  1/n  de  los  datos  privados,  por  lo  que  tenemos  a  través  de  nuestro  
teorema  de  utilidad  para  el  mecanismo  exponencial  que  con  probabilidad  1−β,  este  
mecanismo  devuelve  una  función  f     C  que  etiqueta  correctamente  un  2(log  |C|+log
1  β)
OPT  ­ n fracción  de  los  puntos  en  la  base  de  datos  correctamente.
Recuerde,  sin  embargo,  que  en  el  entorno  de  aprendizaje,  consideramos  que  la  base  
de  datos  D  consta  de  n  iid  extraídos  de  alguna  distribución  sobre  ejemplos  etiquetados  
D.  Recuerde  la  discusión  de  los  límites  de  muestreo  en  el  Lema  4.3.
Un  límite  de  Chernoff  combinado  con  un  límite  de  unión  nos  dice  que,  con  alta  
probabilidad,  si  D  consta  de  n  iid  muestras  extraídas  de  D,  entonces  para  todo  log  |C|  f  
  C:  
|error(f,  D)  −  error(f,  D)|  ≤  O( ).  Por  lo  tanto,  si  deseamos  encontrar  una  hipótesis  que  
norte

tenga  un  error  dentro  de  α  del  error  óptimo  en  la  distribución  D,  basta  con  dibujar  una  
base  de  datos  D  que  consta  de  n  ≥  log  |C|/α2  muestras,  y  aprender  el  mejor  clasificador  
f     en  D.
Ahora  considere  el  problema  del  aprendizaje  privado  de  PAC,  usando  el  mecanismo  
exponencial  como  se  describió  anteriormente.  Recuerde  que,  por  el  teorema  3.11,  es  
muy  poco  probable  que  el  mecanismo  exponencial  devuelva  una  función  f  con  una  
puntuación  de  utilidad  inferior  a  la  de  en  más  de  un  factor  aditivo  de  O((∆u/ε)  log  |C|) ,  
es  1/n.  Es   donde  f     óptimo  en  este  caso  ∆u,  la  sensibilidad  de  la  función  de  utilidad,  
decir,  con  alta  probabilidad  el  mecanismo  exponencial  devolverá  una  función  f     C  tal  
que:

(registro  |C|)
err(f,  D)  ≤  min error(f ,  D)  +  O
f   C n

registro  |C| (registro  |C|)
≤  min  f   errar(f   ,  D)  +  O +  O .
C norte n
     

Por  lo  tanto,  si  deseamos  encontrar  una  hipótesis  que  tenga  un  error  dentro  de  α  del  
error  óptimo  en  la  distribución  D,  basta  con  dibujar  una  base  de  datos  D  compuesta  por:

registro  |C| registro  |
n  ≥  O  máx. , ,
εα C|  α2

que  no  es  asintóticamente  más  que  el  tamaño  de  la  base  de  datos  que  se  requiere  para  
el  aprendizaje  no  privado,  siempre  que  ε  ≥  α.
Machine Translated by Google

11.1.  Ejemplo  de  complejidad  del  aprendizaje  automático  diferencialmente  privado  221

Un  corolario  de  este  cálculo  simple1  es  que  (ignorando  la  eficiencia  
computacional),  una  clase  de  funciones  C  es  aprendible  por  PAC  si  y  solo  si  es  
aprendible  por  PAC  en  privado.
¿Podemos  decir  algo  más  fuerte  sobre  una  clase  de  concepto  C  que  se  puede  
aprender  SQ?  Observe  que  si  C  es  eficientemente  aprendible  SQ,  entonces  el  
algoritmo  de  aprendizaje  para  C  solo  necesita  acceder  a  los  datos  a  través  de  un  
oráculo  SQ,  que  es  muy  susceptible  a  la  privacidad  diferencial:  tenga  en  cuenta  que  
un  oráculo  SQ  responde  a  una  consulta  de  expectativa  definida  sobre  un  predicado  
φ(x ,  y)     [0,  1],  E(x,y) D[φ(x,  y)],  que  es  sensible  solo  1/n  cuando  se  estima  en  una  
base  de  datos  D  que  es  una  muestra  de  tamaño  n  de  D.  Además,  el  algoritmo  de  
aprendizaje  no  necesita  recibir  la  respuesta  exactamente,  pero  se  puede  ejecutar  con  
cualquier  respuesta  a  que  tenga  la  propiedad  de  que:  |E(x,y) D[φ(x,  y)]−a|  ≤  τ :  es  
decir,  el  algoritmo  se  puede  ejecutar  utilizando  respuestas  ruidosas  en  consultas  de  
baja  sensibilidad.  El  beneficio  de  esto  es  que  podemos  responder  tales  consultas  de  
manera  computacionalmente  eficiente,  utilizando  el  mecanismo  de  Laplace,  pero  a  
expensas  de  requerir  un  tamaño  de  muestra  potencialmente  grande.  Recuerde  que  el  
mecanismo  de  Laplace  puede  responder  m  1/n  consultas  sensibles  con  diferencial  (ε,  0)
privacidad  y  con  el  error  esperado  en  el  peor  de  los  casos  α  =   registro  
n
m  _
).  Por  lo  tanto,
O( se  puede  ejecutar  un  algoritmo  de  aprendizaje  SQ  que  requiere  las  respuestas  a  m  
consultas  con  precisión  α  con  un  tamaño  de  muestra  de  n  =  O(max(m )).
registro  m
εα ,
logaritmo  
m  α2

Comparemos  esto  con  el  tamaño  de  muestra  requerido  para  un  estudiante  de  SQ  no  
privado.  Si  el  estudiante  de  SQ  necesita  hacer  m  consultas  a  la  tolerancia  α,  entonces  
por  un  límite  de  Chernoff  y  un  límite  de  unión,  un  tamaño  de  muestra  de  O(log  m/α2 )  
es  suficiente.  Tenga  en  cuenta  que  para  ε  =  O(1)  y  error  α  =  O(1),  el  algoritmo  no  
privado  requiere  potencialmente  exponencialmente  menos  muestras.  Sin  embargo,  
con  la  tolerancia  de  error  α  ≤  1/m  permitida  en  la  definición  de  aprendizaje  SQ,  la  
complejidad  de  la  muestra  para  el  aprendizaje  SQ  privado  no  es  peor  que  la  
complejidad  de  la  muestra  para  el  aprendizaje  SQ  no  privado,  para  =  Θ(1).
El  resultado  es  que,  en  teoría,  la  privacidad  de  la  información  plantea  muy  pocos  
obstáculos  para  el  aprendizaje  automático.  Además,  para  cualquier  algoritmo  que  
acceda  a  los  datos  solo  a  través  de  un  oráculo  SQ,2  entonces  la  reducción  a

1Junto  con  los  límites  inferiores  correspondientes  que  muestran  que  para  C  general,  no  es  posible  aprender  PAC  de  
forma  no  privada  utilizando  una  muestra  con  puntos  o(log  |C|/α2 ).
2Y,  de  hecho,  casi  todas  las  clases  (con  la  única  excepción  de  las  funciones  de  paridad)  de
Las  funciones  que  se  sabe  que  se  pueden  aprender  con  PAC  también  se  pueden  aprender  usando  solo  un  oráculo  SQ.
Machine Translated by Google

222 Privacidad  diferencial  y  aprendizaje  automático

¡el  aprendizaje  privado  es  inmediato  a  través  del  mecanismo  de  Laplace  y  preserva  
la  eficiencia  computacional!

11.2  Aprendizaje  en  línea  diferencialmente  privado

En  esta  sección,  consideramos  un  problema  de  aprendizaje  ligeramente  diferente,  
conocido  como  el  problema  de  aprender  del  consejo  de  expertos.  Este  problema  
parecerá  algo  diferente  de  los  problemas  de  clasificación  que  discutimos  en  la  
sección  anterior,  pero  de  hecho,  el  algoritmo  simple  presentado  aquí  es  
extremadamente  versátil  y  puede  usarse  para  realizar  la  clasificación  entre  muchas  
otras  tareas  que  no  discutiremos  aquí.
¡Imagina  que  estás  apostando  en  carreras  de  caballos,  pero  desafortunadamente  
no  sabes  nada  sobre  caballos!  No  obstante,  tienes  acceso  a  las  opiniones  de  
algunos  k  expertos,  que  cada  día  hacen  una  predicción  sobre  qué  caballo  va  a  
ganar.  Cada  día  puedes  elegir  uno  de  los  expertos  cuyo  consejo  seguirás,  y  cada  
día,  siguiendo  tu  apuesta,  sabrás  qué  caballo  ganó  realmente.  ¿Cómo  debe  decidir  
a  qué  experto  seguir  cada  día  y  cómo  debe  evaluar  su  desempeño?  Los  expertos  
no  son  perfectos  (¡de  hecho,  es  posible  que  ni  siquiera  sean  buenos!),  por  lo  que  
no  es  razonable  esperar  que  hagas  la  apuesta  correcta  todo  el  tiempo,  o  incluso  la  
mayor  parte  del  tiempo  si  ninguno  de  los  expertos  lo  hace. .  Sin  embargo,  es  posible  
que  tenga  un  objetivo  más  débil:  ¿puede  apostar  a  los  caballos  de  tal  manera  que  
lo  haga  casi  tan  bien  como  el  mejor  experto,  en  retrospectiva?

Formalmente,  un  algoritmo  de  aprendizaje  en  línea  A  opera  en  el  siguiente  
entorno:

1.  Cada  día  t  =  1, . . . ,  T:

(a)  A  elige  un  experto  en     {1, . . . ,  k}  (b)  A  
observa  una  pérdida  y   yo   [0,  1]  para  cada  experto  i     {1, . . . ,  k}
t  
experimenta  una  pérdida en .

T
Para  una  secuencia  de  pérdidas  ≤T  ≡  { t} t=1, nosotros  escribimos:

T
≤T 1 ti
li( )  =
Tt  =1
Machine Translated by Google

11.2.  Aprendizaje  en  línea  diferencialmente  privado 223

para  denotar  la  pérdida  promedio  total  del  experto  i  en  todas  las  rondas  T ,  y  escribir

1 T
≤T )  = t
LA( en
Tt  =1
para  denotar  la  pérdida  media  total  del  algoritmo.
El  arrepentimiento  del  algoritmo  se  define  como  la  diferencia  entre  la  pérdida  en  la  
que  realmente  incurrió  y  la  pérdida  del  mejor  experto  en  retrospectiva:

arrepentimiento(A,
≤T )  =  LA( ≤T )  −  min ≤T ).
li(
i
El  objetivo  en  el  aprendizaje  en  línea  es  diseñar  algoritmos  que  tengan  la  garantía  de  
≤T ,incluso  elegidas  adversariamente,  
que  para  todas  las  posibles  secuencias  de  pérdida,  
se  garantiza  que  el  arrepentimiento  tenderá  a  cero  cuando  T  →  ∞.  De  hecho,  esto  es  
posible  usando  el  algoritmo  de  pesos  multiplicativos  (conocido  también  por  muchos  
nombres,  por  ejemplo,  el  Algoritmo  de  Mayoría  Ponderada  Aleatoria,  Cobertura,  
Descenso  de  Gradiente  Exponenciado,  y  los  pesos  multiplicativos  se  encuentran  entre  
los  más  populares).

Observación  11.1.  Ya  hemos  visto  este  algoritmo  antes  en  la  Sección  4:  ¡esta  es  solo  la  
regla  de  actualización  de  pesos  multiplicativos  en  otra  forma!
De  hecho,  habría  sido  posible  derivar  todos  los  resultados  sobre  el  mecanismo  privado  
de  pesos  multiplicativos  directamente  del  límite  de  arrepentimiento  que  establecemos  
en  el  Teorema  11.1.

Algoritmo  15  El  algoritmo  de  Pesos  multiplicativos  (o  Mayoría  ponderada  aleatoria  
(RWM)),  versión  1.  Toma  como  entrada  un  flujo  de  pérdidas , . . .  y  genera  un  flujo  de  
acciones  1 ,a1,  2a2, . . ..  Se  parametriza  mediante  un  parámetro  de  actualización  η.

RWM(η):  
Para  cada  i     {1, . . . ,  k},  sea  wi  ←  1.  para  
t  =  1, . . .  do  Elija  la  
acción  en  =  i  con  probabilidad  proporcional  a  wi  y  establezca  wi  ←  wi  ∙  
Observar t
exp(−ηt ),  para  cada  i     [k] i
fin  para

Resulta  que  este  simple  algoritmo  ya  tiene  un  notable  límite  de  arrepentimiento.
Machine Translated by Google

224 Privacidad  diferencial  y  aprendizaje  automático

Teorema  11.1.  Para  cualquier  secuencia  adversariamente  elegida  de  pérdidas  de  
longitud  T,  ≤T  =  ( ),  el  1a, . . . ,
lgoritmo  T
de  Mayoría  ponderada  aleatoria  con  parámetro  
de  actualización  η  tiene  la  garantía  de  que:

E[Arrepentimiento(RWM(η), ≤T ln(k) )]  ≤   , (11.1)


η  +  ηT

en  k
donde  k  es  el  número  de  expertos.  Elegir  η  = T
da:

en  k
E[Arrepentimiento(RWM(η), ≤T )]  ≤  2 .
T

Este  notable  teorema  establece  que  incluso  frente  a  un  adversario
En  una  secuencia  inicial  de  pérdidas,  el  algoritmo  de  Mayoría  ponderada  aleatoria  
puede  funcionar,  en  promedio,  como  el  mejor  experto  entre  k  en  retrospectiva,  
menos  solo  un  término  aditivo  adicional  que  tiende  a  cero  a  una  tasa  de  O( ).  En  
en  k en  
otras  pTalabras,  después  de  un  máximo  de  T  ≤  4  rondas,  k  
sαe  
2
garantiza  que  el  
arrepentimiento  del  algoritmo  de  mayoría  aleatoria  ponderada  será  como  máximo  
α.  Además,  este  límite  es  el  mejor  posible.
¿Podemos  lograr  algo  similar,  pero  bajo  la  restricción  de  la  privacidad  
diferencial?  Antes  de  que  podamos  hacer  esta  pregunta,  debemos  decidir  qué  es  
la  base  de  datos  de  entrada  y  con  qué  granularidad  nos  gustaría  proteger  la  
privacidad.  Dado  que  la  entrada  es  la  colección  de  vectores  de  pérdida  T  como  la  
≤T 1 , . . . , base  dne  
),  es   datos,  
atural   y  c≤omo  
ver   T  =  (u ver  
no  quue  
n  difiere  en  toda  la  pérdida
vector  ̂≤T  de  una  base  de  datos  
vecina  
ˆ en  cualquier  paso  de  tiempo  único:  es  decir,  uno   ˆ en  el  que  para  algún  
i = i t y
paso  de  tiempo  fijo  para  todo  i  =  t,  pero  en  tel  que  puede  diferir  
arbitrariamente.  t,  La  salida  del  algoritmo  es  la  secuencia  de  acciones  que  elige,  
aT  de   , y  es  esto  lo  que  deseamos  que  salga  de  manera  diferencial  a1, . . . ,  
manera  privada.
Nuestra  primera  observación  es  que  el  algoritmo  de  mayoría  aleatoria  
ponderada  elige  una  acción  en  cada  día  t  de  una  manera  familiar.  Aquí  
reformulamos  el  algoritmo  de  una  manera  equivalente:
Elige  una  acción  en  con  probabilidad  proporcional  a:  exp(−η ),  que  es  
t−1  
simplemente  
j=1
el  mJiecanismo  exponencial  con  puntuación  de  calidad  q(i,  porque  
<T t−1  
cada )  =  y  parámetro  
j=1 ji , de  privacidad  ε  =  2η.  Tenga  en  cuenta  que     [0,  

yo
1],  la  función  de  calidad  tiene  sensibilidad  1.  Por  lo  tanto,
Machine Translated by Google

11.2.  Aprendizaje  en  línea  diferencialmente  privado 225

Algoritmo  16  El  algoritmo  de  Pesos  multiplicativos  (o  Mayoría  ponderada  aleatoria  
(RWM)),  reformulado.  Toma  como  entrada  un  flujo  de , . . .  y  genera  un  flujo  de  acciones  
pérdidas
1
, 2
a1,  a2, . . ..  Se  parametriza  mediante  un  parámetro  de  actualización  η.

RWM(η):  
para  t  =  1, . . .  hacer
Elija  la  acción  en  =  i  con  probabilidad  proporcional  a  t−1  exp(−η )  j=1  t
Ji
Observar
fin  para

cada  ronda  t,  el  algoritmo  de  mayoría  aleatoria  ponderada  elige  una  acción  en  de  una  
manera  que  preserva  la  privacidad  diferencial  2η ,  por  lo  que  para  lograr  la  privacidad  ε  
es  suficiente  establecer  η  =  ε/2.
Además,  en  el  transcurso  de  la  ejecución  del  algoritmo,  elegirá  una  acción  T  veces.  
Si  queremos  que  toda  la  ejecución  del  algoritmo  sea  (ε,  δ)  diferencialmente  privado  para  
algunos  ε  y  δ,  podemos  simplemente  aplicar  nuestros  teoremas  de  composición.  
Recuerde  que  por  el  Teorema  3.20,  dado  que  hay  T  pasos  en  total,  si  cada  paso  del  
algoritmo  es  (ε ,  0)  diferencialmente  privado  para  ε  =  ε/  8T  ln(1/δ),  entonces  todo  el  
algoritmo  será  (ε ,  δ)  diferencialmente  privado.  Así,  el  siguiente  teorema  es  inmediato  al  
hacer  η  =  ε /2:

Teorema  11.2.  Para  una  secuencia  de  pérdidas  de  longitud  T,  el  algoritmo  RWM(η)  con  
ε
η  =  es  (ε,  δ)­diferencialmente  privado.  √  32T  ln(1/δ)

Sorprendentemente,  obtenemos  este  teorema  sin  modificar  en  absoluto  el  algoritmo  
original  de  mayoría  aleatoria  ponderada,  sino  simplemente  ajustando  η  de  manera  
adecuada.  En  cierto  sentido,  ¡obtenemos  privacidad  gratis!
Por  lo  tanto,  podemos  usar  el  Teorema  11.1,  el  teorema  de  la  utilidad  para  el  algoritmo  
RWM,  sin  modificaciones  también:

Teorema  11.3.  Para  cualquier  secuencia  de  pérdidas  de  longitud  T  elegida  por  el  
1 T
, . . . ,
adversario,  ≤T  =  ( )  la  Mayoría  ponderada  aleatoria
Machine Translated by Google

226 Privacidad  diferencial  y  aprendizaje  automático

ε
algoritmo  con  parámetro  de  actualización  η  =  √ tiene  la  garantia
32T  ln(1/δ)
eso:
ε 32  ln(1/δ)  ln  k  ε  
≤T +
E[Arrepentimiento(RWM(η), )]  ≤
32T  ln(1/δ) √  T

128  ln(1/δ)  ln  k  ε  
≤ ,
√  T
donde  k  es  el  número  de  expertos.

Dado  que  la  pérdida  por  ronda  en  cada  paso  de  tiempo  t  es  una  variable  aleatoria  
elegida  de  forma  independiente  (sobre  las  opciones  de  at)  con  valores  acotados  en  
[−1,  1],  también  podemos  aplicar  un  límite  de  Chernoff  para  obtener  una  garantía  de  
alta  probabilidad:

Teorema  11.4.  Para  cualquier  secuencia  adversariamente  elegida  de  pérdidas  de  
1
, . . . , dTe  Mayoría  ponderada  aleatoria  con  parámetro  de  
longitud  T,  ≤T  =  ( )  el  algoritmo  
ε
actualización  η  =  produce  una  secuencia  de  √  32T  ln(1/δ)  acciones  tales  que  con  una  
probabilidad  
de  al  menos  1  −  β:

128  ln(1/δ)  ln  k  +   en  k/β
Arrepentimiento(RWM(η), ≤T )  ≤ ε  √  
T T

ln(1/δ)  ln(k/β)  ε  √  
=  O .
T

Este  límite  es  casi  tan  bueno  como  el  mejor  límite  posible  alcanzable  incluso  sin  
privacidad  (es  decir,  el  límite  RWM):  el  límite  de  arrepentimiento  es  √  ln  (k)  ln(1/δ)  
mayor  solo  
por  un  factor  de  Ω( ).  (Notamos  que  al  usar  εun  algoritmo  diferente  con  un  análisis  más  
cuidadoso,  podemos  eliminar  este  factor  extra  de  √  ln  k).  Dado  que,  de  hecho,  estamos  
utilizando  el  mismo  algoritmo,  la  eficiencia,  por  supuesto,  también  se  conserva.  Aquí  
tenemos  un  poderoso  ejemplo  de  aprendizaje  automático  donde  la  privacidad  es  casi  
"gratis".  En  particular,  al  igual  que  con  el  algoritmo  no  privado,  nuestro  límite  de  utilidad  
solo  mejora  cuanto  más  tiempo  ejecutamos  el  algoritmo,  mientras  mantenemos  la  
misma  garantía  de  privacidad.3

3Por  supuesto,  tenemos  que  configurar  el  parámetro  de  actualización  de  manera  adecuada,  al  
igual  que  tenemos  que  hacer  con  el  algoritmo  no  privado.  Esto  es  fácil  cuando  el  número  de  rondas  
T  se  conoce  de  antemano,  pero  también  se  puede  hacer  de  forma  adaptativa  cuando  el  número  de  
rondas  no  se  conoce  de  antemano.
Machine Translated by Google

11.3.  Minimización  empírica  del  riesgo 227

11.3  Minimización  empírica  del  riesgo

En  esta  sección,  aplicamos  el  algoritmo  de  mayoría  aleatoria  ponderada  analizado  en  la  
sección  anterior  a  un  caso  especial  del  problema  de  minimización  empírica  del  riesgo  para  
aprender  una  función  lineal.  En  lugar  de  asumir  un  modelo  contradictorio,  supondremos  que  
los  ejemplos  se  extraen  de  alguna  distribución  conocida,  y  deseamos  aprender  un  clasificador  
a  partir  de  un  número  finito  de  muestras  de  esta  distribución  para  que  nuestra  pérdida  sea  
baja  en  nuevas  muestras  extraídas  de  la  misma  distribución. .

Supongamos  que  tenemos  una  distribución  D  sobre  los  ejemplos  x     [−1,  1]d ,  y  para  
cada  vector  x     [−1,  1]d ,  y  para  cada  vector  θ     [0,  1]d  con  θ1  =  1 ,  definimos  la  pérdida  
de  θ  en  el  ejemplo  x  como  Loss(θ,  x)  =  θ,  x.
Deseamos  encontrar  un  vector  θ     para  minimizar  la  pérdida  esperada  sobre  los  ejemplos
sacado  de  D:

θ =   Ex D[θ,  x].  min  
argumento  θ [0,1]d:θ1=1

Este  problema  se  puede  utilizar  para  modelar  la  tarea  de  encontrar  un  clasificador  lineal  de  
bajo  error.  Por  lo  general,  nuestro  único  acceso  a  la  distribución  D  es  a  través  de  una  
colección  de  ejemplos  S     [−1,  1]d  extraídos  iid  de  D,  que  sirve  como  entrada  para  nuestro  
algoritmo  de  aprendizaje.  Aquí  pensaremos  en  esta  muestra  S  como  nuestra  base  de  datos  
privada,  y  nos  interesará  saber  qué  tan  bien  es  una  función  de  |S|  (Podemos  aproximar  en  
la  complejidad  del  algoritmo  de  aprendizaje). privado  el  error  de  θ     muestra  

Nuestro  enfoque  será  reducir  el  problema  al  de  aprender  con  el  asesoramiento  de  
expertos  y  aplicar  la  versión  privada  del  algoritmo  de  mayoría  aleatoria  ponderada  como  se  
discutió  en  la  última  sección:

1.  Los  expertos  serán  los  d  vectores  base  estándar  {e1, . . . ,  ed},  donde  ei  =  (0, . . . ,  0,  
1 ,  0, . . . ,  0).
i

2.  Dado  un  ejemplo  x     [−1,  1]d ,  [−1,  1]d  al   definimos  un  vector  de  pérdida  (x)     x  


establecer  (x)i  =  ei  palabras,   , para  cada  i     {1, . . . ,  d}.  En  otra
simplemente  establecemos  (x)i  =  xi .
t
3.  En  el  tiempo  t,  elegimos  una  función  de  pérdida   muestreando  x     D  y
t
configuración=  (x).  
Machine Translated by Google

228 Privacidad  diferencial  y  aprendizaje  automático

Tenga  en  cuenta  que  si  tenemos  una  muestra  S  de  D  de  tamaño  |S|  =  T,  entonces  
podemos  ejecutar  el  algoritmo  RWM  en  la  secuencia  de  pérdidas  como  se  describe  
arriba  para  un  total  de  T  rondas.  Esto  producirá  una  secuencia  de  salidas  a1, . . . ,   ,
1 T
aT  T  y  definiremos  nuestro  clasificador  final  como  θ  i=1  ai .  ≡ T
(Recuerde  
que  cada  ai  
es  un  vector  base  estándar  ai     {e1, . . . ,  ed},  por  lo  que  =  1).  tienen  θ  Resumimos  
T
algoritmo   1 el  
a  continuación:

Algoritmo  17  Un  algoritmo  para  aprender  funciones  lineales.  Toma  como  entrada  
una  base  de  datos  privada  de  ejemplos  S     [−1,  1]d ,  S  =  (x1, . . . ,  xT ),  y  parámetros  
de  privacidad  ε  y  δ.
Aprendiz  lineal  (S,  ε,  δ):
ε
Sea  η  ←  
√ 32T  ln(1/
δ)  para  t  =  1  a  T  =  |S|  hacer
Elija  el  vector  en  =  ei  con  probabilidad  proporcional  a  exp(−η )
t−1   j  
j=1  yo
t
Dejar  vector  de  pérdida =  (e1,  xt,e2,  xt, . . . ,ed,  xt).
fin  para
T 1 T
Salida  θ = T t=1  en .

Ya  hemos  visto  que  LinearLearner  es  privado,  ya  que  es  simplemente  una  
instanciación  del  algoritmo  de  mayoría  ponderada  aleatoria  con  el  parámetro  de  
actualización  correcto  η:

Teorema  11.5.  LinearLearner(S,  ε,  δ)  es  (ε,  δ)  diferencialmente  privado.

Queda  por  analizar  la  precisión  de  clasificación  de  LinearLearner,  que  equivale  
a  considerar  el  límite  de  arrepentimiento  del  algoritmo  RWM  privado.

Teorema  11.6.  Si  S  consta  de  T  iid  muestras  x     D,  entonces  con  una  probabilidad  
de  al  menos  1−β,  LinearLearner  genera  un  vector  θ T  tal  que:

T ln(1/δ)  ln(d/β)  ε  √  
Ex D[θ ,  x]  ≤  min θ   Ex D[θ ,  x]  +  O ,
T

donde  d  es  el  número  de  expertos.
Machine Translated by Google

11.3.  Minimización  empírica  del  riesgo 229

Prueba.  Por  el  Teorema  11.4,  tenemos  la  siguiente  garantía  con  
probabilidad  de  al  menos  1  −  β/2:
T T
1 1 ln(1/δ)  ln(d/β)  ε  
en , xt  ≤  min   ei , xt  +  O
Tt  =1 i {1,...,d} Tt  =1 √  T
T
1 ln(1/δ)  ln(d/β)  ε  
= minθ   θ , xt  +  O .
   [0,1]d:θ   1=1 Tt  =1 √  T

En  la  primera  igualdad,  usamos  el  hecho  de  que  el  mínimo  de  una  función  
lineal  sobre  el  símplex  se  logra  en  un  vértice  del  símplex.  Observando  que  
cada  xt     D  independientemente  y  que  cada  xt   , ei  está  acotado  en  [−1,  1],
podemos  aplicar  la  desigualdad  de  Azuma  dos  veces  para  acotar  las  dos  
cantidades  con  probabilidad  de  al  menos  1  −  β/2:

T T
1 1
en , xt  − Ex Dat ,X
Tt  =1 Tt  =1
T
1 ln(1/β)
, x  ≤  O
= en , Txt  −  Ex Dθ  _
T T
t=1      

T
1 ln(d/β)
i
máximo
{1,...,d}
ei ,
T xt  −  Ex Dei , x  ≤  O T
t=1        .

Por  lo  tanto  también  tenemos:

T
1 en  d/β
máximo θ , xt  −  Ex Dθ , x  ≤  O T
θ   [0,1]d:  θ   1=1 Tt  =1        .

La  combinación  de  estas  desigualdades  nos  da  nuestro  resultado  final  sobre  la  salida
t :
del  algoritmo  θ

T ln(1/δ)  ln(d/β)  ε   .
Ex Dθ , x  ≤  min  θ   Ex Dθ   , x  +  o
[0,1]d:θ   1=1 √  T
Machine Translated by Google

230 Privacidad  diferencial  y  aprendizaje  automático

11.4  Notas  bibliográficas

El  modelo  PAC  de  aprendizaje  automático  fue  introducido  por  Valiant  en  1984  [83],  y  
el  modelo  SQ  fue  introducido  por  Kearns  [53].  El  algoritmo  de  mayoría  aleatoria  
ponderada  se  debe  originalmente  a  Littlestone  y  War  muth  [57],  y  se  ha  estudiado  
de  muchas  formas.  Véase  Blum  y  Mansour  [9]  o  Arora  et  al.  [1]  para  una  encuesta.  
El  límite  de  arrepentimiento  que  usamos  para  el  algoritmo  de  mayoría  aleatoria  
ponderada  se  da  en  [1].
El  aprendizaje  automático  fue  uno  de  los  primeros  temas  estudiados  en  privacidad  
diferencial,  comenzando  con  el  trabajo  de  Blum  et  al.  [7],  quienes  demostraron  que  
los  algoritmos  que  operan  en  el  marco  de  aprendizaje  SQ  podrían  convertirse  en  
algoritmos  de  preservación  de  la  privacidad.  Kasiviswanathan,  Lee,  Nissim,  
Raskhodnikova  y  Smith  consideraron  por  primera  vez  la  complejidad  de  la  muestra  
del  aprendizaje  diferencialmente  privado,  “¿Qué  podemos  aprender  en  privado?” [52],  
que  caracterizan  la  complejidad  muestral  del  aprendizaje  privado  hasta  factores  
polinómicos.  Para  un  análisis  más  refinado  de  la  complejidad  de  la  muestra  del  
aprendizaje  privado,  consulte  [3,  4,  12,  19].
También  hay  un  trabajo  extenso  sobre  algoritmos  de  aprendizaje  automático  
eficientes,  incluidos  los  marcos  bien  conocidos  de  SVM  y  minimizadores  de  riesgo  
empíricos  [13,  55,  76].  También  se  han  estudiado  técnicas  de  aprendizaje  espectral,  
incluyendo  PCA  y  aproximación  de  matriz  de  bajo  rango  [7,  14,  33,  42,  43,  51].

El  aprendizaje  privado  a  partir  del  asesoramiento  de  expertos  fue  considerado  
por  primera  vez  por  Dwork  et  al.  [26].  El  hecho  de  que  el  algoritmo  de  mayoría  
ponderada  aleatoria  conserve  la  privacidad  sin  modificaciones  (cuando  el  parámetro  
de  actualización  se  establece  correctamente)  es  folklore  (a  raíz  de  la  composición  
avanzada  [32])  y  ha  sido  ampliamente  utilizado;  por  ejemplo,  en  [48].  Para  un  estudio  
más  general  del  aprendizaje  privado  en  línea,  consulte  [50],  y  para  un  estudio  más  
general  de  la  minimización  empírica  del  riesgo,  consulte  [50,  13].
Machine Translated by Google

12
Modelos  adicionales

Hasta  ahora,  hemos  hecho  algunas  suposiciones  implícitas  sobre  el  modelo  de  análisis  de  
datos  privados.  Por  ejemplo,  hemos  asumido  que  hay  algún  curador  de  confianza  que  tiene  
acceso  directo  al  conjunto  de  datos  privado,  y  hemos  asumido  que  el  adversario  solo  tiene  
acceso  a  la  salida  del  algoritmo,  no  a  ninguno  de  sus  estados  internos  durante  su  ejecución.  
Pero,  ¿y  si  este  no  es  el  caso?  ¿Qué  pasa  si  no  confiamos  en  nadie  para  ver  nuestros  
datos,  ni  siquiera  para  realizar  el  análisis  de  datos  de  preservación  de  la  privacidad?  ¿Qué  
pasa  si  algún  pirata  informático  puede  obtener  acceso  al  estado  interno  del  algoritmo  
privado  mientras  se  está  ejecutando?  En  esta  sección,  relajamos  algunas  de  nuestras  
suposiciones  anteriores  y  consideramos  estas  preguntas.

En  esta  sección  describimos  algunos  modelos  computacionales  adicionales
que  han  recibido  atención  en  la  literatura.

•  El  modelo  local  es  una  generalización  de  la  respuesta  aleatoria  (consulte  la  Sección  
2)  y  está  motivado  por  situaciones  en  las  que  las  personas  no  confían  sus  datos  al  
curador.  Si  bien  esta  falta  de  confianza  puede
abordarse  mediante  computación  multipartita  segura  para  simular  el  papel  
desempeñado  por  el  curador  de  confianza,  también  existen  algunas  técnicas  que  
no  requieren  criptografía.

231
Machine Translated by Google

232 Modelos  adicionales

Los  siguientes  dos  modelos  consideran  flujos  de  eventos,  cada  uno  de  los  cuales  puede  
estar  asociado  con  un  individuo.  Por  ejemplo,  un  evento  puede  ser  una  búsqueda  por  
parte  de  una  persona  en  particular  en  un  término  arbitrario.  En  un  flujo  de  eventos  dado,  
los  (potencialmente  muchos)  eventos  asociados  con  un  individuo  determinado  pueden  
intercalarse  arbitrariamente  con  eventos  asociados  con  otros  individuos.

•  En  pan­privacidad ,  se  confía  en  el  curador,  pero  puede  estar  sujeto  a  la  
divulgación  obligatoria  de  datos  no  privados,  por  ejemplo,  debido  a  una  citación  
o  porque  la  entidad  que  posee  la  información  es  comprada  por  otra  entidad,  
posiblemente  menos  confiable.  Por  lo  tanto,  en  pan­privacidad,  el  estado  interno  
del  algoritmo  también  es  diferencialmente  privado,  al  igual  que  la  distribución  
conjunta  del  estado  interno  y  las  salidas.

•  El  modelo  de  observación  continua  aborda  la  cuestión  de  mantener  la  privacidad  
cuando  el  objetivo  es  monitorear  continuamente  y  reportar  estadísticas  sobre  
eventos,  como  compras  de  medicamentos  sin  receta  que  podrían  ser  indicativos  
de  una  epidemia  inminente.
Algunos  trabajos  abordan  la  panprivacidad  bajo  observación  continua.

12.1  El  modelo  local

Hasta  ahora,  hemos  considerado  un  modelo  centralizado  de  privacidad  de  datos,  en  el  
que  existe  un  administrador  de  base  de  datos  que  tiene  acceso  directo  a  los  datos  
privados.  ¿Qué  sucede  si,  en  cambio,  no  hay  un  administrador  de  base  de  datos  de  confianza?
Incluso  si  hay  una  parte  confiable  adecuada,  hay  muchas  razones  para  no  querer  que  
un  tercero  agregue  datos  privados.  La  existencia  misma  de  una  base  de  datos  agregada  
de  información  privada  plantea  la  posibilidad  de  que,  en  algún  momento  futuro,  llegue  a  
manos  de  una  parte  no  confiable,  ya  sea  de  forma  malintencionada  (a  través  del  robo  de  
datos)  o  como  resultado  natural  de  la  sucesión  organizacional.  Un  modelo  superior,  
desde  la  perspectiva  de  los  propietarios  de  los  datos  privados,  sería  un  modelo  local,  en  
el  que  los  agentes  podrían  (al  azar)  responder  preguntas  de  manera  diferentemente  
privada  sobre  sus  propios  datos,  sin  compartirlos  nunca  con  nadie  más.  En  el  contexto  
de  consultas  de  predicado,  esto  parece  limitar  severamente  la  expresividad  de  la  
interacción  de  un  mecanismo  privado  con  los  datos:  el  mecanismo  puede  preguntar  a  
cada  usuario  si  sus  datos  satisfacen  o  no  un  predicado  dado,  y
Machine Translated by Google

12.1.  El  modelo  local 233

el  usuario  puede  lanzar  una  moneda  y  responder  con  la  verdad  solo  con  una  probabilidad  
ligeramente  mayor  que  responder  con  un  falso.  En  este  modelo  ¿qué  es  posible?
El  modelo  de  privacidad  local  se  introdujo  por  primera  vez  en  el  contexto  del  
aprendizaje.  El  modelo  de  privacidad  local  formaliza  la  respuesta  aleatoria:  no  hay  una  
base  de  datos  central  de  datos  privados.  En  cambio,  cada  individuo  mantiene  la  posesión  
de  su  propio  elemento  de  datos  (una  base  de  datos  de  tamaño  1)  y  responde  preguntas  
sobre  él  solo  de  una  manera  diferencialmente  privada.  Formalmente,  la  base  de  datos  x  
  N  |X|  es  una  colección  de  n  elementos  de  algún  dominio  X  y  cada  xi     x  está  en   ,
manos  de  un  individuo.

Definición  12.1  (Aleatorizador  local).  Un  aleatorizador  ε­local  R :  X  →  W  es  un  algoritmo  
ε­diferencialmente  privado  que  toma  como  entrada  una  base  de  datos  de  tamaño  n  =  1.

En  el  modelo  de  privacidad  local,  los  algoritmos  pueden  interactuar  con  la  base  de  
datos  solo  a  través  de  un  oráculo  aleatorio  local:

Definición  12.2  (LR  Oracle).  Un  oráculo  LR  LRD(∙,  ∙)  toma  como  entrada  un  índice  i     
[n]  y  un  aleatorizador  local  ε  R  y  genera  un  valor  aleatorio  w     W  elegido  de  acuerdo  
con  la  distribución  R(xi),  donde  xi     D  es  el  elemento  en  poder  del  i­ésimo  individuo  en  
la  base  de  datos.

Definición  12.3  ((Algoritmo  local)).  Un  algoritmo  es  ε­local  si  accede  a  la  base  de  datos  
D  a  través  de  Oracle  LRD,  con  la  siguiente  restricción:  Si  LRD(i,  R1), . . . ,  LRD(i,  Rk)  
son  las  invocaciones  del  algoritmo  de  LRD  en  el  índice  i,  donde  cada  RJ  es  un  
aleatorizador  local  εj ,  luego  ε1  +  ∙  ∙  ∙  +  εk  ≤  ε.

Debido  a  que  la  privacidad  diferencial  es  componible,  es  fácil  ver  que
Los  algoritmos  ε­locales  son  ε­diferencialmente  privados.

Observación  12.1.  Los  algoritmos  ε­locales  son  ε­diferencialmente  privados.

Es  decir,  un  algoritmo  ε­local  interactúa  con  los  datos  usando  solo  una  secuencia  
de  algoritmos  ε­diferencialmente  privados,  cada  uno  de  los  cuales  calcula  solo  en  una  
base  de  datos  de  tamaño  1.  Porque  nadie  más  que  su  propietario  toca  alguna  pieza  de  
datos  privados. ,  la  configuración  local  es  mucho  más  segura:  no  requiere  una  parte  
confiable  y  no  hay  una  parte  central  que  pueda  estar  sujeta  a  piratería.  Porque  incluso  
el  algoritmo
Machine Translated by Google

234 Modelos  adicionales

nunca  ve  datos  privados,  el  estado  interno  del  algoritmo  también  es  diferencialmente  
privado  (es  decir,  la  privacidad  local  implica  privacidad  total,  que  se  describe  en  la  
siguiente  sección).  Una  pregunta  natural  es  qué  tan  restrictivo  es  el  modelo  de  
privacidad  local.  En  esta  sección,  simplemente  discutimos  informalmente  los  resultados.  
El  lector  interesado  puede  seguir  las  referencias  bibliográficas  al  final  de  esta  sección  
para  más  información.  Observamos  que  un  nombre  alternativo  para  el  modelo  de  
privacidad  local  es  el  modelo  completamente  distribuido .
Recordamos  la  definición  del  modelo  de  consulta  estadística  (SQ),  presentada  en  
la  Sección  11.  En  términos  generales,  dada  una  base  de  datos  x  de  tamaño  n,  el  
modelo  de  consulta  estadística  permite  que  un  algoritmo  acceda  a  esta  base  de  datos  
haciendo  un  número  polinomial  (en  n)  de  consultas  lineales  ruidosas  a  la  base  de  datos,  
donde  el  error  en  las  respuestas  de  la  consulta  es  algún  polinomio  inverso  en  n.  
Formalmente:

Definición  12.4.  Una  consulta  estadística  es  alguna  función  φ :  X  ×  {0,  1}  →  [0,  1].  Un  
oráculo  de  consulta  estadística  para  una  distribución  sobre  ejemplos  etiquetados  D  
con  tolerancia  τ  es  un  oráculo  Oτ  tal  que  para  cada  
D consulta  estadística  φ:

O τ  D(φ)  −  E(x,y) D[φ(x,  y)]  ≤  τ  En  
otras  palabras,  un  oráculo  SQ  toma  como  entrada  una  consulta  estadística  φ  y  genera  
algún  valor  que  se  garantiza  que  está  dentro  de  ±  τ  del  valor  esperado  de  φ  en  ejemplos  
extraídos  de  D.

Definición  12.5.  Se  dice  que  un  algoritmo  A  aprende  SQ  una  clase  de  funciones  C  si  
para  cada  α,  β  >  0  existe  un  m  =  poly(d,  1/α,  log(1/β))  tal  que  A  hace  como  máximo  m  
consultas  de  tolerancia  τ  =  1/m  a  Oτ  y  con  probabilidad  1  −  β,  da  como  resultado  
D, una  
hipótesis  f     C  tal  que:

err(f,  D)  ≤  min error(f ,  D)  +  α


f   C

De  manera  más  general,  podemos  hablar  de  un  algoritmo  (para  realizar  cualquier  
cálculo)  que  opera  en  el  modelo  SQ  si  accede  a  los  datos  solo  a  través  de  un  oráculo  
SQ:

Definición  12.6.  Se  dice  que  un  algoritmo  A  opera  en  el  modelo  SQ  si  existe  un  m  tal  
que  A  realiza  como  máximo  m  consultas  de  tolerancia  τ  =  1/ma  Oτ  y  no  tiene  ningún  
otro  acceso  a  la  base  
D, de  datos.

A  es  eficiente  si  m  es  polinomial  en  el  tamaño  de  la  base  de  datos,  D.
Machine Translated by Google

12.1.  El  modelo  local 235

Resulta  que  hasta  factores  polinómicos  en  el  tamaño  de  la  base  de  datos  y  en  la  
cantidad  de  consultas,  cualquier  algoritmo  que  se  pueda  implementar  en  el  modelo  
SQ  se  puede  implementar  y  analizar  para  privacidad  en  el  modelo  de  privacidad  local,  
y  viceversa.  Notamos  que  hay  una  distinción  entre  un  algoritmo  que  se  implementa  
en  el  modelo  SQ  y  su  análisis  de  privacidad  que  se  lleva  a  cabo  en  el  modelo  local:  
casi  todos  los  algoritmos  que  hemos  presentado  al  final  acceden  a  los  datos  utilizando  
consultas  lineales  ruidosas,  y  por  lo  que  se  puede  considerar  que  actúa  en  el  modelo  
SQ.
Sin  embargo,  sus  garantías  de  privacidad  se  analizan  en  el  modelo  centralizado  de  
privacidad  de  datos  (es  decir,  debido  a  alguna  parte  “global”  del  análisis,  como  en  el  
algoritmo  de  vector  disperso).
En  el  siguiente  resumen,  también  recordaremos  la  definición  de  aprendizaje  
PAC,  también  presentada  en  la  Sección  11:

Definición  12.7.  Se  dice  que  un  algoritmo  A  PAC­aprende  una  clase  de  funciones  C  
si  para  cada  α,  β  >  0  existe  un  m  =  poly(d,  1/α,  log(1/β))  tal  que  para  cada  distribución  
D  sobre  ejemplos  etiquetados,  A  toma  como  entrada  m  ejemplos  etiquetados  
extraídos  de  D  y  genera  una  hipótesis  f     C  tal  que  con  probabilidad  1  −  β:

err(f,  D)  ≤  min  err(f  f   C ,  D)  +  α

Si  minf   C  err(f    ,  D)  =  0,  se  dice  que  el  alumno  opera  en  el  entorno  


realizable  (es  decir,  existe  alguna  función  en  la  clase  que  etiqueta  perfectamente  los  
datos).  De  lo  contrario,  se  dice  que  el  alumno  opera  en  el  entorno  agnóstico .  Si  A  
también  tiene  un  tiempo  de  ejecución  polinomial  en  d,  1/α  y  log(1/β),  se  dice  que  el  
alumno  es  eficiente.  Si  hay  un  algoritmo  que  PAC  aprende  C,  entonces  se  dice  que  
C  es  aprendible  por  PAC.
Tenga  en  cuenta  que  la  principal  distinción  entre  un  algoritmo  de  aprendizaje  SQ  y  
un  algoritmo  de  aprendizaje  PAC  es  que  el  algoritmo  de  aprendizaje  PAC  obtiene  
acceso  directo  a  la  base  de  datos  de  ejemplos,  mientras  que  el  algoritmo  de  
aprendizaje  SQ  solo  tiene  acceso  a  los  datos  a  través  de  un  oráculo  SQ  ruidoso.
Lo  que  sigue  es  parte  de  nuestra  comprensión  de  las  limitaciones  del  modelo  SQ  
y  los  problemas  que  lo  separan  del  modelo  centralizado  de  privacidad  de  datos.
Machine Translated by Google

236 Modelos  adicionales

1.  Una  sola  consulta  de  sensibilidad  1  puede  responderse  al  error  O(1)  en  el  modelo  
centralizado  de  privacidad  de  datos  mediante  el  mecanismo  de  Laplace,  pero  
requiere  el  error  Θ(√  n)  en  el  modelo  de  privacidad  de  datos  local.
2.  El  conjunto  de  clases  de  funciones  que  podemos  aprender  (adecuadamente)  en  el  
modelo  de  privacidad  local  es  exactamente  el  conjunto  de  clases  de  funciones  
que  podemos  aprender  correctamente  en  el  modelo  SQ  (hasta  factores  polinómicos  
en  el  tamaño  de  la  base  de  datos  y  la  complejidad  de  la  consulta  del  algoritmo ).  
En  contraste,  el  conjunto  de  cosas  que  podemos  aprender  (propiamente  o  
agnósticamente)  en  el  modelo  centralizado  corresponde  al  conjunto  de  cosas  que  
podemos  aprender  en  el  modelo  PAC.  El  aprendizaje  de  SQ  es  estrictamente  más  
débil,  pero  esto  no  es  una  gran  desventaja,  ya  que  las  funciones  de  paridad  son  
esencialmente  la  única  clase  interesante  que  se  puede  aprender  con  PAC  pero  no  con  SQ.
Hacemos  notar  que  aquí  nos  referimos  explícitamente  al  aprendizaje  adecuado  
(es  decir,  el  entorno  en  el  que  hay  alguna  función  en  la  clase  que  etiqueta  
perfectamente  los  datos).  En  el  modelo  PAC  no  hay  diferencia  teórica  de  la  
información  entre  el  aprendizaje  propio  y  el  agnóstico,  pero  en  el  modelo  SQ  la  
diferencia  es  grande:  vea  el  siguiente  punto.
3.  El  conjunto  de  consultas  que  podemos  lanzar  en  el  modelo  de  privacidad  local  son  
exactamente  aquellas  consultas  que  podemos  aprender  de  manera  agnóstica  en  
el  modelo  SQ.  En  contraste,  el  conjunto  de  cosas  que  podemos  liberar  en  el  
modelo  centralizado  corresponde  al  conjunto  de  cosas  que  podemos  aprender  
agnósticamente  en  el  modelo  PAC.  Esta  es  una  desventaja  mucho  mayor:  incluso  
las  conjunciones  (es  decir,  los  marginales)  no  se  pueden  aprender  de  manera  
agnóstica  en  el  modelo  SQ.  Esto  se  deriva  de  la  reducción  de  la  teoría  de  la  
información  desde  el  aprendizaje  agnóstico  (es  decir,  la  distinción)  hasta  la  
liberación  de  consultas  que  vimos  en  la  Sección  5  utilizando  el  mecanismo  de  construcción  iterativo.

Observamos  que  si  solo  nos  preocupan  los  adversarios  computacionalmente  limitados,  
entonces,  en  principio,  los  agentes  distribuidos  pueden  usar  el  cómputo  seguro  de  
múltiples  partes  para  simular  algoritmos  privados  en  el  entorno  centralizado.  Si  bien  esto  
en  realidad  no  brinda  una  garantía  de  privacidad  diferencial,  el  resultado  de  tales  
simulaciones  será  indistinguible  del  resultado  de  cálculos  privados  diferenciales,  desde  
el  punto  de  vista  de  un  adversario  limitado  computacionalmente.  Sin  embargo,  los  
protocolos  de  cómputo  multipartidistas  seguros  generales  generalmente  requieren  una  
gran  cantidad  de  mensajes  que  pasan  (y,  por  lo  tanto,  a  veces  tienen  tiempos  de  
ejecución  irrazonablemente  largos).
Machine Translated by Google

12.2.  Modelo  de  transmisión  panprivada 237

mientras  que  los  algoritmos  en  el  modelo  de  privacidad  local  tienden  a  ser  extremadamente  
simples.

12.2  Modelo  de  transmisión  panprivada

El  objetivo  de  un  algoritmo  pan­privado  es  permanecer  diferencialmente  privado  incluso  
contra  un  adversario  que  puede,  en  raras  ocasiones,  observar  el  estado  interno  del  
algoritmo.  Las  intrusiones  pueden  ocurrir  por  muchas  razones,  incluidas  la  piratería,  la  
citación  o  el  avance  de  la  misión,  cuando  los  datos  recopilados  para  un  propósito  se  usan  
para  un  propósito  diferente  ("¡Piense  en  los  niños!").  Los  algoritmos  de  transmisión  
privados  de  Pan  brindan  protección  contra  todos  estos.
Tenga  en  cuenta  que  los  algoritmos  de  transmisión  ordinarios  no  necesariamente  brindan  
privacidad  contra  las  intrusiones,  ya  que  incluso  un  algoritmo  de  transmisión  con  poca  
memoria  puede  contener  una  pequeña  cantidad  de  elementos  de  datos  en  la  memoria,  que  
estarían  completamente  expuestos  en  una  intrusión.  En  el  aspecto  técnico,  las  intrusiones  
pueden  ser  conocidas  por  el  curador  (citación)  o  desconocidas  (piratería).  Estos  pueden  
tener  efectos  muy  diferentes,  ya  que  un  curador  consciente  de  una  intrusión  puede  tomar  
medidas  de  protección,  como  volver  a  aleatorizar  ciertas  variables.

12.2.1  Definiciones

Suponemos  un  flujo  de  datos  de  longitud  ilimitada  compuesto  de  elementos  en  un  universo  
X.  Puede  ser  útil  tener  en  cuenta  como  motivación  el  análisis  de  datos  sobre  un  flujo  de  
consulta,  en  el  que  las  consultas  van  acompañadas  de  la  dirección  IP  del  emisor.  Por  
ahora,  ignoramos  el  texto  de  la  consulta  en  sí;  el  universo  X  es  el  universo  de  direcciones  
IP  potenciales.  Por  lo  tanto,  intuitivamente,  la  privacidad  a  nivel  de  usuario  protege  la  
presencia  o  ausencia  de  una  dirección  IP  en  el  flujo,  independientemente  de  la  cantidad  de  
veces  que  surja,  en  caso  de  que  realmente  esté  presente.  Por  el  contrario,  la  privacidad  a  
nivel  de  eventos  simplemente  protege  la  privacidad  de  los  accesos  individuales.  Por  ahora,  
nos  centramos  en  la  privacidad  a  nivel  de  usuario.

Como  es  habitual  en  los  algoritmos  diferencialmente  privados,  el  adversario  puede  
tener  un  control  arbitrario  del  flujo  de  entrada  y  puede  tener  un  conocimiento  auxiliar  
arbitrario  obtenido  de  otras  fuentes.  También  puede  tener  un  poder  computacional  arbitrario.
Machine Translated by Google

238 Modelos  adicionales

Suponemos  que  el  algoritmo  se  ejecuta  hasta  que  recibe  una  señal  especial,  
momento  en  el  que  produce  salidas  (observables).  El  algoritmo  puede  opcionalmente  
continuar  ejecutándose  y  producir  salidas  adicionales  más  tarde,  nuevamente  en  
respuesta  a  una  señal  especial.  Dado  que  las  salidas  son  observables,  no  proporcionamos  
privacidad  para  las  señales  especiales.
Un  algoritmo  de  transmisión  experimenta  una  secuencia  de  estados  internos.  y  
produce  una  secuencia  (posiblemente  ilimitada)  de  salidas.  Sea  I  el  conjunto  de  posibles  
estados  internos  del  algoritmo  y  σ  el  conjunto  de  posibles  secuencias  de  salida.  
Suponemos  que  el  adversario  solo  puede  observar  los  estados  internos  y  la  secuencia  
de  salida;  no  puede  ver  los  datos  en  la  transmisión  (aunque  puede  tener  conocimiento  
auxiliar  sobre  algunos  de  estos  datos)  y  no  tiene  acceso  a  la  longitud  de  la  entrada

secuencia.

Definición  12.8  (X  ­Flujos  de  datos  adyacentes).  Pensamos  en  los  flujos  de  datos  como  
si  tuvieran  una  longitud  ilimitada;  Los  prefijos  tienen  una  longitud  finita.  Los  flujos  de  
datos  S  y  S  son  adyacentes  a  X  si  difieren  solo  en  la  presencia  o  ausencia  de  todas  las  
ocurrencias  de  un  solo  elemento  u     X .  Definimos  la  adyacencia  X  para  los  prefijos  de  
flujo  de  forma  análoga.

Pan­Privacidad  a  nivel  de  usuario.  Un  algoritmo  Alg  mapeando  prefijos  de  flujo  de  datos  
al  rango  I  ×  σ,  es  pan­privado  contra  una  sola  intrusión  si  para  todos  los  conjuntos  I     I  
de  estados  internos  y  σ     σ  de  secuencias  de  salida,  y  para  todos  los  pares  de  prefijos  
de  flujo  de  datos  adyacentes  S ,  S

Pr[Alg(S)     (I ,  σ )]  ≤  e  ε  Pr[Alg(S )     (I ,  σ )],

donde  los  espacios  de  probabilidad  están  sobre  los  lanzamientos  de  moneda  del  algoritmo  
Alg.
Esta  definición  habla  sólo  de  una  sola  intrusión.  Para  intrusiones  múltiples  debemos  
considerar  intercalaciones  de  observaciones  de  estados  internos  y  salidas.

La  relajación  a  la  privacidad  a  nivel  de  evento  se  obtiene  modificando  la  noción  de  
adyacencia  de  modo  que,  en  términos  generales,  dos  flujos  son  adyacentes  si  difieren  
en  una  sola  instancia  de  un  solo  elemento  en  X;  es  decir,  se  elimina/agrega  una  instancia  
de  un  elemento.  Claramente,  la  privacidad  a  nivel  de  evento  es  una  garantía  mucho  más  
débil  que  la  privacidad  a  nivel  de  usuario.
Machine Translated by Google

12.2.  Modelo  de  transmisión  panprivada 239

Observación  12.1.  Si  asumimos  la  existencia  de  una  cantidad  muy  pequeña  de  almacenamiento  
secreto,  no  visible  para  el  adversario,  muchos  problemas  para  los  que  no  hemos  podido  
obtener  soluciones  panprivadas  tienen  soluciones  de  transmisión  (no  panprivadas).  Sin  
embargo,  la  cantidad  de  almacenamiento  secreto  no  es  tan  importante  como  su  existencia,  
ya  que  el  almacenamiento  secreto  es  vulnerable  a  las  presiones  sociales  contra  las  cuales  la  
privacidad  busca  proteger  los  datos  (y  al  curador).

Estimación  de  densidad  panprivada.  Sorprendentemente,  la  privacidad  total  se  puede  lograr  
incluso  para  la  privacidad  a  nivel  de  usuario  de  muchos  cálculos  de  transmisión  comunes.  
Como  ejemplo,  considere  el  problema  de  la  estimación  de  la  densidad:  dado  un  universo  X  de  
elementos  de  datos  y  un  flujo  σ,  el  objetivo  es  estimar  la  fracción  de  X  que  aparece  en  el  flujo.  
Por  ejemplo,  el  universo  está  formado  por  todos  los  adolescentes  de  una  comunidad  
determinada  (representados  por  direcciones  IP),  y  el  objetivo  es  entender  qué  fracción  visita  
el  sitio  web  de  Planned  Parenthood.

Las  soluciones  estándar  de  transmisión  de  memoria  baja  para  la  estimación  de  la  
densidad  implican  el  registro  de  los  resultados  de  los  cálculos  deterministas  de  al  menos  
algunos  elementos  de  entrada,  un  enfoque  que  inherentemente  no  es  panprivado.
Aquí  hay  una  solución  simple,  aunque  de  alta  memoria,  inspirada  en  una  respuesta  aleatoria.  
El  algoritmo  mantiene  un  bit  ba  para  cada  dirección  IP  a  (que  puede  aparecer  cualquier  número  
de  veces  en  el  flujo),  inicializado  uniformemente  al  azar.  La  secuencia  se  procesa  un  elemento  
a  la  vez.  En  la  entrada  a,  el  algoritmo  se  voltea  un  poco  sesgado  a  1;  es  decir,  el  bit  sesgado  
tomará  valor  0  con  probabilidad  1/2  −  ε,  y  valor  1  con  probabilidad  1/2  +  ε.  El  algoritmo  sigue  
este  procedimiento  independientemente  del  número  de  veces  que  aparece  la  dirección  IP  a  
en  el  flujo  de  datos.  Este  algoritmo  es  (ε,  0)­diferencialmente  privado.  Al  igual  que  con  la  
respuesta  aleatoria,  podemos  estimar  la  fracción  de  1  "reales"  por  z  =  2(y−|X  |/2)/|X  |,  donde  
y  es  el  número  real  de  1  en  la  tabla  después  de  que  se  procesa  el  flujo.

Para  garantizar  la  privacidad  total,  el  algoritmo  publica  una  versión  ruidosa  de  z.  Al  igual  que  
con  la  respuesta  aleatoria,  el  error  será  del  orden  de  1/  |X  |,  lo  que  arrojará  resultados  
significativos  cuando  la  densidad  sea  alta.
Otros  problemas  para  disfrutar  de  los  algoritmos  pan­privados  a  nivel  de  usuario  incluyen:

•  Estimar,  para  cualquier  t,  la  fracción  de  elementos  que  aparecen  exactamente
t  veces;
Machine Translated by Google

240 Modelos  adicionales

•  Estimación  de  la  media  recortada  de  t:  aproximadamente,  el  promedio,  sobre  
todos  los  elementos,  del  mínimo  de  t  y  el  número  de  ocurrencias  del  elemento  
en  el  flujo  de  datos;

•  Estimar  la  fracción  de  k­heavy  hitters  (elementos  de  X  que
aparecen  al  menos  k  veces  en  el  flujo  de  datos).

También  se  pueden  definir  variantes  de  estos  problemas  para  datos  totalmente  
dinámicos ,  en  los  que  los  recuentos  se  pueden  disminuir  o  incrementar.  Por  ejemplo,  
la  estimación  de  la  densidad  (¿qué  fracción  apareció  en  la  corriente?)  se  convierte  en  
"¿Cuántos  (o  qué  fracción)  de  elementos  tienen  un  recuento  (neto)  igual  a  cero?"  Estos  
también  se  pueden  resolver  con  privacidad  panorámica  a  nivel  de  usuario,  utilizando  
variaciones  privadas  diferenciales  de  las  técnicas  de  dibujo  de  la  literatura  de  
transmisión.

12.3  Observación  continua

Muchas  aplicaciones  de  análisis  de  datos  involucran  cálculos  repetidos,  ya  sea  porque  
el  objetivo  completo  es  monitorear,  por  ejemplo,  las  condiciones  del  tráfico,  las  
tendencias  de  búsqueda  o  la  incidencia  de  la  influenza.  En  tales  aplicaciones,  se  
requiere  que  el  sistema  produzca  continuamente  resultados.  Por  lo  tanto,  necesitamos  
técnicas  para  lograr  una  privacidad  diferencial  bajo  observación  continua.

Como  de  costumbre,  la  privacidad  diferencial  requerirá  tener  esencialmente  la  
misma  distribución  en  las  salidas  para  cada  par  de  bases  de  datos  adyacentes,  pero  
¿cómo  debemos  definir  la  adyacencia  en  esta  configuración?  Consideremos  dos  
escenarios  de  ejemplo.
Suponga  que  el  objetivo  es  monitorear  la  salud  pública  mediante  el  análisis  de  
estadísticas  de  un  sitio  web  de  autoevaluación  H1N1.1  Las  personas  pueden  
interactuar  con  el  sitio  para  saber  si  los  síntomas  que  experimentan  pueden  ser  
indicativos  de  la  gripe  H1N1.  El  usuario  rellena  algunos  datos  demográficos  (edad,  
código  postal,  sexo),  y  responde  a  consultas  sobre  sus  síntomas  (¿fiebre  superior  a  
100,4  ◦F?,  ¿dolor  de  garganta?,  ¿duración  de  los  síntomas?).  Esperaríamos  que  una  
persona  dada  interactuara  muy  pocas  veces  con  el  sitio  de  autoevaluación  H1N1  (por  
ejemplo,  si  restringimos  nuestra  atención  a  un  período  de  seis  meses).

1https://h1n1.cloudapp.net  proporcionó  dicho  servicio  durante  el  invierno  de  2010;
Los  datos  proporcionados  por  el  usuario  se  almacenaron  para  su  análisis  con  el  consentimiento  del  usuario.
Machine Translated by Google

12.3.  Observación  continua 241

período).  Para  simplificar,  digamos  que  esto  es  solo  una  vez.  En  tal  entorno,  es  suficiente  
garantizar  la  privacidad  a  nivel  de  evento ,  en  el  que  el  objetivo  de  privacidad  es  ocultar  
la  presencia  o  ausencia  de  un  solo  evento  (interacción  de  un  usuario  con  el  sitio  de  
autoevaluación).
Supongamos  nuevamente  que  el  objetivo  es  monitorear  la  salud  pública,  esta  vez  
analizando  los  términos  de  búsqueda  enviados  a  un  motor  de  búsqueda  médica.  En  este  
caso,  puede  que  ya  no  sea  seguro  asumir  que  una  persona  tiene  pocas  interacciones  
con  el  sitio  web,  incluso  si  restringimos  la  atención  a  un  período  de  tiempo  relativamente  
corto.  En  este  caso,  querríamos  privacidad  a  nivel  de  usuario ,  asegurando  que  todo  el  
conjunto  de  términos  de  búsqueda  de  un  usuario  esté  protegido  simultáneamente.
Pensamos  en  los  algoritmos  de  observación  continua  como  dando  pasos  en  
intervalos  de  tiempo  discretos;  en  cada  paso,  el  algoritmo  recibe  una  entrada,  calcula  y  
produce  una  salida.  Modelamos  los  datos  como  si  llegaran  en  un  flujo,  como  máximo  un  
elemento  de  datos  en  cada  intervalo  de  tiempo.  Para  captar  el  hecho  de  que,  en  la  vida  
real,  hay  períodos  de  tiempo  en  los  que  no  sucede  nada,  los  eventos  nulos  se  modelan  
mediante  un  símbolo  especial  en  el  flujo  de  datos.
Así,  la  noción  intuitiva  de  “t  periodos  de  tiempo”  corresponde  al  procesamiento  de  una  
secuencia  de  t  elementos  en  el  flujo.
Por  ejemplo,  la  motivación  detrás  de  la  primitiva  de  contador  a  continuación  es  
contar  la  cantidad  de  veces  que  algo  ha  ocurrido  desde  que  se  inició  el  algoritmo  (el  
contador  es  muy  general;  no  especificamos  a  priori  lo  que  está  contando).  Esto  está  
modelado  por  un  flujo  de  entrada  sobre  {0,  1}.  Aquí,  "0"  significa  "no  pasó  nada",  "1"  
significa  que  ocurrió  el  evento  de  interés,  y  para  t  =  1,  2, . . . ,  T,  el  algoritmo  genera  una  
aproximación  al  número  de  1  visto  en  el  prefijo  de  longitud  t  del

arroyo.
Hay  tres  opciones  naturales:

1.  Use  una  respuesta  aleatoria  para  cada  período  de  tiempo  y  agregue  este  valor  
aleatorio  al  contador;  2.  Sume  el  
ruido  distribuido  según  Lap(1/ε)  al  valor  verdadero  para  cada  paso  de  tiempo  y  sume  
este  valor  perturbado  al  contador;  3.  Calcule  el  conteo  real  en  cada  paso  de  
tiempo,  agregue  ruido  distribuido  de  acuerdo  con  Lap(T /ε)  al  conteo  y  libere  este  
conteo  ruidoso.

Todas  estas  opciones  dan  como  resultado  un  ruido  del  orden  de  al  menos  Ω(√  T /ε).
La  esperanza  es  hacerlo  mucho  mejor  al  explotar  la  estructura  del  conjunto  de  consultas.
Machine Translated by Google

242 Modelos  adicionales

Sea  X  el  universo  de  posibles  símbolos  de  entrada.  Sean  S  y  S  prefijos  de  
flujo  (es  decir,  flujos  finitos)  de  símbolos  extraídos  de  X .  Entonces  Adj(S,  S )  (“S  
es  adyacente  a  S  ”)  si  y  solo  si  existen  a,  b     X  de  modo  que  si  cambiamos  
algunas  de  las  instancias  de  a  en  S  a  instancias  de  b,  entonces  obtenemos  S .  
Más  formalmente,  Adj(S,  S )  iff   a,  b     X  y   R     [|S|],  tal  que  S|R:a→b  =  S .  
Aquí,  R  es  un  conjunto  de  índices  en  el  prefijo  de  flujo  S,  y  S|R:a→b  es  el  
resultado  de  reemplazar  todas  las  apariciones  de  a  en  estos  índices  con  b.  Tenga  
en  cuenta  que  los  prefijos  adyacentes  siempre  tienen  la  misma  longitud.

Para  capturar  la  privacidad  a  nivel  de  evento,  restringimos  la  definición  de  
adyacencia  al  caso  |R|  ≤  1.  Para  capturar  la  privacidad  a  nivel  de  usuario,  no  
restringimos  el  tamaño  de  R  en  la  definición  de  adyacencia.
Como  se  indicó  anteriormente,  una  opción  es  publicar  un  conteo  ruidoso  en  
cada  paso  de  tiempo;  el  conteo  publicado  en  el  momento  t  refleja  el  número  
aproximado  de  1  en  el  prefijo  de  longitud  t  del  flujo.  El  desafío  de  la  privacidad  es  
que  los  primeros  elementos  en  la  transmisión  están  sujetos  a  estadísticas  de  casi  
T ,  por  lo  que  para  la  privacidad  diferencial  (ε,  0)  estaríamos  agregando  ruido  
escalado  a  T /ε,  lo  cual  es  inaceptable.  Además,  dado  que  los  1  son  los  elementos  
"interesantes"  de  la  secuencia,  nos  gustaría  que  la  distorsión  se  escalara  al  
número  de  1  que  se  ven  en  la  secuencia,  en  lugar  de  a  la  longitud  de  la  secuencia.  
Esto  descarta  la  aplicación  de  una  respuesta  aleatoria  a  cada  elemento  de  la  
secuencia  de  forma  independiente.
El  siguiente  algoritmo  sigue  un  enfoque  clásico  para  convertir  algoritmos  
estáticos  en  algoritmos  dinámicos.
Supongamos  que  T  es  una  potencia  de  2.  Los  intervalos  son  los  naturales  
correspondientes  a  las  etiquetas  en  un  árbol  binario  completo  con  T  hojas,  donde  
las  hojas  están  etiquetadas,  de  izquierda  a  derecha,  con  los  intervalos  [0,  0],  [1 ,  
1], . . . ,  [T  −  1,  T  −  1]  y  cada  padre  se  etiqueta  con  el  intervalo  que  es  la  unión  
de  los  intervalos  que  etiquetan  a  sus  hijos.  La  idea  es  calcular  y  liberar  un  conteo  
ruidoso  para  cada  etiqueta  [s,  t];  es  decir,  el  valor  liberado  correspondiente  a  la  
etiqueta  [s,  t]  es  un  conteo  ruidoso  del  número  de  1  en  las  posiciones  s,  s  +  
1, . . . ,  t  del  flujo  de  entrada.  Para  conocer  el  conteo  acumulativo  aproximado  en  
el  tiempo  t     [0,  T  −  1],  el  analista  usa  la  representación  binaria  de  t  para  
determinar  un  conjunto  de  como  máximo  log2  T
Machine Translated by Google

12.3.  Observación  continua 243

Figura  12.1:  Algoritmo  de  contador  privado  a  nivel  de  evento  (no  pan­privado).

intervalos  disjuntos  cuya  unión  es  [0,  t],  y  calcula  la  suma  de  los  conteos  ruidosos  
liberados  correspondientes.2  Consulte  la  figura  12.1.
Cada  posición  de  la  corriente  t     [0,  T  −  1]  aparece  en  intervalos  como  máximo  
de  1  +  log2  T  (porque  la  altura  del  árbol  es  log2  T),  por  lo  que  cada  elemento  de  
la  corriente  afecta  como  máximo  a  1  +  log2  T  liberado  ruidosamente  cuenta
Por  lo  tanto,  agregar  ruido  a  cada  conteo  de  intervalo  distribuido  de  acuerdo  con  
Lap((1  +  log2  T)/ε)  asegura  (ε,  0)  privacidad  diferencial.  En  cuanto  a  la  precisión,  
dado  que  la  representación  binaria  de  cualquier  índice  t     [0,  T  −  1]  produce  un  
conjunto  disjunto  de  intervalos  como  máximo  log2  T  cuya  unión  es  [0,  t],  podemos  
aplicar  el  Lema  12.2  a  continuación  para  concluir  que  el  esperado  el  error  está  
estrechamente  concentrado  alrededor  de  (log2  T)  3/2 .  El  error  máximo  esperado,  
.
sobre  todos  los  tiempos  t,  es  del  orden  de  (log2  
T)  5/3

Lema  12.2.  Sea  Sea  Y1, . . . ,  Yk  ser  variables  independientes  con  distri  (bi)  2,  
Lap(bi).  Sean  Y  =  Yi  y  bmax  =  miaxi  bi .  Sean  ν  ≥  y  0  <  λ  < i bution  
2  √  2ν 2
bmáx .  Entonces

2  λ
Pr[Y  >  λ]  ≤  exp  −  8ν  2 .

2Este  algoritmo  se  puede  optimizar  ligeramente  (por  ejemplo,  nunca  usamos  el  conteo  
correspondiente  a  la  raíz,  eliminando  un  nivel  del  árbol),  y  se  puede  modificar  para  manejar  
el  caso  en  el  que  T  no  es  una  potencia  de  2  y,  lo  que  es  más  interesante ,  cuando  T  no  se  
conoce  a  priori.
Machine Translated by Google

244 Modelos  adicionales

Prueba.  La  función  generadora  de  momentos  de  Yi  es  E[exp(hYi)]  =  1/(1  −  h  ≤  1  +  2x  ≤
2 b2 −1
),  donde  |h|  <  1/bi .  Usando  la  desigualdad  (1  −  x)
i
exp(2x)  para  0  ≤  x  <  1/2,  tenemos  E[exp(hYi)]  ≤  exp(2h  |h|  <  1/2bi .  Ahora   2  2  b  yo
),  si
calculamos,  para  0  <  h  <  1/  √  2bmax:

Pr[Y  >  λ]  =  Pr[exp(hY )  >  exp(hλ)]

≤  exp(−hλ)E[exp(hY )]  =  

exp(−hλ) E[exp(hYi)]
i
2  2  v
≤  exp(−hλ  +  2h ).
2
Por  supuesto,  0  <  λ  <  <  1/  √   2  √  2ν
bmáx .  Completamos  la  demostración  estableciendo
2
2bmax.  h  =  λ/4ν

Corolario  12.3.  Sean  Y,  ν,  {bi}i ,  bmax  como  en  el  Lema  12.2.  Para  δ     (0,  1)  y  ν  >  
b   2
max{ bmax  ln(2/δ)},  tenemos  que  
yo Pr[|Y  
yo ,
|  >  ν  8  ln(2/δ)]  ≤  δ.

En  nuestro  caso,  todos  los  bi  son  iguales  (p.  ej.,  b  =  (log2  T)/ε).  Tomando  ν  =  √  kb  
tenemos  el  siguiente  corolario:

Corolario  12.4.  Para  todo  λ  <  α( √  kb)  <  2  √  2kb  =  2√  2kν,

Pr[Y  >  λ]  ≤  e −a  2/8 .

Tenga  en  cuenta  que  hemos  dado  el  paso  inusual  de  agregar  ruido  al  conteo  antes  
de  contar,  en  lugar  de  después.  En  términos  de  las  salidas  no  hay  diferencia  (la  suma  
es  conmutativa).  Sin  embargo,  tiene  un  efecto  interesante  sobre  los  estados  internos  
del  algoritmo:  ¡son  diferencialmente  privados!  Es  decir,  suponga  que  la  intrusión  ocurre  
en  el  tiempo  t,  y  considere  cualquier  i     [0,  t].  Dado  que  hay  como  máximo  log2  T  
intervalos  que  contienen  el  paso  i  (en  el  algoritmo  abolimos  el  intervalo  correspondiente  
a  la  raíz),  xi  afecta  como  máximo  log2  T  de  los  recuentos  ruidosos,  por  lo  que  xi  está  
protegido  contra  la  intrusión  exactamente  por  la  misma  razón  que  está  protegido  en  las  
salidas  del  algoritmo.  Sin  embargo,  el  algoritmo  de  la  figura  12.1  no  es  panprivado  ni  
siquiera  contra  una  sola  intrusión.  Esto  se  debe  a  que,  si  bien  su  estado  interno  y  sus  
salidas  son  cada  uno  independiente  y  diferencialmente  privados,  la  distribución  conjunta  
no  garantiza  la  privacidad  diferencial  ε.  A
Machine Translated by Google

12.3.  Observación  continua 245

vea  por  qué  esto  es  así,  considere  un  intruso  que  ve  el  estado  interno  en  el  
momento  t  y  conoce  todo  el  flujo  de  datos  excepto  xt+1,  y  sea  I  =  [a,  b]  un  
intervalo  que  contiene  tanto  t  como  t  +  1.  Dado  que  el  el  adversario  sabe  que  
hasta  puede  sustraer  de  cI  la  contribución  del  flujo  que  ocurre  x[0,t] ,  suena  
el  tiempo  t  (es  decir,  resta  del  cI  observado  todo  lo  que  conoce).  A  partir  de  
el  intruso  aprende  el  valor  del   x , este  el  tiempo  t  los  valores  xa,  xa+1, . . . ,  
sorteo  de  Laplace  en  el  que  se  inicializó  cI .  Cuando  se  publica  cI  al  final  del  
paso  b,  el  adversario  resta  del  valor  publicado  este  sorteo  inicial,  junto  con  las  
contribuciones  de  todos  los  elementos  en  x[a,b]  excepto  xt+1,  que  no  conoce.  
Lo  que  queda  es  la  incógnita  xt+1.

12.3.1  Recuento  panprivado

Aunque  el  algoritmo  de  la  Figura  12.1  se  modifica  fácilmente  para  garantizar  
la  privacidad  total  a  nivel  de  evento  contra  una  sola  intrusión,  aquí  damos  un  
algoritmo  diferente  para  introducir  una  poderosa  técnica  de  biyección  que  ha  
demostrado  ser  útil  en  otras  aplicaciones.  Este  algoritmo  mantiene  en  su  
estado  interno  un  solo  contador  ruidoso,  o  acumulador,  así  como  valores  de  
ruido  para  cada  intervalo.  La  salida  en  cualquier  período  de  tiempo  dado  t  es  
la  suma  del  acumulador  y  los  valores  de  ruido  para  los  intervalos  que  contienen  
t.  Cuando  termina  un  intervalo  I ,  su  ruido  asociado  se  borra  de  la  memoria.  
valor,  ηI ,

Teorema  12.5.  El  algoritmo  contador  de  la  Figura  12.2,  cuando  se  ejecuta  con  los  
parámetros  T,  ε,  y  sufre  como  máximo  una  intrusión,  produce  un  contador  
panprivado  (ε,  0)  que,  con  una  probabilidad  de  al  menos  1  −  β  tiene  un  error  
máximo,  sobre  su  T  salidas,  de  O(log(1/β)∙  log2.5  T /ε).  Observamos  también  que  
en  cada  ronda  individualmente  (en  lugar  de  en  todas  las  rondas  simultáneamente),  
con  todas  las  probabilidades  menos  β ,  el  error  tiene  una  magnitud  máxima  de  
O(log(1/β)∙  log1.5  T /ε).

Prueba.  La  prueba  de  precisión  es  la  misma  que  la  del  algoritmo  de  la  figura  
12.1,  basándose  en  el  corolario  12.4.  Nos  centramos  aquí  en  la  prueba  de  la  
panprivacidad.
Durante  una  intrusión  entre  pasos  atómicos  t   y  t +  1,  es  decir,  
inmediatamente  después  del  procesamiento  del  elemento   en  
t el  flujo  de  entrada
Machine Translated by Google

246 Modelos  adicionales

Figura  12.2:  Algoritmo  de  contador  pan­privado  a  nivel  de  evento.

(recuerde  que  comenzamos  numerando  los  elementos  con  0),  la  vista  del  adversario  
consiste  en  (1)  el  conteo  acumulativo  ruidoso  (en  la  variable  “conteo”),  (2)  los  valores  
de  ruido  de  intervalo  ηS  en  memoria  cuando  ocurre  la  intrusión ,  y  (3)  la  secuencia  
completa  de  todas  las  salidas  del  algoritmo  t.  Considere  las  bases  de  datos  
tiempo  t,  digamos,   adyacentes  x  y  x  que  difieren  en  las  rondas  0,  1,, . . . ,  en  el  
sin  pérdida  de  generalidad,  xt  =  1  y  x  intrusión  inmediatamente   t =  0,  y  an  ≥  t  
después  del  período  de  tiempo  t  caso  t (discutiremos  el  <  t  a  
continuación).  Describiremos  una  biyección  entre  el  vector  de  tal  que
los  valores  de  ruido  utilizados  en  ejecuciones  en  x  y  ejecuciones  en  x   ,
los  valores  de  ruido  correspondientes  inducen  puntos  de  vista  adversarios  idénticos  
X
ε
, en  x  y  y  las  probabilidades  de  valores  de  ruido  adyacentes  difieren  solo  por  un  e
factor  multiplicativo.  Esto  implica  pan­privacidad  ε­diferencial.
Por  suposición,  la  cuenta  real  justo  después  del  período  de  tiempo  t ≥  t  
es  mayor  cuando  la  entrada  es  x  que  cuando  la  entrada  es  x .  Corrige  una  ejecución  
arbitraria  Ex  cuando  el  flujo  de  entrada  es  x.  Esto  equivale  a  corregir  la  aleatoriedad  
del  algoritmo,  que  a  su  vez  corrige  los  valores  de  ruido  generados.  Describiremos  la  
ejecución  Ex  correspondiente  describiendo  cómo  sus  valores  de  ruido  difieren  de  los  
de  Ex.
La  variable  de  programa  Contador  se  inicializó  con  ruido  de  Laplace.
Al  aumentar  este  ruido  en  1  en  Ex,  el  valor  de  Counter  justo  después  del  paso  es  
idéntico  en  Ex  y  Ex.  Las  variables  de  ruido  en  la  memoria  inmediatamente  son  
independientes   de  lda  
inmediatamente  después   epntrada;  
el   eríodo  t estos  serán
Machine Translated by Google

12.3.  Observación  continua 247

sin  cambios  en  Ej.  Haremos  que  la  secuencia  de  salidas  en  Ex  sea  idéntica  a  las  
de  Ex  cambiando  una  colección  de  valores  de  ruido  de  intervalo  log  T  ηS  que  no  
están  en  la  memoria  cuando  el  adversario  se  entromete,  de  modo  que  la  suma  de  
todos  los  valores  de  ruido  en  todos  se  redondee  hasta  t  −  1  no  cambia,  pero  la  suma  
a  partir  de  la  ronda  t  es  mayor  en  1  para  la  base  de  datos  x  que  para  x.
Dado  que  aumentamos  el  ruido  de  inicialización  para  Counter,  ahora  necesitamos  
disminuir  la  suma  de  los  valores  de  ruido  de  intervalo  para  los  períodos  0, . . . ,  t  −  1  
por  1,  y  deje  sin  cambios  la  suma  de  los  valores  de  ruido  de  intervalo  del  período  t.
Para  ello,  encontramos  una  colección  de  intervalos  disjuntos  cuya  unión  es  
{0, . . . ,  t  −  1}.  Siempre  existe  una  colección  de  este  tipo,  y  siempre  tiene  un  tamaño  
máximo  de  log  T.  Podemos  construirla  iterativamente,  ya  que  i  disminuye  desde  que  
i
log(t  −  1)  a  0,  eligiendo  el  intervalo  de  tamaño  2  {0, . . . ,   está  contenido  en
t  −  1}  y  no  está  contenido  en  un  intervalo  elegido  previamente  (si  tal  intervalo  existe).  
Dado  este  conjunto  de  intervalos  disjuntos,  también  notamos  que  todos  terminan  en  
, en  la  memoria  cuando  el  
el  tiempo  t  −  1  <  t  ≤  t  y,  por  lo  tanto,  sus  ruidos  no  están  
adversario  se  entromete  (justo  después  del  período  t    ).
En  total  (teniendo  en  cuenta  también  el  cambio  del  valor  de  ruido  inicial  para  
Contador),  la  vista  completa  vista  por  el  adversario  es  idéntica  y  las  probabilidades  
de  la  (colección  de)  valores  de  ruido  utilizados  para  x  y  x  difieren  como  máximo  en  
un  factor  multiplicativo  e  ε .
Tenga  en  cuenta  que  asumimos  t ≥  t.  Si  t   <  t  entonces  el  ruido  inicial  añadido
to  Counter  en  Ex  será  igual  que  en  Ex,  y  necesitamos  sumar  1  a  la  suma  de  los  
ruidos  de  intervalo  en  cada  período  de  tiempo  desde  t  hasta  T  (la  suma  de  los  ruidos  
de  intervalo  antes  del  tiempo  t  permanece  sin  cambios).  Esto  se  hace  como  se  indicó  
anteriormente,  encontrando  una  colección  disjunta  de  intervalos  logarítmicos  T  como  
máximo  que  cubra  exactamente  {t, . . . ,  T  ­  1}.  Los  valores  de  ruido  para  estos  
intervalos  aún  no  están  en  la  memoria  cuando  la  intrusión  ocurre  en  el  tiempo  t  <  t,  
y  la  prueba  es  similar.

12.3.2  Un  límite  inferior  logarítmico  (en  T )

Dada  la  cota  superior  del  teorema  12.5,  donde  el  error  depende  solo  
polilogarítmicamente  de  T,  es  natural  preguntarse  si  alguna  dependencia  es  
inherente.  En  esta  sección  mostramos  que  una  dependencia  logarítmica  de  T  es  
ciertamente  inherente.
Machine Translated by Google

248 Modelos  adicionales

Teorema  12.6.  Cualquier  algoritmo  de  nivel  de  evento  diferencialmente  privado  para  contar  
T  rondas  debe  tener  un  error  Ω  (log  T)  (incluso  con  ε  =  1).

Prueba.  Sea  ε  =  1.  Supongamos,  en  aras  de  la  contradicción,  que  existe  un  contador  de  
nivel  de  evento  diferencialmente  privado  para  flujos  de  longitud  T  que  garantiza  que,  con  
una  probabilidad  de  al  menos  2/3,  su  conteo  en  todos  los  períodos  de  tiempo  es  preciso  
hasta  un  error  máximo  de  (log2  T)/4.  Sea  k  =  (log2  T)/4.  Construimos  un  conjunto  S  de  T /
k  entradas  como  sigue.  Divida  los  T  períodos  de  tiempo  en  T /k  fases  consecutivas,  cada  
una  de  longitud  k  (excepto,  posiblemente,  la  última).  Para  i  =  1, . . . ,  T /k,  la  i­ésima  
i
entrada  x     S  tiene  0  bits  de  entrada  en  todas  partes  excepto  durante  la  i­ésima  fase.  Es  
i =
decir,  x  k∙i  k  ◦  0  k∙((T /k)−(i+1))  0  ◦  1  Fo  1  ≤  i  ≤  T /k,  decimos  que  una  salida  coincide  
con  i   
s i  
ésima   justo  antes  de  la  i­ .

fase  la  la  salida  es  menor  que  k/2  y  al  final  de  la  i­ésima  fase  la  salida  es  al  menos  k/
2.  Por  precisión,  en  la  entrada  x,  la  salida  debe  coincidir  con  i  con  una  probabilidad  de  al  
i
menos  2/3.  Por  ε  privacidad  diferencial,  esto  significa  que  para  cada  i,  j     [T /k]  tal  que  i  =  
j,  la  salida  en  la  entrada

yo  x debe  coincidir  con  j  con  probabilidad  al  menos
−2ε∙k  
e =  mi −ε  log(T  1/2 )

=  mi −  Iniciar  sesión(T  1/2 )  =  1/  √  T .

Esto  es  una  contradicción,  porque  los  eventos  que  la  salida  coincide  con  j  son  disjuntos  
para  diferentes  j  y,  sin  embargo,  la  suma  de  sus  probabilidades  en  la  entrada  x
i excede  1.

12.4  Error  de  caso  promedio  para  liberación  de  consulta

En  las  Secciones  4  y  5,  consideramos  varios  mecanismos  para  resolver  el  problema  de  la  
liberación  de  consultas  privadas,  donde  nos  interesaba  el  error  en  el  peor  de  los  casos.  Es  
decir,  dada  una  clase  de  consultas  Q,  de  tamaño  |Q|  =  k,  deseábamos  recuperar  un  vector  
k
de  respuestas  aˆ     R  tal  que  para  cada  consulta  
fi     Q,  |fi(x)  −  aˆi  |  ≤  α  para  alguna  tasa  
de  error  en  el  peor  de  los  casos  α.  En  otras  palabras,  si  hacemos  k  que  a     R  denote  el  
vector  de  respuestas  verdaderas ,  con  ai  ≡  fi(x),  entonces  requerimos  un  límite  de  la  forma:  
a−aˆ∞  ≤  α.  En  esta  sección,  consideramos  2  (en  lugar  de  ∞)  error:  a  cota  una  garantía  de  
Un  límite  de  esta  forma  no  garantiza utilidad  debilitada,  en  la  forma  a  −  aˆ2  ≤  α.  
Machine Translated by Google

12.4.  Error  de  caso  promedio  para  la  liberación  de  consultas 249

que  tenemos  un  error  bajo  para  cada  consulta,  pero  garantiza  que,  en  promedio,  
tenemos  un  error  pequeño.
Aunque  este  tipo  de  límite  es  más  débil  que  el  peor  de  los  casos,  el  mecanismo  
es  particularmente  simple  y  utiliza  una  elegante  vista  geométrica  del  problema  de  
liberación  de  consultas  que  no  hemos  visto  hasta  ahora.

Recuerde  que  podemos  ver  la  base  de  datos  x  como  un  vector  x     N  |X|  con  x1  
=  n.  De  manera  similar,  también  podemos  ver  las  consultas  fi     Q  como  vectores  
fi     N  |X|,  tales  que  fi(x)  =  fi ,  x.  Por  lo  tanto,  será  útil  ver  nuestra  clase  de  consultas  
Q  como  una  matriz  A     R  k×|X|,  siendo  la  i­ésima  fila  de  A  el  vector  fi .  Entonces  
podemos  ver  que  nuestro  vector  de  respuesta  a     R  en  notación  matricial: k es,

A  ∙  x  =  a.

Consideremos  el  dominio  y  el  rango  de  A  cuando  se  ve  como  un  mapa  lineal.  Escriba  
B1  =  {x     R  |X| :  x1  =  1}  denota  la  unidad  1  bola  en  |X  |  espacio  dimensional.  
Observa  
que  x     nB1,  ya  que  x1  =  n.  Nos  referiremos  a  nB1  como  "Espacio  de  base  de  
datos".  Escriba  K  =  AB1.  Nótese  de  manera  similar  que  para  todo  x     nB1,  a  =  A  ∙  x  
  nK.  Nos  referiremos  a  nK  como  "espacio  de  respuesta".  Hacemos  un  par  de  
observaciones  sobre  K:  Tenga  en  cuenta  que  debido  a  que  B1  es  centralmente  
simétrica,  también  lo  es  K ,  es  decir,  K  =  −K.  Nótese  también  que  ±A|X|  igual  a  k  K  
es  un  politopo  convexo  con  vértices  ±A1 , . . . ,   R
las  columnas  de  A,  junto  con  sus  negaciones.
El  siguiente  algoritmo  es  extremadamente  simple:  simplemente  responde  a  cada  
consulta  de  forma  independiente  con  el  mecanismo  de  Laplace  y  luego  se  proyecta  
de  nuevo  en  el  espacio  de  respuesta.  En  otras  palabras,  agrega  ruido  de  Laplace  
independiente  a  cada  consulta,  lo  que,  como  hemos  visto,  por  sí  mismo  conduce  a  
una  distorsión  que  es  lineal  en  k  (o  al  menos  √  k,  si  nos  relajamos  a  (ε,  δ)­privacidad  
diferencial) .  Sin  embargo,  el  vector  resultante  a˜  de  respuestas  probablemente  no  
sea  consistente  con  ninguna  base  de  datos  y     nB1  en  el  espacio  de  la  base  de  
datos.  Por  lo  tanto,  en  lugar  de  devolver  a˜,  en  su  lugar  devuelve  un  vector  de  
respuesta  consistente  aˆ     nK  que  es  lo  más  cercano  posible  a  a˜.  Como  veremos,  
este  paso  de  proyección  mejora  la  precisión  del  mecanismo,  sin  afectar  la  privacidad  
(¡ya  que  es  solo  un  procesamiento  posterior!)
Primero  observamos  que  Project  es  diferencialmente  privado.

Teorema  12.7.  Para  cualquier  A     [0,  1]k×|X| ,  Project(x,  A,  ε)  preserva  (ε,  δ)­
privacidad  diferencial.
Machine Translated by Google

250 Modelos  adicionales

Algoritmo  18  El  mecanismo  de  Laplace  K­proyectado.  Toma  como  entrada  una  matriz  
A     [0,  1]k×|X|,  una  base  de  datos  x     nB1  y  unos  parámetros  de  privacidad  ε  y  δ.

Proyecto(x,  A,  ε,  δ):
Sea  a  =  A  ∙  x  
Para  cada  i     [k],  muestree  νi     Lap( 8k  ln(1/δ)/ε),  y  sea  a˜  =  a+ν.

Salida  aˆ  =  arg  minaˆ nK  aˆ  −  a˜ 2  2 .

Prueba.  Simplemente  observamos  que  a˜  es  la  salida  del  mecanismo  de  Laplace  en  
k  consultas  de  sensibilidad  1,  que  es  (ε,  δ)  diferencialmente  privada  según  los  
teoremas  3.6  y  3.20.  Finalmente,  dado  que  aˆ  se  deriva  de  a˜  sin  más  acceso  a  los  
datos  privados,  la  liberación  de  aˆ  es  diferencialmente  privada  por  la  garantía  de  
posprocesamiento  de  privacidad  diferencial,  Proposición  2.1.

Teorema  12.8.  Para  cualquier  clase  de  consultas  lineales  A  y  base  de  datos  x,  sea  a  
=  A  ∙  x  el  vector  de  respuesta  verdadero.  Sea  aˆ  la  salida  del  mecanismo  Proyecto:  aˆ  
=  Proyecto(x,  A,  ε).  Con  probabilidad  al  menos  1  −  β:

2   kn  192  ln(1/δ)  ln(2|X  |/β)  ≤
a  −  aˆ 2
.
ε

Para  probar  este  teorema,  introduciremos  un  par  de  conceptos  simples,  su  
k
de  geometría  convexa.  Para  un  cuerpo  convexo  K     R   , cuerpo  polar  es  K◦ :  y,  
k
definido  como  K◦  =  {y     R  La   x  ≤  1  para  todo  x     K}.  el  minkowski
norma  definida  por  un  cuerpo  convexo  K  es

xK  ≡  min{r     R  tal  que  x     rK}.

La  norma  dual  de  xK  es  la  norma  de  Minkowski  inducida  por  el  cuerpo  polar  de  K,  es  
decir,  xK◦ .  Esta  norma  también  tiene  la  siguiente  forma:

xK◦  =  máx  x,  y.  y K

El  hecho  clave  que  usaremos  es  la  Desigualdad  de  Holder,  que  se  satisface  con  
todos  los  cuerpos  convexos  con  simetría  central  K:

|x,  y|  ≤  xKyK◦ .
Machine Translated by Google

12.4.  Error  de  caso  promedio  para  la  liberación  de  consultas 251

Demostración  del  teorema  12.8.  La  prueba  procederá  en  dos  pasos.  Primero  
mostraremos  que:  a−aˆ  ≤  2aˆ−a,  
2  
2 a˜−a,  y  luego  usaremos  la  ecuación  de  Holder
desigualdad  para  acotar  esta  segunda  cantidad.

Lema  12.9.
2  
a  −  aˆ 2 ≤  2aˆ  −  un,  un˜  −  un

Prueba.  Calculamos:

2  
aˆ  ­  a 2 =  aˆ  −  a,  aˆ  −  a

=  aˆ  −  a,  a˜  −  a  +  aˆ  −  a,  aˆ  −  a˜

≤  2aˆ  −  a,  a˜  −  a.

La  desigualdad  se  sigue  de  calcular:

2  
aˆ  −  a,  a˜  −  a  =  a˜  −  a 2 +  aˆ  −  a,  ̃  
a˜  −  a
2  
≥  aˆ  −  a˜ 2 +  aˆ  −  a,  ̃  
a˜  −  a

=  aˆ  −  a,  ̃  
aˆ  −  a,

Donde  se  sigue  la  desigualdad  final  porque  por  elección  de  aˆ,  para  todo  a     nK:  a˜  −  
aˆ 2  
2 ≤  un˜  −  un 2  2 .

Ahora  podemos  completar  la  prueba.  Recuerde  que,  por  definición,  a˜−a  =  ν,  el  
vector  del  ruido  de  Laplace  iid  agregado  por  el  mecanismo  de  Laplace.  Por  el  Lema  
12.9  y  la  desigualdad  de  Holder,  tenemos:

2  
a  −  aˆ 2 ≤  2aˆ  −  a,  v
≤  2aˆ  −  aKνK◦ .
ˆ
Vinculamos  estos  dos  términos  por  separado.  Dado  que  por  definición  a,  a     nK,  
tenemos  max(aˆK,  aK)  ≤  n,  y  por  la  desigualdad  del  triángulo,  aˆ  −  aK  ≤  2n.

A  continuación,  observe  que  como  νK◦  =  maxy Ky,  ν,  y  como  el  máximo  de  una  
función  lineal  tomada  sobre  un  politopo  se  alcanza  en  un  vértice,  tenemos:  νK◦  =  
maxi [|X|]  |Ai ,  ν  |.
k
Como  todo  Ai     R  es  tal  que  
Ai∞  ≤  1,  y  recordando  que  para  cualquier  escalar  q,  
si  Z     Lap(b),  entonces  qZ     Lap(qb),  podemos  aplicar  el  Lema  por
Machine Translated by Google

252 Modelos  adicionales

Lema  12.2  para  acotar  las  sumas  ponderadas  de  las  variables  aleatorias  de  Laplace  
Ai , V.  Al  hacerlo,  tenemos  que  con  probabilidad  de  al  menos  1  −  β:

i 8k  ln(1/δ)  ln(|X  |/β) ,  ν|  ≤
máximo |A   .
i [|X|]

Combinando  todos  los  límites  anteriores,  obtenemos  que  con  probabilidad  1  −  
β:

2   16nk  ln(1/δ)  ln(|X  |/β)  ≤
a  −  aˆ 2
.

2   = k 2
Interpretemos  este  límite.  Observe  que  a−aˆ 2 i=1(ai  −aˆi) ,
y  entonces  esto  es  un  límite  en  la  suma  de  los  errores  al  cuadrado  sobre  todas  las  consultas.
Por  lo  tanto,  el  error  cuadrático  promedio  por  consulta  de  este  mecanismo  es  solo:
k
1 2 16n  ln(1/δ)  ln(|X  |/β)  ≤
(ai  −  aˆi) .
k
yo=1

En  contraste,  el  mecanismo  privado  de  pesos  multiplicativos  garantiza  que  
maxi [k]  |ai  −  aˆi  |  ≤  O˜( √  n  log  |X  |1/4/ε1/2 ),  por  lo  que  coincide  con  la  garantía  de  
error  cuadrático  medio  del  mecanismo  de  Laplace  proyectado,  con  un  límite  de:  
O˜(n  log  |X  |/ε) .  Sin  embargo,  el  mecanismo  de  pesos  multiplicativos  (y  especialmente  
su  análisis  de  privacidad)  es  mucho  más  complejo  que  el  mecanismo  de  Laplace  
Proyectado.  En  particular,  la  parte  privada  del  mecanismo  K­Projected  Laplace  es  
simplemente  el  propio  mecanismo  de  Laplace  y  no  requiere  coordinación  entre  
consultas.  Curiosamente,  y  resulta  que  necesariamente,  la  coordinación  se  produce  
en  la  fase  de  proyección.  Dado  que  la  proyección  está  en  posprocesamiento,  no  
incurre  en  más  pérdida  de  privacidad;  de  hecho,  puede  ser  realizado  (en  línea,  si  es  
necesario)  por  el  propio  analista  de  datos.

12.5  Notas  bibliográficas

El  modelo  local  de  privacidad  de  datos  tiene  sus  raíces  en  la  respuesta  aleatoria,  
propuesta  por  primera  vez  por  Warner  en  1965  [84].  El  modelo  local  fue  formalizado  
por  Kasiviswanathan  et  al.  [52]  en  el  contexto  del  aprendizaje,  quienes  demostraron  
que  el  aprendizaje  privado  en  la  modalidad  local  es  equivalente  al  no  privado
Machine Translated by Google

12.5.  notas  bibliograficas 253

aprendizaje  en  el  modelo  de  consulta  estadística  (SQ).  Gupta  et  al.  demostraron  
que  el  conjunto  de  consultas  que  se  pueden  publicar  en  el  modelo  local  es  
exactamente  igual  al  conjunto  de  consultas  que  se  pueden  aprender  de  manera  
agnóstica  en  el  modelo  SQ.  [38].
Pan­Privacy  fue  introducido  por  Dwork  et  al.  [27],  y  explorado  más  a  fondo  por  
Mir  et  al.  [62].  La  estimación  de  la  densidad  pan­privada,  así  como  una  variante  de  
baja  memoria  que  usa  hash,  aparecen  en  [27].
La  privacidad  bajo  observación  continua  fue  introducida  por  Dwork  et  al.  [26];  
nuestro  algoritmo  para  contar  bajo  observación  continua  es  de  ese  documento,  al  
igual  que  el  límite  inferior  de  error.  Algoritmos  similares  fueron  proporcionados  por  
Chan  et  al.  [11].  La  prueba  de  concentración  de  la  desigualdad  de  medidas  para  
las  sumas  de  variables  aleatorias  de  Laplace  dadas  en  el  Lema  12.2  es  de  [11].

El  mecanismo  de  Laplace  Proyectado  para  lograr  un  error  promedio  bajo  fue  
proporcionado  por  Nikolov  et  al.  [66],  quienes  también  dan  instancias  de  algoritmos  
óptimos  para  el  problema  de  liberación  de  consultas  (error  promedio)  para  cualquier  
clase  de  consultas.  Este  trabajo  amplía  una  línea  de  trabajo  sobre  las  conexiones  
entre  la  privacidad  diferencial  y  la  geometría  iniciada  por  Hardt  y  Talwar  [45],  y  
ampliada  por  Bhaskara  et  al.  [5]  y  Dwork  et  al.  [30].
Dwork,  Naor  y  Vadhan  demostraron  una  brecha  exponencial  entre  el  número  
de  consultas  que  pueden  ser  respondidas  (con  errores  no  triviales)  por  mecanismos  
privados  diferenciales  sin  estado  y  con  estado  [29].  La  lección  aprendida  (que  la  
coordinación  es  esencial  para  responder  de  manera  precisa  y  privada  a  un  gran  
número  de  consultas)  parece  descartar  la  adición  de  ruido  independiente  en  el  
mecanismo  de  Laplace  Proyectado.  La  plenitud  de  estado  de  ese  algoritmo  
aparece  en  el  paso  de  proyección,  resolviendo  la  paradoja.
Machine Translated by Google

13
Reflexiones

13.1  Hacia  la  práctica  de  la  privacidad

La  privacidad  diferencial  se  diseñó  teniendo  en  cuenta  los  conjuntos  de  datos  a  escala  de  Internet.
Los  ataques  de  reconstrucción  en  la  línea  de  los  de  la  Sección  8  pueden  ser  llevados  a  cabo  por  
un  adversario  polinomial  limitado  en  el  tiempo  que  solo  realiza  consultas  O  (n)  en  bases  de  datos  
de  tamaño  n.  Cuando  n  es  del  orden  de  cientos  de  millones,  y  cada  consulta  requiere  una  cantidad  
lineal  de  cómputo,  tal  ataque  no  es  realista,  aunque  las  consultas  se  pueden  paralelizar.

Esta  observación  condujo  a  los  primeros  pasos  hacia  la  privacidad  diferencial:  si  el  adversario  está  
restringido  a  un  número  sublineal  de  consultas  de  conteo,  entonces  o( √  n)  ruido  por  consulta,  
¡menos  que  el  error  de  muestreo!  —  es  suficiente  para  preservar  la  privacidad  (Corolario  3.21).

¿En  qué  medida  se  puede  aplicar  la  privacidad  diferencial  en  conjuntos  de  datos  más  
pequeños,  o  incluso  en  ataques  dirigidos  que  aíslan  un  pequeño  subconjunto  de  una  base  de  
datos  mucho  más  grande,  sin  destruir  la  utilidad  estadística?
En  primer  lugar,  un  análisis  puede  requerir  una  serie  de  consultas  que  comienzan  a  parecerse  al  
tamaño  de  este  conjunto  más  pequeño.  En  segundo  lugar,  si  ahora  n  denota  el  tamaño  del  
conjunto  más  pequeño  o  la  base  de  datos  pequeña,  y  si  k  es  el  número  de  consultas,  los  errores  
fraccionarios  del  orden  de  √  k/n  son  más  difíciles  de  ignorar  cuando  n  es  pequeño.  Tercero,  el  
factor  ln(1/δ)/ε  en  el  avanzado

254
Machine Translated by Google

13.1.  Hacia  la  práctica  de  la  privacidad 255

el  teorema  de  composición  se  vuelve  significativo.  Teniendo  en  cuenta  los  ataques  de  
reconstrucción  cuando  el  ruido  es  o( √  n),  parece  haber  poco  margen  de  maniobra  para  
conjuntos  arbitrarios  de  k  ≈  n  consultas  de  baja  sensibilidad.

Hay  varias  líneas  de  investigación  prometedoras  para  abordar  estos
preocupaciones.

Los  errores  de  consulta  no  cuentan  toda  la  historia.  Como  ejemplo  de  este  fenómeno,  
considere  el  problema  de  la  regresión  lineal.  la  entrada  es
d
una  colección  de  puntos  de  datos  etiquetados  de  la  forma  (x,  y),  donde  x     R  y  y     
d
R,  para  una  dimensión  arbitraria  d.  El  objetivo  es  encontrar  θ     R  que  “prediga”  y  “lo  
mejor  posible”,  dado  x,  bajo  el  supuesto  de  que  la  relación  es  lineal.  Si  el  objetivo  es  
simplemente  "explicar"  el  conjunto  de  datos  dado,  la  privacidad  diferencial  bien  puede  
introducir  un  error  inaceptable.
Ciertamente,  el  algoritmo  específico  que  simplemente  calcula
norte

2
argminθ  | θ  ∙  xi  ­  yi  |
yo=1

y  agrega  ruido  de  Laplace  apropiadamente  escalado  independientemente  a  cada  
coordenada  de  θ  puede  producir  un  ̃θ  que  difiere  sustancialmente  de  θ.  Pero  si  el  
objetivo  es  aprender  un  predictor  que  funcionará  bien  para  futuras  entradas  no  vistas  
(x,  y),  entonces  se  usa  un  cálculo  ligeramente  diferente  para  evitar  el  sobreajuste  y  la  
diferencia  (posiblemente  grande)  entre  los  vectores  de  coeficientes  privados  y  no  
privados  no  se  traduce  en  una  brecha  en  el  error  de  clasificación!
Un  fenómeno  similar  se  ha  observado  en  el  ajuste  de  modelos.

Menos  puede  ser  más.  Muchos  análisis  piden  más  de  lo  que  realmente  utilizan.  La  
explotación  de  este  principio  está  en  el  corazón  de  Report  Noisy  Max,  donde  por  el  
"precio"  de  precisión  de  una  medición  aprendemos  una  de  las  más  grandes  de  muchas  
mediciones.  Al  pedir  “menos” (es  decir,  no  exigir  que  se  publiquen  todas  las  medidas  
con  ruido,  sino  solo  pedir  la  más  grande),  obtenemos  “más” (mejor  precisión).  Un  
principio  familiar  en  la  privacidad  es  minimizar  la  recopilación  y  el  reporte.  Aquí  vemos  
este  juego  en  el  ámbito  de  lo  que  debe  revelarse,  en  lugar  de  lo  que  debe  usarse  en  el  
cómputo.

Salga  cuando  NO  esté  adelante.  Esta  es  la  filosofía  detrás  de  Proponer­Prueba­Liberar,  
en  la  que  probamos  de  una  manera  que  preserva  la  privacidad.
Machine Translated by Google

256 Reflexiones

ese  pequeño  ruido  es  suficiente  para  un  cálculo  previsto  particular  en  el  conjunto  de  datos  
dado.

Algoritmos  con  límites  de  precisión  dependientes  de  los  datos.  Esto  se  puede  ver  como  
una  generalización  de  Renunciar  cuando  no  estás  adelante.  Los  algoritmos  con  límites  
de  precisión  dependientes  de  los  datos  pueden  ofrecer  excelentes  resultados  en  conjuntos  
de  datos  "buenos",  como  en  Proponer­Prueba­Lanzamiento,  y  la  precisión  puede  
degradarse  gradualmente  a  medida  que  disminuye  la  "bondad",  una  mejora  con  respecto  
a  Proponer­Prueba­Lanzamiento .

Explotar  conjuntos  de  consultas  "agradables".  Cuando  los  conjuntos  (potencialmente  
grandes)  de  consultas  lineales  se  presentan  como  un  lote,  es  posible,  mediante  el  análisis  
de  la  geometría  de  la  matriz  de  consulta ,  obtener  respuestas  de  mayor  calidad  que  la  que  
se  obtendría  si  las  consultas  se  respondieran  de  forma  independiente1 .

Relajación  adicional  de  la  privacidad  diferencial  Hemos  visto  que  (,  δ)­  la  privacidad  
diferencial  es  una  relajación  significativa  de  la  privacidad  diferencial  que  puede  proporcionar  
límites  de  precisión  sustancialmente  mejorados.  Además,  tal  relajación  puede  ser  esencial  
para  estas  mejoras.  Por  ejemplo,  los  algoritmos  Proponer­Prueba­Liberar  solo  pueden  
ofrecer  (ε,  δ)­privacidad  diferencial  para  δ  >  0.  ¿Qué  pasa  con  otras  relajaciones,  pero  
aún  significativas,  de  la  privacidad  diferencial?  La  privacidad  diferencial  concentrada  es  
una  relajación  que  es  incomparable  con  la  privacidad  diferencial  (ε,  δ)  y  que  permite  una  
mayor  precisión.  En  términos  generales,  garantiza  que  la  gran  pérdida  de  privacidad  
ocurra  con  una  probabilidad  muy  pequeña;  por  ejemplo,  para  todos  los  k  la  probabilidad  
de  pérdida  de  privacidad  kε  cae  exponencialmente  en  k  (ε,  δ)­la  privacidad  diferencial  es  
2
consistente  con  tener  una  pérdida  de  privacidad  infinita  con  probabilidad  .  A  diferencia  de,
δ;  por  otro  lado,  la  pérdida  de  privacidad  2ε  puede  ocurrir  en  la  privacidad  diferencial  
concentrada  con  probabilidad  constante,  mientras  que  en  la  privacidad  diferencial  (ε,  δ)  
solo  ocurrirá  con  la  probabilidad  limitada  por  δ,  que  normalmente  tomamos  como  
criptográficamente  pequeña.

¿Por  qué  podríamos  sentirnos  cómodos  con  esta  relajación?  La  respuesta  está  en  el  
comportamiento  bajo  composición.  Como  participan  los  datos  de  un  individuo

1Más  precisamente,  el  análisis  es  del  objeto  K  =  ABk  donde  A  e1 ,s  la  consulta  es  la  bola  L1  
k  matriz  y  B  1
k­dimensional ;  tenga  en  cuenta  que  K  es  la  región  factible  en  el  espacio  de  
respuesta  cuando  la  base  de  datos  tiene  un  elemento.
Machine Translated by Google

13.1.  Hacia  la  práctica  de  la  privacidad 257

en  muchas  bases  de  datos  y  muchos  cálculos  diferentes,  quizás  la  verdadera  
preocupación  sea  la  amenaza  combinada  de  exposiciones  múltiples.  Esto  es  capturado  
por  la  privacidad  bajo  composición.  La  privacidad  diferencial  concentrada  permite  una  
mejor  precisión  al  mismo  tiempo  que  produce  el  mismo  comportamiento  bajo  
composición  que  (ε,  δ)  (y  (ε,  0))  privacidad  diferencial.
La  privacidad  diferencial  también  enfrenta  una  serie  de  desafíos  culturales.  Uno  
de  los  más  significativos  es  el  pensamiento  no  algorítmico.  La  privacidad  diferencial  es  
una  propiedad  de  un  algoritmo.  Sin  embargo,  muchas  personas  que  trabajan  con  datos  
describen  sus  interacciones  con  los  datos  en  términos  fundamentalmente  no  
algorítmicos,  como  "Primero,  observo  los  datos".  De  manera  similar,  la  limpieza  de  
datos  a  menudo  se  describe  en  términos  no  algorítmicos.  Si  los  datos  son  
razonablemente  abundantes  y  los  analistas  son  enérgicos,  entonces  la  aplicación  de  
"Datos  sin  procesar"  de  la  metodología  de  Submuestra  y  Agregado  descrita  en  el  
Ejemplo  7.3  sugiere  un  camino  para  permitir  interacciones  no  algorítmicas  por  parte  
de  analistas  de  confianza  que  seguirán  las  instrucciones.  En  general,  parece  plausible  
que  en  conjuntos  de  datos  de  alta  dimensión  y  escala  de  Internet,  las  interacciones  no  
algorítmicas  sean  la  excepción.
¿Qué  pasa  con  ε?  En  el  Ejemplo  3.7  aplicamos  el  Teorema  3.20  para  concluir  
que  para  acotar  la  pérdida  de  privacidad  acumulada  durante  toda  la  vida  en  ε  =  1  con  
probabilidad  1  −  e  −32,  sobre  la  participación  en  10  000  bases  de  datos,  es  suficiente  
que  cada  base  de  datos  sea  (1/801 ,  0)­diferencialmente  privado.  Si  bien  k  =  10  000  
puede  ser  una  sobreestimación,  la  dependencia  de  k  es  bastante  débil  (√  k)  y,  en  el  
peor  de  los  casos,  estos  límites  son  estrechos,  lo  que  descarta  un  límite  más  flexible  
que  ε0  =  1/801  para  cada  base  de  datos  durante  el  período .  vida  útil  de  la  base  de  
datos.  Esto  es  simplemente  un  requisito  demasiado  estricto  en  la  práctica.
Quizás  podamos  hacer  una  pregunta  diferente:  fijar  ε,  digamos,  ε  =  1  o  ε  =  1/10;  
ahora  pregunte:  ¿Cómo  se  pueden  repartir  múltiples  ε?  Permitir  una  pérdida  de  
privacidad  de  ε  por  consulta  es  demasiado  débil,  y  una  pérdida  de  ε  durante  la  vida  útil  
de  la  base  de  datos  es  demasiado  fuerte.  Algo  intermedio,  digamos,  ε  por  estudio  o  ε  
por  investigador,  puede  tener  sentido,  aunque  esto  plantea  la  pregunta  de  quién  es  un  
"investigador"  y  qué  constituye  un  "estudio".  Esto  brinda  una  protección  sustancialmente  
mayor  contra  el  compromiso  de  privacidad  accidental  e  intencional  que  las  prácticas  
actuales,  desde  enclaves  hasta  contratos  de  confidencialidad.

Una  propuesta  diferente  es  menos  prescriptiva.  Esta  propuesta  se  basa  en  
enfoques  normativos  de  segunda  generación  para  reducir  la
Machine Translated by Google

258 Reflexiones

degradación,  en  particular  los  registros  de  emisión  de  contaminantes,  como  el  Inventario  
de  Emisiones  Tóxicas,  que  se  ha  demostrado  que  fomentan  mejores  prácticas  a  través  
de  la  transparencia.  Tal  vez  podría  surgir  un  efecto  similar  con  el  análisis  de  datos  
privados:  un  Registro  Epsilon  que  describa  los  usos  de  los  datos,  la  granularidad  de  la  
protección  de  la  privacidad,  una  "tasa  de  consumo"  de  pérdida  de  privacidad  por  unidad  
de  tiempo  y  un  límite  en  la  pérdida  total  de  privacidad  permitida  antes  de  que  se  retiren  
los  datos,  cuando  se  acompañado  de  una  sanción  financiera  por  pérdidas  infinitas  (o  
muy  grandes),  puede  conducir  a  la  innovación  y  la  competencia,  desplegando  los  talentos  
y  recursos  de  un  conjunto  más  grande  de  investigadores  y  profesionales  de  la  privacidad  
en  la  búsqueda  de  algoritmos  privados  diferenciales.

13.2  La  lente  de  privacidad  diferencial

Un  diccionario  etimológico  en  línea  describe  el  significado  original  del  siglo  XVIII  del  
término  de  la  palabra  "estadística"  como  "ciencia  que  trata  con  datos  sobre  la  condición  
de  un  estado  o  comunidad".  Esto  resuena  con  la  privacidad  diferencial  en  la  violación:  si  
la  presencia  o  ausencia  de  los  datos  de  un  pequeño  número  de  individuos  cambia  el  
resultado  de  un  análisis,  entonces,  en  cierto  sentido,  el  resultado  es  "sobre"  estos  pocos  
individuos,  y  no  describe  la  condición  de  la  comunidad  en  su  conjunto.  Dicho  de  otra  
manera,  la  estabilidad  ante  pequeñas  perturbaciones  en  los  datos  es  tanto  el  sello  
distintivo  de  la  privacidad  diferencial  como  la  esencia  de  una  concepción  común  del  
término  “estadística”.  La  privacidad  diferencial  está  habilitada  por  la  estabilidad  (Sección  
7)  y  asegura  la  estabilidad  (por  definición).  En  cierto  sentido  obliga  a  que  todas  las  
consultas  sean  de  naturaleza  estadística.  Como  la  estabilidad  también  se  entiende  cada  
vez  más  como  una  condición  necesaria  y  suficiente  clave  para  la  capacidad  de  
aprendizaje,  observamos  una  equivalencia  moral  tentadora  entre  la  capacidad  de  
aprendizaje,  la  privacidad  diferencial  y  la  estabilidad.

Con  esto  en  mente,  no  sorprende  que  la  privacidad  diferencial  sea  también  un  medio  
para  fines  distintos  de  la  privacidad  y,  de  hecho,  vimos  esto  con  la  teoría  de  juegos  en  la  
Sección  10.  El  poder  de  la  privacidad  diferencial  proviene  de  su  adaptabilidad  a  la  
composición.  Así  como  la  composición  nos  permite  construir  algoritmos  privados  
diferencialmente  complejos  a  partir  de  bloques  de  construcción  privados  diferencialmente  
más  pequeños,  proporciona  un  lenguaje  de  programación  para  construir  algoritmos  
estables  para  tareas  analíticas  complejas.  Considere,  por  ejemplo,  el  problema  de  
obtener  un  conjunto  de  valores  de  postor  y  usarlos  para  cotizar
Machine Translated by Google

13.2.  La  lente  de  privacidad  diferencial 259

una  colección  de  bienes  que  están  a  la  venta.  Informalmente,  los  precios  de  
equilibrio  walrasianos  son  precios  tales  que  cada  individuo  puede  comprar  
simultáneamente  su  paquete  de  bienes  favorito  dados  los  precios,  mientras  
asegura  que  la  demanda  es  exactamente  igual  a  la  oferta  de  cada  bien.  Entonces,  
a  primera  vista,  parecería  que  simplemente  calcular  estos  precios  y  asignar  a  
cada  persona  su  paquete  de  bienes  favorito  dados  los  precios  produciría  un  
mecanismo  en  el  que  los  agentes  estarían  incentivados  a  decir  la  verdad  sobre  
su  función  de  valoración,  ya  que  ¿cómo  podría  cualquier  agente?  hacer  mejor  
que  recibir  su  paquete  favorito  de  bienes?  Sin  embargo,  este  argumento  falla,  
porque  en  un  equilibrio  walrasiano,  los  agentes  reciben  su  paquete  de  bienes  
favorito  dados  los  precios,  pero  los  precios  se  calculan  en  función  de  las  
valoraciones  informadas,  por  lo  que  un  agente  laborioso  pero  deshonesto  podría  
ganar  potencialmente  manipulando  los  precios  calculados. .  Sin  embargo,  este  
problema  se  resuelve  (y  resulta  un  mecanismo  aproximadamente  veraz)  si  los  
precios  de  equilibrio  se  calculan  utilizando  un  algoritmo  diferencialmente  privado,  
precisamente  porque  los  agentes  individuales  casi  no  tienen  efecto  en  la  
distribución  de  los  precios  calculados.  Tenga  en  cuenta  que  esta  aplicación  es  
posible  gracias  al  uso  de  herramientas  de  privacidad  diferencial,  pero  es  
completamente  ortogonal  a  las  preocupaciones  de  privacidad.  En  términos  más  
generales,  esta  conexión  es  más  fundamental:  calcular  equilibrios  de  varios  tipos  
utilizando  algoritmos  que  tienen  la  propiedad  de  estabilidad  garantizada  por  la  
privacidad  diferencial  conduce  a  mecanismos  aproximadamente  veraces  que  
implementan  estos  resultados  de  equilibrio.
La  privacidad  diferencial  también  ayuda  a  garantizar  la  generalización  en  el  
análisis  de  datos  adaptativos.  Adaptabilidad  significa  que  las  preguntas  formuladas  
y  las  hipótesis  probadas  dependen  de  los  resultados  de  preguntas  anteriores.  La  
capacidad  de  generalización  significa  que  el  resultado  de  un  cálculo  o  una  prueba  
en  el  conjunto  de  datos  está  cerca  de  la  realidad  básica  de  la  distribución  de  la  
que  se  muestrean  los  datos.  Se  sabe  que  el  paradigma  ingenuo  de  responder  
consultas  con  los  valores  empíricos  exactos  en  un  conjunto  de  datos  fijos  no  
logra  generalizarse  incluso  bajo  una  cantidad  limitada  de  preguntas  adaptativas.  
Sorprendentemente,  responder  con  privacidad  diferencial  no  solo  garantiza  la  
privacidad,  sino  que  con  alta  probabilidad  garantiza  la  generalización  incluso  para  
muchas  consultas  elegidas  de  forma  exponencial.  Por  lo  tanto,  la  introducción  
deliberada  de  ruido  utilizando  técnicas  de  privacidad  diferencial  tiene  implicaciones  
profundas  y  prometedoras  para  la  validez  de  la  investigación  científica  tradicional.
Machine Translated by Google

Apéndices
Machine Translated by Google

A
El  mecanismo  de  Gauss

Sea  f :  N  |X| re  →  R sea  una  función  d­dimensional  arbitraria  y  defina  su  2  sensibilidad  

como  ∆2f  =  maxadjacentx,y  f(x)  −  f(y)2.  El  mecanismo  gaussiano  con  parámetro  σ  agrega  
ruido  escalado  a  N  (0,  σ2 )  a  cada  uno  de  los  componentes  d  de  la  salida.

2
Teorema  A.1.  Sea  ε     (0,  1)  arbitrario.  Para  c  >  2  ln(1.25/δ),  el  Mecanismo  
Gaussiano  con  
parámetro  σ  ≥  c∆2f /ε  es  (ε,  δ)­diferencialmente  privado.

Prueba.  Hay  una  base  de  datos  D  y  una  consulta  f,  y  el  mecanismo  devolverá  f(D)+η,  donde  
el  ruido  se  distribuye  normalmente.  Estamos  sumando  ruido  N  (0,  σ2 ).  Por  ahora,  suponga  
que  estamos  hablando  de  funciones  con  valores  reales,  por  lo  que

∆f  =  ∆1f  =  ∆2f.

estamos  mirando

2
mi (−1/2σ )X 2
en (A.1)
mi (−1/2σ2)(x+∆f)  2 .

Estamos  investigando  la  probabilidad,  dado  que  la  base  de  datos  es  D,  de  observar  una  
salida  que  ocurre  con  una  probabilidad  muy  diferente

261
Machine Translated by Google

262 El  mecanismo  de  Gauss

bajo  D  que  bajo  una  base  de  datos  adyacente  D  donde  el  espacio  
, de  probabilidad  es  el  
algoritmo  de  generación  de  ruido.  El  numerador  en  la  relación  anterior  describe  la  
probabilidad  de  ver  f(D)  +  x  cuando  la  base  de  datos  es  D,  el  denominador  corresponde  a  
la  probabilidad  de  ver  este  mismo  valor  cuando  la  base  de  datos  es  D.  Esta  es  una  razón  
de  probabilidades,  por  lo  que  siempre  es  positiva,  pero  el  logaritmo  de  la  razón  puede  ser  
negativo.  Nuestra  variable  aleatoria  de  interés,  la  pérdida  de  privacidad,  es

2 2
mi (−1/2σ )X
en
mi (−1/2σ2)(x+∆f)  2

y  estamos  viendo  su  valor  absoluto.

2 2
mi (−1/2σ )X
en (−1/2σ  2 )[x  2−(x+∆f)  2 ]  |
=  |  ln  e
mi (−1/2σ2)(x+∆f)  2

1
2 2 2
=  |  −  [x  2σ  2 −  (x +  2x∆f  +  ∆f )]|
1
2
=  |  (2x∆f  +  (∆f)  2σ  2 )|. (A.2)

Esta  cantidad  está  acotada  por  ε  siempre  que  x  <  σ2  ε/∆f  −  ∆f /2.  Para  asegurar  la  
pérdida  de  privacidad  limitada  por  ε  con  probabilidad  de  al  menos  1  −  δ,  requerimos

2
pr[|x|  ≥  σ ε/∆f  −  ∆f /2]  <  δ,  y  porque  
nos  interesa  |x|  encontraremos  σ  tal  que
2
Pr[x  ≥  σ ε/∆f  −  ∆f /2]  <  δ/2.

Supondremos  en  todo  momento  que  ε  ≤  1  ≤  ∆f.
Usaremos  el  límite  de  la  cola.
σ
Pr[x  >  t]  ≤  √   mi −t  2/2σ  2 .

Necesitamos:
σ 1
mi −t  2/2σ  2  
<  δ/2
√  2π t

1     σ   −t  2/2σ  2  <  √  2πδ/2

t  2/2σ  
2  >  2/  √  2πδ
ette  σ
2 2
  ln(t/σ)  +  t /2σ >  ln(2/  √  2πδ).
Machine Translated by Google

263

2
Tomando  t  =  σ ε/∆f  −  ∆f /2,  obtenemos
2 2 2
ln((σ ε/∆f  −  ∆f /2)/σ)  +  (σ ε/∆f  −  ∆f /2)2 /2σ >  ln(2/  √  2πδ)

2  1
=  en .
π d

Escribamos  σ  =  c∆f /ε;  deseamos  enlazar  c.  Comenzamos  por  encontrar  las  condiciones  
bajo  las  cuales  el  primer  término  es  no  negativo.
2
1 2  ε   ∆f 1 (∆f) ε ∆f
σ − = 2c  _

σ ∆f 2 σ 2  ε ∆f 2

1 ∆f ∆f  2
= 2c  _

σ ε

ε ∆f ∆f
= 2c  _

c∆f ε 2
ε
=  do  ­ .
2c
1 2  ε −
Como  ε  ≤  1  y  c  ≥  1,  tenemos  c  −  ε/(2c)  ≥  c  −  1/2.  Entonces  ln( ∆f σ (σ ∆f

2 ))  >  0  siempre  que  c  ≥  3/2.  Por  lo  tanto,  podemos  centrarnos  en  el  término  t  2/σ2 .
2 2
1 σ 2  ε   ∆f  2 1 2c  _ 1
− = ∆f

2σ  2  ∆f 2σ  2 ε 2

2
2 2c  _ 1 2  ε 1

=  (∆f)
ε 2 c  2(∆f)  2 2

2
1 2c  _ 1 2  ε
= −

2 ε 2 2c  _

1 2 2 2
= (C −  ε  +  ε /4c ).
2

Como  ε  ≤  1  la  derivada  de  (c  2−ε+ε  2/4c  2 )  con  respecto  a  c  es  positiva  −  ε+  ε  2/4c  2
2 2
en  el  rango  que  estamos  considerando  (c  ≥  3/2),  entonces  c ≥c  _ −  8/9
y  es  suficiente  para  asegurar

2  1
2c −  8/9  >  2  ln .
π d
Machine Translated by Google

264 El  mecanismo  de  Gauss

En  otras  palabras,  necesitamos  que

2c >  2  ln( 2/π)  +  2  ln(1/δ)  +  ln(e  8/9 )  =  ln(2/π)  +  ln(e  8/9 )  +  2  ln(1/δ),

2
que,  dado  que  (2/π)e  8/9  <  1.55,  se  cumple  siempre  que  c   >  2  ln(1,25/δ).
Partiremos  R  como  R  =  R1     R2,  donde  R1  =  {x     R :  |x|  ≤  c∆f /ε}  y  R2  =  {x     R :  |
x|  >  c∆f /ε}.  Fijar  cualquier  subconjunto  S     R,  y
definir

S1  =  {f(x)  +  x  |  x     R1}

S2  =  {f(x)  +  x  |  x     R2}.

Tenemos

Pr  [f(x)  +  x     S]  =  Pr  [f(x)  +  x     S1]  x N  (0,σ2)  x N  (0,σ2)

+  Pr  [f(x)  +  x     S2]  x N  (0,σ2)

x N   [f(x)  +  x     S1]  +  δ  ≤  Pr  


(0,σ2)

ε
≤  mi [f(y)  +  x     S1]  +  δ,
Prx N  ( 0,σ2)

produciendo  (ε,  δ)­privacidad  diferencial  para  el  mecanismo  gaussiano  en  una  dimensión.

Alta  Dimensión.  Para  extender  esto  a  funciones  en  Rm,  defina  ∆f  =  ∆2f.  Ahora  podemos  
repetir  el  argumento,  utilizando  normas  euclidianas.  Sea  v  cualquier  vector  que  satisfaga  
v  ≤  ∆f.  Para  un  par  fijo  de  bases  de  datos  x,  y  estamos  interesados  en  v  =  f(x)  −  f(y),  ya  
que  esto  es  lo  que  nuestro  ruido  debe  oscurecer.  Como  en  el  caso  unidimensional,  
buscamos  condiciones  en  σ  bajo  las  cuales  la  pérdida  de  privacidad

2 2
mi (−1/2σ )x−µ
en
mi (−1/2σ2)x+v−µ  2
Machine Translated by Google

265

está  acotado  por  ε;  aquí  x  se  elige  de  N  (0,  Σ),  donde  (Σ)  es  una  matriz  diagonal  con  
2
entradas  σ  donde  µ  =  (0, . . . ,  
, 0).
2 2
mi (−1/2σ )x−µ 2
en (−1/2σ   )[x−µ  2−x+v−µ  2 ]  |
=  |  ln  e
mi (−1/2σ2)x+v−µ  2

= 2
1  (x  2σ   2  ­  x  +  v )) .
2

Utilizaremos  el  hecho  de  que  la  distribución  de  una  normal  con  simetría  esférica  es  
independiente  de  la  base  ortogonal  de  la  que  se  extraen  sus  normales  constituyentes,  por  
lo  que  podemos  trabajar  en  una  base  que  esté  alineada  con  v .
Fijar  tal  base  b1, . . . ,  bm,  y  dibujar  x  dibujando  primero  longitudes  con  signo  [i]  λi     N  (0,  
=  [λi]ibi ,
σ2 ),  para  i     [m],  luego  definiendo  x  y  finalmente  dejando  
x  = metro
yo  =  1 x   .  Suponga  sin  pérdida  de  generalidad  que  b1  es  paralela  a  v.
2  ­  x  +  v 2
Estamos  interesados  en  |  X |.
m   [i]
Considera  el  triángulo  rectángulo  con  base  v  +  x  ortogonal  
[1]  y  arista   2 x  i  =  
a  v.  La  hipotenusa  de  este  triángulo  es  x  +  v.

metro

2 [1]  2  
x  +  v =  v  +  x  + X [yo]  2

yo=2
metro

2 =
X X [yo]  2 .

yo=1

Como  v  es  paralela  a  x  2 [1] tenemos  v  +  x [1]  2   2


=  (v  +  λ1)  +  2λ1   .  De  este  modo,

2 −  x 2
x  +  v =  v ∙  v.  Recuerde  que  v  ≤  ∆f,  y  λ  
N  (0,  σ),  por  lo  que  ahora  estamos  exactamente  de  vuelta  en  el  caso  unidimensional,  
escribiendo  λ1  en  lugar  de  x  en  la  Ecuación  (A.2):

2 2 2
1  (x  2σ   −  x  +  v ))  ≤ 1  (2λ1∆f  −  (∆f)  2σ  2 )
2

y  el  resto  del  argumento  procede  como  arriba.

El  argumento  a  favor  del  caso  de  alta  dimensión  destaca  una  debilidad  de  la  privacidad  
diferencial  (ε,  δ)  que  no  existe  para  la  privacidad  diferencial  (ε,  0).  Arreglar  una  base  de  
datos  x.  En  el  caso  (ε,  0),  la  garantía  de  indistinguibilidad  se  cumple  para  todas  las  bases  
de  datos  adyacentes  simultáneamente.  En  el
Machine Translated by Google

266 El  mecanismo  de  Gauss

(ε,  δ)  la  indistinguibilidad  de  los  casos  solo  se  cumple  “prospectivamente”,  es  
decir,  para  cualquier  y  fija  adyacente  a  x,  la  probabilidad  de  que  el  mecanismo  
permita  al  adversario  distinguir  x  de  y  es  pequeña.  En  la  prueba  anterior,  esto  
se  manifiesta  por  el  hecho  de  que  fijamos  v  =  f(x)  −  f(y);  no  tuvimos  que  discutir  
sobre  todas  las  direcciones  posibles  de  v  simultáneamente  y,  de  hecho,  no  
podemos,  ya  que  una  vez  que  fijamos  nuestro  vector  de  ruido  x     N  (0,  Σ),  la  
salida  en  x  es  o  =  f(x)  +  x,  puede  existir  una  y  adyacente  tal  que  la  salida  o  =  
f(x)  +  x  es  mucho  más  probable  cuando  la  base  de  datos  es  y  que  cuando  está  
en  x.

A.1  Notas  bibliográficas

El  teorema  A.1  es  un  folclore  observado  inicialmente  por  los  autores  de  [23].  
En  [66]  aparece  una  generalización  del  ruido  gaussiano  no  esférico.
Machine Translated by Google

B
Teoremas  de  composición  para  (ε,  δ)­DP

B.1  Extensión  del  teorema  3.16

Teorema  B.1.  Sea  T1(D) :  D  →  T1(D)     C1  una  función  (,  δ)­dp,  y  para  cualquier  s1     C1,  


T2(D,  s1) :  (D,  s1)  →  T2(D,  s1)     C2  sea  una  función  (,  δ)­dp  dada  la  segunda  entrada  s1.  
Luego  mostramos  que  para  cualquier  vecino  D,  D  para  cualquier  S     C2  ×  C1,  tenemos,  
usando  la  notación  en ,
nuestro  papel

PAG((T2,  T1)     S)  ≤  e 2P  ((T2,  T1)     S)  +  2δ. (B.1)

Prueba.  Para  cualquier  C1     C1,  defina

µ(C1)  =  P(T1     C1)  −  mi  P  (T1     C1) + ,

entonces  µ  es  una  medida  en  C1  y  µ(C1)  ≤  δ  ya  que  T1  es  (,  δ)­dp  Como  resultado,  tenemos  
para  todo  s1     C1,

P(T1     ds1)  ≤  e  P  (T1     ds1)  +  µ(ds1). (B.2)

También  tenga  en  cuenta  que  por  la  definición  de  (,  δ)­dp,  para  cualquier  s1     C1,

PAGS((T2,  s1)     S)  ≤  mi  PAGS  ((T2,  s1)     S)  +  δ     1  ≤  e  

PAGS  ((T2,  s1)     S)     1  +  δ. (B.3)

267
Machine Translated by Google

268 Teoremas  de  composición  para  (ε,  δ)­DP

Entonces  (B.2)  y  (B.3)  dan  (B.1):

P((T2,  T1)     S)  ≤ P((T2,  s1)     S)P(T1     ds1)


S1

≤ e  PAG  ((T2,  s1)     S)     1  +  δ  PAG  (T1     ds1)


S1

≤ e  PAGS  ((T2,  s1)     S)     1  PAGS  (T1     ds1)  +  δ


S1

≤ mi  PAG  ((T2,  s1)     S)     1


S1

×  (e  P  (T1     ds1)  +  µ(ds1))  +  δ

≤  mi2 P  ((T2,  s1)     S)P  (T1     ds1)  +  µ(S1)  +  δ


S1

2P  ((T2,  T1)     S)  +  2δ.  ≤  mi (B.4)

En  las  ecuaciones  anteriores,  S1  denota  la  proyección  de  S  sobre  C1.
El  evento  {(T2,  s1)     S}  se  refiere  a  {(T2(D,  s1),  s1)     S}  (o  {(T2(D ,  s1),  s1)     S}).

Por  inducción  tenemos:

Corolario  B.2  (teorema  general  de  composición  para  algoritmos  (,  δ)­dp).
Sea  T1 :  D  →  T1(D)  (,  δ)­dp,  y  para  k  ≥  2,  Tk :  (D,  s1, . . . ,  sk−1)  →  Tk(D,  s1, . . . ,  sk  
−1)     Ck  sea  (,  δ)­dp,  para  todo  dado  (sk−1, . . . ,  s1)     Cj .  Entonces  para  todos  los  
k−1  
vecinos  D,  D  y  todos  los  S  
j=1
k
j=1  cj

P((T1, . . . ,  Tk)     S)  ≤  e kP  ((T1, . . . ,  Tk)     S)  +  kδ.


Machine Translated by Google

Expresiones  de  gratitud

Nos  gustaría  agradecer  a  muchas  personas  por  proporcionar  comentarios  
cuidadosos  y  correcciones  en  los  primeros  borradores  de  este  libro,  incluidos  
Vitaly  Feldman,  Justin  Hsu,  Simson  Garfinkel,  Katrina  Ligett,  Dong  Lin,  David  
Parkes,  Ryan  Rogers,  Guy  Rothblum,  Ian  Schmutte,  Jon  Ullman ,  Salil  
Vadhan,  Zhiwei  Steven  Wu  y  los  árbitros  anónimos.  Este  libro  se  utilizó  en  un  
curso  impartido  por  Salil  Vadhan  y  Jon  Ullman,  cuyos  estudiantes  también  
brindaron  comentarios  detallados.  Este  libro  también  se  ha  beneficiado  de  
conversaciones  con  muchos  otros  colegas,  incluidos  Moritz  Hardt,  Ilya  
Mironov,  Sasho  Nikolov,  Kobbi  Nissim,  Mallesh  Pai,  Benjamin  Pierce,  Adam  
Smith,  Abhradeep  Thakurta,  Abhishek  Bhowmick,  Kunal  Tal  war  y  Li  Zhang.  
Agradecemos  a  Madhu  Sudan  por  proponer  esta  monografía.

269
Machine Translated by Google

Referencias

[1]  S.  Arora,  E.  Hazan  y  S.  Kale.  El  método  de  actualización  de  pesos  multiplicativos:  
un  meta­algoritmo  y  aplicaciones.  Teoría  de  la  Computación,  8(1):121–164,  2012.

[2]  L.­V.  Balcan,  A.  Blum,  JD  Hartline  e  Y.  Mansour.  Diseño  de  mecanismos  mediante  
aprendizaje  automático.  En  Fundamentos  de  Ciencias  de  la  Computación,  2005.
FOCS  2005.  46th  Annual  IEEE  Symposium  on,  páginas  605–614.  IEEE,  2005.

[3]  A.  Beimel,  SP  Kasiviswanathan  y  K.  Nissim.  Límites  en  la  complejidad  de  la  
muestra  para  el  aprendizaje  privado  y  la  publicación  de  datos  privados.  En  Teoría  
de  la  criptografía,  páginas  437–454.  Springer,  2010.
[4]  A.  Beimel,  K.  Nissim  y  U.  Stemmer.  Caracterización  de  la  complejidad  de  la  
muestra  de  estudiantes  privados.  En  Actas  de  la  Conferencia  sobre  Innovaciones  
en  Informática  Teórica,  páginas  97–110.  Asociación  de  Maquinaria  de  
Computación,  2013.
[5]  A.  Bhaskara,  D.  Dadush,  R.  Krishnaswamy  y  K.  Talwar.  Mecanismos  
incondicionales  diferencialmente  privados  para  consultas  lineales.  En  HJ  Karloff  
y  T.  Pitassi,  editores,  Proceedings  of  the  Symposium  on  Theory  of  Computing  
Conference,  Symposium  on  Theory  of  Computing,  Nueva  York,  NY,  EE.  UU.,  19–
22  de  mayo  de  2012,  páginas  1269–1284 .  2012.
[6]  A.  Blum,  C.  Dwork,  F.  McSherry  y  K.  Nissim.  Privacidad  práctica:  el  marco  SuLQ.  
En  Chen  Li,  editor,  Principios  de  los  sistemas  de  bases  de  datos,  páginas  128–
138.  ACM,  2005.
[7]  A.  Blum,  C.  Dwork,  F.  McSherry  y  K.  Nissim.  Privacidad  práctica:  el  marco  sulq.  
En  Principios  de  sistemas  de  bases  de  datos.  2005.

270
Machine Translated by Google

Referencias 271

[8]  A.  Blum,  K.  Ligett  y  A.  Roth.  Un  enfoque  de  la  teoría  del  aprendizaje  para  la  
privacidad  de  bases  de  datos  no  interactivas.  En  Cynthia  Dwork,  editora,  Simposio  
sobre  teoría  de  la  computación,  páginas  609–618.  Asociación  de  Maquinaria  de  
Computación,  2008.
[9]  A.  Blum  y  Y.  Monsour.  Aprendizaje,  minimización  del  arrepentimiento  y  equilibrios.
2007.

[10]  JL  Castí.  Cinco  reglas  de  oro:  grandes  teorías  de  las  matemáticas  del  siglo  XX  y  
por  qué  son  importantes.  Wiley,  1996.
[11]  TH  Hubert  Chan,  E.  Shi  y  D.  Song.  Publicación  privada  y  continua  de  estadísticas.  
En  Automata,  Languages  and  Programming,  páginas  405–417.
Springer,  2010.
[12]  K.  Chaudhuri  y  D.  Hsu.  Ejemplo  de  límites  de  complejidad  para  el  aprendizaje  
diferencialmente  privado.  En  Actas  de  la  Conferencia  Anual  sobre  Teoría  del  
Aprendizaje  (COLT  2011).  2011.
[13]  K.  Chaudhuri,  C.  Monteleoni  y  AD  Sarwate.  Minimización  empírica  del  riesgo  
diferencialmente  privada.  Revista  de  investigación  de  aprendizaje  automático:  
JMLR,  12:1069,  2011.
[14]  K.  Chaudhuri,  A.  Sarwate  y  K.  Sinha.  Componentes  principales  diferencialmente  
privados  casi  óptimos.  En  Advances  in  Neural  Information  Processing  Systems  
25,  páginas  998–1006.  2012.
[15]  Y.  Chen,  S.  Chong,  IA  Kash,  T.  Moran  y  SP  Vadhan.  Mecanismos  veraces  para  
agentes  que  valoran  la  privacidad.  Conferencia  de  la  Asociación  de  Maquinaria  
Informática  sobre  Comercio  Electrónico,  2013.
[16]  P.  Dandekar,  N.  Fawaz  y  S.  Ioannidis.  Subastas  de  privacidad  para  sistemas  de  
recomendación.  En  Internet  and  Network  Economics,  páginas  309–322.
Springer,  2012.
[17]  A.  De.  Límites  inferiores  en  la  privacidad  diferencial.  En  Theory  of  Cryptography  
Conference,  páginas  321–338.  2012.
[18]  I.  Dinur  y  K.  Nissim.  Revelar  información  preservando  la  privacidad.
En  Actas  de  la  Asociación  de  Maquinaria  Informática  SIGACT  SIGMOD­SIGART  
Symposium  on  Principles  of  Database  Systems,  páginas  202–210.  2003.

[19]  JC  Duchi,  MI  Jordan  y  MJ  Wainwright.  Privacidad  local  y  tarifas  minimax  
estadísticas.  preimpresión  de  arXiv  arXiv:1302.3203,  2013.
[20]  C.  Dwork.  Privacidad  diferencial.  En  Actas  del  Coloquio  Internacional  sobre  
Autómatas,  Lenguajes  y  Programación  (ICALP)(2),  páginas  1–12.  2006.
Machine Translated by Google

272 Referencias

[21]  C.  Dwork,  K.  Kenthapadi,  F.  McSherry,  I.  Mironov  y  M.  Naor.  Nuestros  datos,  nosotros  
mismos:  Privacidad  a  través  de  la  generación  distribuida  de  ruido.  En  EURO  
CRYPT,  páginas  486–503.  2006.

[22]  C.  Dwork  y  J.  Lei.  Privacidad  diferencial  y  estadísticas  robustas.  En  Actas  del  
Simposio  sobre  Teoría  de  la  Computación  (STOC)  de  la  Asociación  Internacional  
de  Maquinaria  de  Computación  de  2009.  2009.
[23]  C.  Dwork,  F.  McSherry,  K.  Nissim  y  A.  Smith.  Calibración  del  ruido  a  la  sensibilidad  
en  el  análisis  de  datos  privados.  En  Theory  of  Cryptography  Conference  '06,  páginas  
265–284.  2006.

[24]  C.  Dwork,  F.  McSherry  y  K.  Talwar.  El  precio  de  la  privacidad  y  los  límites  de  la  
decodificación  de  lp.  En  Actas  del  Simposio  sobre  Teoría  de  la  Computación  de  la  
Asociación  de  Maquinaria  de  Computación,  páginas  85–94.  2007.

[25]  C.  Dwork  y  M.  Naor.  Sobre  las  dificultades  de  la  prevención  de  la  divulgación  en  las  
bases  de  datos  estadísticas  o  el  caso  de  la  privacidad  diferencial.  Revista  de  
Privacidad  y  Confidencialidad,  2010.

[26]  C.  Dwork,  M.  Naor,  T.  Pitassi  y  GN  Rothblum.  Privacidad  diferencial  bajo  observación  
continua.  En  Proceedings  of  the  Association  for  Computing  Machinery  Symposium  
on  Theory  of  Computing,  páginas  715–724.
Asociación  de  Maquinaria  de  Computación,  2010.

[27]  C.  Dwork,  M.  Naor,  T.  Pitassi,  GN  Rothblum  y  Sergey  Yekhanin.
Algoritmos  de  transmisión  pan­privada.  En  Actas  de  la  Conferencia  Internacional  
sobre  Supercomputación.  2010.

[28]  C.  Dwork,  M.  Naor,  O.  Reingold,  GN  Rothblum  y  SP  Vadhan.  Sobre  la  complejidad  
de  la  liberación  de  datos  privados  diferencialmente:  Algoritmos  eficientes  y  
resultados  de  dureza.  En  Simposio  sobre  Teoría  de  la  Computación  '09,  páginas  
381–390.  2009.

[29]  C.  Dwork,  M.  Naor  y  S.  Vadhan.  La  privacidad  del  analista  y  el  poder  del  Estado.  En  
Fundamentos  de  la  Informática.  2012.

[30]  C.  Dwork,  A.  Nikolov  y  K.  Talwar.  Algoritmos  eficientes  para  la  liberación  privada  de  
marginales  a  través  de  relajaciones  convexas.  En  Actas  del  Simposio  Anual  sobre  
Geometría  Computacional  (SoCG).  2014.
[31]  C.  Dwork  y  K.  Nissim.  Minería  de  datos  que  preserva  la  privacidad  en  bases  de  datos  
particionadas  verticalmente.  En  Actas  de  criptología  2004,  vol.  3152,  páginas  528–
544.  2004.

[32]  C.  Dwork,  GN  Rothblum  y  SP  Vadhan.  Potenciación  y  privacidad  diferencial.  En  
Foundations  of  Computer  Science,  páginas  51–60.  2010.
Machine Translated by Google

Referencias 273

[33]  C.  Dwork,  K.  Talwar,  A.  Thakurta  y  L.  Zhang.  Análisis  de  gauss:  límites  óptimos  
para  pca  que  preserva  la  privacidad.  En  Simposio  de  Teoría  de  la  Computación.  
2014.
[34]  L.  Fleischer  y  Y.­H.  Lyu.  Subastas  aproximadamente  óptimas  para  vender  
privacidad  cuando  los  costos  están  correlacionados  con  los  datos.  En  Association  
for  Computing  Machinery  Conference  on  Electronic  Commerce,  páginas  568–
585.  2012.

[35]  A.  Ghosh  y  K.  Ligett.  Privacidad  y  coordinación:  Computación  sobre  bases  de  
datos  con  participación  endógena.  En  Actas  de  la  decimocuarta  conferencia  
ACM  sobre  comercio  electrónico  (EC),  páginas  543–560,  2013.

[36]  A.  Ghosh  y  A.  Roth.  Venta  de  privacidad  en  una  subasta.  En  Association  for  
Computing  Machinery  Conference  on  Electronic  Commerce,  páginas  199–208.  
2011.

[37]  A.  Groce,  J.  Katz  y  A.  Yerukhimovich.  Límites  de  la  privacidad  diferencial  
computacional  en  el  entorno  cliente/servidor.  En  Actas  de  la  Conferencia  de  
Teoría  de  la  Criptografía.  2011.
[38]  A.  Gupta,  M.  Hardt,  A.  Roth  y  J.  Ullman.  Liberación  privada  de  conjunciones  y  la  
barrera  de  consulta  estadística.  En  Simposio  sobre  teoría  de  la  computación  '11,  
páginas  803–812.  2011.
[39]  A.  Gupta,  A.  Roth  y  J.  Ullman.  Construcciones  iterativas  y  liberación  de  datos  
privados.  En  Theory  of  Cryptography  Conference,  páginas  339–356.  2012.
[40]  J.  Håstad,  R.  Impagliazzo,  L.  Levin  y  M.  Luby.  Un  generador  pseudoaleatorio  de  
cualquier  función  unidireccional.  Revista  SIAM  de  Computación,  28,  1999.

[41]  M.  Hardt,  K.  Ligett  y  F.  McSherry.  Un  algoritmo  simple  y  práctico  para  la  liberación  
de  datos  privados  diferencialmente.  En  Advances  in  Neural  Information  Processing  
Systems  25,  páginas  2348–2356.  2012.
[42]  M.  Hardt  y  A.  Roth.  Superando  la  respuesta  aleatoria  en  matrices  incoherentes.  
En  Actas  del  Simposio  sobre  Teoría  de  la  Computación,  páginas  1255–1268.  
Asociación  de  Maquinaria  de  Computación,  2012.
[43]  M.  Hardt  y  A.  Roth.  Más  allá  del  análisis  del  peor  de  los  casos  en  el  cálculo  
privado  de  vectores  singulares.  En  Actas  del  Simposio  sobre  Teoría  de  la  
Computación.  2013.
[44]  M.  Hardt  y  GN  Rothblum.  Un  mecanismo  de  pesos  multiplicativos  para  el  análisis  
de  datos  que  preserva  la  privacidad.  En  Foundations  of  Computer  Science,  
páginas  61–70.  Sociedad  de  Computación  IEEE,  2010.
Machine Translated by Google

274 Referencias

[45]  M.  Hardt  y  K.  Talwar.  Sobre  la  geometría  de  la  privacidad  diferencial.  En  Actas  
del  Simposio  sobre  Teoría  de  la  Computación  de  la  Asociación  de  Maquinaria  
de  Computación,  páginas  705–714.  Asociación  de  Maquinaria  de  Computación,  
2010.
[46]  N.  Homer,  S.  Szelinger,  M.  Redman,  D.  Duggan,  W.  Tembe,  J.  Muehling,  J.  
Pearson,  D.  Stephan,  S.  Nelson  y  D.  Craig.  Resolución  de  individuos  que  
aportan  trazas  de  ADN  a  mezclas  altamente  complejas  utilizando  
micromatrices  de  genotipado  snp  de  alta  densidad.  PLoS  Genet,  4,  2008.
[47]  J.  Hsu,  Z.  Huang,  A.  Roth,  T.  Roughgarden  y  ZS  Wu.  Casamientos  y  
asignaciones  privadas.  preimpresión  de  arXiv  arXiv:1311.2828,  2013.
[48]  J.  Hsu,  A.  Roth  y  J.  Ullman.  Privacidad  diferencial  para  el  analista  a  través  del  
cálculo  de  equilibrio  privado.  En  Actas  del  Simposio  sobre  Teoría  de  la  
Computación  (STOC)  de  la  Asociación  para  la  Maquinaria  de  Computación,  
páginas  341–350,  2013.
[49]  Z.  Huang  y  S.  Kannan.  El  mecanismo  exponencial  del  bienestar  social:  Privado,  
veraz  y  casi  óptimo.  En  Simposio  anual  de  IEEE  sobre  los  fundamentos  de  la  
informática  (FOCS),  páginas  140–149.  2012.
[50]  P.  Jain,  P.  Kothari  y  A.  Thakurta.  Aprendizaje  en  línea  diferencialmente  privado.  
Journal  of  Machine  Learning  Research  —  Actas  Track,  23:24.1–24.34,  2012.

[51]  M.  Kapralov  y  K.  Talwar.  Sobre  la  aproximación  diferencialmente  privada  de  
bajo  rango.  En  Sanjeev  Khanna,  editor,  Simposio  sobre  algoritmos  discretos,  
páginas  1395–1414.  SIAM,  2013.
[52]  SP  Kasiviswanathan,  HK  Lee,  Kobbi  Nissim,  S.  Raskhodnikova  y  A.  Smith.  
¿Qué  podemos  aprender  en  privado?  SIAM  Journal  on  Computing,  40(3):793–
826,  2011.
[53]  M.Kearns.  Aprendizaje  tolerante  al  ruido  eficiente  a  partir  de  consultas  
estadísticas.  Journal  of  the  Association  for  Computing  Machinery  (JAssociation  
for  Computing  Machinery),  45(6):983–1006,  1998.
[54]  M.  Kearns,  M.  Pai,  A.  Roth  y  J.  Ullman.  Diseño  de  mecanismos  en  grandes  
juegos:  Incentivos  y  privacidad.  En  Actas  de  la  5ª  conferencia  sobre  
Innovaciones  en  informática  teórica  (ITCS),  2014.
[55]  D.  Kifer,  A.  Smith  y  A.  Thakurta.  Minimización  del  riesgo  empírico  convexo  
privado  y  regresión  de  alta  dimensión.  Revista  de  investigación  de  aprendizaje  
automático,  1:41,  2012.
[56]  K.  Ligett  y  A.  Roth.  Tómalo  o  déjalo:  realizar  una  encuesta  cuando  la  privacidad  
tiene  un  costo.  En  Internet  and  Network  Economics,  páginas  378–391.
Springer,  2012.
Machine Translated by Google

Referencias 275

[57]  N.  Littlestone  y  MK  Warmuth.  El  algoritmo  de  la  mayoría  ponderada.
En  Simposio  anual  sobre  fundamentos  de  la  informática,  1989,  páginas  256–261.  
IEEE,  1989.

[58]  A.  McGregor,  I.  Mironov,  T.  Pitassi,  O.  Reingold,  K.  Talwar  y  SP
Vadhan.  Los  límites  de  la  privacidad  diferencial  de  dos  partes.  En  Foundations  of  
Computer  Science,  páginas  81–90.  Sociedad  de  Computación  IEEE,  2010.

[59]  F.  McSherry.  Consultas  integradas  de  privacidad  (código  base).  Disponible  en  el  
sitio  web  de  descargas  de  Microsoft  Research.  Ver  también  las  Actas  de  SIG  
MOD  2009.

[60]  F.  McSherry  y  K.  Talwar.  Diseño  de  mecanismos  mediante  privacidad  diferencial.
En  Foundations  of  Computer  Science,  páginas  94–103.  2007.

[61]  F.  McSherry  y  K.  Talwar.  Diseño  de  mecanismos  mediante  privacidad  diferencial.
En  Foundations  of  Computer  Science,  páginas  94–103.  2007.

[62]  D.  Mir,  S.  Muthukrishnan,  A.  Nikolov  y  RN  Wright.  Algoritmos  pan­privados  a  través  
de  estadísticas  en  bocetos.  En  Actas  de  la  Asociación  de  Maquinaria  Informática  
Simposio  SIGMOD­SIGACT­SIGART  sobre  principios  de  sistemas  de  bases  de  
datos,  páginas  37–48.  Asociación  de  Maquinaria  de  Computación,  2011.

[63]  I.  Mironov.  Sobre  la  importancia  de  los  bits  menos  significativos  para  la  privacidad  
diferencial.  En  T.  Yu,  G.  Danezis  y  VD  Gligor,  editores,  Conferencia  de  la  Asociación  
para  la  Maquinaria  de  Computación  sobre  Seguridad  Informática  y  de  las  
Comunicaciones,  páginas  650–661.  Asociación  de  Maquinaria  de  Computación,  2012.

[64]  I.  Mironov,  O.  Pandey,  O.  Reingold  y  SP  Vadhan.  Privacidad  diferencial  
computacional.  En  Actas  de  CRIPTOLOGÍA,  páginas  126–142.  2009.

[65]  A.  Narayanan  y  V.  Shmatikov.  Desanonimización  robusta  de  grandes  conjuntos  de  
datos  dispersos  (cómo  romper  el  anonimato  del  conjunto  de  datos  del  premio  
netflix).  En  Actas  del  Simposio  IEEE  sobre  seguridad  y  privacidad.  2008.

[66]  A.  Nikolov,  K.  Talwar  y  L.  Zhang.  La  geometría  de  la  privacidad  diferencial:  los  
casos  dispersos  y  aproximados.  Simposio  de  Teoría  de  la  Computación,  2013.

[67]  K.  Nissim,  C.  Orlandi  y  R.  Smorodinsky.  Diseño  de  mecanismo  consciente  de  la  
privacidad.  En  Association  for  Computing  Machinery  Conference  on  Elec  tronic  
Commerce,  páginas  774–789.  2012.

[68]  K.  Nissim,  S.  Raskhodnikova  y  A.  Smith.  Sensibilidad  suave  y  muestreo  en  el  
análisis  de  datos  privados.  En  Actas  del  Simposio  sobre  Teoría  de  la  Computación  
de  la  Asociación  de  Maquinaria  de  Computación,  páginas  75–84.  2007.
Machine Translated by Google

276 Referencias

[69]  K.  Nissim,  R.  Smorodinsky  y  M.  Tennenholtz.  Diseño  de  mecanismo  aproximadamente  óptimo  
a  través  de  privacidad  diferencial.  En  Innovaciones  en  informática  teórica,  páginas  203–213.  
2012.

[70]  M.  Pai  y  A.  Roth.  Privacidad  y  diseño  de  mecanismos.  Intercambios  SIGecom,
2013.

[71]  R.  Rogers  y  A.  Roth.  Selección  de  equilibrio  asintóticamente  veraz  en  grandes  juegos  de  
congestión.  preimpresión  de  arXiv  arXiv:1311.2625,  2013.

[72]  A.  Roth.  Privacidad  diferencial  y  la  dimensión  devastadora  de  las  consultas  lineales.  En  
Aproximación,  aleatorización  y  optimización  combinatoria,  algoritmos  y  técnicas,  páginas  
683–695.  Springer,  2010.

[73]  A.  Roth.  Compra  de  datos  privados  en  una  subasta:  el  problema  del  topógrafo  sensible.  
Association  for  Computing  Machinery  SIGecom  Exchanges,  11(1):1–  8,  2012.

[74]  A.  Roth  y  T.  Roughgarden.  Privacidad  interactiva  a  través  del  mecanismo  mediano.  En  
Symposium  on  Theory  of  Computing  '10,  páginas  765–774.  2010.

[75]  A.  Roth  y  G.  Schoenebeck.  Realización  de  encuestas  veraces,  a  bajo  precio.  En  Actas  de  la  
Conferencia  ACM  sobre  Comercio  Electrónico,  páginas  826–843.  2012.

[76]  BIP  Rubinstein,  PL  Bartlett,  L.  Huang  y  N.  Taft.  Aprendizaje  en  un  gran  espacio  funcional:  
mecanismos  de  preservación  de  la  privacidad  para  el  aprendizaje  de  svm.  preimpresión  de  
arXiv  arXiv:0911.5708,  2009.

[77]  R.  Schapire.  El  enfoque  de  impulso  para  el  aprendizaje  automático:  una  descripción  general.
En  DD  Denison,  MH  Hansen,  C.  Holmes,  B.  Mallick  y  B.  Yu,  editores,  Estimación  y  
clasificación  no  lineales.  Springer,  2003.

[78]  R.  Schapire  y  Y.  Singer.  Algoritmos  de  impulso  mejorados  que  utilizan  predicciones  con  
calificación  de  confianza.  Aprendizaje  automático,  39:297–336,  1999.

[79]  RE  Schapire  y  Y.  Freund.  Impulso:  Fundamentos  y  Algoritmos.
Prensa  del  MIT,  2012.

[80]  A.  Smith  y  AG  Thakurta.  Selección  de  características  privada  diferencialmente  a  través  de  
argumentos  de  estabilidad  y  la  robustez  del  lazo.  En  Actas  de  la  Conferencia  sobre  Teoría  
del  Aprendizaje.  2013.

[81]  L.  Sweeney.  Tejer  la  tecnología  y  la  política  juntas  para  mantener  la  confidencialidad.  Journal  
of  Law,  Medicina  Ética,  25:98–110,  1997.

[82]  J.Ullman.  Responder  n{2+o(1)}  consultas  de  conteo  con  privacidad  diferencial  es  difícil.  En  
D.  Boneh,  T.  Roughgarden  y  J.  Feigenbaum,  editores,  Symposium  on  Theory  of  Computing,  
páginas  361–370.  Asociación  de  Maquinaria  de  Computación,  2013.
Machine Translated by Google

Referencias 277

[83]  LG  Valiente.  Una  teoria  de  lo  aprendible.  Communications  of  the  Association  
for  Computing  Machinery,  27(11):1134–1142,  1984.
[84]  SLWarner.  Respuesta  aleatoria:  una  técnica  de  encuesta  para  eliminar  el  sesgo  
de  respuesta  evasiva.  Revista  de  la  Asociación  Estadounidense  de  Estadística,  
60(309):63–69,  1965.
[85]  D.  Xiao.  ¿Es  compatible  la  privacidad  con  la  veracidad?  En  Actas  de  la  
Conferencia  sobre  Innovaciones  en  Informática  Teórica,  páginas  67–86.  2013.

You might also like