Los Fundamentos Algorítmicos de La Privacidad Diferencial

Machine Translated by Google
Fundamentos y tendencias
en informática teórica vol. 9,
Nos. 3–4 (2014) 211–407 c
2014 C. Dwork y A. Roth DOI:
10.1561/0400000042
Los fundamentos algorítmicos
de la privacidad diferencial
Cynthia Dwork Aaron Roth
Microsoft Research, EE. Universidad de Pensilvania, EE.
UU. dwork@microsoft.com UU. aaroth@cis.upenn.edu
Contenido
Prefacio 3
1 La promesa de la privacidad diferencial 1.1 5
Análisis de datos para preservar la privacidad . . . . . . . . . . . . . . . 6
1.2 Notas bibliográficas . . . . . . . . . . . . . . . . . . . . . 10
2 términos básicos 11
2.1 El modelo de computación. . . . . . . . . . . . . . . . . 11
2.2 Hacia la definición del análisis de datos privados. . . . . . . . . . . 12
2.3 Formalización de la privacidad diferencial. . . . . . . . . . . . . . . 15
2.4 Notas bibliográficas. . . . . . . . . . . . . . . . . . . . . 26
3 Técnicas Básicas y Teoremas de Composición 3.1 28
Herramientas probabilísticas útiles. . . . . . . . . . . . . . . . . . 28
3.2 Respuesta aleatoria. . . . . . . . . . . . . . . . . . . . 29 .
3.3 El mecanismo de Laplace. . . . . . . . . . . . . . . . . . 30
3.4 El mecanismo exponencial. . . . . . . . . . . . . . . . . 37
3.5 Teoremas de composición. . . . . . . . . . . . . . . . . . . . 41
3.6 La técnica del vector disperso. . . . . . . . . . . . . . . . . 55
yo
iii
4 Publicación de consultas lineales con error correlacionado 4.1 Un
algoritmo fuera de línea: SmallDB . . . . . . . . . . . . . . 66 . 70
4.2 Un mecanismo en línea: pesos multiplicativos privados. . . . 76
4.3 Notas bibliográficas . . . . . . . . . . . . . . . . . . . . 86
5 generalizaciones 88
5.1 Mecanismos a través de redes α. . . . . . . . . . . . . . . . . . . 89
5.2 El mecanismo de construcción iterativo. . . . . . . . . . . 91
5.3 Conexiones. . . . . . . . . . . . . . . . . . . . . . . . . 109 .
5.4 Notas bibliográficas. . . . . . . . . . . . . . . . . . . 115
6 Boosting for Queries 6.1 El 117
algoritmo boosting for queries . . . . . . . . . . . . . 119
6.2 Generadores de sinopsis base. . . . . . . . . . . . . . . . . . 130
6.3 Notas bibliográficas . . . . . . . . . . . . . . . . . . . . 139
7 Cuando la sensibilidad en el peor de los casos es atípica 7.1 140
Submuestra y agregado . . . . . . . . . . . . . . . . . . 140
7.2 ProponerPruebaLiberar . . . . . . . . . . . . . . . . . . . . 143
7.3 Estabilidad y privacidad . . . . . . . . . . . . . . . . . . . . . 150
8 Límites inferiores y resultados de separación 8.1 Ataques 158
de reconstrucción. . . . . . . . . . . . . . . . . . . 159 .
8.2 Límites inferiores para la privacidad diferencial. . . . . . . . . . . 164
9 Privacidad diferencial y complejidad computacional 172
9.1 Curadores de tiempo polinomial. . . . . . . . . . . . . . . . . . 174
9.2 Algunas distribuciones difíciles de sintetizar. . . . . . . . . . 177
9.3 Adversarios del tiempo polinomial. . . . . . . . . . . . . . . . . 185
10 Privacidad diferencial y diseño de mecanismos 10.1 Privacidad 189
diferencial como concepto de solución. . . . . . . . . . 191 .
10.2 La privacidad diferencial como herramienta en el diseño de mecanismos. . . . 193
10.3 Diseño de mecanismos para agentes conscientes de la privacidad. . . . . . . . 204
10.4 Notas bibliográficas. . . . . . . . . . . . . . . . . . . . 213
IV
11 Privacidad diferencial y aprendizaje automático 216
11.1 La complejidad muestral de diferencialmente privado
aprendizaje automático . . . . . . . . . . . . . . . . . . . . . . . 219 .
11.2 Aprendizaje online diferencialmente privado. . . . . . . . . . . . 222
11.3 Minimización empírica del riesgo. . . . . . . . . . . . . . . . . 227
12 modelos adicionales 231
12.1 El modelo local . . . . . . . . . . . . . . . . . . . . . . . 232
12.2 Modelo de transmisión panprivada. . . . . . . . . . . . . . . . 237 .
12.3 Observación continua. . . . . . . . . . . . . . . . . . . 240
12.4 Error de caso promedio para liberación de consulta. . . . . . . . . . . . . 248
13 Reflexiones 13.1 254
Hacia la práctica de la privacidad . . . . . . . . . . . . . . . . . . 254
13.2 La lente de privacidad diferencial . . . . . . . . . . . . . . . . . 258
Apéndices 260
A El mecanismo de Gauss A.1 Notas 261
bibliográficas . . . . . . . . . . . . . . . . . . . . . 266
B Teoremas de composición para (ε, δ)DP B.1 Ampliación 267
del teorema 3.16 . . . . . . . . . . . . . . . . . 267
Expresiones de gratitud 269
Referencias 270
Abstracto
El problema del análisis de datos para preservar la privacidad tiene una larga
historia que abarca múltiples disciplinas. A medida que los datos electrónicos sobre
las personas se vuelven cada vez más detallados y la tecnología permite una
recopilación y conservación de estos datos cada vez más potentes, aumenta la
necesidad de una definición de privacidad robusta, significativa y matemáticamente
rigurosa, junto con una clase de algoritmos computacionalmente ricos que satisfagan
este requisito. definición. La privacidad diferencial es una definición de este tipo.
Después de motivar y discutir el significado de la privacidad diferencial, la
preponderancia de esta monografía está dedicada a las técnicas fundamentales
para lograr la privacidad diferencial y la aplicación de estas técnicas en
combinaciones creativas, utilizando el problema de consulta y liberación como un
ejemplo continuo. Un punto clave es que, al repensar el objetivo computacional, a
menudo se pueden obtener resultados mucho mejores que los que se lograrían
reemplazando metódicamente cada paso de un cómputo no privado con una
implementación diferencialmente privada. A pesar de algunos resultados
computacionales asombrosamente poderosos, aún existen limitaciones
fundamentales, no solo sobre lo que se puede lograr con la privacidad diferencial,
sino sobre lo que se puede lograr con cualquier método que proteja contra una
ruptura total de la privacidad. Virtualmente todos los algoritmos discutidos aquí
mantienen privacidad diferencial contra adversarios de poder computacional
arbitrario. Ciertos algoritmos son computacionalmente intensivos, otros son
eficientes. Se discute la complejidad computacional para el adversario y el algoritmo.
Luego pasamos de los fundamentos a las aplicaciones distintas de la liberación
de consultas, discutiendo métodos diferencialmente privados para el diseño de
mecanismos y el aprendizaje automático. La gran mayoría de la literatura sobre
algoritmos diferencialmente privados considera una única base de datos estática
que está sujeta a muchos análisis. Se analiza la privacidad diferencial en otros
modelos, incluidas las bases de datos distribuidas y los cálculos sobre flujos de datos.
Finalmente, notamos que este trabajo pretende ser una introducción
completa a los problemas y técnicas de la privacidad diferencial, pero no
pretende ser un estudio exhaustivo; en este momento hay una gran cantidad de
trabajo en privacidad diferencial, y podemos cubrir sólo una pequeña porción de ella.
C. Dwork y A. Roth. Los fundamentos algorítmicos de la privacidad diferencial. Foundations
and TrendsR in Theoretical Computer Science, vol. 9, núms. 3 y 4, págs. 211 a 407,
2014.
DOI: 10.1561/0400000042.
Prefacio
El problema del análisis de datos para preservar la privacidad tiene una larga
historia que abarca múltiples disciplinas. A medida que los datos electrónicos sobre
las personas se vuelven cada vez más detallados y la tecnología permite una
recopilación y conservación de estos datos cada vez más potentes, aumenta la
necesidad de una definición de privacidad robusta, significativa y matemáticamente
rigurosa, junto con una clase de algoritmos computacionalmente ricos que satisfagan
este requisito. definición. La privacidad diferencial es una definición de este tipo.
Después de motivar y discutir el significado de la privacidad diferencial, la
preponderancia del libro se dedica a las técnicas fundamentales para lograr la
privacidad diferencial y la aplicación de estas técnicas en combinaciones creativas
(Secciones 3 a 7), utilizando el problema de consulta y liberación como un ejemplo
continuo. . Un punto clave es que, al repensar el objetivo computacional, a menudo
se pueden obtener resultados mucho mejores que los que se lograrían reemplazando
metódicamente cada paso de un cómputo no privado con una implementación
diferencialmente privada.
A pesar de algunos resultados computacionales asombrosamente poderosos,
aún existen limitaciones fundamentales, no solo sobre lo que se puede lograr con la
privacidad diferencial, sino sobre lo que se puede lograr con cualquier método que
proteja contra una ruptura total de la privacidad (Sección 8).
Prácticamente todos los algoritmos discutidos en este libro mantienen privacidad
diferencial contra adversarios de poder computacional arbitrario. Ciertos algoritmos
son computacionalmente intensivos, otros son
3
eficiente. La complejidad computacional para el adversario y el algoritmo se
analizan en la Sección 9.
En las Secciones 10 y 11, pasamos de los fundamentos a las aplicaciones
distintas de la liberación de consulta, discutiendo métodos diferencialmente
privados para el diseño de mecanismos y el aprendizaje automático. La gran
mayoría de la literatura sobre algoritmos diferencialmente privados considera una
única base de datos estática que está sujeta a muchos análisis. La privacidad
diferencial en otros modelos, incluidas las bases de datos distribuidas y los
cálculos sobre flujos de datos, se analiza en la Sección 12.
Finalmente, notamos que este libro pretende ser una introducción completa
a los problemas y técnicas de la privacidad diferencial, pero no pretende ser un
estudio exhaustivo; en este momento hay una gran cantidad de trabajo en
privacidad diferencial, y podemos cubrir sólo una pequeña porción de ella.
1
La promesa de la privacidad diferencial
La “privacidad diferencial” describe una promesa, hecha por un titular de datos, o
curador, a un sujeto de datos: “Usted no se verá afectado, negativamente o de otra
manera, al permitir que sus datos se utilicen en cualquier estudio o análisis, sin importar
qué. otros estudios, conjuntos de datos o fuentes de información están disponibles”.
En el mejor de los casos, los mecanismos de bases de datos privadas diferencialmente
pueden hacer que los datos confidenciales estén ampliamente disponibles para un
análisis de datos preciso, sin recurrir a salas limpias de datos, acuerdos de uso de
datos, planes de protección de datos o vistas restringidas. No obstante, la utilidad de
los datos eventualmente se consumirá: la Ley Fundamental de Recuperación de la
Información establece que las respuestas demasiado precisas a demasiadas preguntas
destruirán la privacidad de una manera espectacular.1 El objetivo de la investigación
algorítmica sobre la privacidad diferencial es posponer esta inevitabilidad mientras posible.
La privacidad diferencial aborda la paradoja de no aprender nada sobre un
individuo mientras se aprende información útil sobre una población. Una base de datos
médica puede enseñarnos que fumar causa cáncer, afectando la visión de una
compañía de seguros sobre los costos médicos a largo plazo de un fumador.
¿El fumador ha sido perjudicado por el análisis? Tal vez su seguro
1Este resultado, demostrado en la Sección 8.1, se aplica a todas las técnicas para preservar la privacidad
análisis de datos, y no sólo a la privacidad diferencial.
5
6 La promesa de la privacidad diferencial
las primas pueden aumentar si el asegurador sabe que fuma. También puede recibir
ayuda: al enterarse de sus riesgos para la salud, ingresa en un programa para dejar
de fumar. ¿Se ha visto comprometida la privacidad del fumador? Ciertamente, se
sabe más sobre él después del estudio de lo que se sabía antes, pero ¿se "filtró" su
información? La privacidad diferencial asumirá la opinión de que no lo fue, con la
justificación de que el impacto en el fumador es el mismo independientemente de si
estuvo o no en el estudio.
Son las conclusiones alcanzadas en el estudio las que afectan al fumador, no su
presencia o ausencia en el conjunto de datos.
La privacidad diferencial garantiza que se llegue a las mismas conclusiones, por
ejemplo, fumar causa cáncer, independientemente de si cualquier individuo opta por
participar o no en el conjunto de datos. Específicamente, asegura que cualquier
secuencia de resultados (respuestas a consultas) tiene la misma probabilidad de
ocurrir “esencialmente”, independientemente de la presencia o ausencia de cualquier
individuo. Aquí, las probabilidades se toman sobre las elecciones aleatorias realizadas
por el mecanismo de privacidad (algo controlado por el curador de datos), y el término
"esencialmente" se captura mediante un parámetro, ε. Un ε más pequeño producirá
una mejor privacidad (y respuestas menos precisas).
La privacidad diferencial es una definición, no un algoritmo. Para una tarea
computacional T dada y un valor dado de ε habrá muchos algoritmos diferencialmente
privados para lograr T de una manera εdiferencialmente privada. Algunos tendrán
mejor precisión que otros. Cuando ε es pequeño, encontrar un algoritmo ε
diferencialmente privado de alta precisión para T puede ser difícil, al igual que
encontrar un algoritmo numéricamente estable para una tarea computacional
específica puede requerir esfuerzo.
1.1 Análisis de datos para preservar la privacidad
La privacidad diferencial es una definición de privacidad adaptada al problema del
análisis de datos para preservar la privacidad. Abordaremos brevemente algunas
preocupaciones con otros enfoques de este problema.
Los datos no se pueden anonimizar por completo y seguir siendo útiles. En términos
generales, cuanto más ricos son los datos, más interesantes y útiles son.
Esto ha llevado a las nociones de "anonimización" y "eliminación de información de
identificación personal", donde la esperanza es que partes de la
1.1. Análisis de datos para preservar la privacidad 7
los registros de datos se pueden suprimir y el resto se puede publicar y utilizar para el análisis.
Sin embargo, la riqueza de los datos permite “nombrar” a un individuo por una colección de
campos o atributos a veces sorprendente, como la combinación de código postal, fecha de
nacimiento y sexo, o incluso los nombres de tres películas y las fechas aproximadas. en el que
una persona vio estas películas. Esta capacidad de "nombramiento" se puede utilizar en un
ataque de vinculación para hacer coincidir registros "anonimizados" con registros no anónimos en
un conjunto de datos diferente. Por lo tanto, no se identificaron los registros médicos del
gobernador ni de Massachussetts comparando datos de encuentros médicos anónimos con
registros de registro de votantes (disponibles públicamente) y suscriptores de Netflix cuyos
historiales de visualización estaban contenidos en una colección de registros de películas
anónimos publicados por Netflix como datos de capacitación. para una competencia por
recomendación fueron identificados por enlace con Internet Movie Database (IMDb).
La privacidad diferencial neutraliza los ataques de enlace: dado que ser privado
diferencialmente es una propiedad del mecanismo de acceso a los datos y no está relacionado
con la presencia o ausencia de información auxiliar disponible para el adversario, el acceso a
IMDb ya no permitiría un ataque de enlace a alguien cuyo la historia está en el conjunto de
entrenamiento de Netflix que para alguien que no está en el conjunto de entrenamiento.
La reidentificación de registros "anonimizados" no es el único riesgo. La reidentificación de
registros de datos “anonimizados” es claramente indeseable, no solo por la reidentificación per
se, que sin duda revela la pertenencia al conjunto de datos, sino también porque el registro puede
contener información comprometedora que, si estuviera vinculada a un individuo, podría causar
daño. Una colección de registros de encuentros médicos de un centro de atención de urgencia
específico en una fecha determinada puede enumerar solo una pequeña cantidad de quejas o
diagnósticos distintos. La información adicional de que un vecino visitó la instalación en la fecha
en cuestión da una gama bastante estrecha de diagnósticos posibles para la condición del vecino.
El hecho de que no sea posible hacer coincidir un registro específico con el vecino proporciona
una protección de privacidad mínima para el vecino.
Las consultas sobre conjuntos grandes no son protectoras. Las preguntas sobre individuos
específicos no se pueden responder de forma segura con precisión y, de hecho, una
podría desear rechazarlos sin más (si fuera computacionalmente factible
reconocerlos). Obligar a las consultas a abarcar conjuntos grandes no es una
panacea, como lo demuestra el siguiente ataque de diferenciación. Supongamos
que se sabe que el Sr. X está en cierta base de datos médica. En conjunto, las
respuestas a las dos grandes consultas "¿Cuántas personas en la base de datos
tienen el rasgo de células falciformes?" y "¿Cuántas personas, no llamadas X, en
la base de datos tienen el rasgo de células falciformes?" producir el estado de células falciformes del Sr. X.
La auditoría de consultas es problemática. Uno podría verse tentado a auditar la
secuencia de consultas y respuestas, con el objetivo de prohibir cualquier respuesta
si, a la luz del historial, responder a la consulta actual comprometería la privacidad.
Por ejemplo, el auditor puede estar atento a pares de consultas que constituirían
un ataque de diferenciación. Hay dos dificultades con este enfoque. En primer
lugar, es posible que negarse a responder a una consulta sea en sí mismo
revelador. En segundo lugar, la auditoría de consultas puede ser computacionalmente
inviable; de hecho, si el lenguaje de consulta es lo suficientemente rico, es posible
que ni siquiera exista un procedimiento algorítmico para decidir si un par de
consultas constituye un ataque de diferenciación.
Las estadísticas resumidas no son "seguras". En cierto sentido, el fracaso de las
estadísticas resumidas como concepto de solución de privacidad es inmediato
desde el ataque de diferenciación que acabamos de describir. Otros problemas con
las estadísticas resumidas incluyen una variedad de ataques de reconstrucción
contra una base de datos en la que cada individuo tiene un "bit secreto" para
proteger. El objetivo de la utilidad puede ser permitir, por ejemplo, preguntas del
tipo "¿Cuántas personas que satisfacen la propiedad P tienen un valor de bit
secreto 1?" El objetivo del adversario, por otro lado, es aumentar significativamente
sus posibilidades de adivinar las partes secretas de los individuos. Los ataques de
reconstrucción descritos en la Sección 8.1 muestran la dificultad de proteger incluso
contra un número lineal de consultas de este tipo: a menos que se introduzcan
suficientes imprecisiones, casi todos los bits secretos pueden reconstruirse.
Una ilustración llamativa de los riesgos de publicar estadísticas resumidas es
la aplicación de una técnica estadística, originalmente destinada a confirmar o
refutar la presencia del ADN de un individuo en una mezcla forense, para descartar
o excluir a un individuo de una asociación de todo el genoma. estudiar. Según un
sitio web del Proyecto Genoma Humano, "los polimorfismos de un solo nucleótido,
o SNP (pronunciado "snips"), son ADN
1.1. Análisis de datos para preservar la privacidad 9
variaciones de secuencia que ocurren cuando se altera un solo nucleótido (A, T, C o G) en la
secuencia del genoma. Por ejemplo, un SNP podría cambiar la secuencia de ADN AAGGCTAA a
ATGGCTAA”. En este caso decimos que hay dos alelos: A y T. Para tal SNP podemos preguntar,
dada una población de referencia particular, ¿cuáles son las frecuencias de cada uno de los dos
alelos posibles? Dadas las frecuencias alélicas de los SNP en la población de referencia, podemos
examinar cómo estas frecuencias pueden diferir para una subpoblación que tiene una enfermedad
en particular (el grupo de "casos"), buscando alelos que estén asociados con la enfermedad. Por
esta razón, los estudios de asociación de todo el genoma pueden contener las frecuencias
alélicas del grupo de casos para un gran número de SNP. Por definición, estas frecuencias
alélicas son solo estadísticas agregadas, y la suposición (errónea) ha sido que, en virtud de esta
agregación, preservan la privacidad.
Sin embargo, dados los datos genómicos de un individuo, es teóricamente posible determinar si
el individuo está en el grupo de casos (y, por lo tanto, tiene la enfermedad). En respuesta, los
Institutos Nacionales de Salud y Wellcome Trust cancelaron el acceso público a los datos de
frecuencia agregados de los estudios que financian.
Este es un problema desafiante incluso para la privacidad diferencial, debido a la gran
cantidad (cientos de miles o incluso un millón) de mediciones involucradas y la cantidad
relativamente pequeña de individuos en cualquier grupo de casos.
Los hechos "ordinarios" no están "bien". Revelar hechos "ordinarios", como comprar pan, puede
ser problemático si se sigue a un sujeto de datos a lo largo del tiempo. Por ejemplo, considere al
Sr. T, que compra pan regularmente, año tras año, hasta que de repente cambia a comprar pan
raramente. Un analista podría concluir que lo más probable es que el Sr. T haya sido diagnosticado
con diabetes tipo 2.
El analista puede estar en lo cierto o puede estar equivocado; de cualquier manera, el Sr. T se ve
perjudicado.
"Sólo algunos." En algunos casos, una técnica particular puede, de hecho, proporcionar protección
de la privacidad para los miembros “típicos” de un conjunto de datos o, más generalmente, para
la “mayoría” de los miembros. En tales casos, a menudo se escucha el argumento de que la
técnica es adecuada, ya que compromete la privacidad de “solo unos pocos” participantes.
Dejando de lado la preocupación de que los valores atípicos pueden ser precisamente aquellas
personas para quienes la privacidad es más importante, los "solo unos pocos"
la filosofía no carece intrínsecamente de mérito: hay que hacer un juicio social,
una ponderación de costos y beneficios. Todavía no se ha desarrollado una
definición bien articulada de privacidad consistente con la filosofía de “solo unos
pocos”; sin embargo, para un solo conjunto de datos, se puede lograr la privacidad
de "solo unos pocos" seleccionando aleatoriamente un subconjunto de filas y
liberándolas en su totalidad (Lema 4.3, Sección 4). Los límites de muestreo que
describen la calidad del análisis estadístico que se puede realizar en submuestras
aleatorias rigen el número de filas que se liberarán. La privacidad diferencial
ofrece una alternativa cuando se rechaza la filosofía de “solo unos pocos”.
1.2 Notas bibliográficas
Sweeney [81] vinculó los registros de registro de votantes con datos de encuentros
médicos "anonimizados"; Narayanan y Shmatikov llevaron a cabo un ataque de
vinculación contra datos de clasificación anónimos publicados por Netflix [65]. El
trabajo sobre presencia en una mezcla forense se debe a Homer et al. [46]. Los
primeros ataques de reconstrucción se debieron a Dinur y Nissim [18].
2
Términos básicos
Esta sección motiva y presenta la definición formal de privacidad diferencial y enumera
algunas de sus propiedades clave.
2.1 El modelo de computación
Asumimos la existencia de un curador de confianza que mantiene los datos de las
personas en una base de datos D, típicamente compuesta por un número n de filas. La
intuición es que cada fila contiene el
datos de un solo individuo y, aún hablando intuitivamente, el objetivo de privacidad es
proteger simultáneamente cada fila individual mientras permite el análisis estadístico de
la base de datos en su conjunto.
En el modelo no interactivo, o fuera de línea, el curador produce algún tipo de objeto,
como una "base de datos sintética", una colección de estadísticas resumidas o una
"base de datos desinfectada" de una vez por todas. Después de esta liberación, el
curador ya no desempeña ningún papel y los datos originales pueden ser destruidos.
Una consulta es una función que se aplica a una base de datos. El modelo
interactivo, o en línea, permite que el analista de datos haga consultas de manera
adaptativa, decidiendo qué consulta plantear a continuación en función de las respuestas
observadas a consultas anteriores.
11
12 Términos básicos
El curador de confianza puede ser reemplazado por un protocolo ejecutado por
el conjunto de individuos, utilizando las técnicas criptográficas para protocolos
seguros de múltiples partes, pero en su mayor parte no apelaremos a suposiciones
criptográficas. La sección 12 describe este y otros modelos estudiados en la literatura.
Cuando todas las consultas se conocen de antemano, el modelo no interactivo
debería brindar la mejor precisión, ya que es capaz de correlacionar el ruido
conociendo la estructura de las consultas. En cambio, cuando no se conoce de
antemano información sobre las consultas, el modelo no interactivo plantea serios
desafíos, ya que debe dar respuesta a todas las consultas posibles.
Como veremos, para garantizar la privacidad, o incluso para evitar catástrofes de
privacidad, la precisión necesariamente se deteriorará con el número de preguntas
formuladas, y será inviable proporcionar respuestas precisas a todas las preguntas
posibles.
Un mecanismo de privacidad, o simplemente un mecanismo, es un algoritmo
que toma como entrada una base de datos, un universo X de tipos de datos (el
conjunto de todas las posibles filas de la base de datos), bits aleatorios y,
opcionalmente, un conjunto de consultas, y produce un cadena de salida La
esperanza es que la cadena de salida se pueda decodificar para producir respuestas
relativamente precisas a las consultas, si estas últimas están presentes. Si no se
presentan consultas, estamos en el caso no interactivo, y la esperanza es que la
cadena de salida se pueda interpretar para proporcionar respuestas a futuras consultas.
En algunos casos, podemos requerir que la cadena de salida sea una base de
datos sintética. Este es un conjunto múltiple extraído del universo X de posibles filas
de la base de datos. El método de decodificación en este caso es realizar la consulta
en la base de datos sintética y luego aplicar algún tipo de transformación simple,
como multiplicar por un factor de escala, para obtener una aproximación a la
verdadera respuesta a la consulta.
2.2 Hacia la definición del análisis de datos privados
Un enfoque natural para definir la privacidad en el contexto del análisis de datos es
exigir que el analista no sepa más acerca de cualquier individuo en el conjunto de
datos después de completar el análisis de lo que sabía antes de comenzar el
análisis. También es natural formalizar este objetivo
2.2. Hacia la definición del análisis de datos privados 13
exigir que las opiniones anteriores y posteriores del adversario sobre un individuo (es
decir, antes y después de tener acceso a la base de datos) no sean "demasiado
diferentes", o que el acceso a la base de datos no cambie las opiniones del adversario
sobre cualquier individuo " demasiado." Sin embargo, si la base de datos enseña algo,
esta noción de privacidad es inalcanzable. Por ejemplo, supongamos que la opinión
previa (incorrecta) del adversario es que todos tienen 2 pies izquierdos. El acceso a la
base de datos estadística enseña que casi todo el mundo tiene un pie izquierdo y un pie
derecho. El adversario ahora tiene una visión muy diferente de si un encuestado dado
tiene o no dos pies izquierdos.
Parte del atractivo del enfoque antes/después, o “nada se aprende”, para definir la
privacidad es la intuición de que si no se aprende nada sobre un individuo, entonces el
análisis no puede dañar al individuo.
Sin embargo, el ejemplo de “fumar causa cáncer” muestra que esta intuición es
defectuosa; el culpable es la información auxiliar (el Sr. X fuma).
El enfoque de "nada se aprende" para definir la privacidad recuerda a la seguridad
semántica de un criptosistema. En términos generales, la seguridad semántica dice que
no se aprende nada sobre el texto sin cifrar (el mensaje sin cifrar) del texto cifrado. Es
decir, todo lo que se sabía sobre el texto sin formato después de ver el texto cifrado se
sabía antes de ver el texto cifrado. Entonces, si hay información auxiliar que dice que el
texto cifrado es un cifrado de "perro" o "gato", entonces el texto cifrado no filtra más
información sobre cuál de "perro" o "gato" se ha cifrado. Formalmente, esto se modela
comparando la capacidad del intruso para adivinar cuál de "perro" y "gato" ha sido
encriptado con la capacidad del llamado simulador de adversario, que tiene la información
auxiliar pero no tiene acceso a la información. texto cifrado, para adivinar lo mismo. Si
por cada adversario que escucha a escondidas y toda la información auxiliar (que tanto
el adversario como el simulador tienen acceso), el simulador del adversario tiene
esencialmente las mismas probabilidades de adivinar que el que escucha a escondidas,
entonces el sistema disfruta de seguridad semántica. Por supuesto, para que el sistema
sea útil, el receptor legítimo debe poder descifrar correctamente el mensaje; de lo
contrario, la seguridad semántica se puede lograr de manera trivial.
Sabemos que, bajo supuestos computacionales estándar, existen criptosistemas
semánticamente seguros, entonces, ¿por qué no podemos construir semánticamente
¿Mecanismos seguros de bases de datos privadas que brindan respuestas a las consultas mientras
mantienen en secreto las filas individuales?
En primer lugar, la analogía no es perfecta: en un criptosistema semánticamente seguro hay
tres partes: el remitente del mensaje (que cifra el mensaje de texto sin formato), el receptor del
mensaje (que descifra el texto cifrado) y el espía (que se siente frustrado por su mensaje).
incapacidad de aprender algo sobre el texto sin formato que ella no supiera antes de que fuera
enviado). Por el contrario, en el marco del análisis de datos privados solo hay dos partes: el curador,
que ejecuta el mecanismo de privacidad (análogo al remitente) y el analista de datos, que recibe
las respuestas informativas a las consultas (como el receptor del mensaje) y también trata de
extraer información que compromete la privacidad de las personas (como el intruso). Debido a
que el receptor legítimo es la misma parte que el adversario fisgón, la analogía con el cifrado es
defectuosa: negar toda la información al adversario significa negar toda la información al analista
de datos.
En segundo lugar, al igual que con un esquema de encriptación, requerimos que el mecanismo
de privacidad sea útil, lo que significa que le enseña al analista algo que no sabía previamente. Esta
enseñanza no está disponible para un simulador adversario; es decir, ningún simulador puede
“predecir” lo que ha aprendido el analista. Por lo tanto, podemos ver la base de datos como una
fuente débil de bits aleatorios (impredecibles), de los cuales podemos extraer una aleatoriedad de
muy alta calidad para usarla como un pad aleatorio. Esto se puede utilizar en una técnica de
encriptación en la que se agrega un mensaje secreto a un valor aleatorio (el "almohadilla aleatoria")
para producir una cadena que en teoría oculta el secreto. Solo alguien que conozca el pad aleatorio
puede aprender el secreto; cualquier parte que no sepa nada sobre el bloc no aprende nada sobre
el secreto, sin importar su poder computacional. Con acceso a la base de datos, el analista puede
aprender el pad aleatorio, pero el simulador del adversario, que no tiene acceso a la base de datos,
no aprende nada sobre el pad. Así, dado como información auxiliar la encriptación de un secreto
usando el pad aleatorio, el analista puede desencriptar el secreto, pero el simulador adversario no
aprende nada sobre el secreto. Esto produce una gran disparidad entre la capacidad del adversario/
analista para conocer el secreto y la capacidad
2.3. Formalizando la privacidad diferencial 15
del simulador adversario para hacer lo mismo, eliminando toda esperanza de algo remotamente
parecido a la seguridad semántica.
El obstáculo tanto en el ejemplo de fumar causa cáncer como en la esperanza de seguridad
semántica es la información auxiliar. Claramente, para ser significativa, una garantía de privacidad
debe ser válida incluso en el contexto del conocimiento auxiliar “razonable”, pero es problemático
separar el conocimiento auxiliar razonable del arbitrario. Por ejemplo, el analista que utiliza una
base de datos del gobierno podría ser un empleado de una importante empresa de motores de
búsqueda. ¿Cuáles son las suposiciones “razonables” sobre la información de conocimiento auxiliar
disponible para esa persona?
2.3 Formalización de la privacidad diferencial
Comenzaremos con la definición técnica de privacidad diferencial, para luego pasar a interpretarla.
La privacidad diferencial proporcionará privacidad por proceso; en particular, introducirá la
aleatoriedad. Un ejemplo temprano de privacidad mediante un proceso aleatorio es la respuesta
aleatoria, una técnica desarrollada en las ciencias sociales para recopilar información estadística
sobre conductas vergonzosas o ilegales, capturada al tener una propiedad P.
A los participantes del estudio se les pide que informen si tienen o no la propiedad P de la
siguiente manera:
1. Tira una moneda.
2. Si sale cruz, responda con la verdad.
3. Si sale cara, entonces arroje una segunda moneda y responda "Sí" si sale cara y
“No” si cruz.
La “privacidad” proviene de la negación plausible de cualquier resultado; en particular, si tener la
propiedad P corresponde a participar en un comportamiento ilegal, incluso una respuesta “Sí” no
es incriminatoria, ya que esta respuesta ocurre con una probabilidad de al menos 1/4
independientemente de que el encuestado realmente tenga o no la propiedad P. La precisión
proviene de una comprensión del procedimiento de generación de ruido (la introducción de
respuestas falsas "Sí" y "No" de la aleatorización): El número esperado de respuestas "Sí" es 1/4
veces el número de participantes que no tienen la propiedad P más 3 /4 el número que tiene la
propiedad P. Así, si p es la verdadera fracción de
dieciséis Términos básicos
participantes que tienen la propiedad P, el número esperado de respuestas "Sí" es
(1/4)(1−p)+ (3/4)p = (1/4)+p/2. Así, podemos estimar p como el doble de la fracción
que responde “Sí” menos 1/2, es decir, 2((1/4) + p/2) − 1/2.
La aleatorización es esencial; más precisamente, cualquier garantía de
privacidad no trivial que se mantenga independientemente de todas las fuentes
presentes o incluso futuras de información auxiliar, incluidas otras bases de datos,
estudios, sitios web, comunidades en línea, chismes, periódicos, estadísticas
gubernamentales, etc., requiere aleatorización. . Esto se sigue de un argumento
híbrido simple, que ahora esbozamos. Supongamos, por el bien de la contradicción,
que tenemos un algoritmo determinista no trivial. La no trivialidad dice que existe
una consulta y dos bases de datos que arrojan resultados diferentes bajo esta
consulta. Al cambiar una fila a la vez, vemos que existe un par de bases de datos
que difieren solo en el valor de una sola fila, en las que la misma consulta produce
resultados diferentes. Un adversario que sabe que la base de datos es una de
estas dos bases de datos casi idénticas aprende el valor de los datos en la fila
desconocida.
Por lo tanto, necesitaremos discutir el espacio de entrada y salida de los
algoritmos aleatorios. A lo largo de esta monografía se trabaja con espacios de
probabilidad discretos. A veces describiremos nuestros algoritmos como muestras
de distribuciones continuas, pero estas siempre deben discretizarse con precisión
finita de una manera apropiadamente cuidadosa (consulte la Observación 2.1 a
continuación). En general, un algoritmo aleatorio con dominio A y rango (discreto)
B estará asociado con una aplicación de A a la probabilidad simplex sobre B,
denotada ∆(B):
Definición 2.1 (Probabilidad Simplex). Dado un conjunto discreto B, la probabilidad
símplex sobre B, denotada por ∆(B), se define como:
|B|
∆(B) = x R |B| : xi ≥ 0 para todo i y xi = 1

yo=1
Definición 2.2 (Algoritmo aleatorio). Un algoritmo aleatorio M con dominio A y rango
discreto B está asociado con un mapeo M : A → ∆(B). En la entrada a A, el
algoritmo M genera M(a) = b con probabilidad (M(a))b para cada b B. El espacio
de probabilidad está sobre los lanzamientos de moneda del algoritmo M.
Pensaremos en las bases de datos x como colecciones de registros de un
universo X. A menudo será conveniente representar las bases de datos por sus
histogramas: x N |X|, en los que cada entrada xi representa el número de
elementos en la base de datos x de tipo i X (abusamos ligeramente de la
notación, dejando que el símbolo N denote el conjunto de todos los enteros no
negativos, incluido el cero). En esta representación, una medida natural de la
distancia entre dos bases de datos x e y será
1sudistancia:
Definición 2.3 (Distancia entre bases de datos). La base de datos 1 norma de un
x se denota x1 y se define como:
|X|
x1 = |xi | .
yo=1
El 1 la distancia entre dos bases de datos x e y es x − y1
Tenga en cuenta que x1 es una medida del tamaño de una base de datos x (es
decir, la cantidad de registros que contiene), y x−y1 es una medida de cuántos
registros difieren entre x e y.
Las bases de datos también pueden estar representadas por conjuntos múltiples
de filas (elementos de X) o incluso listas ordenadas de filas, que es un caso especial
de un conjunto, donde el número de fila se convierte en parte del nombre del
elemento. En este caso, la distancia entre las bases de datos normalmente se mide
por la distancia de Hamming, es decir, el número de filas en las que difieren.
Sin embargo, a menos que se indique lo contrario, utilizaremos la representación
de histograma descrita anteriormente. (Tenga en cuenta, sin embargo, que incluso
cuando la notación de histograma es matemáticamente más conveniente, en las
implementaciones reales, la representación de conjuntos múltiples a menudo será
mucho más concisa).
Ahora estamos listos para definir formalmente la privacidad diferencial, que
intuitivamente garantizará que un algoritmo aleatorio se comporte de manera similar en
bases de datos de entrada similares.
Definición 2.4 (Privacidad Diferencial). Un algoritmo aleatorio M con dominio N |X| es
(ε, δ)diferencialmente privado si para todo S Rango(M) y para todo x, y N |X|
tal que x − y1 ≤ 1:
Pr[M(x) S] ≤ exp(ε) Pr[M(y) S] + δ,

donde el espacio de probabilidad está sobre los lanzamientos de moneda del mecanismo M.
Si δ = 0, decimos que M es εdiferencialmente privado.
Por lo general, estamos interesados en valores de δ que son menores que el
inverso de cualquier polinomio en el tamaño de la base de datos. En particular, los
valores de δ del orden de 1/x1 son muy peligrosos: permiten “preservar la
privacidad” al publicar los registros completos de un pequeño número de
participantes de la base de datos, precisamente la filosofía de “solo unos pocos”
discutida en la Sección 1. .
Incluso cuando δ es insignificante, sin embargo, existen distinciones teóricas
entre (ε, 0) y (ε, δ) privacidad diferencial. El principal de ellos es lo que equivale a
un cambio de orden de cuantificación. La privacidad diferencial (ε, 0) asegura que,
para cada ejecución del mecanismo M(x), la salida observada tiene (casi) la
misma probabilidad de observarse en cada base de datos vecina, simultáneamente.
En contraste, la privacidad diferencial (ε, δ) dice que para cada par de bases de
datos vecinas x, y, es extremadamente improbable que, ex post facto, el valor
observado M(x) sea mucho más o mucho menos probable que se genere cuando
la base de datos es x que cuando la base de datos es y. Sin embargo, dada una
salida ξ M(x) , puede ser posible encontrar una base de datos y tal que ξ sea
mucho más probable que se produzca en y que cuando la base de datos es x. Es
decir, la masa de ξ en la distribución M(y) puede ser sustancialmente mayor que
su masa en la distribución M(x).
La cantidad
(ξ) Pr[M(x) = ξ]
L M(x)M(y)
= ln
Pr[M(y) = ξ]
es importante para nosotros; nos referimos a ella como la pérdida de privacidad
incurrida al observar ξ. Esta pérdida puede ser positiva (cuando un evento es más
probable bajo x que bajo y) o puede ser negativa (cuando un evento es más
probable bajo y que bajo x). Como veremos en el Lema 3.17, la privacidad
diferencial (ε, δ) asegura que para todos los x, y adyacentes, el valor absoluto de
la pérdida de privacidad estará acotado por ε con una probabilidad de al menos
1−δ. Como siempre, el espacio de probabilidad está sobre las monedas del mecanismo M.
La privacidad diferencial es inmune al posprocesamiento: un analista de datos,
sin conocimientos adicionales sobre la base de datos privada, no puede calcular
una función de la salida de un algoritmo privado M y hacerla
menos diferencialmente privado. Es decir, si un algoritmo protege la privacidad de un
individuo, entonces un analista de datos no puede aumentar la pérdida de privacidad,
ya sea bajo la definición formal o incluso en cualquier sentido intuitivo, simplemente
sentándose en un rincón y pensando en el resultado del algoritmo . Formalmente, la
composición de un mapeo f independiente de los datos con un algoritmo M (ε, δ)
diferencialmente privado también es (ε, δ) diferencialmente privado:
Propuesta 2.1 (PostProcesamiento). Sea M : N |X| → R sea un algoritmo aleatorio
que es (ε, δ)diferencialmente privado. Sea f : R → R una aplicación aleatoria arbitraria.
Entonces f ◦ M : N |X| → R es (ε, δ) diferencialmente privado.
Prueba. Probamos la proposición para una función determinista f : R → R . Entonces
se sigue el resultado porque cualquier mapeo aleatorio puede descomponerse en una
combinación convexa de funciones deterministas, y una combinación convexa de
mecanismos diferencialmente privados es diferencialmente privada.
Fijar cualquier par de bases de datos vecinas x, y con x − y1 ≤ 1, y
arregla cualquier evento S R . Sea T = {r R : f(r) S}. Entonces tenemos:
Pr[f(M(x)) S] = Pr[M(x) T] ≤ exp()

Pr[M(y) T] + δ = exp()
Pr[f(M(y)) S] + δ
que era lo que queríamos.
Se sigue inmediatamente de la Definición 2.4 que (ε, 0)privacidad diferencial se
compone de una manera sencilla: la composición de dos (ε, 0)mecanismos
diferencialmente privados es (2ε, 0)diferencialmente privada. Más generalmente
(Teorema 3.16), “los épsilons y los deltas se suman”: la composición de k mecanismos
diferencialmente privados, donde el iésimo mecanismo es (εi , δi)diferencialmente
privado, para 1 ≤ i ≤ k, es ( δi ) diferencialmente privado. yo si
, i
La privacidad grupal para (ε, 0)mecanismos diferencialmente privados también
se sigue inmediatamente de la Definición 2.4, con la fuerza de la garantía de privacidad
cayendo linealmente con el tamaño del grupo.
Teorema 2.2. Cualquier mecanismo M (ε, 0) diferencialmente privado es (kε, 0)
diferencialmente privado para grupos de tamaño k. Es decir, para todo x − y1 ≤ k y todo S
Rango(M)
Pr[M(x) S] ≤ exp(kε) Pr[M(y) S],
donde el espacio de probabilidad está sobre los lanzamientos de moneda del mecanismo M.
Esto aborda, por ejemplo, la cuestión de la privacidad en las encuestas que
incluyen varios miembros de la familia.1
De manera más general, la composición y la privacidad del grupo no son lo mismo y los
límites de composición mejorados en la Sección 3.5.2 (Teorema 3.20), que mejoran
sustancialmente el factor k , no producen, ni pueden producir, las mismas ganancias para la
privacidad del grupo. , incluso cuando δ = 0.
2.3.1 Qué promete la privacidad diferencial
Una visión económica. La privacidad diferencial promete proteger a las personas de
cualquier daño adicional que puedan enfrentar debido a que sus datos están en la base de
datos privada x que no habrían enfrentado si sus datos no hubieran sido parte de x. Aunque
los individuos pueden enfrentarse a daños una vez que se han publicado los resultados M(x)
de un mecanismo M diferencialmente privado, la privacidad diferencial promete que la
probabilidad de daño no aumentó significativamente por su elección de participar. Esta es
una definición muy utilitaria de privacidad, porque cuando un individuo está decidiendo si
incluir o no sus datos en una base de datos que se usará de manera diferencialmente
privada, es exactamente esta diferencia la que está considerando: la probabilidad de daño
dada que ella participe, en comparación con la probabilidad de daño dado que ella no
participa. Ella no tiene control sobre el contenido restante de la base de datos.
Dada la promesa de privacidad diferencial, se le asegura que debería
1Sin embargo, a medida que el grupo crece, la garantía de privacidad se deteriora, y esto
es lo que queremos: claramente, si reemplazamos toda una población encuestada, digamos,
de pacientes con cáncer, con un grupo completamente diferente de encuestados, digamos,
adolescentes sanos, debería obtener diferentes respuestas a las consultas sobre la fracción
de encuestados que regularmente corren tres millas cada día. Aunque algo similar es válido
para (ε, δ)privacidad diferencial, el término de aproximación δ recibe un gran golpe, y solo
obtenemos (kε, ke(k−1)ε δ)privacidad diferencial para grupos de tamaño k.
ser casi indiferente entre participar o no, desde el punto de vista del daño futuro.
Dado cualquier incentivo, desde el altruismo hasta la recompensa monetaria, la
privacidad diferencial puede convencerla de permitir que se usen sus datos. Esta
intuición puede formalizarse en un sentido teórico de la utilidad, que aquí esbozamos
brevemente.
Considere un individuo i que tiene preferencias arbitrarias sobre el conjunto de
todos los eventos futuros posibles, que denotamos con A. Estas preferencias se
expresan mediante una función de utilidad ui : A → R≥0, y decimos que el individuo i
experimenta una utilidad ui( a) en el caso de que se produzca un A. Supongamos
que x N |X| es un conjunto de datos que contiene datos privados individuales , y
que M es un algoritmo εdiferencialmente privado. Sea y un conjunto de datos que
es idéntico a x excepto que no incluye los datos del individuo i (en particular, x − y1
= 1), y sea f : Range(M) → ∆(A) el ( arbitraria) función que determina la distribución
sobre eventos futuros A, condicionada a la salida del mecanismo M. Por la garantía
de privacidad diferencial, junto con la resiliencia al posprocesamiento arbitrario
garantizado por la Proposición 2.1, tenemos:
Ea f(M(x))[ui(a)] = ui(a) ∙ Pr [a]

a A f(M(x))
≤ ui(a) ∙ exp(ε) Pr [a] f(M(y))
a A
= exp(ε)Ea f(M(y))[ui(a)]
Similarmente,
Ea f(M(x))[ui(a)] ≥ exp(−ε)Ea f(M(y))[ui(a)].
Por lo tanto, al prometer una garantía de privacidad diferencial ε, un analista de datos
puede prometer a un individuo que su utilidad futura esperada no se verá perjudicada
por más de un factor exp(ε) ≈ (1+ε) . Tenga en cuenta que esta promesa se cumple
independientemente de que el individuo sea función de utilidad ui , y sostiene
simultáneamente para múltiples individuos que pueden tener funciones de utilidad
completamente diferentes.
2.3.2 Lo que la privacidad diferencial no promete
Como vimos en el ejemplo de Fumar Causa Cáncer, mientras que la privacidad
diferencial es una garantía extremadamente fuerte, no promete libertad
incondicional de daño. Tampoco crea privacidad donde antes no existía. En
términos más generales, la privacidad diferencial no garantiza que lo que uno
cree que son sus secretos seguirá siendo secreto. Simplemente garantiza que la
participación de uno en una encuesta no se divulgará en sí misma, ni la
participación conducirá a la divulgación de ningún detalle específico que uno haya
contribuido a la encuesta. Es muy posible que las conclusiones extraídas de la
encuesta reflejen información estadística sobre un individuo. Una encuesta de
salud destinada a descubrir indicadores tempranos de una dolencia en particular
puede producir resultados sólidos, incluso concluyentes; que estas conclusiones
se mantengan para un individuo dado no es evidencia de una violación de
privacidad diferencial; es posible que la persona ni siquiera haya participado en la
encuesta (nuevamente, la privacidad diferencial garantiza que estos resultados
concluyentes se obtengan con una probabilidad muy similar, ya sea que la persona
participe o no en la encuesta). En particular, si la encuesta nos enseña que los
atributos privados específicos se correlacionan fuertemente con los atributos
públicamente observables , esto no es una violación de la privacidad diferencial,
ya que esta misma correlación se observaría con casi el mismo
probabilidad independiente de la presencia o ausencia de cualquier encuestado.
Propiedades cualitativas de la privacidad diferencial. Habiendo introducido y
definido formalmente la privacidad diferencial, recapitulamos sus cualidades
clave deseables.
1. Protección contra riesgos arbitrarios, más allá de la protección
contra la reidentificación.
2. Neutralización automática de ataques de vinculación, incluidos todos los
intentos con todos los conjuntos de datos pasados, presentes y futuros y
otras formas y fuentes de información auxiliar.
3. Cuantificación de la pérdida de privacidad. La privacidad diferencial no es
un concepto binario y tiene una medida de pérdida de privacidad. Esto
permite comparaciones entre diferentes técnicas: para un límite fijo de
pérdida de privacidad, ¿qué técnica proporciona una mayor precisión?
Para una precisión fija, ¿qué técnica proporciona mayor privacidad?
4. Composición. Quizás lo más importante es que la cuantificación de la pérdida
también permite el análisis y el control de la pérdida de privacidad acumulada
en múltiples cálculos. Comprender el comportamiento de los mecanismos
diferencialmente privados bajo composición permite el diseño y el análisis de
algoritmos complejos diferencialmente privados a partir de bloques de
construcción diferencialmente privados más simples.
5. Privacidad del grupo. La privacidad diferencial permite el análisis y control de
la pérdida de privacidad en la que incurren grupos, como las familias.
6. Cierre bajo posprocesamiento La privacidad diferencial es inmune al
posprocesamiento: un analista de datos, sin conocimientos adicionales sobre
la base de datos privada, no puede calcular una función de la salida de un
algoritmo diferencialmente privado M y hacerlo menos diferencialmente privado.
Es decir, un analista de datos no puede aumentar la pérdida de privacidad,
ya sea bajo la definición formal o incluso en cualquier sentido intuitivo,
simplemente sentándose en un rincón y pensando en el resultado del algoritmo,
sin importar qué información auxiliar esté disponible .
Estos son los atributos de la señal de privacidad diferencial. ¿Podemos probar
un recíproco? Es decir, ¿implican estos atributos, o algún subconjunto de ellos,
privacidad diferencial? ¿Se puede debilitar la privacidad diferencial en estos aspectos
y seguir siendo significativa? Estas son preguntas abiertas.
2.3.3 Observaciones finales sobre la definición
La granularidad de la privacidad. Las afirmaciones de privacidad diferencial deben
examinarse cuidadosamente para determinar el nivel de granularidad en el que se
promete la privacidad. La privacidad diferencial promete que el comportamiento de
un algoritmo permanecerá prácticamente sin cambios incluso si se modifica una sola
entrada en la base de datos. Pero, ¿qué constituye una sola entrada en la base de
datos? Considere, por ejemplo, una base de datos que toma la forma de un gráfico.
Tal base de datos podría codificar una red social: cada individuo i [n] está
representado por un vértice en el gráfico, y las amistades entre individuos están
representadas por bordes.
Podríamos considerar la privacidad diferencial a un nivel de granularidad
correspondiente a los individuos: es decir, podríamos exigir que diferencialmente
los algoritmos privados sean insensibles a la adición o eliminación de cualquier vértice del gráfico. Esto
brinda una fuerte garantía de privacidad, pero de hecho podría ser más fuerte de lo que necesitamos. la
adición o eliminación de un solo vértice podría, después de todo, agregar o eliminar hasta n aristas en el
gráfico. Dependiendo de qué es lo que esperamos aprender del gráfico, la insensibilidad a las eliminaciones
de n aristas puede ser una restricción imposible de cumplir.
Por otro lado, podríamos considerar la privacidad diferencial a un nivel de granularidad
correspondiente a los bordes y pedir a nuestros algoritmos que sean insensibles solo a la adición o
eliminación de bordes únicos o pequeños del gráfico . Por supuesto, esta es una garantía más débil, pero
aún podría ser suficiente para algunos propósitos. Hablando informalmente, si prometemos privacidad
diferencial ε al nivel de un solo borde, entonces ningún analista de datos debería poder concluir nada
sobre la existencia de cualquier subconjunto de bordes 1/ε en el gráfico. En algunas circunstancias,
grandes grupos de contactos sociales pueden no ser considerados información sensible: por ejemplo, un
individuo puede no sentir la necesidad de ocultar el hecho de que la mayoría de sus contactos son con
personas en su ciudad o lugar de trabajo, porque donde vive y donde trabaja son de información pública.
Por otro lado, puede haber una pequeña cantidad de contactos sociales cuya existencia es muy sensible
(por ejemplo, un posible nuevo empleador o un amigo íntimo). En este caso, la privacidad perimetral
debería ser suficiente para proteger la información confidencial y, al mismo tiempo, permitir un análisis
más completo de los datos que la privacidad vertex. La privacidad de Edge protegerá la información
confidencial de dicha persona siempre que tenga menos de 1/ε de esos amigos.
Como otro ejemplo, se puede diseñar un sistema de recomendación de películas diferencialmente
privado para proteger los datos en el conjunto de entrenamiento en el nivel de "evento" de películas
individuales, ocultando la visualización/clasificación de cualquier película individual pero no ocultando,
digamos, el entusiasmo de un individuo por cowboy western o gore, o en el nivel de “usuario” de todo el
historial de visualización y calificación de un individuo.
Todos los epsilones pequeños son iguales. Cuando ε es pequeño, la privacidad diferencial (ε, 0) afirma
que para todos los pares de bases de datos adyacentes x, y y todas las salidas o, un adversario no puede
distinguir cuál es la verdadera base de datos
sobre la base de observar o. Cuando ε es pequeño, no ser (ε, 0) diferencialmente
privado no es necesariamente alarmante; por ejemplo, el mecanismo puede ser (2ε,
0) diferencialmente privado. La naturaleza de las garantías de privacidad con
épsilons diferentes pero pequeños es bastante similar.
Pero ¿qué pasa con los valores grandes de ? Si no es (15, 0) diferencialmente
privado, simplemente dice que existen bases de datos vecinas y una salida o para la
cual la relación de probabilidades de observar o condicionada a que la base de datos
sea, respectivamente, x o y, es grande. Una salida de o podría ser muy poco probable
(esto se aborda mediante (ε, δ)privacidad diferencial); las bases de datos x e y
pueden estar terriblemente diseñadas y es poco probable que ocurran en el “mundo
real”; el adversario puede no tener la información auxiliar adecuada para reconocer
que se ha producido un resultado revelador; o puede no saber lo suficiente sobre
la(s) base(s) de datos para determinar el valor de su diferencia simétrica. Por lo
tanto, así como un criptosistema débil puede filtrar cualquier cosa, desde solo el bit
menos significativo de un mensaje hasta la clave de descifrado completa, el hecho
de no ser (ε, 0) o (ε, δ) diferencialmente privado puede variar desde una privacidad
efectivamente sin sentido infracciones para completar la revelación de toda la base
de datos. Un épsilon grande es grande a su manera.
Algunos formalismos adicionales. Nuestro mecanismo de privacidad M a menudo
tomará algunos parámetros auxiliares w como entrada, además de la base de datos
x. Por ejemplo, w puede especificar una consulta qw en la base de datos x, o una
colección Qw de consultas. El mecanismo M(w, x) podría (respectivamente)
responder con una aproximación diferencialmente privada a qw(x) oa algunas o
todas las consultas en Qw. Para todo δ ≥ 0, decimos que un mecanismo M(∙, ∙)
satisface (ε, δ)privacidad diferencial si para todo w, M(w, ∙) satisface (ε, δ)privacidad
diferencial.
Otro ejemplo de un parámetro que puede incluirse en w es un parámetro de
seguridad κ para determinar qué tan pequeño debe ser δ = δ(κ) . Es decir, M(κ, ∙)
debe ser (ε, δ(κ)) diferencialmente privado para todo κ. Típicamente, ya lo largo de
esta monografía, requerimos que δ sea una función despreciable −ω(1). Por lo
δ = κ icamente pequeña, tanto, pensamos en δ como una criptografía en κ, es decir,
mientras que ε se considera típicamente como una cantidad moderadamente pequeña.
constante.
En el caso en que el parámetro auxiliar w especifica una colección Qw = {q : X
norte
→ R} de consultas, llamamos al mecanismo M a
generador de sinopsis Un generador de sinopsis genera una sinopsis A
(diferencialmente privada) que se puede utilizar para calcular las respuestas a
todas las consultas en Qw. Es decir, requerimos que exista un procedimiento de
reconstrucción R tal que para cada entrada v que especifica una consulta qv
Qw, el procedimiento de reconstrucción genera R(A, v) R. Por lo general,
requeriremos que con alta probabilidad M produzca una sinopsis A tal que el
procedimiento de reconstrucción, utilizando A, calcula respuestas precisas. Es
decir, para todas o la mayoría (ponderadas por alguna distribución) de las
consultas qv Qw, el error |R(A, v) − qv(x)| estará acotado. Ocasionalmente
abusaremos de la notación y nos referiremos al procedimiento de reconstrucción
tomando como entrada la consulta real q (en lugar de alguna representación v de
ella) y generando R(A, q).
Un caso especial de una sinopsis es una base de datos sintética. Como
sugiere el nombre, las filas de una base de datos sintética son del mismo tipo que
las filas de la base de datos original. Una ventaja de las bases de datos sintéticas
es que pueden analizarse utilizando el mismo software que el analista utilizaría
en la base de datos original, obviando la necesidad de un procedimiento de
reconstrucción especial R.
Observación 2.1. Se debe tener mucho cuidado al programar mecanismos con
valores reales, como el mecanismo de Laplace, debido a las sutilezas en la
implementación de números de coma flotante. De lo contrario, la privacidad
diferencial puede destruirse, ya que las salidas con una probabilidad distinta de
cero en una base de datos x pueden, debido al redondeo, tener una probabilidad
cero en las bases de datos adyacentes y. Esta es solo una forma en la que la
implementación del punto flotante requiere escrutinio en el contexto de la
privacidad diferencial, y no es única.
La definición de privacidad diferencial se debe a Dwork et al. [23]; la formulación
precisa utilizada aquí y en la literatura aparece por primera vez en [20] y se debe
a Dwork y McSherry. El término “privacidad diferencial” fue acuñado por Michael
Schroeder. La imposibilidad de la seguridad semántica se debe a Dwork y Naor
[25]. La composición y la privacidad de grupo para (ε, 0)mecanismos
diferencialmente privados se abordan por primera vez en [23].
2.4. notas bibliograficas 27
La composición para la privacidad diferencial (ε, δ) se abordó por primera vez en
[21] (pero consulte la prueba corregida en el Apéndice B, debido a Dwork y Lei [22]).
Mironov, quien propuso una mitigación [63], observó la vulnerabilidad de la
privacidad diferencial ante implementaciones inapropiadas de números de punto
flotante.
3
Técnicas Básicas y Teoremas de Composición
Después de revisar algunas herramientas probabilísticas, presentamos el mecanismo de
Laplace, que brinda privacidad diferencial para consultas con valores reales (vectoriales).
Una aplicación de esto conduce naturalmente al mecanismo exponencial, que es un
método para la selección diferencialmente privada de un conjunto discreto de salidas
candidatas. Luego analizamos la pérdida de privacidad acumulada en la que se incurre al
componer múltiples mecanismos diferencialmente privados.
Finalmente, ofrecemos un método, la técnica del vector disperso, para informar de forma
privada los resultados de un número potencialmente muy grande de cálculos, siempre
que solo unos pocos sean "significativos".
En esta sección, describimos algunas de las técnicas más básicas en privacidad
diferencial que volveremos a usar una y otra vez. Las técnicas descritas aquí forman los
bloques de construcción básicos para todos los demás algoritmos que desarrollaremos.
3.1 Herramientas probabilísticas útiles
Las siguientes desigualdades de concentración serán frecuentemente útiles. Los
expresamos en formas fáciles de usar en lugar de en sus formas más fuertes.
28
3.2. Respuesta aleatoria 29
Teorema 3.1 (Límite Aditivo de Chernoff). Sea X1, . . . , Xm sean variables aleatorias
independientes acotadas de manera que 0 ≤ Xi ≤ 1 para todo i. Sea Xi su media, y sea µ =
1
metro E[S] su S =
metro = 1
media esperada. Entonces:
−2mε2
Pr[S > µ + ε] ≤ e
−2mε2
Pr[S < µ − ε] ≤ e
Teorema 3.2 (Límite de Chernoff multiplicativo). Sea X1, . . . , Xm sean variables aleatorias
independientes acotadas de manera que 0 ≤ Xi ≤ 1 para todo i. Sea Xi su media, y sea µ =
1 metro
metro yo=1 E[S] su S =

media esperada. Entonces:
−mµε2/3
Pr[S > (1 + ε)µ] ≤ e
−mµε2/2
Pr[S < (1 − ε)µ] ≤ e
Cuando no tenemos variables aleatorias independientes, no todo está perdido.
Todavía podemos aplicar la desigualdad de Azuma:
Teorema 3.3 (Desigualdad de Azuma). Sea f una función de m variables aleatorias X1, . . . ,
Xm, cada Xi tomando valores de un conjunto Ai tal que E[f] está acotado. Sea ci el efecto
máximo de Xi sobre f — es decir, Ai : para todo ai
, un
yo
E[f|X1, . . . , Xi−1, Xi = ai ] − E[f|X1, . . . , Xi−1, Xi = un yo ] ≤ ci
Entonces:
2 2t
Pr [f(X1, . . . , Xm) ≥ E[f] + t] ≤ exp − m
c yo =
2
1 yo
Teorema 3.4 (Aproximación de Stirling). ¡norte! se puede aproximar por √ 2nπ(n/e) n
:
1/(12n+1) 1/(12n)
√ 2nπ(n/e) norte mi < n! < √ 2nπ(n/e) norte mi .
3.2 Respuesta aleatoria
Recordemos el mecanismo simple de respuesta aleatoria, descrito en la Sección 2, para
evaluar la frecuencia de las situaciones vergonzosas o ilegales.
30 Técnicas Básicas y Teoremas de Composición
comportamientos Sea XYZ una de esas actividades. Ante la consulta, "¿Ha participado
en XYZ en la última semana?" se instruye al demandado a realizar los siguientes pasos:
1. Tira una moneda.
2. Si sale cruz, responda con la verdad.
3. Si sale cara, entonces arroje una segunda moneda y responda "Sí" si sale cara y
“No” si cruz.
La intuición detrás de la respuesta aleatoria es que proporciona una "negabilidad
plausible". Por ejemplo, es posible que se haya ofrecido una respuesta de "Sí" porque
la primera y la segunda moneda fueron cara, lo que ocurre con una probabilidad de
1/4. En otras palabras, la privacidad se obtiene por proceso, no hay respuestas
“buenas” o “malas”. El proceso mediante el cual se obtienen las respuestas afecta
cómo pueden interpretarse legítimamente. Como muestra la siguiente afirmación, la
respuesta aleatoria es diferencialmente privada.
Reclamación 3.5. La versión de respuesta aleatoria descrita anteriormente es (ln 3, 0)
diferencialmente privada.
Prueba. Corregir un encuestado. Un análisis de caso muestra que Pr[Respuesta = Sí|
Verdad = Sí] = 3/4. Específicamente, cuando la verdad es “Sí”, el resultado será “Sí” si
la primera moneda sale cruz (probabilidad 1/2) o la primera y la segunda salen cara
(probabilidad 1/4)), mientras que Pr[Respuesta = Sí|Verdad = No] = 1/4 (primero sale
cara y segundo sale cruz; probabilidad 1/4). Aplicando un razonamiento similar al caso
de una respuesta “No”, obtenemos: Pr[Respuesta = Sí|Verdad = Sí]
Pr[Respuesta = Sí|Verdad = No]
= 3/4 = Pr[Respuesta = No|Verdad = No] = 3.

1/4 Pr[Respuesta = No|Verdad = Sí]
3.3 El mecanismo de Laplace
Consultas numéricas, funciones f : N |X| tipos k → R , son de los mas divertidos

fundamentales de consultas de base de datos. Estas consultas asignan bases de datos a k
3.3. El mecanismo de Laplace 31
numeros reales. Uno de los parámetros importantes que determinará la
precisión con la que podemos responder a tales consultas es su 1 sensibilidad:
Definición 3.1 (1sensibilidad). La sensibilidad 1 de una función f : N |X| k → R
es:
∆f = máx f(x) − f(y)1.
x,y N|
X | x−y1=1
El La sensibilidad de una función f capta la magnitud en que los datos
de un solo individuo pueden cambiar la función f en el peor de los casos, y por
tanto, intuitivamente, la incertidumbre en la respuesta que debemos introducir
para ocultar la participación de un solo individuo.
De hecho, formalizaremos esta intuición: la sensibilidad de una función da un
límite superior sobre cuánto debemos perturbar su salida para preservar la
privacidad. Una distribución de ruido se presta naturalmente a una privacidad
diferencial.
Definición 3.2 (La distribución de Laplace). La Distribución de Laplace (centrada
en 0) con escala b es la distribución con función de densidad de probabilidad:
1 |x|
Vuelta(x|b) = exp − 2b .
b
2
La varianza de esta distribución es σ = 2b 2 . A veces escribiremos
Lap(b) para denotar la distribución de Laplace con escala b, y algunas veces
abusará de la notación y escribirá Lap(b) simplemente para denotar una
variable aleatoria X Lap(b).
La distribución de Laplace es una versión simétrica de la distribución
exponencial.
Ahora definiremos el mecanismo de Laplace. Como sugiere su nombre, el
mecanismo de Laplace simplemente calculará f y perturbará cada coordenada
con ruido extraído de la distribución de Laplace. La escala del ruido se calibrará
a la sensibilidad de f (dividida por ε).1
1Alternativamente, usando ruido gaussiano con varianza calibrada a ∆f ln(1/δ)/ε, se
puede lograr privacidad diferencial (ε, δ) (ver Apéndice A). El uso del mecanismo de
Laplace es más limpio y los dos mecanismos se comportan de manera similar bajo
composición (Teorema 3.20).
Definición 3.3 (El mecanismo de Laplace). Dada cualquier función f : N |X| k →
R , El mecanismo de Laplace se define como:
ML(x, f(∙), ε) = f(x) + (Y1, . . . , Yk)
donde Yi son variables aleatorias iid extraídas de Lap(∆f /ε).
Teorema 3.6. El mecanismo de Laplace conserva la privacidad diferencial (ε, 0).
Prueba. Sea x N |X| y y N |X| sea tal que x − y1 ≤ 1, y sea f(∙) alguna

función f : N |X| función de densidad k → R . Sea px la probabilidad
de probabilidad de ML(x, f, ε) , y sea py la función de densidad de probabilidad
de ML(y, f, ε). Comparamos los dos en algún punto arbitrario z R
k
k ε|f(x)i−zi|
px(z) = exp(− ) ∆f ε|f(y)i−zi| ) ∆f
py(z) yo=1 exp(−

k
= ε(|f(y)i − zi | − |f(x)i − zi |) ∆f
Exp
yo=1
k
ε|f(x)i − f(y)i | ∆f
≤ Exp
yo=1
ε ∙ f(x) − f(y)1 ∆f
= exp
≤ exp(ε),
donde la primera desigualdad se deriva de la desigualdad triangular, y la última
se deriva de la definición de sensibilidad y del hecho de que x − y1 ≤ 1. Que
px(z) ≥ exp(−ε) se sigue
pi(z)por simetría.
Ejemplo 3.1 (Consultas de conteo). Las consultas de conteo son consultas de
la forma "¿Cuántos elementos en la base de datos satisfacen la Propiedad P?"
Volveremos a estas consultas una y otra vez, a veces en esta forma pura, a
veces en forma fraccionada ("¿Qué fracción de los elementos en las bases de
datos...?"), a veces con pesos (consultas lineales) y a veces en un poco más
formas complejas (p. ej., aplicar h : N |X| → [0, 1] a cada elemento de la base
de datos y sumar los resultados). Contar es un
primitivo extremadamente poderoso. Captura todo lo que se puede aprender en el modelo de
aprendizaje de consultas estadísticas, así como muchas tareas estándar de minería de datos y
estadísticas básicas. Dado que la sensibilidad de una consulta de conteo es 1 (la adición o
eliminación de un solo individuo puede cambiar un conteo en 1 como máximo), es una consecuencia
inmediata del Teorema 3.6 que (ε, 0) se puede lograr privacidad diferencial para contar consultas
mediante la adición de ruido escalado a 1/ε, es decir, mediante la adición de ruido extraído de Lap(1/
ε).
La distorsión o error esperado es 1/ε, independientemente del tamaño de la base de datos.
Una lista fija pero arbitraria de m consultas de conteo se puede ver como una consulta con
valores vectoriales. En ausencia de más información sobre el conjunto de consultas, el límite en el
peor de los casos en la sensibilidad de esta consulta con valores vectoriales es m, ya que un solo
individuo podría cambiar cada conteo. En este caso, la privacidad diferencial (ε, 0) se puede lograr
agregando ruido escalado a m/ε a la respuesta verdadera de cada consulta.
A veces nos referimos al problema de responder a grandes números
de consultas (posiblemente arbitrarias) como el problema de liberación de consultas.
Ejemplo 3.2 (Consultas de histograma). En el caso especial (pero común) en el que las consultas
son estructuralmente inconexas, podemos hacerlo mucho mejor: no necesariamente tenemos que
dejar que el ruido aumente con la cantidad de consultas. Un ejemplo es la consulta de histograma.
En este tipo de consulta el universo N |X| se divide en celdas y la consulta pregunta cuántos
elementos de la base de datos se encuentran en cada una de las celdas. Debido a que las celdas
no están unidas, la adición o eliminación de un solo elemento de la base de datos puede afectar el
conteo en exactamente una celda, y la diferencia con esa celda está limitada por 1, por lo que las
consultas de histograma tienen una sensibilidad de 1 y se pueden responder agregando extracciones
independientes de Vuelta (1/ε) a la cuenta real en
cada celda
Para comprender la precisión del mecanismo de Laplace para consultas generales, utilizamos
el siguiente hecho útil:
Hecho 3.7. Si Y Vuelta(b), entonces:
Pr[|Y | ≥ t ∙ b] = exp(−t).
Este hecho, junto con un límite de unión, nos da un límite simple en la
precisión del mecanismo de Laplace:
Teorema 3.8. Sea f : N |X| δ k → R , y sea y = ML(x, f(∙), ε). Entonces

(0, 1]:
k ∆f
∙ ≤ d
Pr f(x) − y∞ ≥ ln
d ε
Prueba. Tenemos:
k ∆f k ∆f
∙ = Pr máx ∙
Pr f(x) − y∞ ≥ ln |Yi | ≥ en
d ε i [k] d ε
k ∆f
∙
≤ k ∙ Pr |Yi | ≥ en
d ε
d
= k ∙
k
= d
donde la penúltima desigualdad se sigue del hecho de que cada Yi Lap(∆f /ε)
y Fact 3.7.
Ejemplo 3.3 (Nombres). Supongamos que deseamos calcular qué nombres, de
una lista de 10.000 nombres potenciales, fueron los más comunes entre los
participantes del censo de 2010. Esta pregunta se puede representar como
una consulta f : N |X| → R 10000. Esta es una consulta de histograma, por lo
que tiene una sensibilidad ∆f = 1, ya que cada persona solo puede tener como
máximo un nombre. Usando el teorema anterior, vemos que podemos calcular
simultáneamente la frecuencia de todos los 10,000 nombres con (1, 0)
privacidad diferencial, y con una probabilidad del 95%, ninguna estimación se
equivocará por más de un error aditivo de ln (10000/.05) ≈ 12.2. ¡Ese es un error
bastante bajo para una nación de más de 300, 000, 000 personas!
Selección diferencialmente privada. La tarea del ejemplo 3.3 es una de selección
diferencialmente privada: el espacio de resultados es discreto y la tarea es
producir una "mejor" respuesta, en este caso la celda de histograma más
poblada.
Ejemplo 3.4 (Condición médica más común). Supongamos que deseamos saber qué
condición es (aproximadamente) la más común en las historias médicas de un
conjunto de encuestados, por lo que el conjunto de preguntas es, para cada condición
en consideración, si el individuo ha recibido alguna vez un diagnóstico de esta
condición. Dado que las personas pueden experimentar muchas condiciones, la
sensibilidad de este conjunto de preguntas puede ser alta.
No obstante, como describimos a continuación, esta tarea se puede abordar
agregando el ruido Lap(1/ε) a cada uno de los conteos (observe la pequeña escala
del ruido, que es independiente del número total de condiciones). Crucialmente, los
conteos ruidosos en sí mismos no serán liberados (aunque el conteo “ganador” puede
ser liberado sin costo adicional de privacidad).
Reportar Ruidoso Máx. Considere el siguiente algoritmo simple para determinar cuál
de las m consultas de conteo tiene el valor más alto: Agregue el ruido de Laplace
generado independientemente Lap(1/ε) a cada conteo y devuelva el índice del mayor
conteo ruidoso (ignoramos la posibilidad de un empate). ). Llame a este algoritmo
Informe Noisy Max.
Tenga en cuenta el principio de "minimización de la información" que funciona
en el algoritmo Report Noisy Max: en lugar de liberar todos los conteos ruidosos y
permitir que el analista encuentre el máximo y su índice, solo se hace público el
índice correspondiente al máximo. Dado que los datos de un individuo pueden afectar
a todos los conteos, el vector de conteos tiene una alta sensibilidad de 1,
específicamente, ∆f = m, y se necesitaría mucho más ruido si quisiéramos liberar
todos los conteos utilizando el mecanismo de Laplace.
Reclamación 3.9. El algoritmo Report Noisy Max es (ε, 0) diferencialmente privado.
Prueba. Fijar D = D {a}. Sea c, c respectivamente c , denote el vector de

cuenta cuando la base de datos es D, respectivamente D . Usamos dos propiedades:
1. Monotonicidad de las Cuentas. Para todo j [m], cj ≥ c j ; y 2.
Propiedad de Lipschitz. Para todo j [m], 1 + c ≥ cj .j
Fija cualquier i [m]. Limitaremos por arriba y por abajo la razón de
las probabilidades de que i se seleccione con D y con D . un sorteo
Fijar r−i , de [Lap(1/ε)]m−1 usado para todas las cuentas ruidosas excepto la i
ésima cuenta. Argumentaremos a favor de cada r−i de forma independiente. Nosotros
use la notación Pr[i|ξ] para referirse a la probabilidad de que la salida del algoritmo
Report Noisy Max sea i, condicionada a ξ.
Primero argumentamos que Pr[i|D, r−i ] ≤ e ε Pr[i|D , r−i ]. Definir
r = min : ci + ri > cj + rj j = i.
Rhode Island
Tenga en cuenta que, habiendo , seré la salida (el argmax ruidoso
fijado el conteo de r−i ) cuando la base de datos es D si y solo si ri ≥. r
Tenemos, para todo 1 ≤ j = i ≤ m:
ci + r > cj + rj >
(1 + c i ) + r ≥ ci + r cj + rj ≥ c + rj j + 1) > c
c i + (r + rj . j
Así, si ri ≥ r la + 1, entonces la iésima cuenta será la máxima cuando el
base de datos es D y el vector de ruido es (ri , r−i). Las probabilidades a continuación
están sobre la elección de ri Lap(1/ε).
Pr[ri ≥ 1 + r ] ≥ mi −ε Pr[ri ≥ r ] = e −ε Pr[i|D, r−i ]
Pr[i|D , r−i ] ≥ Pr[ri ≥ 1 + r ] ≥ mi −ε Pr[ri ≥ r ] = e −ε Pr[i|D, r−i ],
que, después de multiplicar por e Pr[i|D, r−i ] ε , produce lo que queríamos mostrar:
≤ e ε Pr[i|D , r−i ].
Ahora argumentamos que Pr[i|D , r−i ] ≤ e ε Pr[i|D, r−i ]. Definir
* r = min + ri > c : c yo j + rj j = yo.
Rhode Island
Tenga en cuenta que, habiendo , seré la salida (recuento ruidoso argmax)
fijado r−i cuando la base de datos es D si y solo si ri ≥ r .
Tenemos, para todo 1 ≤ j = i ≤ m:
yo + rc > c j + rj

1 + c yo + r > 1 + c j + rj
c i + (r + 1) > (1 + c j ) + rj
ci + ( r + 1) ≥ c i + (r + + 1) > (1 + c j ) + rj ≥ cj + rj .
≥ r contar) en la 1, entonces i será la salida (el argmax ruidoso Por lo tanto, si ri
base de datos D con aleatoriedad (ri , r−i). Por lo tanto, con probabilidades tomadas
sobre la elección de ri :
Pr[i|D, r−i ] ≥ Pr[ri ≥ r + 1] ≥ mi −ε Pr[ri ≥ r ] = mi −ε Pr[i|D , r−i ],

3.4. El mecanismo exponencial 37
ε
que, después de multiplicar por e Pr[i|D , r−i ] , produce lo que queríamos mostrar:
≤ e ε Pr[i|D, r−i ].
3.4 El mecanismo exponencial
Tanto en el examen de "nombre más común" como en el de "condición más común"
Para demostrar la “utilidad” de una respuesta (nombre o condición médica,
respectivamente), estimamos los conteos usando el ruido de Laplace e informamos
el ruido máximo. En ambos ejemplos la utilidad de la respuesta está directamente
relacionada con los valores de ruido generados; es decir, la popularidad del nombre
o condición se mide apropiadamente en la misma escala y en las mismas unidades
que la magnitud del ruido.
El mecanismo exponencial se diseñó para situaciones en las que deseamos
elegir la "mejor" respuesta, pero agregar ruido directamente a la cantidad calculada
puede destruir por completo su valor, como establecer un precio en una subasta,
donde el objetivo es maximizar los ingresos, y agregar una pequeña cantidad de
ruido positivo al precio óptimo (para proteger la privacidad de una oferta) podría
reducir drásticamente los ingresos resultantes.
Ejemplo 3.5 (Calabazas.). Supongamos que tenemos una oferta abundante de
calabazas y cuatro postores: A, F, I, K, donde A, F, I ofrecen cada uno $1,00 y K
ofrece $3,01. ¿Cuál es el precio óptimo? A $3,01 el ingreso es de $3,01, a $3,00 ya
$1,00 el ingreso es de $3,00, pero a $3,02 el ingreso es cero.
El mecanismo exponencial es el bloque de construcción natural para responder
consultas con utilidades arbitrarias (y un rango no numérico arbitrario), mientras se
preserva la privacidad diferencial. Dado algún rango arbitrario R, el mecanismo
exponencial se define con respecto a alguna función de utilidad u : N |X| × R → R,
que asigna pares de base de datos/salida a puntajes de utilidad. Intuitivamente, para
una base de datos fija x, el usuario prefiere que el mecanismo genere algún elemento
de R con la puntuación de utilidad máxima posible. Nótese que cuando hablamos de
la sensibilidad de la puntuación de utilidad u : N |X| × R → R, solo nos importa la
sensibilidad de u con respecto a su argumento de base de datos; puede ser
arbitrariamente sensible en su
argumento de rango:
∆u ≡ máx máx r R |u(x, r) − u(y, r)|.

x,y:x−y1≤1
La intuición detrás del mecanismo exponencial es dar salida a cada posible r R con
probabilidad proporcional a exp(εu(x, r)/∆u) y así la pérdida de privacidad es
aproximadamente:
exp(εu(x, r)/∆u)
en = ε[u(x, r) − u(y, r)]/∆u) ≤ ε.
exp(εu(y, r)/∆u)
Esta visión intuitiva pasa por alto algunos efectos de un término de normalización que
surge cuando una persona adicional en la base de datos hace que las utilidades de
algunos elementos r R disminuyan y otras aumenten. El mecanismo actual, definido a
continuación, reserva la mitad del presupuesto de privacidad para cambios en el plazo de
normalización.
Definición 3.4 (El mecanismo exponencial). El mecanismo exponencial ME(x, u, R)
selecciona y genera un elemento r R con una probabilidad εu(x,r) proporcional a exp( ).
2∆u
El mecanismo exponencial puede definir una distribución compleja sobre un gran
dominio arbitrario, por lo que puede que no sea posible implementar el mecanismo
exponencial de manera eficiente cuando el rango de u es súper polinomialmente grande
en los parámetros naturales del problema.
Volviendo al ejemplo de la calabaza, la utilidad de un precio p en la base de datos x
es simplemente la ganancia obtenida cuando el precio es p y la curva de demanda es la
descrita por x. Es importante que el rango de precios potenciales sea independiente de
las ofertas reales. De lo contrario, existiría un precio con peso distinto de cero en un
conjunto de datos y peso cero en un conjunto vecino, violando la privacidad diferencial.
Teorema 3.10. El mecanismo exponencial preserva (ε, 0) privacidad diferencial.
Prueba. Para mayor claridad, suponemos que el rango R del mecanismo exponencial es
finito, pero esto no es necesario. Como en todas las pruebas diferenciales de privacidad,
consideramos la relación de la probabilidad de que una instanciación
3.4. El mecanismo exponencial 39
del mecanismo exponencial genera algún elemento r R en dos bases de datos
vecinas x N |X| y y N |X| (es decir, x − y1 ≤ 1).
εu(x,r)
exp( ) 2∆u
εu(x,r)
Pr[ME(x, u, R) = r] r R exp( ) 2∆u
=
εu(y,r)
Pr[ME(y, u, R) = r] exp( ) 2∆u
εu(y,r) exp( )
r R 2∆u
εu(x,r) εu(y,r )
exp( ) 2∆u r R _ exp( ) 2∆u
= ∙
εu(y,r) εu(x,r)
exp( ) 2∆u exp( ) 2∆u
r R _
ε(u(x, r ) − u(y, r )) 2∆u
= exp
εu(y,r )
r R _ exp( ) 2∆u
∙
εu(x,r)
r R _ exp( ) 2∆u
εu(x,r )
ε ε r R _ exp( )2∆u
≤ experiencia ∙ Exp
∙
2 2 εu(x,r)
r R _ exp( ) 2∆u

= exp(ε).
Pr[ME(y,u)=r]
De manera sPr[ME(x,u)=r]
imilar, ≥ exp(−ε) por simetría.
El mecanismo exponencial a menudo puede brindar fuertes garantías de
utilidad, ya que descuenta los resultados exponencialmente rápido a medida que
disminuye su puntaje de calidad. Para una base de datos dada x y una medida de
utilidad dada u : N |X| × R → R, sea OPTu(x) = maxr R u(x, r) la puntuación de
utilidad máxima de cualquier elemento r R con respecto a la base de datos x.
Limitaremos la probabilidad de que el mecanismo exponencial devuelva un
elemento "bueno" de R, donde bueno se medirá en términos de OPTu(x). El
resultado es que será muy poco probable que el elemento devuelto r tenga una
puntuación de utilidad inferior a OPTu(x) en más de un factor aditivo de O((∆u/ε)
log |R|).
Teorema 3.11. Fijando una base de datos x, sea ROPT = {r R : u(x, r) =
OPTu(x)} denote el conjunto de elementos en R que alcanzan la puntuación de utilidad
OPTu(x). Entonces:
2∆u |R| −t
Pr u(ME(x, u, R)) ≤ OPTu(x) − en + t ≤ mi
ε |ROPT|
Prueba.
|R| exp(εc/2∆u)
Pr[u(ME(x, u, R)) ≤ c] ≤
|ROPT| exp(εOPTu(x)/2∆u) ε(c −
= |R| OPTu(x)) 2∆u
Exp .
|ROPT|
La desigualdad se deriva de la observación de que cada r R con u(x, r) ≤ c tiene
una masa de probabilidad no normalizada a lo sumo exp(εc/2∆u), y por lo tanto todo
el conjunto de tales elementos “malos” r tiene masa total de probabilidad no
normalizada como máximo |R| exp(εc/2∆u). En cambio, sabemos que existen al menos
|ROPT| ≥ 1 elementos con u(x, r) = OPTu(x) y, por lo tanto, masa de probabilidad no
normalizada exp(εOPTu(x)/2∆u), por lo que este es un límite inferior en la normalización
término.
El teorema se deriva de reemplazar el valor apropiado para c.
Como siempre tenemos |ROPT| ≥ 1, podemos hacer uso más comúnmente del
siguiente corolario simple:
Corolario 3.12. Arreglando una base de datos x, tenemos:
2∆u −t
Pr u(ME(x, u, R)) ≤ OPTu(x) − (ln (|R|) + t) ≤ e
ε
Como se ve en las demostraciones del Teorema 3.11 y el Corolario 3.12, la Expo
Mecanismo potencial puede ser particularmente fácil de analizar.
Ejemplo 3.6 (Al mejor de dos). Considere la simple pregunta de determinar cuál de
exactamente dos condiciones médicas A y B es más común.
Sean los dos conteos verdaderos 0 para la condición A y c > 0 para la condición B.
Nuestra noción de utilidad estará ligada a las cuentas reales, de modo que las
condiciones con cuentas más grandes tengan una utilidad más alta y ∆u = 1. Por lo
tanto, la utilidad de A es 0 y la utilidad de B es c. Usando el mecanismo exponencial
3.5. Teoremas de composición 41
podemos aplicar inmediatamente el Corolario 3.12 para ver que la probabilidad de
observar el resultado (erróneo) A es como mucho 2e −c(ε/(2∆u)) = 2e −cε/2 .
Analizar el informe Noisy Max parece ser más complicado, ya que requiere
comprender lo que sucede en el caso (probabilidad 1/4) cuando el ruido agregado a
la cuenta de A es positivo y el ruido agregado a la cuenta de B es negativo.
Una función es monótona en el conjunto de datos si la adición de un elemento
al conjunto de datos no puede hacer que el valor de la función disminuya.
Las consultas de conteo son monótonas; también lo es el ingreso obtenido al ofrecer
un precio fijo a una colección de compradores.
Considere el mecanismo Report OneSided Noisy ArgMax , que agrega ruido a
la utilidad de cada salida potencial extraída de la distribución exponencial unilateral
con parámetro ε/∆u en el caso de una utilidad monótona, o parámetro ε/2∆u para el
caso de una utilidad no monótona, y reporta el argmax resultante.
Con este algoritmo, cuya prueba de privacidad es casi idéntica a la de Report
Noisy Max (pero pierde un factor de dos cuando la utilidad no es monótona),
obtenemos inmediatamente en el Ejemplo 3.6 anterior que el resultado A está
exponencialmente en c( ε / ∆ u) = cε menos probable de ser seleccionado
que el resultado B.
Teorema 3.13. Reporte OneSided Noisy ArgMax, cuando se ejecuta con el parámetro
ε/2∆u es diferencialmente privado.
Observación 3.1. Informar máximo ruidoso cuando se instancia con ruido de Laplace
o ruido exponencial, ambos tienen garantías similares al mecanismo exponencial,
pero conducen a distribuciones distintas. Resulta que la instanciación de report noisy
max con la distribución de Gumbel conduce a un algoritmo que muestrea exactamente
de la distribución del mecanismo exponencial. Este hecho es folklore en el aprendizaje
automático y se conoce como el "truco de Gumbel Max".
3.5 Teoremas de composición
Ahora que tenemos varios bloques de construcción para diseñar algoritmos
diferencialmente privados, es importante entender cómo podemos combinar
para diseñar algoritmos más sofisticados. Para utilizar estas herramientas, nos
gustaría que la combinación de dos algoritmos diferencialmente privados fuera
diferencialmente privada en sí misma. De hecho, como veremos, este es el caso.
Por supuesto, los parámetros ε y δ necesariamente se degradarán; considere
calcular repetidamente la misma estadística utilizando el mecanismo de Laplace,
escalado para brindar privacidad diferencial ε cada vez. El promedio de la
respuesta dada por cada instancia del mecanismo eventualmente convergerá al
verdadero valor de la estadística, por lo que no podemos evitar que la fortaleza
de nuestra garantía de privacidad se degrade con el uso repetido.
En esta sección damos teoremas que muestran cómo se componen exactamente
los parámetros ε y δ cuando se combinan subrutinas diferencialmente privadas.
Comencemos primero con un calentamiento fácil: veremos que el uso
independiente de un algoritmo privado diferencialmente (ε1, 0) y un algoritmo
privado diferencialmente (ε2, 0), cuando se toman juntos, es (ε1 + ε2, 0)
diferencialmente privado.
Teorema 3.14. Sea M1 : N |X| → Sea R1 un algoritmo ε1diferencialmente
privado, y sea M2 : N |X| → R2 sea un algoritmo ε2diferencialmente privado.
Entonces su combinación, definida como M1,2 : N |X| → R1 × R2 por el mapeo:
M1,2(x) = (M1(x),M2(x)) es ε1+ε2diferencialmente privado.
Prueba. Sean x, y N |X| ser tal que x − y1 ≤ 1. Fija cualquier (r1, r2) R1 ×

R2. Entonces:
Pr[M1,2(x) = (r1, r2)] = Pr[M1(x) = r1] Pr[M2(x) = r2]
Pr[M1,2(y) = (r1, r2)] Pr[M1(y) = r1] Pr[M2(y) = r2]
= Pr[M1(x) = r1] Pr[M2(x) = r1]
Pr[M1(y) = r1] Pr[M2(y) = r1] ≤
exp(ε1) exp(ε2) =
exp(ε1 + ε2)
Pr[M1,2(x)=(r1,r2)]
Por simetría, ≥ exp(−(ε1
+ ε2)).
Pr[M1,2(y)=(r1,r2)]
El teorema de la composición se puede aplicar repetidamente para obtener
el siguiente corolario:
Corolario 3.15. Sea Mi : N |X| → Ri sea un algoritmo (εi , 0)diferencialmente privado
→M[k] (x) = (M1(x), . . . ,Mk(x)),
para i [k]. Entonces si M[k] : N |X| Ri se define como k
luego M[k] es (private. i=1 k , 0)diferencialmente i=1 εi
Una prueba de la generalización de este teorema a (ε, δ)diferencial
privacidad aparece en el Apéndice B:
Teorema 3.16. Sea Mi : N |X| → Ri sea un (εi , δi)diferencialmente privado
algoritmo para i [k]. Entonces si M[k] : N |X| sea M[k] → k i = 1Ri se define como
(x) = (M1(x), . . . ,Mk(x)), entonces M[k] es (diferencialmente k i=1 εi , k i = 1δi)
privado.
Es una fortaleza de la privacidad diferencial que la composición sea “automática”,
en el sentido de que los límites obtenidos se mantienen sin ningún esfuerzo especial
por parte del curador de la base de datos.
3.5.1 Composición: algunos tecnicismos
En el resto de esta sección, demostraremos un teorema de composición más sofisticado.
Para ello, necesitaremos algunas definiciones y lemas, reformulando la privacidad
diferencial en términos de medidas de distancia entre distribuciones. En las cantidades
fraccionarias siguientes, si el denominador es cero, entonces definimos que el valor de
la fracción es infinito (los numeradores siempre serán positivos).
Definición 3.5 (KLDivergencia). La divergencia KL, o entropía relativa, entre dos
variables aleatorias Y y Z que toman valores del mismo dominio se define como:
Pr[Y = y]
D(Y Z) = Ey Y ln .
Pr[Z = y]
Se sabe que D(Y Z) ≥ 0, con igualdad si y sólo si Y y Z están idénticamente
distribuidas. Sin embargo, D no es simétrico, no satisface la desigualdad triangular e
incluso puede ser infinito, específicamente cuando Supp(Y ) no está contenido en
Supp(Z).
Definición 3.6 (Divergencia máxima). La máxima divergencia entre dos variables
aleatorias Y y Z que toman valores del mismo dominio es
definido como:
D∞(Y Z) = máx. ln Pr[Y S] .

S Soporte(Y ) Pr[Z S]
La divergencia máxima aproximada δ entre Y y Z se define como:
en
Pr[Y S] − δ
Dδ ∞(Y Z) = máximo
S Soporte(Y ):Pr[Y S]≥δ Pr[Z S]
Observación 3.2. Tenga en cuenta que un mecanismo M es
1. εdiferencialmente privada si y solo si en cada dos bases de datos
vecinas x e y, D∞(M(x)M(y)) ≤ ε y D∞(M(y)M(x)) ≤ ε; y es 2. (ε, δ)
diferencialmente privado si y
solo si cada dos vecinos Dδ ∞(M(x)M(y)) ≤ ε y Dδ ∞(M(y) perforando
bases de datos x, y: M( x)) ≤ ε.
Otra medida de distancia que será útil es la estadística
distancia entre dos variables aleatorias Y y Z, definida como
def
∆(Y, Z) = máx. |Pr[Y S] − Pr[Z S]|.
S
Decimos que Y y Z son δcercanos si ∆(Y, Z) ≤ δ.
Usaremos las siguientes reformulaciones de máxima divergencia
aproximada en términos de máxima divergencia exacta y distancia estadística:
Lema 3.17.
1. Dδ ∞(Y Z) ≤ ε si y solo si existe una variable aleatoria Y
tal que ∆(Y, Y ) ≤ δ y D∞(Y Z) ≤ ε.
2. Tenemos tanto Dδ ∞(Y Z) ≤ ε como Dδ ∞(ZY ) ≤ ε si y solo si existen
variables aleatorias Y , Z tales que ∆(Y, Y ) ≤ δ/(e ε 1), +
∆(Z, Z ) ≤ δ/(e ε + 1), y D∞(Y Z ) ≤ ε.
Prueba. Para la Parte 1, suponga que existe Y δcerca de Y tal que D∞(Y Z)
≤ ε. Entonces para cada S,
ε
Pr[Y S] ≤ Pr[Y S] + δ ≤ e ∙ Pr[Z S] + δ,
y por tanto Dδ ∞(Y Z) ≤ ε.
Por el contrario, suponga que Dδ ∞(Y Z) ≤ ε. Sea S = {y : Pr[Y = y] > ∙ Pr[Z = y]}.
mi e
Entonces
ε ε
(Pr[Y = y] − e ∙ Pr[Z = y]) = Pr[Y S] − e ∙ Pr[Z S] ≤ δ.
y S
Además, si hacemos T = {y : Pr[Y = y] < Pr[Z = y]}, entonces tenemos
(Pr[Z = y] − Pr[Y = y]) = (Pr[Y = y] − Pr[Z = y]) y / T
y T
≥ (Pr[Y = y] − Pr[Z = y])
y S
ε
≥ (Pr[Y = y] − e ∙ Pr[Z = y])/
y S
Por lo tanto, podemos obtener Y de Y reduciendo las probabilidades de S y elevando
las probabilidades de T para satisfacer:
ε
1. Para todo y S, Pr[Y = y] = e 2. ∙ Pr[Z = y] < Pr[Y = y].
Para todo y T, Pr[Y = y] ≤ Pr[Y = y] ≤ Pr[Z = y].
ε
3. Para todo y / S T, Pr[Y = y] = Pr[Y = y] ≤ e ∙ Pr[Z = y].
Entonces D∞(Y Z) ≤ ε por inspección, y
ε
∆(Y, Y ) = Pr[Y S] − Pr[Y S] = Pr[Y S] − e ∙ Pr[Z S] ≤ δ.
Ahora demostramos la Parte 2. Supongamos que existen variables aleatorias Y y
Z como se indica. Entonces, para todo conjunto S,
d
Pr[Y S] ≤ Pr[Y S] +
mi e + 1
ε
δ
≤ mi ∙ Pr[Z S] +
mi e + 1
ε
δ d
≤ mi ∙ Pr[Z S] + +
mi e + 1 mi e + 1
ε = mi ∙ Pr[Z S] + δ.
Así Dδ ∞(Y Z) ≤ ε, y por simetría, Dδ ∞(ZY ) ≤ ε.
Por el contrario, dados Y y Z tales que Dδ ∞(Y Z) ≤ ε y Dδ ∞(ZY ) ≤ ε, procedemos
de manera similar a la Parte 1. Sin embargo, en lugar de simplemente disminuir la masa
de probabilidad de Y en S para obtener Y y
ε
eliminar la brecha con e Z en ∙ Z, también aumentamos la masa de probabilidad de
S. Específicamente, para cada y S, tomaremos
ε
Pr[Y = y] = e ∙ Pr[Z = y]
mi e
= ∙ (Pr[Y = y] + Pr[Z = y])
1 + miε
[e ε ∙ Pr[Z = y],Pr[Y = y]].
Esto también implica que para y S, tenemos:
Pr[Y = y] − Pr[Y = y]
ε
Pr[Y = y] − e ∙ Pr[Z = y]
= Pr[Z = y] − Pr[Z = y] + 1 ,
mi e
y por lo tanto
α =
definitivamente
Pr[Y = y] − Pr[Y = y]
y S
= Pr[Z = y] − Pr[Z = y]
y S
ε
= Pr[Y S] − mi + ∙ Pr[Z S]
mi e 1
d
≤ .
mi e + 1
De manera similar, en el conjunto S = {y : Pr[Z = y] > eε ∙ Pr[Y = y]}, podemos disminuir la
masa de probabilidad de Z y aumentar la masa de probabilidad de Y en un total de algunos
α ≤ δ/ (e ε + 1) de modo que para todo y S tenemos Pr[Z = y] = e , nosotros
ε
∙ Pr[Y = y].
Si α = α , entonces podemos tomar Pr[Z = y] = Pr[Z = y] y Pr[Y = y] = Pr[Y = y]
para todo y / S S , dando D∞(Y Z) ≤ ε y ∆(Y, Y ) = ∆(Z, Z ) = α. Si α = α entonces
necesitamos , digamos α > α aún aumentar la masa masa de Z por ,de Y y disminuir la
de probabilidad
un total de β = α − α en puntos fuera de S S para asegurar que las probabilidades
suman a 1. Es decir, si tratamos de tomar las "funciones de masa" Pr[Y = y] y Pr[Z = y]
como se definen arriba, entonces, aunque tenemos la propiedad de que para cada y, Pr[Y
= y ] ≤ e ∙ Pr[Z = y] y Pr[Z = y] ≤ e Pr[Y = y] = 1 − β
ε
ε
∙ Pr[Y = y] también tenemos y
{y : y Pr[Z = y] = 1 + β. Sin embargo, esto significa que si hacemos y R =
Pr[Y = y] < Pr[Z = y]}, entonces
Pr[Z = y] − Pr[Y = y] ≥ Pr[Z = y] − Pr[Y = y] = 2β.
año R y
Entonces podemos aumentar la masa de probabilidad de Y en los puntos de R
en un total de β y disminuir la masa de probabilidad de Z en los puntos de R en
un total de β, conservando la propiedad de que para todo y R, Pr[Y = y] ≤ Pr[Z = y].
Los Y y Z resultantes tienen las propiedades que queremos: D∞(Y , Z ) ≤ ε y
∆(Y, Y ), ∆(Z, Z ) ≤ α.
Lema 3.18. Suponga que las variables aleatorias Y y Z satisfacen D∞(Y Z) ≤ ε
y D∞(ZY ) ≤ ε. Entonces D(Y Z) ≤ ε ∙ (e ε − 1).
Prueba. Sabemos que para cualquier Y y Z se da el caso de que D(Y Z) ≥ 0 (a
través de la “desigualdad de suma logarítmica”), por lo que basta con acotar D(Y
Z) + D(ZY ). Obtenemos:
D(Y Z) ≤ D(Y Z) + D(ZY )
= Pr[Y = y] Pr[Z = y]
Pr[Y = y] ∙ ln + ln
y Pr[Z = y] Pr[Y = y]
Pr[Z = y]
+ (Pr[Z = y] − Pr[Y = y]) ∙ ln
Pr[Y = y]
≤ [0 + |Pr[Z = y] − Pr[Y = y]| ∙ ε]
y
= ε ∙ [máx{Pr[Y = y],Pr[Z = y]}
y
− min{Pr[Y = y],Pr[Z = y]}]
≤ ε ∙ [(e ε − 1) ∙ min{Pr[Y = y],Pr[Z = y]}]
y
≤ ε ∙ (e ε − 1).
Lema 3.19 (Desigualdad de Azuma). Sea C1, . . . , Ck sean variables aleatorias
de valor real tales que para cada i [k], Pr[|Ci | ≤ α] = 1, y para
cada (c1, . . . , ci−1) Supp(C1, . . . , Ci−1), tenemos
E[Ci |C1 = c1, . . . , Ci−1 = ci−1] ≤ β.
Entonces para todo z > 0, tenemos
k
PR −z 2/2 .
Ci > kβ + z √ k ∙ α ≤ e
yo=1
3.5.2 Composición avanzada
Además de permitir que los parámetros se degraden más lentamente, nos gustaría que
nuestro teorema pudiera manejar formas de composición más complicadas. Sin embargo,
antes de comenzar, debemos discutir qué entendemos exactamente por composición.
Nos gustaría que nuestras definiciones cubrieran los siguientes dos escenarios
interesantes:
1. Uso repetido de algoritmos diferencialmente privados en la misma base de datos.
Esto permite tanto el uso repetido del mismo mecanismo varias veces como la
construcción modular de algoritmos privados diferenciales a partir de bloques de
construcción privados arbitrarios.
2. Uso repetido de algoritmos diferencialmente privados en diferentes bases de datos
que, sin embargo, pueden contener información relacionada con el mismo
individuo. Esto nos permite razonar sobre la pérdida acumulativa de privacidad
de un solo individuo cuyos datos pueden distribuirse en múltiples conjuntos de
datos, cada uno de los cuales puede usarse de manera independiente de
manera privada diferencial. Dado que se crean nuevas bases de datos todo el
tiempo, y el adversario puede influir en la composición de estas nuevas bases de
datos, este es un problema fundamentalmente diferente que consultar
repetidamente una única base de datos fija.
Queremos modelar la composición en la que el adversario pueda afectar de manera
adaptativa las bases de datos que se ingresan a los mecanismos futuros, así como las
consultas a esos mecanismos. Sea F una familia de mecanismos de acceso a bases de
datos. (Por ejemplo, F podría ser el conjunto de todos los mecanismos εdiferencialmente
privados). Para un adversario probabilístico A, consideramos dos experimentos, el
Experimento 0 y el Experimento 1, definidos de la siguiente manera.
Experimento b para la familia F y el adversario A:
Para i = 1, . . . , k:
1. A genera dos bases de datos adyacentes x Mi i0 1 y x i , un mecanismo

F y parámetros wi .
2. A recibe yi R Mi(wi , xi,b).
Permitimos que el adversario A anterior tenga estado durante todo el experimento y,
por lo tanto, puede elegir las bases de datos, los mecanismos y los parámetros de
forma adaptativa según los resultados de los mecanismos anteriores. Definimos la
vista de A del experimento como los lanzamientos de moneda de A y todas las salidas
j
i 's, mi 's y wi 's
del mecanismo (y1, . . . , yk). (Todas las x se pueden reconstruir
a partir de estas).
Por intuición, considere un adversario que siempre elige x 0 sostener
i
Los datos de Bob y x i 1 para diferir solo en que los datos de Bob se eliminan. Luego,
el experimento 0 se puede considerar como el "mundo real", donde Bob permite que
sus datos se usen en muchas publicaciones de datos, y el Experimento 1 como un
"mundo ideal", donde los resultados de estas publicaciones de datos no dependen de
los datos de Bob. . Nuestras definiciones de privacidad aún requieren que estos dos
experimentos sean “cercanos” entre sí, de la misma manera que lo requieren las
definiciones de privacidad diferencial. La garantía intuitiva para Bob es que el
adversario “no puede saber”, dada la salida de todos los mecanismos k , si alguna vez
se usaron los datos de Bob.
Definición 3.7. Decimos que la familia F de mecanismos de acceso a la base de datos
satisface la privacidad diferencial ε bajo una composición adaptativa de k veces si para
b denota
cada adversario A, tenemos D∞(V 0V 1 ) ≤ ε donde V es la vista de A en
una composición de k veces Experimento b anterior.
(ε, δ) privacidad diferencial bajo composición adaptativa kfold en su lugar
requiere que Dδ ∞(V 0V 1 ) ≤ ε.
Teorema 3.20 (Composición avanzada). Para todo ε, δ, δ ≥ 0, la clase de (ε, δ)
mecanismos diferencialmente privados satisface (ε, kδ + δ )privacidad diferencial bajo
composición adaptativa kfold para:
ε = 2k ln(1/δ)ε + kε(e ε − 1).
Prueba. Una vista del adversario A consiste en una tupla de la forma v = (r, y1, . . . ,
yk), donde r son los lanzamientos de moneda de A e y1, . . . , yk son las salidas de
los mecanismos M1, . . . , mk. Dejar
0 1
B = {v : Pr[V = v] > eε ∙ Pr[V = v]}.
0
Mostraremos que Pr[V B] ≤ δ, y por lo tanto para todo conjunto S, tenemos
0 0 0 ε 1
Pr[V S] ≤ Pr[V B] + Pr[V (S \ B)] ≤ δ + mi ∙ Pr[V S ].
Esto es equivalente a decir que Dδ ∞(V 0V 1 ) ≤ ε .
0 0
Resta mostrar Pr[V (R0 , (R1 , B] ≤ δ. Sea la variable aleatoria V =
0 0 Y Y 1
v = 1 , . . . ,
k 1 1 k
Y Y 1 , . . . , ) denotan la vista de A en el Experimento 0 y V =
(r, ) la vista de A en el Experimento 1. Luego, para una vista fija
y1, . . . , yk), tenemos
0
Pr[V = v]
en 1
Pr[V = v]
k 0 0 0 Y = y1, . . . ,
Pr[R0 = r] ∙ Palancayo = yi |R0 = r, Y = 1 i−1 1 = yi−1]
= en 1
Pr[R1 = r] yo=1 Palancai yi |R1 = r, Y 1 1 = y1, . . . , Y i−1 = yi−1]
k 0 0 0
Palanca = yi |R0 = r, Y Y
1 Y = yi−1]
= y1, . . . , i−1
= en yo 1 1 1
yo=1 Palancai = yi |R1 = r, Y 1 y1, . . . , i−1 = = yi−1]
k
definitivamente
= ci(r, y1, . . . , yi).
yo=1
0
Ahora para cada prefijo (r, y1, . . . , yi−1) condicionamos a R0 = r, Y 1 =
0
Y y1, . . . , i−1 = yi−1, y analice la esperanza y el máximo ) = ci(r, y1, . . ., y
0
Y yo
posible valor de la variable aleatoria ci(R0 , 0 1 , . . . ,
0 0
yi−1, Y i ). Una vez que se fija el prefijo, el siguiente par de bases de datos x i
1
x yo , el mecanismo Mi , y el parmetro wi de salida por A tambin se determinan
0
minado (tanto en el Experimento 0 como en el 1). Así, i se distribuye segn
Y
x0 a Mi(wi , ).
Ai demás para cualquier valor yi , tenemos
Pr[Mi(wi , ) = yi ] ix0
ci(r, y1, . . . , yi−1, yi) = ln .
Pr[Mi(wi , ) = x1
yi ]
i
Por privacidad diferencial ε, esto está acotado por ε. También podemos razonar de la siguiente
manera:
|ci(r, y1, . . . , yi−1, yi)|
x0 x1 ≤ i x1 x0
máx{D∞(Mi(wi , )Mi(wi , )), i
D∞(Mi(wi , )Mi(wi , ))}
i i
= ε.
Por el Lema 3.18, tenemos:
0 0 0 Y Y 0 0
E[ci(R , 1 , . . . , yo )|R = r, Y 1 Y = y1, . . . , i0
−1 = yi−1]
x0 x1
≤ =ε (e ε − 1).i
D(Mi(wi , )Mi(wi , ))
i
Así podemos aplicar la Desigualdad de Azuma a las variables aleatorias Ci =
0 0
ci(R0 , Y Y 1 , . . . ,i ) con α = ε, β = ε∙ε0 y z = 2 ln(1/δ), para deducir
eso
0
Pr[V B] = Pr Ci > ε < e−z 2/2 = δ,
i
como se desee.
Para extender la prueba a la composición de (ε, δ)mecanismos
diferencialmente privados, para δ > 0, usamos la caracterización de máxima
divergencia aproximada del Lema 3.17 (Parte 2) para reducir el análisis a la
misma situación que en el caso de (ε, 0)secuencias indistinguibles.
Específicamente, usando el Lema 3.17, Parte 2 para cada uno de los mecanismos
diferencialmente privados seleccionados por el adversario A y la desigualdad
triangular para la distancia estadística, se sigue que 0V es kδcerca de una
variable aleatoria W = (R, Z1, . . . , Zk) tal que para todo prefijo r, y1, . . . , yi−1,
1
si condicionamos a R = R1 = r, Z1 = Y 1 Zi−1 = Y = yi−1,
1 = y1, . . . , i−1
1 1
entonces se cumple que D∞(ZiY
i ) ≤ ε y D∞(Y i Zi) ≤ ε.
1 0 es kδcerca de
Esto es suficiente para mostrar que Dδ ) ≤ ε . Desde V
∞(WV W, Lema 3.17, Parte 1 da Dδ +kδ(V 0W) ≤ ε .
Un corolario inmediato y útil nos dice una elección segura de ε para cada
uno de los k mecanismos si deseamos asegurar (ε , kδ + δ )privacidad diferencial
para un ε dado , δ _
Corolario 3.21. Dados los parámetros de privacidad objetivo 0 < ε < 1 y δ > 0, para
asegurar (ε , kδ + δ ) la pérdida de privacidad acumulativa sobre k mecanismos, basta
con que cada mecanismo sea (ε, δ) diferencialmente privado, donde
ε
ε = .
2 2k ln(1/δ)
Prueba. El teorema 3.20 nos dice que la composición será (ε = 2k ln(1/ , kδ + δ ) para

, δ) ∙ ε + kε2 . Cuando ε < 1, tenemos que todo δ donde ε
ε ≤ ε como se desee.
Tenga en cuenta que el corolario anterior brinda una guía aproximada sobre cómo
configurar ε para obtener los parámetros de privacidad deseados en la composición.
Cuando uno se preocupa por optimizar las constantes (lo que se hace cuando se trata de
implementaciones reales), ε se puede establecer de manera más estricta apelando
directamente al teorema de composición.
Ejemplo 3.7. Supongamos que, a lo largo de su vida, Bob es miembro de k = 10 000 (ε0,
0) bases de datos privadas diferencialmente. Suponiendo que no hay coordinación entre
estas bases de datos (el administrador de cualquier base de datos puede ni siquiera ser
consciente de la existencia de las otras bases de datos), ¿cuál debería ser el valor de ε0
para que, en el transcurso de su vida, la pérdida de privacidad acumulada de Bob esté
limitada por ε = 1 con probabilidad de al menos 1 − e −32? El teorema 3.20 dice que,
−32
tomando δ = e basta con tener ε0 ≤ 1/801. Esto resulta ser esencialmente óptimo
contra un adversario arbitrario, suponiendo que no haya coordinación entre distintas
bases de datos diferencialmente privadas.
Entonces, ¿cuántas consultas podemos responder con una precisión no trivial? En
una base de datos de tamaño n , digamos que la precisión no es trivial si el error es de
orden o(n). El teorema 3.20 dice que para valores fijos de ε y δ, contar consultas con
es posible responder cerca de n precisión. 2 valores no triviales
De manera similar, uno puede responder cerca de n consultas mientras aún tiene ruido o
( √ n), es decir, ruido menor que el error de muestreo. Veremos que es posible mejorar
dramáticamente estos resultados, manejando, en algunos casos, incluso un número
exponencial de consultas con ruido ligeramente mayor que √ n, coordinando el ruido
agregado a las respuestas individuales. Resulta que tal coordinación es esencial: sin
coordinación, el límite en el teorema de composición avanzado es casi estrecho.
3.5.3 Laplace frente a Gauss
Una alternativa a agregar ruido laplaciano es agregar ruido gaussiano. En este
caso, en lugar de escalar el ruido a la sensibilidad 1 ∆f, escalamos a la
sensibilidad 2 :
Definición 3.8 (2sensibilidad). La 2sensibilidad de una función f : N |X| k → R
es:
∆2(f) = máx f(x) − f(y)2.
x,y N|
X | x−y1=1
El mecanismo gaussiano con parámetro b añade ruido gaussiano de media
cero con varianza b en cada una de las coordenadas k . El siguiente teorema se
demuestra en el Apéndice A.
2
Teorema 3.22. Sea ε (0, 1) arbitrario. Para c > 2 ln(1.25/δ),
el mecanismo
gaussiano con parámetro σ ≥ c∆2(f)/ε es (ε, δ) diferencialmente privado.
Entre las ventajas del ruido gaussiano está que el ruido agregado para la
privacidad es del mismo tipo que otras fuentes de ruido; además, la suma de
dos gaussianas es una gaussiana, por lo que los efectos del mecanismo de
privacidad en el análisis estadístico pueden ser más fáciles de comprender y corregir.
Los dos mecanismos producen la misma pérdida acumulativa bajo
composición, por lo que aunque la garantía de privacidad es más débil para
cada cálculo individual, los efectos acumulativos sobre muchos cálculos son
comparables. Además, si δ es lo suficientemente pequeño (p. ej.,
subpolinomialmente), en la práctica nunca experimentaremos la debilidad de la garantía.
Dicho esto, existe una desventaja teórica en el ruido gaussiano, en relación
con lo que experimentamos con el ruido de Laplace. Considere Report Noisy
Max (con ruido de Laplace) en un caso en el que cada salida candidata tiene el
mismo puntaje de calidad en la base de datos x que en su vecino y.
Independientemente del número de salidas candidatas, el mecanismo produce
privacidad diferencial (ε, 0). Si, en cambio, usamos ruido gaussiano e informamos
el máximo, y si el número de candidatos es grande en comparación con 1/δ,
entonces seleccionaremos exactamente para los eventos con gran ruido gaussiano, ruido
que ocurre con una probabilidad menor que δ. Cuando estamos tan lejos en la cola de la
Gaussiana, ya no tenemos garantía de que la observación ±ε esté dentro de un e
factor tan probable que ocurra en x como en y.
3.5.4 Observaciones sobre la composición
La capacidad de analizar la pérdida de privacidad acumulada bajo composición nos da
una idea de lo que puede ofrecer un mundo de bases de datos privadas diferencialmente.
Algunas observaciones están en orden.
0
Cuantificación débil. Suponga que el adversario siempre elige x
i
para contener los datos de Bob,
i 1 para ser la misma base de datos pero con los datos de Bob
y x eliminado. El teorema 3.20, con la elección adecuada de parámetros, nos dice que un
adversario, incluido uno que conoce o incluso selecciona (!) los pares de bases de datos,
tiene poca ventaja para determinar el valor de b {0, 1}. Esta es una cuantificación
inherentemente débil. Podemos asegurar que es poco probable que el adversario distinga
la realidad de cualquier alternativa dada, pero no podemos asegurar esto simultáneamente
para todas las alternativas. Si hay un trillón de bases de datos pero Bob es miembro de
sólo 10.000 de ellas, entonces no estamos protegiendo simultáneamente la ausencia de
Bob de todos los trillones menos diez mil. Esto es análogo a la cuantificación en la
definición de privacidad diferencial (ε, δ), donde arreglamos de antemano un par de bases
de datos adyacentes y argumentamos que con alta probabilidad el resultado será casi
igualmente probable con estas dos bases de datos.
Humanos y Fantasmas. Intuitivamente, una base de datos privada diferencialmente (, 0)
con una pequeña cantidad de bits por registro es menos protectora que una base de
datos privada diferencialmente con la misma opción que contiene nuestros historiales
médicos completos . Entonces, ¿en qué sentido nuestra principal medida de privacidad
nos dice lo mismo acerca de las bases de datos que difieren radicalmente en la
complejidad y sensibilidad de los datos que almacenan?
La respuesta está en los teoremas de composición. Imagina un mundo habitado por dos
tipos de seres: fantasmas y humanos. Ambos tipos de seres se comportan igual,
interactúan con los demás de la misma manera, escriben, estudian, trabajan, ríen, aman,
lloran, se reproducen, enferman, se recuperan y envejecen de la misma manera. La única
diferencia es que los fantasmas no tienen registros en
3.6. La técnica del vector disperso 55
bases de datos, mientras que los humanos lo hacen. El objetivo del adversario de
la privacidad es determinar si un individuo de 50 años, el "objetivo", es un fantasma
o un ser humano. De hecho, el adversario tiene 50 años para hacerlo. El adversario
no necesita permanecer pasivo, por ejemplo, puede organizar ensayos clínicos e
inscribir a los pacientes de su elección, puede crear humanos para poblar las bases
de datos, creando efectivamente las bases de datos del peor de los casos (por
privacidad), puede exponer al objetivo a los productos químicos a los 25 años y de
nuevo a los 35, y así sucesivamente. Ella puede saber todo sobre el objetivo que
posiblemente podría ingresarse en cualquier base de datos. Puede saber en qué
bases de datos estaría el objetivo, si el objetivo fuera humano. Los teoremas de
composición nos dicen que las garantías de privacidad de cada base de datos,
independientemente del tipo de datos, la complejidad y la sensibilidad, brindan una
protección comparable para el bit humano/fantasma.
3.6 La técnica del vector disperso
El mecanismo de Laplace se puede utilizar para responder consultas de baja
sensibilidad elegidas de forma adaptativa, y sabemos por nuestros teoremas de
composición que el parámetro de privacidad se degrada proporcionalmente al
número de consultas respondidas (o su raíz cuadrada). Desafortunadamente, a
menudo sucederá que tenemos un gran número de preguntas para responder,
demasiadas para generar una garantía de privacidad razonable utilizando técnicas
de perturbación independientes, incluso con los teoremas de composición avanzados de la Sección 3.5.
Sin embargo, en algunas situaciones, solo nos importará conocer la identidad de
las consultas que se encuentran por encima de un cierto umbral. En este caso,
podemos esperar superar el análisis ingenuo descartando la respuesta numérica a
las consultas que se encuentran significativamente por debajo del umbral y
simplemente informando que, de hecho, se encuentran por debajo del umbral.
(También podremos obtener los valores numéricos de las consultas por encima
del umbral, con un pequeño costo adicional, si así lo deseamos). Esto es similar a
lo que hicimos en el mecanismo Report Noisy Max en la sección 3.3 y, de hecho,
iterar ese algoritmo o el mecanismo exponencial sería una opción para el caso no
interactivo o fuera de línea.
En esta sección, mostramos cómo analizar un método para esto en la
configuración en línea. La técnica es simple: agregue ruido e informe solo
si el valor ruidoso excede el umbral, y nuestro énfasis está en el análisis, que muestra
que la privacidad se degrada solo con la cantidad de consultas que realmente
superan el umbral, en lugar de con la cantidad total de consultas. Esto puede suponer
un gran ahorro si sabemos que el conjunto de consultas que se encuentran por
encima del umbral es mucho menor que el número total de consultas, es decir, si el
vector de respuesta es escaso .
Con un poco más de detalle, consideraremos una secuencia de eventos (uno
para cada consulta) que ocurren si una consulta evaluada en la base de datos supera
un umbral determinado (conocido, público). Nuestro objetivo será liberar un vector de
bits que indique, para cada evento, si se ha producido o no. A medida que se presenta
cada consulta, el mecanismo calculará una respuesta ruidosa, la comparará con el
umbral (conocido públicamente) y, si se supera el umbral, revelará este hecho. Por
razones técnicas en la prueba de privacidad (Teorema 3.24), el algoritmo trabaja con
una versión ruidosa Tˆ del umbral T. Mientras T es pública la versión ruidosa Tˆ no lo
es.
En lugar de incurrir en una pérdida de privacidad para cada consulta posible , el
análisis a continuación generará un costo de privacidad solo para los valores de
consulta que están cerca o por encima del umbral.
El ajuste. Sea m el número total de consultas de sensibilidad 1, que se pueden elegir
de forma adaptativa. Sin pérdida de generalidad, existe un único umbral T fijado de
antemano (alternativamente, cada consulta puede tener su propio umbral, pero los
resultados no se modifican). Agregaremos ruido a los valores de consulta y
compararemos los resultados con T. Un resultado positivo significa que un valor de
consulta ruidoso supera el umbral. Esperamos que un pequeño número c de valores
ruidosos exceda el umbral, y estamos liberando solo los valores ruidosos por encima
del umbral. El algoritmo utilizará c en su condición de parada.
Primero analizaremos el caso en el que el algoritmo se detiene después de c = 1
consulta por encima del umbral, y mostraremos que este algoritmo es diferencialmente
privado sin importar cuán larga sea la secuencia total de consultas. Luego
analizaremos el caso de c > 1 utilizando nuestros teoremas de composición y
derivaremos límites tanto para (, 0) como para (, δ)privacidad diferencial.
Primero argumentamos que AboveThreshold, el algoritmo especializado para
el caso de una sola consulta por encima del umbral, es privada y precisa.
La entrada del algoritmo 1 es una base de datos privada D, un flujo elegido
adaptativamente de consultas de sensibilidad 1 f1, . . ., y un umbral T. La salida
es un flujo de respuestas a1, . . .
Por encima del umbral (D, {fi}, T, )
Sea Tˆ = T + Lap
2
.
para cada consulta que
4
hago Sea νi = )
Lap( si fi(D) + νi ≥ Tˆ
entonces Salida .
ai = Halt.
demás
Salida ai = .
terminara si
fin para
Teorema 3.23. AboveThreshold es (, 0) diferencialmente privado.
Prueba. Arregle dos bases de datos vecinas D y D . Sea A la variable aleatoria
que representa la salida de AboveThresh old(D, {fi}, T, ) y sea A la variable
aleatoria que representa la salida de AboveThreshold(D , {fi}, T, ). La salida del
algoritmo es alguna realización de estas variables aleatorias, a {, }k y tiene
la forma que para todo i < k, ai = y ak = . Hay dos tipos de variables aleatorias
internas en el algoritmo: el umbral ruidoso Tˆ y las perturbaciones de cada una
de las k consultas, {νi} después del análisis, fijaremos los valores (arbitrarios)
de ν1, . . . , νk−1 y toma probabilidades sobre la aleatoriedad de νk yo=1. Para el
k
y Tˆ. Defina la siguiente cantidad que representa el valor ruidoso máximo de
cualquier consulta f1, . . . , fk−1 evaluado en D:
g(D) = máx (fi(D) + νi)
yo<k
A continuación, abusaremos de la notación y escribiremos Pr[Tˆ = t] como forma abreviada de la
función de densidad de probabilidad de Tˆ evaluada en t (de manera similar para νk), y escribiremos
1[x] para denotar la función indicadora del evento x. Tenga en cuenta que la fijación de los valores
de ν1, . . . ,νk−1 (lo que hace de g(D) una cantidad determinista), tenemos:
ˆPR [A = a] = Pr ˆ ˆ > g (D) y fk(D) + νk ≥ Tˆ]

[T
T, νk T, νk
= PˆR [Tˆ (g(D), fk(D) + νk]]
T, νk
∞ ∞
= Pr[νk = v]
−∞ −∞
∙Pr[Tˆ = t]1[t (g(D), fk(D) + v]]dvdt
.=
Hacemos ahora un cambio de variables. Definir:
vˆ = v + g(D) − g(D ) + fk(D ) − fk(D)
tˆ= t + g(D) − g(D ) , |
cuenta que para cualquier D, vˆ − v| ≤ 2 y |tˆ− t| ≤ 1. Esto sigue y tenga en
D porque cada consulta fi(D) es sensible a 1 y, por lo tanto, la cantidad g(D)
también es sensible a 1. Aplicando este cambio de variables, tenemos:
∞ ∞
= Pr[νk = ̂v] ∙ Pr[Tˆ = tˆ]1[(t + g(D) − g(D ))
−∞ −∞
(g(D), fk(D ) + v + g(D) − g(D )]]dvdt
∞ ∞
= Pr[νk = ̂v] ∙ Pr[Tˆ = tˆ]1[(t (g(D ), fk(D ) + v]]dvdt
−∞ −∞
∞ ∞
≤ exp(/2) Pr[νk = v]
−∞ −∞
∙ exp(/2) Pr[Tˆ = t]1[(t (g(D ), fk(D ) + v]]dvdt
ˆ
exp() Pr ˆ [T > g (D ) y fk(D ) + νk ≥ Tˆ] =
T, νk
= exp() Pr ˆ [Un = un]
T, νk
donde la desigualdad proviene de nuestros límites en |vˆ − v| y |tˆ− t| y la
forma del pdf de la distribución de Laplace.
Definición 3.9 (Precisión). Diremos que un algoritmo que genera un flujo de
respuestas a1, . . . , {, } en respuesta a un flujo de k
consultas f1, . . . , fk es (α, β)exacto con respecto a un umbral T si excepto con
probabilidad como máximo β, el algoritmo no se detiene antes de fk, y para todo
ai = :
fi(D) ≥ T − α
y para todo ai = :
fi(D) ≤ T + α.
¿Qué puede salir mal en el Algoritmo 1? El umbral de ruido Tˆ puede ser
muy lejos de T, digamos, |Tˆ − T| > α. Además, un conteo pequeño fi(D) < T − α
puede tener tanto ruido agregado que se reporta como por encima del umbral
(incluso cuando el umbral está cerca del correcto), y un conteo grande fi(D) > T +
α se puede informar como por debajo del umbral. Todo esto sucede con una
probabilidad exponencialmente pequeña en α. En resumen, podemos tener un
problema con la elección del umbral de ruido o podemos tener un problema con
uno o más de los valores de ruido individuales νi . Por supuesto, podríamos tener
ambos tipos de errores, por lo que en el análisis a continuación asignamos α/2 a
cada tipo.
Teorema 3.24. Para cualquier secuencia de k consultas f1, . . . , fk tal que |{i < k :
fi(D) ≥ T − α}| = 0 (es decir, la única consulta cercana a estar por encima del
umbral es posiblemente la última), AboveThreshold(D, {fi}, T, ) es (α, β) precisa
para:
8(log k + log(2/β))
α = .
Prueba. Obsérvese que el teorema quedará demostrado si podemos demostrar
que excepto con probabilidad a lo sumo β:
máximo |νi | + |T − Tˆ| ≤ α
i [k]
Si este es el caso, entonces para cualquier ai = , tenemos:
fi(D) + νi ≥ Tˆ ≥ T − |T − Tˆ|
o en otras palabras:
fi(D) ≥ T − |T − Tˆ| − |νi | ≥ T − α
De manera similar, para cualquier ai = tenemos:
fi(D) < Tˆ ≤ T + |T − Tˆ| + |νi | ≤ T + α También
tendremos que para cualquier i < k: fi(D) < T −α < T −|νi |−|T −Tˆ|, y así: fi(D) + νi ≤ Tˆ, es
decir ai = . Por lo tanto, el algoritmo no se detiene antes de que se respondan k consultas.
Ahora completamos la prueba.
Recuerde que si Y Lap(b), entonces: Pr[|Y | ≥ t∙b] = exp(−t). Por lo tanto tenemos:
α α
Pr[|T − Tˆ| ≥ ] = exp − 4
2
Estableciendo esta cantidad para que sea como máximo β/2, encontramos que requerimos α
≥ 4 log(2/β)
De manera similar, por un enlace de unión, tenemos:
α
Pr[máx |νi | ≥ α/2] ≤ k ∙ exp − i [k]
8
Al establecer esta cantidad como máximo β/2, encontramos que requerimos α ≥ 8(log(2/β)
+log k) Estas dos afirmaciones se combinan para demostrar el teorema.
Ahora mostramos cómo manejar múltiples consultas "por encima del umbral" usando
la composición.
El algoritmo Sparse se puede considerar de la siguiente manera: a medida que
ingresan consultas, realiza llamadas repetidas a AboveThreshold. Cada vez que se informa
una consulta por encima del umbral, el algoritmo simplemente reinicia el flujo restante de
consultas en una nueva instancia de AboveThreshold. Se detiene después de que se haya
reiniciado por encima del umbral c veces (es decir, después de que hayan aparecido c
consultas por encima del umbral). Cada instanciación de AboveThresh old es (, 0)privada,
por lo que se aplican los teoremas de composición.
Teorema 3.25. Disperso es (, δ)diferencialmente privado.
Prueba. Observamos que Sparse es exactamente equivalente al siguiente procedimiento:
Ejecutamos AboveThreshold(D, {fi}, T, ) en nuestro flujo de consultas configurando {fi}
c , Si δ = 0;
=
1 8c
, De lo contrario.
ln δ
La entrada del algoritmo 2 es una base de datos privada D, un flujo elegido adaptativamente de
consultas de sensibilidad 1 f1, . . ., un umbral T y un punto de corte c. La salida es un flujo de
respuestas a1, . . .
Escaso (D, {fi}, T, c, , δ)
1 32c
ln δ
Si δ = 0 Sea σ = 2c . De lo contrario Sea σ =
Sea Tˆ 0 = T + Vuelta(σ)
Vamos a contar = 0
para cada consulta que
hago Sea νi = Lap(2σ)
si fi(D) + νi ≥ Tˆ Salida contar entonces
ai = Sea cuenta = .
cuenta +1.
Sea Tˆ contar = T + Vuelta(σ)
demás
Salida ai = .
terminara si
si el recuento ≥ c entonces
Detener.
terminara si
fin para
utilizando las respuestas proporcionadas por AboveThreshold. Cuando AboveThresh se
detiene (después de 1 consulta por encima del umbral), simplemente reiniciamos Sparse(D, {fi},
T, ) en el flujo restante y continuamos de esta manera hasta que hayamos reiniciado
AboveThreshold c veces. Después de que se detenga el reinicio c'th de AboveThreshold,
nosotros también nos detendremos. Ya hemos probado que AboveThreshold(D, {fi}, T, ) es ( ,
0) diferencialmente privado. Finalmente, por el teorema de composición avanzado (Teorema
3.20), c aplicaciones de un = algoritmo diferencialmente privado es (, δ) diferencialmente
privado, yc aplicaciones de un = /c algoritmo diferencialmente privado es (, 0)privado como se
1 8c
ln δ
desee .
Queda por demostrar la precisión de Sparse, observando nuevamente que Sparse consiste
solo en llamadas c a AboveThreshold. Notemos que si cada
de estas llamadas a AboveThreshold tiene una precisión (α, β/c), entonces Sparse
tendrá una precisión (α, β).
Teorema 3.26. Para cualquier secuencia de k consultas f1, . . . , fk tal que L(T) ≡ |{i :
fi(D) ≥ T − α}| ≤ c, si δ > 0, Sparse es (α, β) tasa precisa para:
2c
(ln k + ln β
) 512c en 1 δ
α = .
Si δ = 0, Sparse es (α, β) preciso para:
8c(ln k + ln(2c/β))
α =
Prueba. Simplemente aplicamos el Teorema 3.24 haciendo que β sea β/c, y sea y /c,
dependiendo de si δ > 0 o δ = 0, respectivamente.
1 8c
ln δ
Finalmente, proporcionamos una versión de Sparse que en realidad genera los
valores numéricos de las consultas de umbral anteriores, lo que podemos hacer con
solo una pérdida de precisión constante del factor. Llamamos a este algoritmo Numer
icSparse, y es simplemente una composición de Sparse con el mecanismo de Laplace.
En lugar de generar un vector a {, } , genera un vector a (R { })
.
Observamos que NumericSparse es privado:
Teorema 3.27. NumericSparse es (, δ) diferencialmente privado.
Prueba. Observe que si δ = 0, NumericSparse(D, {fi}, T, c, , 0) es simplemente la
8
composición adaptativa de Sparse(D, {fi}, T, c, con el mecanismo 9 , 0), juntos 9 , 0).
1
de Laplace con parámetros de privacidad ( , δ) = (
Si δ > 0, entonces NumericSparse(D, {fi}, T, c, , 0) es la composición √ de Sparse(D,
512
{fi}, T, c, , δ/2) junto con el mde
ecanismo de Laplace √ 512 +1 1 nismo con parámetros
privacidad ( , δ) = ( , δ/
2). Por lo tanto, el valor pri √ 512+1 de NumericSparse se deriva de una composición
simple.
Para discutir la precisión, debemos definir lo que queremos decir con la precisión
de un mecanismo que genera un flujo a (R { }) en respuesta a una secuencia
de consultas con valores numéricos:
La entrada del algoritmo 3 es una base de datos privada D, un flujo elegido
adaptativamente de consultas de sensibilidad 1 f1, . . ., un umbral T y un punto de
corte c. La salida es un flujo de respuestas a1, . . .
NumericSparse(D, {fi}, T, c, , δ)
8 2 √ 512
Si δ = 0 Sea 1 ← 9 , 2 ← 9 _ De lo contrario, deja 1 = √ 512+1
, 2 =
2 √ 512+1
2c 2 32c ln δ
Si δ = 0 Sea σ() = . De lo contrario, sea σ() =
Sea Tˆ 0 = T + Vuelta(σ(1))
Let count = 0
para cada consulta que hago
Sea νi = Lap(2σ(1)) si
fi(D) + νi ≥ Tˆ Sea υi contar entonces
← Lap(σ(2))
Salida ai = fi(D) + υi .
Sea contar = contar +1.
Sea Tˆ contar = T + Vuelta(σ(1))
demás
Salida ai = .
terminara si
si el recuento ≥ c entonces
Detener.
terminara si
fin para
Definición 3.10 (Precisión numérica). Diremos que un algoritmo (R { }) que

de respuestas a1, . . . , en respuesta a un flujo de k consultas
genera fu1, . . . ,
n flujo fk es (α, β)
exacto con respecto a un umbral T si excepto con probabilidad como máximo β, el
algoritmo no se detiene antes de fk, y para todo ai R:
|fi(D) − ai | ≤ α
y para todo ai = :
fi(D) ≤ T + α.
Teorema 3.28. Para cualquier secuencia de k consultas f1, . . . , fk tal que L(T) ≡ |{i :
fi(D) ≥ T − α}| ≤ c, si δ > 0, NumericSparse es (α, β)
preciso para:
4c 2
(ln k + ln β
) c ln δ ( √ 512 + 1)
α = .
Si δ = 0, Sparse es (α, β) preciso para:
9c(ln k + ln(4c/β))
α =
Prueba. La precisión requiere dos condiciones: primero, que para todo ai = : fi(D)
≤ T + α. Esto se cumple con una probabilidad de 1 − β/2 según el teorema de
precisión para Sparse. Luego, para todo ai R, se requiere |fi(D) − ai | ≤ α.
Esto se cumple con una probabilidad de 1 − β/2 por la precisión del mecanismo de
Laplace.
¿Qué mostramos al final? Si nos dan una secuencia de consultas junto con la
garantía de que solo como máximo c de ellas tienen respuestas por encima de T
−α, podemos responder aquellas consultas que están por encima de un umbral T
dado, hasta el error α. Esta precisión es igual, hasta las constantes y un factor de
log k, a la precisión que obtendríamos, dada la misma garantía de privacidad, si
conociéramos las identidades de estas grandes consultas por encima del umbral
con anticipación y las respondiéramos con la mecanismo de Laplace. Es decir, la
técnica del vector disperso nos permitió extraer las identidades de estas consultas
grandes casi "gratis", pagando solo logarítmicamente por las consultas irrelevantes.
Esta es la misma garantía de que podríamos haber obtenido diez al tratar de
encontrar las consultas grandes con el mecanismo exponencial y luego responderlas
con el mecanismo de Laplace. Este algoritmo, sin embargo, es trivial de ejecutar y,
lo que es más importante, nos permite elegir nuestras consultas de forma adaptativa.
La respuesta aleatoria se debe a Warner [84] (¡anterior a la privacidad diferencial
por cuatro décadas!). El mecanismo de Laplace se debe a Dwork et al. [23]. El
mecanismo exponencial fue inventado por McSherry y Talwar [60]. El teorema 3.16
(composición simple) se reivindicó en [21]; la prueba que aparece en el Apéndice B
se debe a Dwork y Lei [22];
3.7. notas bibliograficas sesenta y cinco
McSherry y Mironov obtuvieron una prueba similar. El material de las Secciones 3.5.1 y
3.5.2 está tomado casi textualmente de Dwork et al. [32].
Antes de [32], la composición se modelaba de manera informal, como hicimos con los
límites de composición simple. Para mecanismos específicos aplicados en una sola base
de datos, existen argumentos de "evolución de la confianza" debido a Dinur, Dwork y Nissim
[18, 31], (que son anteriores a la definición de privacidad diferencial) que muestran que el
parámetro de privacidad en k La composición de pliegues solo necesita deteriorarse como
√ k si estamos dispuestos a tolerar una pérdida (insignificante) en δ (para k < 1/ε2 ). El
teorema 3.20 generaliza esos argumentos a mecanismos arbitrarios diferencialmente
privados,
La afirmación de que sin coordinación en el ruido los límites en
los teoremas de composición son casi ajustados se debe a Dwork, Naor y Vadhan [29]. La
técnica del vector disperso es una abstracción de una técnica que fue introducida por
Dwork, Naor, Reingold, Rothblum y Vadhan [28] (vectores indicadores en la demostración
del Lema 4.4). Posteriormente ha encontrado un amplio uso (por ejemplo, por Roth y
Roughgarden [74], Dwork, Naor, Pitassi y Rothblum [26], y Hardt y Rothblum [44]). En
nuestra presentación de la técnica, la demostración del Teorema 3.23 se debe a Salil
Vadhan.
4
Liberación de consultas lineales con error correlacionado
Una de las primitivas más fundamentales en el análisis de datos privados es la
capacidad de responder consultas con valores numéricos en un conjunto de datos.
En la última sección, comenzamos a ver herramientas que nos permitirían hacer esto
agregando ruido dibujado de forma independiente a las respuestas de la consulta.
En esta sección, continuamos este estudio y vemos que al agregar ruido
cuidadosamente correlacionado, podemos obtener la capacidad de responder de
forma privada muchas más consultas con alta precisión. Aquí, vemos dos mecanismos
específicos para resolver este problema, que generalizaremos en la siguiente sección.
En esta sección, consideramos algoritmos para resolver el problema de liberación
de consultas con mayor precisión que la que obtendríamos simplemente usando
composiciones del mecanismo de Laplace. Las mejoras son posibles porque el
conjunto de consultas se maneja como un todo, ¡incluso en la configuración en línea!
— permitir que se correlacione el ruido en las consultas individuales.
Para ver de inmediato que algo similar podría ser posible, considere el par de
consultas en el ataque de diferenciación descrito en la Sección 1: "¿Cuántas
personas en la base de datos tienen el rasgo de células falciformes?" y "¿Cuántas
personas, no llamadas X, en la base de datos tienen el rasgo de células falciformes?"
Supongamos que un mecanismo responde a la primera pregunta usando el
mecanismo de Laplace y luego, cuando se plantea la segunda pregunta,
66
67
responde "Ya sabes la respuesta aproximada, porque me acabas de hacer casi
exactamente la misma pregunta". Esta respuesta coordinada al par de preguntas no
incurre en más pérdida de privacidad que cualquiera de las dos preguntas por
separado, por lo que se ha logrado un (pequeño) ahorro de privacidad.
El problema de liberación de consultas es bastante natural: dada una clase de
consultas Q sobre la base de datos, deseamos liberar alguna respuesta ai para
cada consulta fi Q tal que el error maxi |ai − fi(x)| es lo más bajo posible, mientras
se preserva la privacidad diferencial.1 Recuerde que para cualquier familia de
consultas de baja sensibilidad, podemos aplicar el mecanismo de Laplace, que
agrega ruido fresco e independiente a la respuesta a cada consulta.
Desafortunadamente, a un nivel de privacidad fijo, para garantías de privacidad (,
0), la magnitud del ruido que debemos agregar con el mecanismo de Laplace escala
con |Q| porque esta es la tasa a la que puede crecer la sensibilidad de las consultas
combinadas. De manera similar, para (, δ)garantías de privacidad, el ruido escala
con |Q| ln(1/δ). Por ejemplo, supongamos que nuestra clase de consultas Q
consta solo de muchas copias de la misma consulta: fi = f para todo i. Si usamos
el mecanismo de Laplace para liberar las respuestas, agregará ruido independiente,
por lo que cada ai será una variable aleatoria independiente con media f (x).
Claramente, en este régimen, la tasa de ruido debe crecer con |Q| ya que de lo
contrario el promedio de las ai convergerá al verdadero valor f (x), lo que sería
una violación a la privacidad. Sin embargo, en este caso, debido a que fi = f para
todo i, tendría más sentido aproximar f solo una vez ≈ f (x) y liberar ai = a con
la tasa de
a
ruido
para
no ttendría
odo i. Eqn
ue
este
escalar
caso,
con |Q| en absoluto. En esta sección, nuestro
objetivo es diseñar algoritmos que sean mucho más precisos que el mecanismo de
Laplace (con un error que escala con log |Q|) agregando ruido no independiente en
función del conjunto de consultas.
Recuerda que nuestro universo es X = {χ1, χ2, . . . , χ|X|} y que las bases de
datos están representadas por histogramas en N |X|. Una consulta lineal es
simplemente una consulta de conteo, pero generalizada para tomar valores en el
intervalo [0, 1] en lugar de solo valores booleanos. Específicamente, una consulta lineal f toma la
1
Es la restricción de privacidad lo que hace que el problema sea interesante. Sin esta
restricción, el problema de la liberación de consultas se resuelve de manera trivial y óptima
simplemente dando respuestas exactas para cada consulta.
68 Liberación de consultas lineales con error correlacionado
forma f : X → [0, 1], y aplicado a una base de datos x devuelve la suma o el valor promedio
de la consulta en la base de datos (pensaremos en ambos, dependiendo de cuál sea más
conveniente para el análisis). Cuando pensamos en las consultas lineales como valores
promedio que devuelven , nos referiremos a ellas como consultas lineales normalizadas
y decimos que toman valor:
1 |X|
f(x) = xi ∙ f(χi).
x1 yo=1
Cuando pensamos en las consultas lineales como valores de suma que devuelven , nos
referimos a ellas como consultas lineales no normalizadas y decimos que toman valor:
|X|
f(x) = xi ∙ f(χi).
yo=1
Cada vez que establecemos un límite, debe quedar claro por el contexto si estamos
hablando de consultas normalizadas o no normalizadas, porque toman valores en rangos
muy diferentes. Tenga en cuenta que las consultas lineales normalizadas toman valores
en [0, 1], mientras que las consultas no normalizadas toman valores en [0, x1].
Tenga en cuenta que con esta definición, las consultas lineales tienen una sensibilidad ∆f ≤ 1.
Las secciones posteriores discutirán las consultas arbitrarias de baja sensibilidad.
Presentaremos dos técnicas, una para los casos fuera de línea y en línea.
¡Sorprendente y maravillosamente, la técnica fuera de línea es una aplicación inmediata
del mecanismo exponencial utilizando límites de muestreo bien conocidos de la teoría
del aprendizaje! El algoritmo será simplemente aplicar el mecanismo exponencial con
rango igual al conjunto de todas las bases de datos pequeñas y y función de calidad u(x,
y) igual a menos el error máximo de aproximación incurrido al consultar y para obtener
una aproximación de f( X):
u(x, y) = − máx |f(x) − f(y)|. f Q (4.1)
Los límites de muestreo (ver el Lema 4.3 a continuación) nos dicen que un subconjunto
aleatorio de ln |Q|/α2 elementos de x muy probablemente nos dará una buena aproximación
para todo f(x) (específicamente, con el error aditivo acotado por α), entonces sabemos
que es suficiente restringir el conjunto de posibles salidas a pequeñas bases de datos. En
realidad, no nos importa que las bases de datos de salida potenciales sean pequeñas,
solo que no sean demasiado numerosas: su número juega un papel en la prueba de
69
utilidad, que es una aplicación inmediata del teorema de utilidad para el mecanismo
exponencial (Teorema 3.11). Más específicamente, si el número total de productos
potenciales no es demasiado numeroso, entonces, en particular, el número total
de productos de baja utilidad no es demasiado numeroso y, por lo tanto, la
relación entre malos productos y buenos productos (hay al menos uno) es no
demasiado grande
El mecanismo online, que, a pesar de no conocer de antemano todo el
conjunto de consultas, conseguirá la misma precisión que el mecanismo offline,
y será una aplicación directa de la técnica del vector disperso. Como resultado, la
privacidad será inmediata, pero la utilidad requerirá una prueba. La clave será
argumentar que, incluso para un conjunto muy grande de consultas de conteo,
pocas consultas son "significativas"; es decir, las consultas significativas serán escasas.
Al igual que con los algoritmos de vector disperso, podemos escalar el ruido
según el número de consultas significativas, con poca dependencia del número
total de consultas.
Antes de continuar y presentar los mecanismos, daremos solo un ejemplo de
una clase útil de consultas lineales.
Ejemplo 4.1. Suponga que los elementos de la base de datos están representados
por d características booleanas . Por ejemplo, la primera característica puede
representar si el individuo es hombre o mujer, la segunda característica puede
representar si es un graduado universitario o no, la tercera característica puede
representar si es ciudadano estadounidense o no, etc. nuestro universo de datos
es X = {0, 1} {1, . . . , d}, nos d . Dado un subconjunto de estos atributos S
gustaría saber cuántas personas en el conjunto de datos tienen estos atributos.
(p. ej., "¿Qué fracción del conjunto de datos consiste en graduados universitarios
varones con antecedentes familiares de cáncer de pulmón?"). Esto define
naturalmente una consulta denominada consulta de conjunción monótona,
parametrizada por un subconjunto de atributos S y definida como , = para z
fS(z)
X .
i S zi La clase de todas estas consultas es simplemente Q = {fS : S {1, . . . ,
d}}, y tiene tamaño |Q| = 2d . Una colección de respuestas a conjunciones a veces
se denomina tabla de contingencia o marginal , y es un método común para
publicar información estadística sobre un conjunto de datos. Muchas veces, es
posible que no estemos interesados en las respuestas a todas las conjunciones,
sino solo en aquellas que preguntan sobre subconjuntos de características S de
tamaño |S| = k para algún k fijo. Esta clase de consultas Qk = {fS : S {1, . . . ,
d_}, |S| = k} tiene tamaño
dk
Esta amplia y útil clase de consultas es solo un ejemplo de los tipos de consultas que
pueden responderse con precisión mediante los algoritmos que se dan en esta
sección. (Tenga en cuenta que si también deseamos permitir conjunciones (no
monótonas) que pregunten sobre atributos negados , también podemos hacerlo:
simplemente duplique el espacio de características de d a 2d, y establezca zd+i = 1
− zi para todo i {1, . . . , d}.)
4.1 Un algoritmo fuera de línea: SmallDB
En esta sección, damos un algoritmo basado en la idea de muestrear una pequeña
base de datos utilizando el mecanismo exponencial. Lo que mostraremos es que,
para contar consultas, basta con considerar bases de datos que son pequeñas: su
tamaño solo será una función de la clase de consulta, y nuestra precisión de
aproximación deseada α, y crucialmente no en x1, el tamaño de la privada base de
datos. Esto es importante porque nos permitirá garantizar simultáneamente, para
todas las bases de datos suficientemente grandes, que hay al menos una base de
datos en el rango del mecanismo exponencial que se aproxima bien a x en consultas
en Q, y que no hay demasiadas bases de datos en el rango para disipar la masa de
probabilidad colocada en esta "buena" base de datos.
Algoritmo 4 El mecanismo de base de datos pequeña
SmallDB(x, Q, ε, α)
Sea R ← {y N |X| : y1 = registro
|
Sea u : N |X| Q| } α2 × R → R se define como:
u(x, y) = − máx |f(x) − f(y)| f Q
Muestra y salida y R con el mecanismo exponencial
YO(x, tu, R)
Primero observamos que el mecanismo de base de datos pequeña preserva la
privacidad diferencial ε.
Proposición 4.1. El mecanismo de base de datos pequeña es (ε, 0) diferencialmente
privado.
4.1. Un algoritmo fuera de línea: SmallDB 71
Prueba. El mecanismo de base de datos pequeña es simplemente una instanciación
del mecanismo exponencial. Por lo tanto, la privacidad se sigue del Teorema 3.10.
De manera similar, podemos recurrir a nuestro análisis del mecanismo exponencial
para comprender las garantías de utilidad del mecanismo de base de datos pequeña.
Pero primero, debemos justificar nuestra elección del rango R = {y N |X| : y1 =
registro |
}, el conjunto de todas las bases de datos de tamaño log |Q|/α2 .
Q| α2
Teorema 4.2. Para cualquier clase finita de consultas lineales Q, si R = {y log |Q| N |
X| }
: y1
entonces p=ara
que:
todo x N |X|, existe un y R tal α2
máximo |f(x) − f(y)| ≤ α
f Q
En otras palabras, mostraremos que para cualquier colección de consultas lineales
Q y para cualquier base de datos x, existe una base de datos "pequeña" y de tamaño y1
= log |
Q| que codifica aproximadamente las respuestas a cada consulta en Q, hasta α2
hasta el error α.
Lema 4.3 (Límites de muestreo). Para cualquier x N |X| y para cualquier colección
de consultas lineales Q, existe una base de datos y de tamaño
registro |
y1 =
Q| α2
tal que:
f Q |f(x) − f(y)| ≤ α
máx.
Prueba. Sea m = α2 . registro
|Q|
Construiremos una base de datos y tomando m muestras
uniformemente aleatorias de los elementos de x. Específicamente, para i {1, . . . ,
m}, sea Xi una variable aleatoria que toma el valor χj X con probabilidad xj/x1, y sea
y la base de datos que contiene los elementos Xm. Ahora fija cualquier f Q y
considera la cantidad f(y). Nosotros X1, . . . , tener:
|X|
1 1 metro
f(y) = yi ∙ f(χi) = f(xi).

y1 yo=1 metro = 1
Observamos que cada término f(Xi) de la suma es una variable aleatoria acotada
que toma valores 0 ≤ f(Xi) ≤ 1 con expectativa
|X|
xj
E[f(Xi)] = f(χj ) = f(x),
x1
j=1
y que la expectativa de f(y) es:
1
metro
E[f(y)] = E[f(Xi)] = f(x).
metro = 1
Por lo tanto, podemos aplicar el límite de Chernoff establecido en el Teorema 3.1
que da:
−2mα2
Pr [|f(y) − f(x)| > α] ≤ 2e .
Tomando un límite de unión sobre todas las consultas lineales f Q, obtenemos:
−2mα2
Pr máx |f(y) − f(x)| > α ≤ 2|Q|e f Q .
registro |
lo que Introducir m Q| α2 hace que el lado derecho sea más pequeño que 1 (por
= mientras |Q| > 2), lo que demuestra que existe una base de datos de tamaño m
que satisface el límite establecido, lo que completa la demostración del lema.
La prueba del Teorema 4.2 simplemente se sigue de la observación de que log |
Q|
R contiene todas las bases de datos de tamaño
α2 .
Proposición 4.4. Sea Q cualquier clase de consultas lineales. Sea y la salida de la
base de datos de SmallDB(x, Q, ε, α). Entonces con probabilidad 1 − β:
1
2 registro |X| registro |
Q| + registro
α2 β
máximo |f(x) − f(y)| ≤ α + .
f Q εx1
Prueba. Aplicando los límites de utilidad para el mecanismo exponencial (Teorema
1
3.11) con ∆u = y OPTq(D) ≤ α (que se
x1deriva del Teorema 4.2), encontramos:
2 −t
Pr máx |f(x) − f(y)| ≥ α + (registro (|R|) + t) ≤ e .
f Q εx1
Completamos la demostración (1) observando que R, que es el conjunto de todos,
de datos de tamaño máximo log |Q|/α2 , (2) satisface |R| ≤ |X |log |Q|/α2 y bases
configurando t = log 1 β .
Finalmente, ahora podemos enunciar el teorema de la utilidad para SmallDB.
Teorema 4.5. Mediante la elección apropiada de α, siendo y la salida de la base de datos
α
de SmallDB(x, Q, ε, ), podemos asegurar
2 que con probabilidad 1 − β:
1/3
16 registro |X | registro |Q| + 4 registro
1 β
máximo |f(x) − f(y)| ≤ . (4.2)
f Q εx1

De manera equivalente, para cualquier base de datos x con
16 registro |X | registro |Q| + 4
1 β
logaritmo x1 ≥ (4.3)
εα3
con probabilidad 1 − β: maxf Q |f(x) − f(y)| ≤ α.
Prueba. Por el Teorema 4.2, obtenemos:
α 2 4 registro |X| registro |
+ registro
Q| α2 1 β
f Q |f(x) − f(y)| ≤ + .
máx. 2 εx1
Establecer esta cantidad para que sea como máximo α y resolver para x1 produce (4.3).
Resolviendo para α se obtiene (4.4).
Tenga en cuenta que este teorema establece que para α y ε fijos, incluso con δ = 0,
es posible responder casi exponencialmente muchas consultas en el tamaño de la base
de datos.2 Esto contrasta con el mecanismo de Laplace, cuando lo usamos directamente
para responder consultas lineales, que solo pueden responder linealmente muchas.
Tenga en cuenta también que en esta discusión, ha sido más conveniente pensar en
consultas normalizadas. Sin embargo, podemos obtener los límites correspondientes para
consultas no normalizadas simplemente multiplicando por x1:
Teorema 4.6 (Teorema de precisión para consultas no normalizadas). Por la elección
apropiada de α, siendo y la salida de la base de datos por
2Específicamente, resolviendo para k encontramos que el mecanismo puede responder k consultas para:
3a _ x1
k ≤ exp O .
registro |X |
α
SmallDB(x, Q, ε, 2 ), podemos asegurar que con probabilidad 1 − β:
1/3
16 registro |X | registro |Q| + 4 registro
2/3 1 β
f Q |f(x) − f(y)| ≤x _ 1 . (4.4)
máx. ε

Límites más refinados. Probamos que cada conjunto de consultas lineales Q tiene una
colección de bases de datos de tamaño como máximo |X |log |Q|/α2 que aproxima bien
cada base de datos x con respecto a Q con un error como máximo α.
Sin embargo, esto suele ser una sobreestimación, ya que ignora por completo la estructura
de las consultas. Por ejemplo, si Q simplemente contiene la misma consulta repetida una
y otra vez, cada vez de una forma diferente, entonces no hay razón para que el tamaño
del rango del mecanismo exponencial crezca con |Q|. De manera similar, incluso puede
haber clases de consultas Q que tengan una cardinalidad infinita , pero que, sin embargo,
estén bien aproximadas por pequeñas bases de datos. Por ejemplo, las consultas que
corresponden a preguntar si un punto se encuentra dentro de un intervalo dado en la
línea real forman una clase Q infinitamente grande, ya que hay innumerables intervalos
en la línea real. Sin embargo, esta clase de consultas exhibe una estructura muy simple
que hace que sea bien aproximada por pequeñas bases de datos. Al considerar una
estructura más refinada de nuestras clases de consulta, seremos capaces de dar límites
para los mecanismos diferencialmente privados que mejoran los límites de muestreo
simples (Lema 4.3) y pueden no ser triviales incluso para clases de consultas doblemente
exponencialmente grandes.3 no desarrollará completamente estos límites aquí, sino que
en su lugar indicará varios resultados para la clase más simple de consultas de conteo.
Recuerde que una consulta de conteo f : X → {0, 1} asigna puntos de la base de datos a
valores booleanos, en lugar de cualquier valor en el intervalo [0, 1] como lo hacen las
consultas lineales.
Definición 4.1 (Destrucción). Una clase de consultas de conteo Q fragmenta un conjunto
de puntos S X si para todo T S existe un f Q tal que {x S : f(x) = 1} = T. Es
decir, Q fragmenta S si para cada uno de los 2 |S| subconjuntos T de S, hay alguna función
en Q que etiqueta exactamente
3
De hecho, nuestra medida de complejidad para una clase de consultas puede ser finita
incluso para infinitas clases de consultas, pero aquí estamos tratando con consultas sobre un
universo finito, por lo que no existen infinitas consultas distintas.
esos elementos como positivos, y no etiqueta ninguno de los elementos en S \ T como
positivo.
Nótese que para que Q rompa S debe darse el caso de que |Q| ≥ 2 |S| ya que Q
debe contener una función f para cada subconjunto T S. Ahora podemos definir
nuestra medida de complejidad para contar consultas.
Definición 4.2 (Dimensión VapnikChervonenkis (VC)). Una colección de consultas de
conteo Q tiene dimensión VC d si existe algún conjunto S X de cardinalidad |S| = d
tales que Q rompe S, y Q no rompe ningún conjunto de cardinalidad d+1. Podemos
denotar esta cantidad por VCDIM(Q).
Considere nuevamente la clase de intervalos unidimensionales en el rango [0, ∞]
definida sobre el dominio X = R. La función fa,b correspondiente al intervalo [a, b] se
define de tal manera que fa,b(x) = 1 si y sólo si x [a, b]. Esta es una clase infinita de
consultas, pero su dimensión VC es 2. Para cualquier par de puntos distintos x < y, hay
un intervalo que no contiene ningún punto (a, b < x), un intervalo que contiene ambos
puntos (a < x < y < b), y un intervalo que contiene cada uno de los puntos pero no el
otro (a < x < b < y y x < a < y < b). Sin embargo, para cualquier 3 puntos distintos x <
y < z, no hay intervalo [a, b] tal que fa,b[x] = fa,b[z] = 1 pero fa,b[y] = 0.
Observamos que la dimensión VC de una clase de concepto finito nunca puede
ser demasiado grande.
Lema 4.7. Para cualquier clase Q finita, VCDIM(Q) ≤ log |Q|.
Prueba. Si VCDIM(Q) = d entonces Q destruye algún conjunto de elementos S X de
cardinalidad |S| = re. Pero según la definición de fragmentación, dado que S tiene 2 d
subconjuntos distintos, Q debe tener al menos 2 d distintas funciones en él.
Resultará que esencialmente podemos reemplazar el término log |Q| con el término
VCDIM(Q) en nuestros límites para el mecanismo SmallDB.
Por el lema anterior, esto solo puede ser una mejora para clases finitas Q.
Teorema 4.8. Para cualquier clase finita de consultas lineales Q, si R = {y : y O

N |X| } VCDIM(Q)
entonces para todo x N |X|, existe un y R
α2
tal que:
máximo |f(x) − f(y)| ≤ α
f Q
Como resultado de este teorema, obtenemos el análogo del Teorema 4.5
con la dimensión VC como nuestra medida de la complejidad de la clase de consulta:
α
Teorema 4.9. Sea y la salida de la base de datos de SmallDB(x, Q, ε, luego con 2 ).
probabilidad 1 − β:
1
registro |X |VCDIM(Q) + registro β 1/3
f Q |f(x) − f(y)| ≤O _

máx. εx1

De manera equivalente, para cualquier base de datos x con
log |X |VCDIM(Q) + log εα3 1 β
x1 ≥ O

con probabilidad 1 − β: maxf Q |f(x) − f(y)| ≤ α.
Una medida análoga (aunque más engorrosa) de la complejidad de las consultas, la
"Dimensión que rompe la grasa", define la complejidad de una clase de consultas lineales,
en lugar de simplemente contar consultas. Fat Shattering Dimension controla el tamaño
de la "αnet" más pequeña (Definición 5.2 en la Sección 5) para una clase de consultas
lineales Q como lo hace VCdimension para consultas de conteo. Esta medida se puede
usar de manera similar para dar límites más refinados a los mecanismos diseñados para
publicar consultas lineales de forma privada.
4.2 Un mecanismo en línea: pesos multiplicativos privados
Ahora vamos a dar un mecanismo para responder a las consultas que llegan en línea y
se puede elegir de forma interactiva. El algoritmo será una combinación simple del
algoritmo de vector disperso (que puede responder consultas de umbral de forma
adaptativa) y el algoritmo de descenso de gradiente exponenciado para aprender
predictores lineales en línea.
Este último algoritmo también se conoce como Hedge o, más generalmente, la
técnica de pesos multiplicativos. La idea es la siguiente: Cuando visualizamos la base de
datos D N |X| como un histograma y están interesados solo en consultas lineales (es
decir, funciones lineales de este histograma), entonces podemos ver el problema de
responder consultas lineales como el problema de aprender la función lineal D que define
las respuestas de consulta D , q , dado
4.2. Un mecanismo en línea: pesos multiplicativos privados 77
una consulta q [0, 1]|X|. Si el algoritmo de aprendizaje solo necesita acceder a los
datos mediante consultas que preservan la privacidad, en lugar de tener un costo de
privacidad que crece con la cantidad de consultas que nos gustaría responder,
podemos tener un costo de privacidad que crece solo con la cantidad de consultas. el
algoritmo de aprendizaje necesita hacer. El algoritmo de "pesos multiplicativos" que
presentamos a continuación es un ejemplo clásico de un algoritmo de aprendizaje de
este tipo: puede aprender cualquier predictor lineal realizando solo un pequeño número
de consultas. Mantiene en todo momento un “predictor de hipótesis” actual y accede
a los datos solo solicitando ejemplos de consultas en las que su predictor de hipótesis
difiere en gran medida de la (verdadera) base de datos privada. Su garantía es que
siempre aprenderá la función lineal objetivo hasta un pequeño error, dado solo un
pequeño número de tales ejemplos. ¿Cómo podemos encontrar estos ejemplos? El
algoritmo de vector disperso que vimos en la sección anterior nos permite hacer esto
sobre la marcha, pagando solo por aquellos ejemplos que tienen un alto error en la
hipótesis actual de pesos multiplicativos. A medida que surgen consultas, preguntamos
si la verdadera respuesta a la consulta difiere sustancialmente de la respuesta a la
consulta sobre la hipótesis actual de los pesos multiplicativos.
Tenga en cuenta que esta es una consulta de umbral del tipo manejado por la técnica
de vector disperso. Si la respuesta es "no", es decir, la diferencia, o el error, está "por
debajo del umbral", entonces podemos responder a la consulta utilizando el predictor
de hipótesis conocido públicamente y no sufrir más pérdidas de privacidad. Si la
respuesta es "sí", lo que significa que el predictor de hipótesis actualmente conocido
da lugar a un error que está por encima del umbral, entonces hemos encontrado un
ejemplo apropiado para actualizar nuestro algoritmo de aprendizaje. Debido a que las
respuestas "por encima del umbral" corresponden exactamente a las consultas
necesarias para actualizar nuestro algoritmo de aprendizaje, el costo total de privacidad
depende solo de la tasa de aprendizaje del algoritmo, y no del número total de consultas que realizamos.
respuesta.
Primero damos la regla de actualización de pesos multiplicativos y demostramos
el orema sobre su convergencia en el lenguaje de respuesta de consultas lineales.
Será conveniente pensar en las bases de datos x como distribuciones de probabilidad
sobre el universo de datos X. Es decir, si ∆([X ]) denota el conjunto de distribuciones
de probabilidad sobre el conjunto [|X |], tenemos x ∆([X ]).
Tenga en cuenta que siempre podemos escalar una base de datos para tener esta
propiedad sin cambiar el valor normalizado de ninguna consulta lineal.
Algoritmo 5 La regla de actualización de pesos multiplicativos (MW). Se instancia con un
parámetro η ≤ 1. En el siguiente análisis, tomaremos η = α/2, donde α es el parámetro que
especifica la precisión de nuestro objetivo.
t
MW(x si , pies , vt):
t
vt < ft(x) Sea ) entonces
rt = ft de lo
contrario
Sea rt = 1 − ft (es
decir, para todo χi , rt(χi) = 1 − ft [χi ])
terminara si
Actualización: Para todo i [|X |] Sea
t+1 t
xî = exp(−ηrt [i]) ∙ x i
x t+1
i
t+1 =
x
yo |X| t+1 xˆ
j=1 j
t+1
Salida x .
Teorema 4.10. Fijar una clase de consultas lineales Q y una base de datos x ∆([X ]), y
1
dejar que x ∆([X ]) describa la distribución uniforme sobre = 1/|X | por todo yo Ahora
1
X : x yo considere una secuencia de longitud máxima de bases de datos x
t t+1
para t {2, . . . , L} generado al establecer x , ft , vt) como
=
t
MW(x y se describe en el Algoritmo 5, donde para cada t, ft Q
vt R son tales que:
t
1. |ft(x) − ft(x 2. |ft(x) )| > α, y
− vt | < α.
Entonces debe ser eso:
4 registro |X |
L ≤ 1 + α2 .
Nótese que si demostramos este teorema, habremos demostrado que para
de datos x L+1 en la secuencia debe ser que para todo f Q: la última base
|f(x) − f(x L+1)| ≤ α, ya que de lo contrario sería posible extender la secuencia,
contradiciendo la maximalidad. En otras palabras, dadas las consultas distintivas f, la
t
regla de actualización d ,e pesos multiplicativos aprende la base de datos privada x
con respecto a cualquier clase de consultas lineales Q, hasta cierta tolerancia α, en
solo un pequeño número (L) de pasos. Usaremos este teorema de la siguiente
manera. El algoritmo Private Online Multiplicative Weights, descrito (¡dos veces!) a
continuación, tendrá en todo momento una publicación en la base de datos x. Dada
t
calculará una una consulta de entrada f, lic aproximación x , el algoritmo
aproximación ruidosa a la diferencia |f(x) − f(x , por ejemplo, una aproximación ruidosa
f(x)+λt a la t )|. Si la diferencia (ruidosa) es grande, el algoritmo pro
respuesta verdadera f(x), donde λt es extraída de alguna distribución de Laplace
elegida apropiadamente, y la regla de actualización de pesos multiplicativos se
invocará con parámetros (x
t
, f, f(x) +λt). Si la regla de actualización se invoca solo cuando la diferencia |f(x) −
t
f(x )| es verdaderamente grande (Teorema 4.10, condición 1), y si el
aproximaciones f(x) + λt son lo suficientemente precisas (Teorema 4.10, condición
2), entonces podemos aplicar el teorema para concluir que las actualizaciones no son
tan numerosos (porque L no es tan grande) y la x resultante da respuestas L+1
precisas a
todas las consultas en Q (porque no queda ninguna consulta distintiva).
El teorema 4.10 se demuestra siguiendo la pista de una función potencial Ψ en el
midiendo la similitud entre la base de datos de hipótesis x y la base de t tiempo t,
datos real D. Mostraremos:
1. La función potencial no comienza demasiado grande.
2. La función potencial disminuye significativamente en cada ronda de actualización.
3. La función potencial siempre es no negativa.
Juntos, estos 3 hechos nos obligarán a concluir que no puede haber demasiadas
rondas de actualización.
Comencemos ahora el análisis para la demostración del teorema de la
convergencia.
Prueba. Debemos demostrar que cualquier secuencia t , ft , vt)}t=1,...,L con el
{(x propiedad de que | t ) − pies(x)| > α y |vt − ft(x)| < α no puede tener
L > ft(x 4
log |X| α2 .
Definimos nuestra función potencial de la siguiente manera. Recuerde que aquí
vemos la base de datos como una distribución de probabilidad, es decir, suponemos x1 = 1.
Por supuesto, esto no requiere modificar la base de datos real.
La función potencial que usamos es la entropía relativa, o divergencia KL, entre x
t
y x (cuando se ven como distribuciones de probabilidad):
|X|
t x[i]
= KL(xx ) = registro x[i] .
X t [i]
definitivamente _
yo=1
Empezamos con un hecho simple:
Proposición 4.11. Para todo t: Ψt ≥ 0, y Ψ1 ≤ log |X |.
Prueba. La entropía relativa (KLDivergencia) es siempre una cantidad no negativa,
por la desigualdad de suma logarítmica, que establece que si a1, . . . , an y b1, . . . ,
bn son números no negativos, entonces
ai yo .
ai registro
≥ ai
i bi
i i soy bi
Para ver que Ψ1 ≤ log |X |, recuerda que x Ψ1 1 [yo] = 1/|X | para todo i, y así x[i]
= |X|
yo=1 log (|X |x[i]). Al notar que x es una distribución de probabilidad, vemos
que esta cantidad se maximiza cuando x[1] = 1 y x[i] = 0 para todo i > 1, dando Ψi =
log |X |.
Ahora argumentaremos que en cada paso, la función potencial cae al menos α
2/4. Debido a que el potencial comienza en log |X|, y siempre debe ser no negativo,
sabemos que puede haber como máximo L ≤ 4 log |X|/α2 pasos en la secuencia de
actualización de la base de datos. Para comenzar, veamos exactamente cuánto
cae el potencial en cada paso:
Lema 4.12.
Ψt − Ψt+1 ≥ η rt , xt − rt , 2 x − η

|X|
Prueba. Recordar que yo=1 x[yo] = 1.
|X| |X|
x[yo] − x[yo]
Ψt − Ψt+1 = registro x[i] t registro x[i] t+1
x x
yo=1 yo yo=1 yo
|X| t+1
x
= registro x[i]
yo
t
x
yo=1 yo
|X| t+1 t+1

xˆ /
= i i
registro x[i]
yo=1 xˆ it x i
|X| t
=
x
yo exp(−ηrt [i]))
registro x[i] t
x
yo=1 yo
|X|
t
− registro exp(−ηrt [j])x j

j=1

|X| |X|
= − t
x[i]ηrt [i] − registro
exp(−ηrt [j])x j
yo=1 yo=j

|X|
t
−ηrt , x − log =
exp(−ηrt [j])x j
j=1

|X|
−ηrt , x − log ≥ t (1 + η 2 − ηrt [j])
x j
j=1
−ηrt , x − log 1 + η = 2 xt − ηrt ,
≥ η rt , xt − rt , 2 x − η .
La primera desigualdad se sigue del hecho de que:
2 2.
exp(−ηrt [j]) ≤ 1 − ηrt [j] + η (rt [j])2 ≤ 1 − ηrt [j] + η
La segunda desigualdad se deriva del hecho de que log(1 + y) ≤ y para y > −1.
El resto de la prueba ahora sigue fácilmente. Por las condiciones de la base de datos/
secuencia de consulta (descrita en la hipótesis del Teorema 4.10 anterior), para cada t,
t
1. |pie(x) − pie(x )| ≥ α y
2. |vt − pie(x)| < α.
t t
Así, ft(x) < ft(x ft(x Lema ) si y solo si vt < ft(x ). En particular, rt = ft si
t t
4.12 ) − ft(x) ≥ α, y rt = 1 − ft si ft(x) − ft(x ) ≥ α. Por lo tanto, por
y la elección de η = α/2 como se describe en la regla de actualización,
α 2a _ α 2a _ 2a _

Ψt − Ψt+1 ≥ x − , ≥ (α) −
= .
rt , xt − rt
2 4 2 4 4
Finalmente sabemos:
2a _ 2a _
0 ≤ ΨL ≤ Ψ0 L ∙ ≤ registro |X | − L .
4 4
4 registro |X|
Resolviendo, encontramos: L ≤ α2 . Esto completa la prueba.
Ahora podemos combinar la regla de actualización de pesos multiplicativos con el
algoritmo NumericSparse para brindar un mecanismo interactivo de liberación de
consultas. Para (, 0) privacidad, esencialmente (con constantes algo peores) recuperamos
el límite para SmallDB. Para (, δ)privacidad diferencial, obtenemos mejores límites, en
virtud de poder utilizar el teorema de composición. Las consultas a NumericSparse
preguntan si la magnitud del error dado al estimar fi(x) aplicando fi a la aproximación actual
x antigua T, es decir, preguntan si |f(x) − f(x
t
to x está por encima de un umbral elegido apropiadamente
t
)| es largo. para técnico
t
razones por las que esto se hace preguntando acerca de ) (sin el absoluto
t
f(x)−f(x value) y acerca de ) − f(x). Recuerde que el algoritmo NumericSparse
f(x rithm responde con o algún valor (positivo) que exceda a T. Usamos el mnemotécnico
E para las respuestas para enfatizar que la consulta es preguntando por un error.
Teorema 4.13. El mecanismo de pesos multiplicativos en línea (a través de NumericSparse)
es (, 0) diferencialmente privado.
Algoritmo 6 El mecanismo de pesos multiplicativos en línea (a través de NumericSparse)
toma como entrada una base de datos privada x, un parámetro de privacidad , δ,
éteres parámetros de precisión α y β, y un flujo de consultas lineales {fi} que se
pueden elegir de forma adaptativa de una clase de consultas Q Genera un flujo de
respuestas {ai}.
OnlineMW a través de NumericSparse (x, {fi}, , δ, α, β) 4 log |X|
← α2 , si δ =Sea
0
c
entonces
Sea T ← || 18c(registro(2|Q|)+registro(4c/β))
x||1 más
2 4c
(2+32√ 2) c registro d (registro k+registro β )
Sea T ←
||x||1
terminara si
Inicializar NumericSparse(x, {f {f i }, T, c, , δ) con un flujo de consultas
i }, generando un flujo de respuestas Ei .
Sea t ← 0, y sea x para 0 ∆([X ]) satisface x i0 = 1/|X | para todo i [|X |].
cada consulta fi do
t
Sea f 2i−1 (∙) = fi(∙) − fi(x ).
t
Sea f 2i (∙) = fi(x ) − fi(∙)
si E2i−1 = y E2i = entonces
t
Sea ai = fi(x )
demás
si E2i−1 R entonces
t
Sea ai = fi(x ) + E2i−1
demás
t
Sea ai = fi(x ) − E2i
termina si
Sea x t+1 = MW(x t
, fi , ai)
Sea t ← t + 1.
terminara si
fin para
Prueba. Esto se deriva directamente del análisis de privacidad de Numeric Sparse,
porque el algoritmo OnlineMW accede a la base de datos solo a través de
NumericSparse.
Hablando informalmente, la prueba de utilidad para el mecanismo de pesos
multiplicativos en línea (a través de NumericSparse) utiliza el teorema de utilidad para
NumericSparse (Teorema 3.28) para concluir que, con alta probabilidad, la regla de
actualización de pesos multiplicativos solo se invoca cuando la consulta ft es
verdaderamente una consulta distintiva, es decir, )| es "grande", y las aproximaciones
t
|fi(x)−ft(x ruidosas liberadas para fi(x) son "precisas". Bajo este supuesto, podemos
aplicar el teorema de convergencia (Teorema 4.10) para concluir que el número total de
actualizaciones es pequeño y, por lo tanto, el algoritmo puede responder a todas las
consultas en Q.
Teorema 4.14. Para δ = 0, con una probabilidad de al menos 1−β, para todas las consultas,
el mecanismo de pesos multiplicativos en línea (a través de NumericSparse) fi
devuelve una respuesta ai tal que |fi(x) − ai | ≤ 3α para cualquier α tal que:
32 registro |
32 registro |X | log(|Q|) + log α X| α2β
≥ α2||
x||1
Prueba. Recuerde que, según el teorema 3.28, dadas k consultas y un número máximo c
de consultas por encima del umbral, NumericSparse es (α, β) preciso para cualquier α tal
que:
9c(log k + log(4c/β)) α ≥
.
En nuestro caso c = 4 log |X |/α2 yk = 2|Q|, y hemos estado normalizando, lo que reduce
α por un factor de ||x||1. Con esto en mente, podemos
llevar
32 registro |
32 registro |X | log(|Q|) + log α2|| X| α2β
α =
x||1
y observe que con este valor obtenemos T = 2α para el caso δ = 0.
Supongamos que estamos en este caso de probabilidad alta (1 − β). Entonces por
t
tal que fi activa una actualización, |fi(x) − fi(x orem 4.10, todo i )| ≥ T − α = α (La
condición 1). Por lo tanto, fi , ai forman un par válido de consultas/actualizaciones de
valores como se requiere en la hipótesis del Teorema 4.10 y así, por eso 4 log |X| teorema,
puede
haber como máximo c = tales pasos de actualización. α2
Además, aún por las propiedades de precisión del algoritmo Sparse Vector,
1. como máximo uno de E2i−1, E2i tendrá valor ;
2. para todo i tal que no se active ninguna actualización (ai = fi(x |fi(x) − t )) tenemos
t
fi(x )| ≤ T + α = 3α; y 3. para
todo i tal que se activa una actualización tenemos |fi(x)−ai | ≤ α (Teorema 4.10, condición
2).
Optimizando la expresión anterior para α y eliminando el factor de normalización,
encontramos que el mecanismo OnlineMW puede responder cada consulta lineal con una
precisión de 3α excepto con probabilidad β para:
1/3
32 registro |X|1/3 ||x||2/3
1
36 registro |X | registro(|Q|) + registro
β
α = ||x||2/3
1
que es comparable al mecanismo SmallDB.
Repitiendo el mismo argumento, pero utilizando en su lugar la utilidad el orema para
la versión (, δ)privada del vector disperso (teorema 3.28), obtenemos el siguiente teorema.
Teorema 4.15. Para δ > 0, con probabilidad de al menos 1−β, para todas las consultas fi ,
OnlineMW devuelve una respuesta ai tal que |fi(x) − ai | ≤ 3α para cualquier
a tal que:
2 32 registro |
(2 + 32√ 2) ∙ registro |X | registro δ
registro |Q| +
X| α2β
α ≥
registro α||x||1
Nuevamente, optimizando la expresión anterior para α y eliminando el factor de
normalización, encontramos que el mecanismo OnlineMW puede responder cada consulta
lineal con una precisión de 3α excepto con probabilidad β, para:
1/2
2
registro |Q| + registro
32||x||1
(2 + 32√ 2) ∙ log |X | registro δ β
α = ||x||1/2 1
lo que proporciona una mayor precisión (en función de ||x||1) que el mecanismo SmallDB.
Intuitivamente, la mayor precisión proviene de la naturaleza iterativa del mecanismo, lo que
nos permite aprovechar nuestros teoremas de composición para (, δ)privacidad. El
mecanismo SmallDB se ejecuta
en una sola toma, por lo que no hay oportunidad de aprovechar la composición.
La precisión del algoritmo privado de ponderaciones multiplicativas depende de
varios parámetros, que merecen una discusión más detallada. Al final, el algoritmo
responde a las consultas utilizando la técnica de vectores dispersos junto con un
algoritmo de aprendizaje para funciones lineales. Como demostramos en la última
sección, la técnica del vector disperso introduce un error que escala como O(c log k/(x1))
cuando se realizan un total de k consultas de sensibilidad 1/x1 , y como máximo c de ellas
pueden tener “por encima de "umbral antiguo", para cualquier umbral T. Recuerde que
estos términos de error surgen porque el análisis de privacidad para el algoritmo de vector
disperso nos permite "pagar" solo por las consultas de umbral anteriores y, por lo tanto,
puede agregar ruido O (c/( x1) ) a cada consulta. Por otro lado, dado que terminamos
agregando ruido de Laplace independiente con escala Ω(c/(x1)) a k consultas en total,
esperamos que el error máximo sobre todas las k consultas sea mayor por un log k factor.
Pero, ¿qué es c, y qué consultas debemos hacer? El algoritmo de aprendizaje de pesos
multiplicativos nos brinda una estrategia de consulta y una garantía de que no más de c =
O (log |X |/α2 ) consultas estarán por encima de un umbral de T = O(α), para cualquier α
(las consultas que hacemos siempre son: “¿En qué medida difiere la respuesta real de la
respuesta predicha de la hipótesis de los pesos multiplicativos actuales?” Las respuestas
a estas preguntas nos dan las respuestas verdaderas a las consultas, así como
instrucciones sobre cómo actualizar el algoritmo de aprendizaje adecuadamente cuando
una consulta está por encima del umbral). En conjunto, esto nos lleva a establecer el
umbral en O(α), donde α es la expresión que satisface: α = O (registro |X | log k/(x1α Esto
minimiza las dos fuentes de error: el error de la técnica del vector disperso y el error de
2
no actualizar la hipótesis de los pesos multiplicativos. )).
El mecanismo de liberación de consultas fuera de línea que se proporciona en esta
sección es de Blum et al. [8], que dio límites en términos de la dimensión VC de la clase
de consulta (Teorema 4.9). La generalización a la dimensión de destrucción de grasa se
da en [72].
El mecanismo de publicación de consultas en línea que se proporciona
en esta sección es de Hardt y Rothblum [44]. Este mecanismo utiliza el
método clásico de actualización de pesos multiplicativos, para el cual Arora,
Hazan y Kale brindan una excelente encuesta [1]. Gupta et al. proporcionaron
límites ligeramente mejorados para el mecanismo privado de pesos
multiplicativos. [39], y el análisis aquí sigue la presentación de [39].
5
generalizaciones
En esta sección generalizamos los algoritmos de liberación de consultas de la sección
anterior. Como resultado, obtenemos límites para consultas arbitrarias de baja
sensibilidad (no solo consultas lineales), así como nuevos límites para consultas
lineales. Estas generalizaciones también arrojan algo de luz sobre la conexión entre la
publicación de consultas y el aprendizaje automático.
El mecanismo de liberación de consultas fuera de línea de SmallDB en la Sección
4 es un caso especial de lo que llamamos el mecanismo de red. Vimos que ambos
mecanismos en esa sección producen bases de datos sintéticas, que proporcionan un
medio conveniente para aproximar el valor de cualquier consulta en Q en la base de
datos privada: simplemente evalúe la consulta en la base de datos sintética y tome el
resultado como la respuesta ruidosa. De manera más general, un mecanismo puede
producir una estructura de datos de forma arbitraria que, junto con un algoritmo público
fijo (independiente de la base de datos), proporciona un método para aproximar los
valores de las consultas.
El mecanismo Net es una generalización directa del mecanismo SmallDB: primero,
fije, independientemente de la base de datos real, una red α de estructuras de datos tal
que la evaluación de cualquier consulta en Q utilizando la estructura de datos liberada
proporcione una buena (dentro de un α aditivo). error) estimación del valor de la
consulta en la base de datos privada. A continuación, aplica
88
5.1. Mecanismos a través de redes α 89
el mecanismo exponencial para elegir un elemento de esta red, donde la función de calidad
minimiza el error máximo, sobre las consultas en Q, para los elementos de la red.
También generalizamos el algoritmo de pesos multiplicativos en línea para que podamos
instanciarlo con cualquier otro algoritmo de aprendizaje en línea para aprender una base de
datos con respecto a un conjunto de consultas. Observamos que dicho mecanismo se puede
ejecutar en línea o fuera de línea, donde el conjunto de consultas que se realizarán al
mecanismo "en línea" se selecciona en su lugar utilizando un "distinguidor privado", que
identifica las consultas en las que se basa la hipótesis actual del alumno. difiere sustancialmente
de la base de datos real. Estas son consultas que habrían producido un paso de actualización
en el algoritmo en línea. Un "distinguidor" resulta ser equivalente a un algoritmo de aprendizaje
agnóstico, que arroja luz sobre una fuente de dureza para mecanismos eficientes de liberación
de consultas.
En las siguientes secciones, discutiremos las estructuras de datos para las clases de
consultas Q.
Definición 5.1. Una estructura de datos D extraída de alguna clase de datos
estructuras D para una clase de consultas Q está implícitamente dotada de una función de
evaluación Eval : D × Q → R con la que podemos evaluar cualquier consulta en Q sobre D.
Sin embargo, para evitar el entorpecimiento de la notación, escribiremos simplemente f(D )
para denotar Eval(D, f) cuando el significado es claro por el contexto.
5.1 Mecanismos a través de redes α
Dada una colección de consultas Q, definimos una red α de la siguiente manera:
Definición 5.2 (αnet). Una red α de estructuras de datos con respecto a una clase de consultas
Q es un conjunto N N |X| tal que para todo x N |X|, existe un elemento del αnet y N
tal que:
máximo |f(x) − f(y)| ≤ a.
f Q
Escribimos Nα(Q) para denotar una red α de cardinalidad mínima entre el conjunto de todas
las redes α para Q.
90 generalizaciones
Es decir, para cada posible base de datos x, existe un miembro de la red α que
“se parece” a x con respecto a todas las consultas en Q, hasta una tolerancia de
error de α.
Las redes α pequeñas serán útiles para nosotros, porque cuando se combinan
con el mecanismo exponencial, conducirán directamente a mecanismos para
responder consultas con alta precisión. Dada una clase de funciones Q, definiremos
una instanciación del mecanismo exponencial conocido como mecanismo Net .
Primero observamos que el mecanismo Net preserva la privacidad diferencial ε.
Algoritmo 7 El mecanismo neto
RedMecanismo(x, Q, ε, α)
Sea R ← Nα(Q)
Sea q : N |X| × R → R se define como:
q(x, y) = − máx |f(x) − f(y)|
f Q
Muestra y salida y R con el mecanismo exponencial
YO(x, q, R)
Proposición 5.1. El mecanismo Net es (ε, 0) diferencialmente privado.
Prueba. El mecanismo Net es simplemente una instanciación del mecanismo
exponencial. Por lo tanto, la privacidad se sigue del Teorema 3.10.
De manera similar, podemos recurrir a nuestro análisis del mecanismo exponencial
para empezar a entender las garantías de utilidad del mecanismo Net:
Proposición 5.2. Sea Q cualquier clase de consultas de sensibilidad 1/x1 . Sea y la
salida de la base de datos de NetMechanism(x, Q, ε, α). Entonces con probabilidad
1 − β:
2 log (|Nα(Q)|) + log |f(x) 1 β
f Q − f(y)| ≤ α + .
máx. εx1
5.2. El mecanismo de construcción iterativo 91
1
Prueba. Al aplicar el Teorema 3.11 y notar que S(q) = que x1
, y
OPTq(D) ≤ α por la definición de una red α, encontramos:
2 −t
Pr máx |f(x) − f(y)| ≥ α + f Q (log (|Nα(Q)|) + t) ≤ e .
εx1
Conectando t = log 1 β
completa la prueba.
Por lo tanto, podemos ver que un límite superior en |Nα(Q)| para una
colección de funciones Q da inmediatamente un límite superior a la precisión
que un mecanismo diferencialmente privado puede proporcionar simultáneamente
para todas las funciones en la clase Q.
Esto es exactamente lo que hicimos en la Sección 4.1, donde vimos que
la cantidad clave es la dimensión VC de Q, cuando Q es una clase de consultas
lineales.
5.2 El mecanismo de construcción iterativo
En esta sección, derivamos una generalización fuera de línea del algoritmo privado
de pesos multiplicativos, que se puede instanciar con cualquier algoritmo de
aprendizaje definido correctamente. De manera informal, un algoritmo de
actualización de la base de datos mantiene una secuencia de , D2 , . . . eso
estructuras de datos D1 que dan aproximaciones cada vez mejores a la base de
datos de entrada x (en un sentido que depende del algoritmo de actualización de la
base de datos). Además, estos mecanismos producen la siguiente estructura de
datos en la secuencia al considerar solo una consulta f que distingue la base de
datos real en el sentido de que f(Dt ) difiere significativamente de f(x). El algoritmo
de esta sección muestra que, hasta pequeños factores, resolver el problema de
consulta y liberación de una manera diferencialmente privada es equivalente a
resolver el problema más simple de aprendizaje o distinción de una manera
diferencialmente privada: dado un algoritmo de distinción privado y un problema no
diferenciado. algoritmo de actualización de base de datos privada, obtenemos un
algoritmo de liberación privado correspondiente. Podemos conectar el mecanismo
exponencial como un distinguidor privado canónico, y el algoritmo de pesos
multiplicativos como un algoritmo de actualización de base de datos genérico para
la configuración de consulta lineal general, pero en casos especiales son posibles distinguidores más eficientes.
92 generalizaciones
Sintácticamente, consideraremos funciones de la forma U : D×Q×R → D, donde D
representa una clase de estructuras de datos sobre las cuales se pueden evaluar consultas
en Q. Las entradas a U son una estructura de datos en D, que representa la estructura de
datos actual Dt ; una consulta f, que representa la consulta distintiva, y puede estar restringida
a un determinado conjunto Q; y también un número real, que estima f(x). Formalmente,
definimos una secuencia de actualización de base de datos para capturar la secuencia de
entradas a U utilizada para generar la secuencia de base de datos D1
, D2 , . . ..
Definición 5.3 (Secuencia de actualización de la base de datos). Sea x N |X| sea cualquier
L
base de datos y sea (Dt , ft , vt) una secuencia de tuplas.
(D × Q
D
ecimos
× R) que la secuencia es una
t=1,...,L
secuencia de actualización de base de datos (U, x, Q, α, T) si cumple las siguientes
propiedades:
1. D1 = U( , ∙, ∙), 2.
para todo t = 1, 2, . . . , L, ft(x) − ft(Dt ) ≥ α, 3. para todo t = 1,
2, . . . , L, |ft(x) − vt | < α, L − 1, Dt+1 = U(Dt , ft , vt). 4. y
para todo t = 1, 2, . . . ,
Notamos que para todos los algoritmos de actualización de bases de datos que
consideramos, la respuesta aproximada vt se usa solo para determinar el signo de ft(x)−
ft(Dt ), que es la motivación para requerir que la estimación de ft(x) ( vt) tienen un error
menor que α. La principal medida de eficiencia que nos interesa de un algoritmo de
actualización de base de datos es el número máximo de actualizaciones que necesitamos
realizar antes de que la base de datos Dt se aproxime x bien con respecto a las consultas
en Q. Con este fin, definimos un algoritmo de actualización de base de datos como sigue:
Definición 5.4 (Algoritmo de actualización de base de datos). Sea U : D × Q × R → D una
regla de actualización y sea T : R → R una función. Decimos que U es un algoritmo de
actualización de base de datos T(α) para la clase de consulta Q si para cada base de datos
x N |X|, cada secuencia de actualización de base de datos (U, x, Q, α, L) satisface L ≤ T(α ).
Tenga en cuenta que la definición de un algoritmo de actualización de base de datos
T(α) implica que si U es un algoritmo de actualización de base de datos T(α), dada cualquier
secuencia máxima de actualización de base de datos (U, x, Q, α, U), la base de datos definitiva
DL debe satisfacer maxf Q f(x) − f(DL) ≤ α o de lo contrario existiría
otra consulta que satisfaga la propiedad 2 de la Definición 5.3, y por lo tanto existiría una (U, x,
Q, α, L + 1)secuencia de actualización de la base de datos, contradiciendo la maximalidad. Es
decir, el objetivo de una regla de actualización de base de datos T(α) es generar una secuencia
de actualización de base de datos máxima, y la estructura de datos final en una secuencia de
actualización de base de datos máxima necesariamente codifica las respuestas aproximadas a
cada consulta f Q.
Ahora que hemos definido los algoritmos de actualización de la base de datos, podemos
señalar que lo que realmente probamos en el teorema 4.10 fue que el algoritmo de pesos
multiplicativos es un algoritmo de actualización de la base de datos T(α) para T(α) = 4 log |X |/
α2 .
Antes de continuar, desarrollemos una cierta intuición de lo que es un algoritmo de
actualización de base de datos. Un algoritmo de actualización de base de datos T(α) comienza
con una suposición inicial D1 sobre cómo se ve la verdadera base de datos x .
Debido a que esta conjetura no se basa en ninguna información, es bastante probable que D1
y x se parezcan poco, y que haya algo de f Q que sea capaz de distinguir entre estas dos
bases de datos por al menos α: es decir, que f( x) yf (D1 ) difieren en valor por al menos α. Lo
que hace un algoritmo de actualización de base de datos es actualizar su hipótesis Dt dada la
evidencia de que su hipótesis actual Dt−1 es incorrecta: en cada etapa, toma como entrada
alguna consulta en Q que distingue su hipótesis actual de la verdadera base de datos, y luego
genera una nueva hipótesis. El parámetro T(α) es un límite superior en el número de veces que
el algoritmo de actualización de la base de datos tendrá que actualizar su hipótesis: es una
promesa de que después de que se hayan proporcionado como máximo T(α) consultas
distintivas, el algoritmo finalmente han producido una hipótesis que se parece a la verdadera
base de datos con respecto a Q, al menos hasta el error α. algoritmo de actualización, los límites
más pequeños T (α) son más deseables.
1 para una base de datos
Algoritmos de actualización de bases de datos y algoritmos de aprendizaje en línea: destacamos
que los algoritmos de actualización de bases de datos son esencialmente aprendizaje en línea
1
Imagine que el algoritmo de actualización de la base de datos intenta esculpir x a partir de una base de
bloque de arcilla. Inicialmente, su escultura D es 1 datos que no se parece en nada a la verdadera base de datos:
simplemente un bloque de arcilla. Sin embargo, un distintivo útil señala al escultor los lugares en los que la
arcilla sobresale mucho más que la verdadera base de datos de destino: el escultor palpa diligentemente esos
bultos. Si el distinguidor siempre encuentra grandes protuberancias, de magnitud al menos α, la escultura estará
terminada pronto, ¡y el distinguidor no perderá el tiempo!
94 generalizaciones
algoritmos en el modelo de límite de error. En el entorno del aprendizaje en línea, los
ejemplos sin etiquetar llegan en un orden arbitrario y el algoritmo de aprendizaje debe
intentar etiquetarlos.
Antecedentes de la teoría del aprendizaje. En el modelo de aprendizaje limitado por
error, los ejemplos etiquetados (xi , yi) X × {0, 1} llegan uno a la vez, en un orden
potencialmente antagónico. En el tiempo i, el algoritmo de aprendizaje A observa xi y
debe hacer una predicción
, yî sobre la etiqueta para xi . Luego ve la etiqueta verdadera
yi , y se dice que comete un error si su predicción fue incorrecta: es decir, si yi = ̂yi .
Se dice que un algoritmo de aprendizaje A para una clase de funciones C tiene un
límite erróneo de M, si para todo f C, y para todas las secuencias de ejemplos
seleccionadas adversariamente (x1, f(x1)), . . . ,(xi , f(xi)), . . ., A nunca comete más
de M errores.
Sin pérdida de generalidad, podemos pensar en un algoritmo de aprendizaje como el
que mantiene alguna hipótesis ̂f : X → {0, 1} en todo momento, y la actualiza solo
cuando comete un error. El adversario en este modelo es bastante poderoso: puede
elegir la secuencia de ejemplos etiquetados de forma adaptativa, conociendo la
hipótesis actual del algoritmo de aprendizaje y su historial completo de predicciones.
Por lo tanto, los algoritmos de aprendizaje que tienen límites de error finitos pueden
ser útiles en entornos extremadamente generales.
No es difícil ver que los algoritmos de aprendizaje en línea limitados por error
siempre existen para clases finitas de funciones C. Considere, por ejemplo, el
algoritmo de reducción a la mitad. El algoritmo de reducción a la mitad inicialmente
mantiene un conjunto S de funciones de C consistente con los ejemplos que ha visto
hasta ahora: Inicialmente S = C. Cada vez que llega un nuevo ejemplo sin etiquetar,
predice de acuerdo con el voto mayoritario de sus hipótesis consistentes: es decir ,
predice la etiqueta 1 siempre que |{f S : f(xi) = 1}| ≥ |S|/2.
, actualiza S por eliminación
Siempre que se equivoque en un ejemplo xi ing cualquier
función inconsistente: S ← {f S : f(xi) = yi}. Tenga en cuenta que cada vez que
comete un error, ¡el tamaño de S se reduce a la mitad! Siempre que todos los
ejemplos estén etiquetados por alguna función f C, hay al menos una función f
C que nunca se elimina de S. Por lo tanto, el algoritmo de reducción a la mitad tiene
un límite erróneo de log |C|.
Generalizando más allá de las etiquetas booleanas, podemos ver los algoritmos de
actualización de bases de datos como algoritmos de aprendizaje en línea en el modelo de límite de error:
aquí, los ejemplos que llegan son las consultas (que pueden venir en orden
adversario). Las etiquetas son los valores aproximados de las consultas cuando
se evalúan en la base de datos. La hipótesis del algoritmo de actualización de la
base de datos Dt comete un error en la consulta f si |f(Dt ) − f(x)| ≥ α, en cuyo
caso aprendemos la etiqueta de f (es decir, vt) y permitimos que el algoritmo de
actualización de la base de datos actualice la hipótesis. Decir que un algoritmo U
es un algoritmo de actualización de base de datos T(α) es similar a decir que
tiene un límite erróneo de T(α): ninguna secuencia de consultas elegida por el
adversario puede hacer que genere más de T(α) errores. De hecho, los algoritmos
de actualización de bases de datos que veremos están tomados de la literatura
de aprendizaje en línea. El mecanismo de pesos multiplicativos se basa en un
algoritmo de aprendizaje en línea conocido como Hedge, que ya hemos comentado.
El mecanismo de la mediana (más adelante en esta sección) se basa en el
algoritmo de reducción a la mitad, y el algoritmo de Perceptron se basa
(casualmente) en un algoritmo conocido como Perceptron. No hablaremos de
Perceptron aquí, pero funciona haciendo actualizaciones aditivas , en lugar de
las actualizaciones multiplicativas que usan los pesos multiplicativos.
Un algoritmo de actualización de base de datos para una clase Q será útil
junto con un distintivo correspondiente, cuyo trabajo es generar una función que
se comporte de manera diferente en la verdadera base de datos x y la hipótesis ,
Dt , es decir, para señalar un error.
Definición 5.5 ((F(ε), γ)Distinguidor privado). Sea Q un conjunto de consultas,
sea γ ≥ 0 y sea F(ε) : R → R una función. Un algoritmo Distingueε : N |X| × D →
Q es un distintivo privado (F(ε), γ) para Q si para cada configuración del
parámetro de privacidad ε, en cada par de entradas x N |X| D D es (ε, 0)
, Q tal que |f (x) − f (D)| ≥ con respecto a x y
diferencialmente privado con
F(ε) con probabilidad de al menos 1 − γ. genera un f maxf Q |f(x) − f(D)| −
Observación 5.1. En el aprendizaje automático, el objetivo es encontrar una
función f : X → {0, 1} de una clase de funciones Q que etiquete mejor una
colección de ejemplos etiquetados (x1, y1), . . . ,(xm, ym) X × {0, 1}. (Los
ejemplos (x, 0) se conocen como ejemplos negativos y los ejemplos (x, 1) se
conocen como ejemplos positivos). Cada ejemplo xi tiene una y una funcion
etiqueta verdadera yi , f etiqueta correctamente a xi si f(xi) = yi . Un algoritmo de
aprendizaje agnóstico para una clase Q es un algoritmo que puede encontrar la función en Q que etiqueta
96 generalizaciones
todos los puntos de datos aproximadamente así como la mejor función en Q, incluso si
ninguna función en Q puede etiquetarlos perfectamente. Tenga en cuenta que, de
manera equivalente, un algoritmo de aprendizaje agnóstico es aquel que maximiza el
número de ejemplos positivos etiquetados como 1 menos el número de ejemplos
negativos etiquetados como 1. Expresado de esta manera, podemos ver que un
distintivo como se definió anteriormente es solo un algoritmo de aprendizaje agnóstico . :
imagine que x contiene todos los ejemplos "positivos" y que y contiene todos los
"ejemplos negativos". (Tenga en cuenta que está bien que x e y no sean disjuntos: en
el problema de aprendizaje, el mismo ejemplo puede ocurrir con una etiqueta tanto
positiva como negativa, ya que el aprendizaje agnóstico no requiere que ninguna
función etiquete perfectamente cada ejemplo). , tenga en cuenta también que para las
clases de consultas lineales Q, un distintivo es simplemente un algoritmo de
optimización. Porque para consultas lineales f, f(x) − f(y) = f(x − y), un distinguidor
simplemente busca encontrar arg maxf Q |f(x − y)|.
Tenga en cuenta que, a priori, un distintivo diferencialmente privado es un objeto
más débil que un algoritmo de liberación diferencialmente privado: un distintivo
simplemente encuentra una consulta en un conjunto Q con el valor aproximadamente
más grande, mientras que un algoritmo de liberación debe encontrar la respuesta a
cada consulta en Q En el algoritmo que sigue, sin embargo, reducimos la liberación a la optimización.
Primero analizaremos el algoritmo IC y luego lo instanciaremos con un distintivo
específico y un algoritmo de actualización de la base de datos. Lo que sigue es un
análisis formal, pero la intuición del mecanismo es simple: simplemente ejecutamos el
algoritmo iterativo de construcción de la base de datos para construir una hipótesis
que coincida aproximadamente con x con respecto a las consultas Q. Si en cada ronda
nuestro distinguidor logra encontrar un consulta que tiene una gran discrepancia entre
la base de datos de hipótesis y la base de datos verdadera, entonces nuestro algoritmo
de actualización de la base de datos generará una base de datos que es βprecisa con
respecto a Q. Si el distinguidor alguna vez falla en encontrar tal consulta, entonces
debe ser que hay no existen tales consultas, y nuestro algoritmo de actualización de la
base de datos ya ha aprendido una hipótesis precisa con respecto a las consultas de
interés. Esto requiere como máximo T iteraciones, por lo que accedemos a los datos
solo 2T veces usando (ε0, 0) métodos privados diferencialmente (ejecutando el distintivo
dado y luego verificando su respuesta con el mecanismo de Laplace). Por lo tanto, la
privacidad se derivará de nuestros teoremas de composición.
Algoritmo 8 El mecanismo de construcción iterativa (IC). Toma como entrada un
parámetro ε0, un (F(ε0), γ)Private Distinguir Distinguir para Q, junto con un
algoritmo de actualización de base de datos iterativo T(α) U para Q.
IC(x, α, ε0, Distingue, U): Sea
D0 = U( , ∙, ∙). para t
= 1 a T(α/2) do Sea f (t)
= Distinguir(x, Dt−1 )
Sea vˆ (t) = f (t) (x) + Lap si 1 .
x1ε0
|vˆ (t) − f (t) (Dt−1 )| < 3α/4 entonces
Salida y = Dt−1 .
demás
Sea Dt = U(Dt−1 , f(t) , vˆ (t) ).
terminar si
terminar para
Salida y = DT(α/2) .
El análisis de este algoritmo consiste simplemente en comprobar los
detalles técnicos de una simple intuición. La privacidad seguirá porque el
algoritmo es solo la composición de 2T(α) pasos, cada uno de los cuales es (ε0,
0) diferencialmente privado. La precisión sigue porque siempre estamos
generando la última base de datos en una secuencia máxima de actualización de la base de datos.
Si el algoritmo aún no ha formado una secuencia de actualización de base de
datos máxima, entonces el algoritmo de distinción encontrará una consulta de
distinción para agregar otro paso a la secuencia.
Teorema 5.3. El algoritmo IC es (ε, 0)diferencialmente privado para ε0 ≤ ε/2T(α/
2). El algoritmo IC es (ε, δ)diferencialmente privado para ε0 ≤ 4 √ T(α/2) log(1/δ)
ε .
Prueba. El algoritmo ejecuta como máximo composiciones 2T(α/2) de algoritmos
diferencialmente privados ε0 . Recuerde del Teorema 3.20 que los algoritmos
ε0 diferencialmente privados son 2kε0 diferencialmente privados bajo una
composición de 2k veces, y son (ε, δ) privados para ε = 4k ln(1/δ)ε0 + 2kε0(e ε0
−1). Reemplazar los valores indicados para ε0 prueba la afirmación.
98 generalizaciones
Teorema 5.4. Dado un distintivo privado (F(ε), γ), un parámetro ε0 y un algoritmo
de actualización de base de datos T(α), con probabilidad de al menos 1−β, el
algoritmo IC devuelve una base de datos y tal que: maxf Q |f(x)−f(y)| ≤ α para
cualquier α tal que donde:
8 log(2T(α/2)/β)
α ≥ máx. , 8F (ε0)
ε0x1
siempre que γ ≤ β/(2T(α/2)).
Prueba. El análisis es sencillo.
Recuerda que si Yi Lap(1/(εx1)), tenemos: Pr[|Yi | ≥ t/(εx1)] = exp(−t). Por
unión unida, si Y1, . . . , Yk Lap(1/(εx1)), luego Pr[maxi |Yi | ≥ t/(εx1)] ≤ k exp(−t).
Por lo tanto, debido a que hacemos como máximo T(α/2) extracciones de Lap(1/
(ε0x1)), excepto con probabilidad como máximo β/2, para todo t:
1 2T(α/2) α
|vˆ (t) − f (t) (x)| ≤ log ≤ .
β ε0x1 8
Tenga en cuenta que por supuesto, γ ≤ β/(2T(α/2)), por lo que también tenemos eso
excepto con probabilidad β/2:
|f (t) (x) − f (t) (Dt−1 )| ≥ máx |f(x) − f(Dt−1 )| − F(ε0)
f Q
α
≥ máx |f(x) − f(Dt−1 )| − .
f Q 8
Para el resto del argumento, condicionaremos a que ocurran ambos eventos, que
es el caso excepto con probabilidad β.
Hay dos casos. Se emite una estructura de datos D = DT(α/2) , o se emite
una estructura de datos D = Dt para t < T(α/2) . Primero, supongamos que D =
DT(α/2). Ya que para todo t < T(α/2) debe haber sido el caso que |vˆ (t) − f (t)
(Dt−1 )| ≥ 3α/4 y por nuestro condicionamiento, |vˆ (t) − f (t) (x)| ≤ sabemos para
α
todo t: |f (t) (x)
8 , − f (t) (Dt−1 )| ≥ α/2. Por lo tanto, la secuencia (Dt , f(t) , vˆ (t) ), formó
una máxima (U, x, Q, α/2, T(α/2)) Secuencia de actualización de la base de datos
(recuerde la Definición 5.3), y tenemos que maxf Q |f(x) − f(x )| ≤ α/2 según se
desee.
A continuación, suponga que D = Dt−1 para t < T(α/2). Entonces debe haber
sido el caso que para t, |vˆ (t) − f (t) (Dt−1 )| < 3α/4. Por nuestro condicionamiento, en
en este caso debe ser que |f (t) (x)−f (t) (Dt−1 )| < por las 7α y que por lo tanto 8 ,
propiedades de un (F(ε0), γ)distinguidor:
7α
f Q |f(x) − f(D )| < + F(ε0) ≤ α
máx. 8
como se desee.
Note que podemos usar el mecanismo exponencial como un distintivo privado: tome
el dominio como Q, y deje que el puntaje de calidad sea: q(D, f) = |f(D) − f(Dt )|, que tiene
sensibilidad 1/x1. Aplicando el teorema de la utilidad del mecanismo exponencial,
obtenemos:
Teorema 5.5. El mecanismo exponencial es un distintivo (F(ε), γ) para:
2 |P|
F(ε) = registro .
x1ε γ
Por lo tanto, usando el mecanismo exponencial como distintivo, el Teorema 5.4 da:
Teorema 5.6. Dado un algoritmo de actualización de base de datos T(α) y un parámetro
ε0 junto con el mecanismo exponencial distintivo, con probabilidad de al menos 1 − β, el
algoritmo IC devuelve una base de datos y tal que: maxf Q |f(x) − f (y)| ≤ α donde:
8 log(2T(α/2)/β) dieciséis
|P|
α ≤ máx. , registro
ε0x1 x1ε0 γ
Conectando nuestros valores de ε0:
Teorema 5.7. Dado un algoritmo de actualización de base de datos T(α), junto con el
mecanismo exponencial distintivo, el mecanismo IC es εdiferencialmente privado y con
una probabilidad de al menos 1 − β, el algoritmo IC devuelve una base de datos y tal que:
maxf Q | f(x)−f(y)| ≤ α donde:
8T(a/2) a |P|
≤ registro
x1ε γ
100 generalizaciones
y (ε, δ)privado diferencialmente para:
16 T(α/2) log(1/δ) α ≤ |P|
registro
x1ε γ
Tenga en cuenta que en el lenguaje de esta sección, lo que demostramos en el
Teorema 4.10 fue exactamente que el algoritmo de pesos multiplicativos es un algoritmo de
4 registro |X|
actualización de base de datos T(α) para T(α) = α2 . Reemplazando este límite en el
Teorema 5.7 recupera el límite que obtuvimos para el algoritmo de pesos multiplicativos en
línea. Tenga en cuenta que ahora, sin embargo, también podemos conectar otros algoritmos
de actualización de bases de datos.
5.2.1 Aplicaciones: otros algoritmos de actualización de bases de datos
Aquí damos varios otros algoritmos de actualización de bases de datos. El primero funciona
directamente desde αnets y, por lo tanto, puede obtener límites no triviales incluso para
consultas no lineales (a diferencia de los pesos multiplicativos, que solo funcionan para
consultas lineales). El segundo es otro algoritmo de actualización de base de datos para
consultas lineales, pero con límites incomparables a los pesos multiplicativos.
(En general, producirá mejores límites cuando el conjunto de datos tenga un tamaño cercano
al tamaño del universo de datos, mientras que las ponderaciones multiplicativas darán
mejores límites cuando el conjunto de datos sea mucho más pequeño que el universo de
datos).
Primero discutimos el mecanismo de la mediana, que aprovecha las redes α. El
mecanismo mediano no opera en bases de datos, sino en estructuras de datos medianos:
Definición 5.6 (Estructura de datos mediana). Una estructura de datos mediana D es una
colección de bases de datos: D N |X|. Cualquier consulta f puede evaluarse en una
estructura de datos mediana de la siguiente manera: f(D) = Median({f(x) : x D}).
En palabras, una estructura de datos mediana es solo un conjunto de bases de datos.
Para evaluar una consulta en él, simplemente evaluamos la consulta en cada base de datos
del conjunto y luego devolvemos el valor medio. Tenga en cuenta que las respuestas dadas
por la estructura de datos mediana no necesitan ser consistentes con ninguna base de datos.
Sin embargo, tendrá la propiedad útil de que siempre que haga una
error, descartará al menos la mitad de los conjuntos de datos en su colección como
inconsistentes con el verdadero conjunto de datos.
El mecanismo mediano es entonces muy simple:
Algoritmo 9 La regla de actualización del mecanismo mediano (MM). Ingresa y genera
una estructura de datos mediana. Se instancia con una red α Nα(Q) para una clase
de consulta Q, y su estado inicial es D = Nα(Q)
MMα,Q(Dt , ft , vt): si
Dt = entonces
Salida D0 ← Nα(Q).
terminara si
si vt < ft(Dt ) entonces
Salida Dt+1 ← Dt \ {x D : ft(x) ≥ ft(Dt )}.
demás
Salida Dt+1 ← Dt \ {x D : pies(x) ≤ pies(Dt )}. terminara
si
La intuición del mecanismo de la mediana es la siguiente. mantiene
un conjunto de bases de datos que son consistentes con las respuestas a la dis
preguntas incisivas que ha visto hasta ahora. Cada vez que recibe una consulta y una
respuesta que difiere sustancialmente de la base de datos real, se actualiza para
eliminar todas las bases de datos que son inconsistentes con la base de datos.
nueva información. Debido a que siempre elige su respuesta como la base de datos
mediana entre el conjunto de bases de datos consistentes que mantiene, ¡cada paso
de actualización elimina al menos la mitad de las bases de datos consistentes!
Además, debido a que el conjunto de bases de datos que elige inicialmente es una
red α con respecto a Q, siempre hay alguna base de datos que nunca se elimina,
porque permanece consistente en todas las consultas. Esto limita la cantidad de
rondas de actualización que puede realizar el mecanismo. ¿Cómo funciona el
mecanismo de la mediana?
Teorema 5.8. Para cualquier clase de consultas Q, The Median Mechanism es un
algoritmo de actualización de base de datos T(α) para T(α) = log |Nα(Q)|.
Prueba. Debemos demostrar que cualquier sucesión {(Dt , ft , vt)}t=1,...,L con la
propiedad de que |f t (Dt ) − f L t (x)| > α y |vt − f t
(x)| < α no puede tener
> log |Nα(Q)|. Primero observe que debido a que D0 = Nα(Q) es una red α
para Q, por definición, hay al menos una y tal que y Dt para todo t (Recuerde que la
regla de actualización solo se invoca en consultas con un error de al menos α. Como se
garantiza que habrá una base de datos y que tiene un error menor que α en todas las
consultas, nunca se elimina con un paso de actualización). Así, siempre podemos
responder consultas con Dt y para todo t, |Dt | ≥ 1. A, continuación observe que para cada
t, |Dt | ≤ |Dt−1 |/2. Esto se debe a que cada paso de actualización elimina al menos la mitad
de los elementos: todos los elementos al menos tan grandes como el elemento mediano
en Dt con respecto a la consulta ft . Por lo tanto, después de los pasos de actualización de
L
L , |DL| ≤ 1/2 ∙ |Nα(Q)|.
Ajuste L > log |Nα(Q)| da |DL| < 1, una contradicción.
Observación 5.2. Para las clases de consultas lineales Q, podemos referirnos al límite
superior de Nα(Q) dado en el Teorema 4.2 para ver que el Mecanismo de la Mediana es
un algoritmo de actualización de la base de datos T(α) para T(α) = log |Q| registro |X |/α2 .
Esto es peor que el límite que le dimos al algoritmo de pesos multiplicativos por un factor
de log |Q|. Por otro lado, nada en el algoritmo del mecanismo mediano es específico para
consultas lineales: funciona igual de bien para cualquier clase de consultas que admita una
red pequeña. Podemos aprovechar este hecho para consultas no lineales de baja
sensibilidad.
Tenga en cuenta que si queremos un mecanismo que prometa privacidad (ε, δ) para
δ > 0, ni siquiera necesitamos una red particularmente pequeña. De hecho, la red trivial
que simplemente incluye todas las bases de datos de tamaño x1 será suficiente:
Teorema 5.9. Para cada clase de consultas Q y cada α ≥ 0, existe una red α para bases de
datos de tamaño x1 = n de tamaño Nα(Q) ≤ |X |n .
Prueba. Simplemente podemos dejar que Nα(Q) sea el conjunto de todas las |X |n bases
de datos y de tamaño y1 = n. Entonces, para todo x tal que x1 = n, tenemos x Nα(Q), y
así claramente: miny Nα(Q) maxf Q |f(x) − f(y)| = 0.
Podemos usar este hecho para obtener algoritmos de liberación de consultas para
consultas arbitrarias de baja sensibilidad, no solo para consultas lineales. Aplicando el
Teorema 5.7 a la cota anterior, encontramos:
Teorema 5.10. Utilizando el mecanismo de la mediana, junto con el mecanismo
exponencial distintivo, el mecanismo IC es (ε, δ) diferencialmente privado y con
probabilidad de al menos 1 − β, el algoritmo IC devuelve una base de datos y tal que:
maxf Q |f( x)−f(y)| ≤ α donde:
2|Q|n registro |X|
16 registro |X | 1 δ
registro
β
registro α ≤ ,
√ no
donde Q puede ser cualquier familia de consultas de sensibilidad 1/n , no necesariamente
lineal.
Prueba. Esto se sigue simplemente combinando los teoremas 5.8 y 5.9 para encontrar
que el mecanismo de la mediana es un algoritmo de actualización de base de datos T(α)
para T(α) = n log |X | para bases de datos de tamaño x1 = n para cada α > 0 y cada
clase de consultas Q. Reemplazando esto en el Teorema 5.7 se obtiene el límite deseado.
Tenga en cuenta que este límite es casi tan bueno como el que pudimos lograr para
el caso especial de consultas lineales en el teorema 4.15. Sin embargo, a diferencia del
caso de las consultas lineales, debido a que las consultas arbitrarias pueden no tener
redes α que son significativamente más pequeñas que la red trivial utilizada aquí, no
podemos obtener garantías de precisión no trivial si queremos (ε, 0) privacidad
diferencial .
El siguiente algoritmo de actualización de la base de datos que presentamos es
nuevamente para consultas lineales, pero logra límites incomparables a los del algoritmo
de actualización de la base de datos de pesos multiplicativos. Se basa en el algoritmo
Perceptron del aprendizaje en línea (al igual que los pesos multiplicativos se derivan del
algoritmo de cobertura del aprendizaje en línea). Como el algoritmo es para consultas
lineales, tratamos cada consulta ft Q como un vector ft [0, 1]|X|. Tenga en cuenta
que en lugar de hacer una actualización multiplicativa,
Algoritmo 10 La regla de actualización de Perceptron
t
Perceptrónα,Q(x , pies , vt):
t
Si: x = entonces: salida x t+1 = 0|X|
t t+1 t = x − α
De lo contrario si: ft(x ) > vt entonces: salida x ∙ pies
|X|
t t+1 = x t + α
De lo contrario si: ft(x ) ≤ vt entonces: salida x ∙ pies
|X|
como en el algoritmo de actualización de la base de datos MW, aquí hacemos una
actualización aditiva. En el análisis, veremos que este algoritmo de actualización de la
base de datos tiene una dependencia exponencialmente peor (en comparación con los
pesos multiplicativos) del tamaño del universo, pero una dependencia superior del tamaño
de la base de datos. Por lo tanto, logrará un mejor rendimiento para las bases de datos
que son grandes en comparación con el tamaño del universo de datos y un peor
rendimiento para las bases de datos que son pequeñas en comparación con el tamaño
del universo de datos.
Teorema 5.11. Perceptron es un algoritmo de actualización de base de datos T(α) para:
2
x2 ∙ |X | .
T(a) =
x1 α2
Prueba. A diferencia de los pesos multiplicativos, será más conveniente analizar el
algoritmo de Perceptron sin normalizar la base de datos para que sea una distribución de
probabilidad y luego probar que es una base de datos T(α ) |X|
2
X 2
algoritmo de actualización para T(α ) = α2 . Reemplazando α = αx1 completará la prueba.
Recuerde que dado que cada consulta ft es lineal, podemos ver ft [0, 1]|X| como un
vector con la evaluación de ft(x) siendo igual a ft , Debemos mostrar que cualquier
X.
t
secuencia {(x erty que |ft(x L > Usamos un , ft , vt)}t=1,...,L con la utilería
t
argumento potencial ) − pies(x)| > α y |vt − ft(x)| < α no puede tener
X 2 |X|
2
para α2 .
mostrar que para cada t = 1, 2, . . . , L, t+1 está significativamente más cerca de x
X que de la norma x de la base de datos x − x t
. Específicamente, nuestra función potencial
2 ción es la L t
2 , definida como
= 2
x(yo) .
2
X
2
i X
Observe que x − x 2 1 2 = x 2 1 desde x = 0, yx 2

2 2
≥ 0. Por lo tanto,
basta con mostrar que en cada paso, el potencial disminuye en α 2/|X |.
t
Analizamos el caso donde ft(x el análisis para , contrario será similar. Sea Rt = x −
) > vetl caso
x. Observe que en este caso tenemos t
t t
pies(R ) = pie(x ) − pies(x) ≥ α .
Ahora podemos analizar la caída de potencial.
t 2
R 2 − R 2 t+1 2 = R 2 t 2 − R t
− (α /|X |) ∙ pies t
2
2
= t
((R (i))2 − (R (i) − (α /|X |) ∙ ft(i))2 )
i X
2α 2a _
2
= ∙ R t (i)ft(i) − ft(i)
i X
|X | |X |2
2α t
2a _
2
= ) pies(i)
|X |pies(R |X |2 i X
2α t
2a _
≥ ) |X |
|X |pies(R |X |2
2 2a _ 2a _
2α ≥
− =
|X | |X | |X |.
2
Esto limita el número de pasos por x prueba. 2 |X |/α2 , y completa el
Ahora podemos sustituir este límite en el Teorema 5.7 para obtener el siguiente
Límite inferior en el mecanismo de construcción iterativo:
Teorema 5.12. Usando el algoritmo de actualización de la base de datos del perceptrón,
junto con el mecanismo exponencial distintivo, el mecanismo IC es (ε, δ)
diferencialmente privado y con una probabilidad de al menos 1 − β, el algoritmo IC
devuelve una base de datos y tal que: maxf Q | f(x)−f(y)| ≤ α donde:
2
2)
4 √ 4 x2 (4|X | ln(1/δ))1/4 log(2|QX|∙x √ x1 donde
β Q
α ≤ ,
es una
clase de consultas lineales.
Si la base de datos x representa el conjunto de aristas de un gráfico, por ejemplo,
tendremos xi [0, 1] para todo i, y así:
x2 1 3/4
≤ .
x1 x1
Por lo tanto, el algoritmo de actualización de la base de datos de perceptrones superará al
algoritmo de actualización de la base de datos de pesos multiplicativos en gráficos densos.
5.2.2 Mecanismos de construcción iterativos y algoritmos en línea
En esta sección, generalizamos el marco de construcción iterativo a la configuración en
línea mediante el uso del algoritmo NumericSparse. El algoritmo de pesos multiplicativos
en línea que vimos en el último capítulo es una instancia de este enfoque. Una forma de
ver el algoritmo en línea es que el algoritmo NumericSparse está sirviendo como el
distintivo privado en el marco de IC, pero que el "trabajo duro" de distinguir está siendo
impuesto al usuario desprevenido. Es decir: si el usuario hace una consulta que no sirve
como una buena consulta distintiva, este es un buen caso. No podemos usar el algoritmo
de actualización de la base de datos para actualizar nuestra hipótesis, ¡pero no es
necesario! Por definición, la hipótesis actual es una buena aproximación a la base de
datos privada con respecto a esta consulta. Por otro lado, si el usuario hace una consulta
para la cual nuestra hipótesis actual no es una buena aproximación a la verdadera base
de datos, entonces, por definición, el usuario ha encontrado una buena consulta distintiva,
y nuevamente estamos en un buen caso: podemos ejecutar ¡el algoritmo de actualización
de la base de datos para actualizar nuestra hipótesis!
La idea de este algoritmo es muy simple. Usaremos un algoritmo de actualización de
base de datos para mantener públicamente una base de datos de hipótesis. Cada vez que
llega una consulta, la clasificaremos como consulta difícil o consulta fácil. Una consulta
fácil es aquella para la cual la respuesta dada por la base de datos de hipótesis es
aproximadamente correcta, y no se necesita ningún paso de actualización: si sabemos
que una consulta dada es fácil, simplemente podemos calcular su respuesta en la base
de datos de hipótesis conocida públicamente en lugar de en la base de datos privada y no
incurre en pérdida de privacidad. Si sabemos que una consulta es difícil, podemos calcular
y publicar su respuesta usando el mecanismo de Laplace y actualizar nuestra hipótesis
usando el algoritmo de actualización de la base de datos.
De esta manera, nuestra pérdida de privacidad total no es proporcional a la cantidad de
consultas realizadas, sino proporcional a la cantidad de consultas difíciles realizadas.
Debido a que el algoritmo de actualización de la base de datos garantiza que no será
necesario realizar muchos pasos de actualización, podemos estar seguros de que la
pérdida total de privacidad será pequeña.
Teorema 5.13. OnlineIC es (ε, δ)diferencialmente privado.
Algoritmo 11 El mecanismo de construcción iterativo en línea parametrizado por un
algoritmo U de actualización de base de datos T(α). Toma como entrada una base de
datos privada x, parámetros de privacidad ε, δ, parámetros de precisión α y β, y un flujo de
consultas {fi} que se puede elegir de forma adaptativa de una clase de consultas Q.
Produce un flujo de respuestas {ai}.
UCI en línea (x, {fi}, ε, δ, α, β)
Sea c ← T(α), si δ
= 0 entonces
Sea T ← 18c(registro(2|Q|)+registro(4c/
β)) ||x||1
demás
2 4c
(2+32√ 2) c registro (registro k+registro )
Sea T ← δ β
||x||1
terminara si
Initialize NumericSparse(x, {f {f Sea t ← i }, T, c, ε, δ) con un flujo de consultas
0, i }, generando un flujo de respuestas a yo _
D0 x tal que D0 = 1/|X | para todo i [|X |].

i para cada consulta fi do Sea f
2i−1 (∙) = fi(∙) − fi(Dt ).
Sea f 2i (∙) = fi(Dt ) − fi(∙) = y
si a 2i−1 a = entonces 2i
Sea ai = fi(Dt )
demás
si un
2i−1 R entonces
Sea ai = fi(Dt ) + a 2i−1
demás
Sea ai = fi(Dt ) − a fin si 2i
Sea Dt+1 = U(Dt , fi , ai)
Sea t ← t + 1.
termina si
fin para
Prueba. Esto se deriva directamente del análisis de privacidad de Numeric Sparse, porque
el algoritmo OnlineIC accede a la base de datos solo a través de NumericSparse.
Teorema 5.14. Para δ = 0, con probabilidad de al menos 1 − β, para todas las
consultas fi , OnlineIC devuelve una respuesta ai tal que |fi(x) − ai | ≤ 3α para
cualquier α tal que:
9T(α)(log(2|Q|) + log(4T(α)/β)) α ≥ ||x||1
.
Prueba. Recuerde que por el Teorema 3.28, dadas k consultas y un número máximo
de consultas por encima del umbral de c, Sparse Vector es (α, β) preciso para:
9c(log k + log(4c/β)) || x||
α = .
1
Aquí tenemos c = T(α) yk = 2|Q|. Tenga en cuenta que hemos establecido el umbral
T = 2α en el algoritmo. Primero supongamos que el algoritmo de vector disperso no
se detiene prematuramente. En este caso, por el teorema de la utilidad, excepto con
probabilidad a lo sumo β, tenemos para todo i tal que ai = fi(Dt ): |fi(D)−fi(Dt )| ≤ T +α
= 3α, como queríamos. Además, para todo i tal que ai = a
2i−1 o ai = a 2i , tenemos |fi(D) − a Note
i | ≤ α.
que también tenemos para todo i tal que ai = a |fi(D) − fi(D )| 2i−1 o ai = a : 2i
≥ T − α = α, ya que T = 2α. Por lo tanto, fi , ai forman un paso válido en una secuencia
de actualización de base de datos. Por lo tanto, puede haber como máximo c = T(α)
tales pasos de actualización, por lo que el algoritmo de vector disperso no se detiene
prematuramente.
De manera similar, podemos probar un límite correspondiente para (ε, δ)privacidad.
Teorema 5.15. Para δ > 0, con probabilidad de al menos 1 − β, para todas las
consultas fi , OnlineIC devuelve una respuesta ai tal que |fi(x) − ai | ≤ 3α para
cualquier α tal que:
2
( √ 512 + 1)(ln(2|Q|) + ln 4T(α) ) T(a) ln ||x||1 δ
β
α ≥
Podemos recuperar los límites que demostramos para los pesos multiplicativos
en línea recordando que el algoritmo de actualización de la base de datos MW es un
4 log |X|
Algoritmo de actualización de la base de datos T(α) para T(α) = α2 . De manera más
general, tenemos que cualquier algoritmo en el marco de construcción iterativo se
puede convertir en un algoritmo que funciona en el entorno interactivo sin pérdida de
precisión. (es decir, igualmente podríamos conectar
5.3. Conexiones 109
el algoritmo de actualización de la base de datos del mecanismo mediano o el
algoritmo de actualización de la base de datos Perceptron, o cualquier otro). De
manera tentadora, esto significa que (al menos en el marco de construcción iterativo),
no hay brecha en la precisión alcanzable en los modelos de publicación de consultas
en línea y fuera de línea, a pesar de que el modelo en línea parece que debería ser
más difícil.
5.3 Conexiones
5.3.1 Mecanismo de construcción iterativo y redes α
El mecanismo de construcción iterativa se implementa de manera diferente al
mecanismo de red, pero en el fondo, su análisis aún se basa en la existencia de
pequeñas redes α para las consultas C. Esta conexión es explícita para el mecanismo
de la mediana, que está parametrizado por una red , pero se mantiene para todos los
algoritmos de actualización de bases de datos. Tenga en cuenta que la salida de la
base de datos por el algoritmo iterativo de construcción de la base de datos está
completamente determinada por las funciones como máximo T f1, . . . , fT Q
alimentado en él, según lo seleccionado por el distintivo mientras se ejecuta el
algoritmo. Cada una de estas funciones puede indexarse como máximo log |Q| bits,
por lo que cada salida de la base de datos por el mecanismo se puede describir usando solo T log |Q| pedacitos
En otras palabras, el propio algoritmo IC describe una red α para Q de tamaño como
máximo Nα(Q) ≤ |Q|T . Para obtener el error α usando el algoritmo de Pesos
Multiplicativos como un constructor de base de datos iterativo, es suficiente por el
Teorema 4.10 tomar T = 4 log |X |/α2 , lo que nos da Nα(Q) ≤ |Q|4 log |X|/ α2 = |X |4
log |Q|/α2 . Tenga en cuenta que hasta el factor
de 4 en el exponente, este es
exactamente el límite que dimos usando una red α diferente en el teorema 4.2. Allí,
construimos una red α considerando todas las colecciones de puntos de datos log |
Q|/α2 , cada uno de los cuales podría indexarse por log |X | pedacitos Aquí,
consideramos todas las colecciones de funciones log |X |/α2 en Q, cada una de las
cuales podría ser indexada por log |Q| pedacitos ¡En ambos sentidos, tenemos redes
α del mismo tamaño! De hecho, también podríamos ejecutar el mecanismo Net
utilizando la red α definida por el mecanismo IC, para obtener los mismos límites de
utilidad. En cierto sentido, una red es el "dual" de la otra: una está construida de
bases de datos, la otra está construida de consultas, pero ambas redes son del
mismo tamaño. Veremos el mismo fenómeno en el
Algoritmo de "impulso para consultas" en la siguiente sección: también responde a una
gran cantidad de consultas lineales utilizando una estructura de datos que está
completamente determinada por una pequeña "red" de consultas.
5.3.2 Aprendizaje agnóstico
Una forma de ver lo que está haciendo el mecanismo IC es que está reduciendo el
problema aparentemente más difícil (teóricamente de la información) de la liberación de
consultas al problema más fácil de distinguir o aprender consultas. Recuerde que el
problema distintivo es encontrar la consulta f Q que varía más entre dos bases de datos
x e y. Recuerde que en el aprendizaje, el alumno recibe una colección de ejemplos
etiquetados (x1, y1), . . . ,(xm, ym) X × {0, 1}, donde yi {0, 1} es la etiqueta de xi .
Si consideramos que x representa los ejemplos positivos en un gran conjunto de datos e y
representa los ejemplos negativos en el mismo conjunto de datos, entonces podemos ver
que el problema de distinguir es exactamente el problema del aprendizaje agnóstico. Es
decir, un distinguidor encuentra la consulta que mejor etiqueta los ejemplos positivos,
incluso cuando no hay ninguna consulta en la clase que garantice etiquetarlos perfectamente
(observe que en esta configuración, el mismo ejemplo puede aparecer tanto con un
positivo como con un etiqueta negativa, por lo que la reducción todavía tiene sentido
incluso cuando x e y no son disjuntos). Intuitivamente, el aprendizaje debería ser un
problema de información teóricamente más fácil que la liberación de consultas. El problema
de liberación de consultas requiere que liberemos el valor aproximado de cada consulta f
en alguna clase Q, evaluada en la base de datos. Por el contrario, el problema de
aprendizaje agnóstico solo pide que devolvamos la evaluación y la identidad de una sola
consulta: la consulta que mejor etiqueta el conjunto de datos. Está claro que la información
teóricamente, el problema de aprendizaje no es más difícil que el problema de liberación
de consulta. Si podemos resolver el problema de liberación de consultas en las bases de
datos x e y, entonces podemos resolver el problema de distinción sin más acceso al
verdadero conjunto de datos privado, simplemente verificando las evaluaciones aproximadas
de cada consulta f Q en x e y que se realizan disponible para nosotros con nuestro
algoritmo de liberación de consultas. Lo que hemos mostrado en esta sección es que lo
contrario también es cierto: dado el acceso a un algoritmo de aprendizaje agnóstico o de
distinción privada, podemos resolver el problema de liberación de consultas haciendo un
pequeño (es decir, solo log |X |/ α2 ) número de llamadas a la
5.3. Conexiones 111
algoritmo distintivo privado, sin más acceso al conjunto de datos privado.
¿Cuáles son las implicaciones de esto? Nos dice que hasta factores pequeños, la
complejidad de la información del aprendizaje agnóstico es igual a la complejidad de la
información de la liberación de consultas. Computacionalmente, la reducción es tan
eficiente como nuestro algoritmo de actualización de la base de datos, que, dependiendo
de nuestra configuración y algoritmo, puede o no ser eficiente. Pero nos dice que cualquier
tipo de límite teórico de la información que podamos probar para un problema puede
transferirse al otro problema, y viceversa.
Por ejemplo, la mayoría de los algoritmos que hemos visto (¡y la mayoría de los algoritmos
que conocemos!) finalmente acceden al conjunto de datos realizando consultas lineales
a través del mecanismo de Laplace. Resulta que cualquier algoritmo de este tipo puede
verse como operando dentro del llamado modelo de consulta estadística de acceso a
datos, definido por Kearns en el contexto del aprendizaje automático. Pero el aprendizaje
agnóstico es muy difícil en el modelo de consulta estadística: incluso ignorando las
consideraciones computacionales, no existe un algoritmo que pueda realizar solo un
número polinomial de consultas al conjunto de datos y aprender de forma agnóstica
conjunciones a errores subconstantes. Para la liberación de consultas, esto significa que,
en el modelo de consulta estadística, no existe un algoritmo para liberar conjunciones (es
decir, tablas de contingencia) que se ejecute en un polinomio de tiempo en 1/α, donde α
es el nivel de precisión deseado. Si hay un algoritmo de publicación de consultas que
preserva la privacidad con esta garantía de tiempo de ejecución, debe operar fuera del
modelo SQ y, por lo tanto, debe verse muy diferente de los algoritmos conocidos
actualmente.
Debido a que las garantías de privacidad se componen de forma lineal, esto también
nos dice que (hasta el posible factor de log |X |/α2 ) no deberíamos esperar poder
aprender de forma privada con una precisión significativamente mayor que la que
podemos realizar de forma privada y viceversa. : un algoritmo preciso para un problema
automáticamente nos da un algoritmo preciso para el otro.
5.3.3 Una visión teórica del juego de la liberación de consultas
En esta sección, hacemos un breve recorrido por la teoría de juegos para interpretar
algunos de los algoritmos de liberación de consultas que tenemos (y veremos).
Consideremos una interacción entre dos jugadores adversarios, Alice y Bob.
Alice tiene un conjunto de acciones que podría realizar, A, y Bob tiene un conjunto de
acciones B. El juego se desarrolla de la siguiente manera: simultáneamente, Alice elige
una acción a A (posiblemente al azar) y Bob elige una acción b B (posiblemente al
azar). Alice experimenta un costo c(a, b) [−1, 1].
Alice desea jugar para minimizar este costo, y como él es adversario, Bob desea jugar
para maximizar este costo. Esto es lo que se llama un juego de suma cero.
Entonces, ¿cómo debería jugar Alice? Primero, consideramos una pregunta más fácil.
Supongamos que ponemos en desventaja a Alice y le exigimos que anuncie su estrategia
aleatoria a Bob antes de que la juegue, y permitimos que Bob responda de manera óptima
utilizando esta información. Si Alice anuncia que dibujará alguna acción a A de acuerdo
con una distribución de probabilidad DA, entonces Bob responderá de manera óptima para
maximizar el costo esperado de Alice. Es decir, Bob jugará:
b = argumento máx Ea DA [c(a, b)].
b B
Por lo tanto, una vez que Alice anuncia su estrategia, sabe cuál será su costo, ya que Bob
podrá responder de manera óptima. Por lo tanto, Alice deseará jugar una distribución
sobre acciones que minimice su costo una vez que Bob responda. Es decir, Alice deseará
reproducir la distribución DA definida como:
DA = argumento mínimo máximo Ea D[c(a, b)].

D ∆A b B
Si juega DA (y Bob responde de manera óptima), Alice experimentará el costo más bajo
posible que pueda garantizar, con el hándicap de que debe anunciar su estrategia con
anticipación. Tal estrategia para Alice se llama estrategia minmax . Llamemos al costo
que logra Alicia cuando A: juega una estrategia mínimamáxima el valor de Alicia para el
juego, denotado v
A = mín v
máx Ea D[c(a, b)].
D ∆A b B
De manera similar, podemos preguntar qué debería jugar Bob si, en cambio, lo colocamos
en desventaja y lo obligamos a anunciar su estrategia primero a Alice.
Si hace esto, jugará la base de datos de distribución sobre las acciones b B que
maximiza el costo esperado de Alice cuando Alice responde de manera óptima.
Llamamos a tal estrategia DB para Bob una estrategia maxmin . podemos definir
5.3. Conexiones 113
El valor de Bob para el juego, v B, como el costo máximo que puede asegurar mediante cualquier
estrategia que pueda anunciar:
v B = máx mín Mib D[c(a, b)].

D ∆B a A
B
Claramente, v. ≤ v A, ya que anunciar la estrategia de uno es solo una desventaja.
Uno de los resultados fundamentales de la teoría de juegos es VonNeumann = v B. 2
A
Teorema minmax, que establece que en cualquier juego de suma cero, v
En otras palabras, no hay ninguna desventaja en "ir primero" en un juego de suma cero, y si los
jugadores juegan de manera óptima, podemos predecir exactamente el costo de Alice:
A
sera v segundo = v
≡ v, al que nos referimos como el valor del juego.
Definición 5.7. En un juego de suma cero definido por los conjuntos de acciones A, B y una función
de costo c : A × B → [−1, 1], sea v el valor del juego. Una estrategia minmax aproximada de α es
una distribución DA tal que:
máx Ea DA [c(a, b)] ≤ v + α
b B
De manera similar, una estrategia máximamínima aproximada de α es una base de datos de
distribución tal que:
min Mib DB [c(a, b)] ≥ v − α
a A
Si DA y DB son estrategias minmax y maxmin aproximadas en α respectivamente, entonces
decimos que el par (DA, DB) es un equilibrio de Nash aproximado en α del juego de suma cero.
Entonces, ¿cómo se relaciona esto con la liberación de consultas?
Considere un juego de suma cero particular adaptado al problema de lanzar un conjunto de
consultas lineales Q sobre un universo de datos X. Primero, suponga sin pérdida de generalidad
que para cada f Q, existe una consulta ̂f Q tal que ̂f = 1−f (es decir, para cada χ X, ̂f(χ) =
1−f(χ)). Defina el conjunto de acciones de Alice como A = X y defina el conjunto de acciones de
Bob como B = Q. Nos referiremos a Alice como el jugador de la base de datos ya Bob como el
jugador de consultas.
Finalmente, fijando una verdadera base de datos privada x normalizada para ser una distribución
de probabilidad (es decir, x1 = 1), defina la función de costo c : A×B → [−1, 1]
2 Se cita a Von Neumann diciendo: “Hasta donde puedo ver, no podría haber teoría
de juegos... sin ese teorema. . . Pensé que no había nada que valiera la pena publicar
hasta que se demostró el Teorema Minimax” [10].
ser: c(χ, f) = f(χ) − f(x). Llamemos a este juego el "Juego de liberación de consultas".
Comenzamos con una simple observación:
Proposición 5.16. El valor del juego de liberación de consulta es v = 0.
Prueba. Primero mostramos que v A = v ≤ 0. Considere lo que sucede si dejamos
la estrategia del jugador de la base de datos corresponde a la verdadera base de datos: DA = x.
Entonces nosotros tenemos:
una v ≤ f B Eχ DA [c(χ, f)]

máx.
|X|
= máx f(χi) ∙ xi − f(x)
f B
yo=1
= f(x) − f(x)
= 0.
A continuación observamos que v = v B ≥ 0. Por punto de contradicción, suponga que v < 0.
En otras palabras, que existe una distribución DA tal que para todo f Q
Eχ DA c(χ, f) < 0.
Aquí, simplemente observamos que, por definición, si Eχ DA c(χ, f) = c < 0, entonces Eχ DA

c(χ, ̂f) = −c > 0, lo cual es una contradicción ya que ̂f Q.
Lo que hemos establecido implica que para cualquier distribución DA que sea una
estrategia minmax aproximada de α para el jugador de la base de datos, tenemos que para
todas las consultas f Q: |Eχ DA f(χ)−f(x)| ≤ α. En otras palabras, la distribución DA puede
verse como una base de datos sintética que responde a cada consulta en Q con precisión α.
¿Qué tal para las consultas no lineales? Podemos repetir el mismo argumento anterior si
cambiamos ligeramente el juego de liberación de consultas. En lugar de permitir que el jugador
de la base de datos tenga estrategias correspondientes a los elementos del universo χ X,
¡dejamos ,que el jugador de la base de datos tenga estrategias correspondientes a las bases
de datos mismas! Entonces, c(f, y) = |f(x) − f(y)|. No es difícil ver que este juego todavía tiene
un valor de 0 y que las estrategias mínimasmáximas aproximadas de α corresponden a datos
sintéticos que brindan respuestas precisas de α a las consultas en Q.
Entonces, ¿cómo calculamos estrategias minmax aproximadas en juegos de
suma cero? ¡Hay muchas maneras! Es bien sabido que si Alice juega el juego
repetidamente, actualizando su distribución de acciones utilizando un algoritmo de
aprendizaje en línea con garantía de no arrepentimiento (definido en la Sección
11.2), y Bob responde en cada ronda con una respuesta que maximiza el costo
aproximado , entonces la distribución de Alice convergerá rápidamente a una
estrategia mínimamáxima aproximada. Los pesos multiplicativos son un algoritmo
de este tipo, y una forma de entender el mecanismo de los pesos multiplicativos es
como una estrategia para que Alice juegue en el juego de liberación de consultas
definido en esta sección. (El distinguidor privado está jugando aquí el papel de Bob,
eligiendo en cada ronda la consulta que corresponde a maximizar aproximadamente
el costo de Alice). El mecanismo de la mediana es otro algoritmo de este tipo, para
el juego en el que las estrategias de Alice corresponden a bases de datos, en lugar
de elementos del universo, y también calcula una solución mínimamáxima
aproximada para el juego de liberación de consultas.
Sin embargo, ¡también hay otras formas de calcular los equilibrios aproximados!
Por ejemplo, Bob, el jugador que consulta, podría jugar el juego utilizando un
algoritmo de aprendizaje sin arrepentimiento (como pesos multiplicativos), y Alice
podría responder repetidamente en cada ronda con una base de datos que
minimiza aproximadamente los costos. En este caso, el promedio de las bases de
datos que Alice reproduce en el transcurso de este experimento también convergerá
en una solución mínimamáxima aproximada. Esto es exactamente lo que se está
haciendo en la Sección 6, en la que el desinfectante de base privado desempeña
el papel de Alice, en cada ronda jugando una base de datos que minimiza
aproximadamente los costos dada la distribución de Bob sobre las consultas.
De hecho, una tercera forma de calcular un equilibrio aproximado de un juego
de suma cero es hacer que tanto Alice como Bob jueguen de acuerdo con
algoritmos de aprendizaje sin arrepentimiento. No cubriremos este enfoque aquí,
pero este enfoque tiene aplicaciones para garantizar la privacidad no solo para la
base de datos, sino también para el conjunto de consultas que se realizan y para
resolver de forma privada ciertos tipos de programas lineales.
La abstracción del mecanismo de construcción iterativa (junto con el algoritmo de
actualización de la base de datos basada en la percepción) fue formalizada por
Gupta et al. [39], generalizando el mecanismo de la mediana de Roth y Roughgarden [74]
(presentado inicialmente como un algoritmo en línea), el mecanismo de pesos
multiplicativos privados en línea de Hardt y Roth blum [44], y su variante fuera de línea
de Gupta et al. [38]; véase también Hardt et al. [41]. Todos estos algoritmos pueden verse
como instanciaciones. La conexión entre la liberación de consultas y el aprendizaje
agnóstico se observó en [38]. La observación de que el mecanismo de la mediana, cuando
se analiza utilizando los teoremas de composición de Dwork et al. [32] para (ε, δ)
privacidad, se puede usar para responder consultas arbitrarias de baja sensibilidad debido
a Hardt y Rothblum. La visión de la teoría del juego de la publicación de consultas, junto
con sus aplicaciones a la privacidad de los analistas, se debe a Hsu, Roth y Ullman [48].
6
Impulso para Consultas
En las secciones anteriores, nos hemos centrado en el problema de la liberación de
consultas privadas en el que insistimos en delimitar el error del peor de los casos
sobre todas las consultas. ¿Sería más fácil nuestro problema si, en cambio, solo
pidiéramos un error bajo en promedio, dada alguna distribución sobre las consultas?
En esta sección, vemos que la respuesta es no: dado un mecanismo que es capaz de
resolver el problema de liberación de consultas con un error promedio bajo dada
cualquier distribución en las consultas, podemos "impulsarlo" a un mecanismo que
resuelva el problema de liberación de consultas para error en el peor de los casos.
Esto arroja luz sobre la dificultad de la liberación de consultas privadas y nos brinda
una nueva herramienta para diseñar algoritmos de liberación de consultas privadas.
El impulso es un método general y ampliamente utilizado para mejorar la precisión
de los algoritmos de aprendizaje. Dado un conjunto de ejemplos de entrenamiento
etiquetados
{(x1, y1),(x2, y2), . . . ,(xm, ym)},
donde cada xi se extrae de una distribución subyacente D en un universo U, y cada yi
{+1, −1}, un algoritmo de aprendizaje produce una hipótesis h : U → {+1, −1}.
Idealmente, h no solo "describirá" el etiquetado en las muestras dadas, sino que
también generalizará , brindando un método razonablemente preciso para clasificar
otros elementos extraídos de las muestras subyacentes.
117
118 Impulso para Consultas
distribución. El objetivo de impulsar es convertir a un aprendiz de base débil, lo que
produce una hipótesis que puede funcionar un poco mejor que adivinar al azar, en
un aprendiz fuerte, lo que produce un predictor muy preciso para las muestras
extraídas de acuerdo con D. Muchos algoritmos de refuerzo comparten la siguiente
estructura básica. Primero, se impone una distribución de probabilidad inicial
(típicamente uniforme) en el conjunto de la muestra. Luego, el cálculo procede en
rondas. En cada ronda t:
1. El alumno base se ejecuta en la distribución actual, denominada Dt ,
producir una hipótesis de clasificación ht ; y
2. Las hipótesis h1, . . . , ht se utilizan para volver a ponderar las muestras,
definiendo una nueva distribución Dt+1.
El proceso se detiene después de un número predeterminado de rondas o cuando
se determina que una combinación adecuada de las hipótesis es lo suficientemente
precisa. Por lo tanto, dado un alumno base, las decisiones de diseño para un
algoritmo de refuerzo son (1) cómo modificar la distribución de probabilidad de una
ronda a la siguiente y (2) cómo combinar las hipótesis {ht}t=1, .. .,T para formar una
hipótesis de salida final.
En esta sección, utilizaremos el impulso en las consultas, es decir, a los efectos
del algoritmo de impulso, el universo U es un conjunto de consultas Q, para obtener
un algoritmo fuera de línea para responder a un gran número de consultas
arbitrarias de baja sensibilidad. Este algoritmo requiere menos espacio que el
mecanismo mediano y, según el alumno base, también es potencialmente más
eficiente en el tiempo.
El algoritmo gira en torno a un hecho un tanto mágico (Lema 6.5): si podemos
encontrar una sinopsis que proporcione respuestas precisas sobre unas pocas
consultas seleccionadas, ¡entonces de hecho esta sinopsis proporciona respuestas
precisas sobre la mayoría de las consultas ! Aplicamos este hecho al alumno base,
que toma muestras de una distribución en Q y produce como resultado una sinopsis
"débil" que arroja respuestas "buenas" para la mayoría del peso en Q, impulsando,
de manera diferencialmente privada, para obtener una sinopsis que es buena para
todo Q.
Aunque el impulso se realiza sobre las consultas, la privacidad sigue siendo
para las filas de la base de datos. El desafío de privacidad al impulsar las consultas
proviene del hecho de que cada fila en la base de datos afecta el
6.1. El algoritmo boosting for queries 119
respuestas a todas las consultas. Esto se manifestará en la reponderación de las consultas: las
bases de datos adyacentes podrían causar reponderaciones radicalmente diferentes, lo que será
observable en el ht generado que, en conjunto, formará la sinopsis.
El tiempo de ejecución del procedimiento de refuerzo depende casi linealmente del número |
Q| de consultas y del tiempo de ejecución del generador de sinopsis base, independientemente
del tamaño del universo de datos |X|. Esto genera una nueva vía para construir mecanismos de
preservación de la privacidad eficientes y precisos, análogos al enfoque que permite impulsar la
literatura sobre aprendizaje automático: un diseñador de algoritmos puede abordar la tarea
(potencialmente mucho más fácil) de construir un generador de sinopsis de base de preservación
de la privacidad débil, y obtener automáticamente un mecanismo más fuerte.
6.1 El algoritmo boosting for queries
Usaremos la representación de filas para bases de datos, descrita en la Sección 2, donde
pensamos en la base de datos como un conjunto múltiple de filas o elementos de X .
Fijar un tamaño de base de datos n, un universo de datos X, y un conjunto de consultas Q = {q : X
→ R} de consultas de valores reales de sensibilidad como máximo ρ.
Asumimos la existencia de un generador de sinopsis base (en la Sección 6.2 veremos cómo
construirlos). La propiedad que necesitaremos del generador base, formulada a continuación, es
que, para cualquier distribución D en el conjunto de consultas Q, la salida del generador base se
puede usar para calcular respuestas precisas para una gran fracción de las consultas, donde el "
gran fracción” se define en términos de los pesos dados por D. El generador base está
parametrizado por k, el número de consultas a muestrear; λ, un requisito de precisión para sus
salidas; η, una medida de "grande" que describe lo que queremos decir con una gran fracción de
las consultas, y β, una probabilidad de falla.
Definición 6.1 ( generador de sinopsis base (k, λ, η, β)). Para un tamaño de base de datos fijo n,
un universo de datos X y un conjunto de consultas Q, considere un generador de sinopsis M, que
muestrea k consultas independientemente de una distribución D en Q y genera una sinopsis.
Decimos que M es un generador de sinopsis de base (k, λ, η, β) si para cualquier distribución D
en Q, con todas las probabilidades menos β
sobre los lanzamientos de moneda de M, la sinopsis S que M genera tiene una
precisión de λ para una fracción (1/2 + η) de la masa de Q ponderada por D:
[|q(S) − q(x)| ≤ λ] ≥ 1/2 + η. (6.1)
Prq D _
El algoritmo de aumento de consultas se puede utilizar para cualquier clase de
consultas y cualquier generador de sinopsis de base diferencialmente privado. El
tiempo de ejecución se hereda del generador de sinopsis base. El booster invierte
un tiempo adicional que es casi lineal en |Q| y, en particular, su tiempo de ejecución
no depende directamente del tamaño del universo de datos.
Para especificar el algoritmo de impulso, necesitaremos especificar una
condición de parada, un mecanismo de agregación y un algoritmo para actualizar la
distribución actual en Q.
Condición de parada. Ejecutaremos el algoritmo para un número fijo T de rondas:
esta será nuestra condición de parada. T se seleccionará de modo que garantice
una precisión suficiente (con una probabilidad muy alta); como veremos, log |Q|/η2
rondas serán suficientes.
Actualización de la Distribución. Aunque las distribuciones nunca se
revelan directamente en los resultados, las sinopsis base A1, A2, . . . ,
AT se revelan, y cada Ai puede, en principio, filtrar información sobre
las consultas elegidas, de Di a, l construir Ai . Por lo tanto, necesitamos
restringir la divergencia máxima entre las distribuciones de probabilidad
obtenidas en las bases de datos vecinas. Esto es técnicamente
desafiante , la base de datos está muy involucrada en la construcción
porque, dado Ai Di+1.
La distribución inicial, D1, será uniforme sobre Q. Un método estándar para
actualizar Dt es aumentar el peso de los elementos mal manejados, en nuestro caso,
consultas para las cuales |q(x) − q(At)| > λ, por un factor fijo, digamos, e, y disminuya
el peso de los elementos bien manejados por el mismo factor. (Luego, los pesos se
normalizan para que sumen 1). Para tener una idea de la dificultad, sea x = y {ξ},
y suponga que todas las consultas q son manejadas bien por At cuando la base de
datos es y, pero el la adición de ξ hace que esto falle, por ejemplo, en una fracción
de 1/10 de las consultas; es decir, |q(y)−q(At)| ≤ λ para todas las consultas q, pero |
q(x)−q(At)| > λ para algunas consultas |Q|/10 . Tenga en cuenta que, dado que At
"va bien" en 9/10 de las consultas, incluso
cuando la base de datos es x, podría devolverse desde el desinfectante base sin importar
cuál de x, y es el conjunto de datos verdadero. Nuestra preocupación es con los efectos
de la actualización: cuando la base de datos es y todas las consultas se manejan bien y
no hay reponderación (después de la normalización), pero cuando la base de datos es x
hay una reponderación: una décima parte de las consultas tienen sus pesos aumentados ,
los nueve décimos restantes tienen sus pesos disminuidos. Esta diferencia en la
reponderación puede detectarse en la próxima iteración a través de At+1, que es
observable y que se construirá a partir de muestras extraídas de distribuciones bastante
diferentes dependiendo de si la base de datos es
x o y.
Por ejemplo, supongamos que partimos de la distribución uniforme D1. (z) donde por
Entonces D (y) (y)
= re 1 , D
2 nos referimos ai la distribución en la ronda i
cuando la base de datos es z. Esto se debe a que el peso de cada consulta se reduce en
un factor de e, que desaparece en la normalización. Entonces (y) a cada q Q se le
asigna un peso 1/|Q| en D 2 . Por el contrario, cuando la base de datos es x , las consultas
"insatisfactorias" tienen un peso normalizado
mi
|P|
.
9 1 10 mi
1 +
|P| mi 1 10|P|
(x) (y) (q)/D
cualquier consulta infeliz q. La relación D dada por 2 (q) es C2onsidere
mi
|P|
D 2(x) (q) 1 1 1 + 10 mi
= 9 10 |P| mi
|P|
(y) 1
D (q) 2 |P|
10
= = F ≈ 4,5085.
definitivamente
1 + 9
2
mi
Ahora, ln F ≈ 1.506, y aunque la selección de consultas utilizadas en la ronda 2 por el
generador base no se hace pública explícitamente, pueden detectarse a partir del A2
resultante, que se hace público. Por lo tanto, existe una pérdida potencial de privacidad
de hasta 1.506 por consulta (por supuesto, esperamos cancelaciones; simplemente
estamos tratando de explicar el origen de la dificultad). Esto se soluciona parcialmente al
garantizar que la cantidad de muestras utilizadas por el generador base sea relativamente
pequeña, aunque aún tenemos el problema de que, en múltiples iteraciones, las
distribuciones Dt pueden evolucionar de manera muy diferente incluso en bases de datos
vecinas.
La solución será atenuar el procedimiento de reponderación.
En lugar de usar siempre una relación fija para aumentar el peso (cuando la respuesta es
"exacta") o disminuirlo (cuando no lo es), establecemos umbrales separados para
"exactitud" (λ) e "inexactitud " ( λ + µ , para un µ elegido apropiadamente que se escala
con el tamaño de bit de la salida del generador base; véase el Lema 6.5 a continuación).
Las consultas para las que el error está por debajo o por encima de estos umbrales tienen
su peso disminuido o aumentado, respectivamente, por un factor de e. Para las consultas
cuyo error se encuentra entre estos dos umbrales, escalamos el logaritmo natural del
cambio de peso linealmente: 1 − 2(|q(x) − q(At)| − λ)/µ, por lo que las consultas con errores
de magnitud superior a λ + µ/2 aumentan de peso, y aquellos con errores de magnitud
inferior a λ + µ/2 disminuyen de peso.
La escala atenuada reduce el efecto de cualquier individuo en la reponderación de
cualquier consulta. Esto se debe a que un individuo solo puede afectar la respuesta
verdadera a una consulta, y por lo tanto también la precisión de la salida q(At) del
generador de sinopsis base , en una pequeña cantidad, y la atenuación divide esta
cantidad por un parámetro µ que será elegido para compensar las muestras de kT
elegidas (total) de las distribuciones T obtenidas en el transcurso de la ejecución del
algoritmo de refuerzo.
Esto ayuda a garantizar la privacidad. Intuitivamente, vemos cada una de estas muestras
de kT como un "minimecanismo". Primero acotamos la pérdida de privacidad del muestreo
en cualquier ronda (afirmación 6.4) y luego acotamos la pérdida acumulativa a través del
teorema de composición.
Cuanto mayor sea la brecha (µ) entre los umbrales de "exacto" e "inexacto", menor
puede ser el efecto de cada individuo en el peso de una consulta. Esto significa que los
espacios más grandes son mejores para la privacidad. Sin embargo, para la precisión, los
espacios grandes son malos. Si el umbral de inexactitud es grande, solo podemos
garantizar que las consultas para las que el generador de sinopsis base es muy inexacto
tendrán un peso sustancialmente mayor durante la reponderación. Esto degrada la
garantía de precisión del algoritmo boosting: los errores son aproximadamente iguales
al umbral de “inexactitud” (λ + µ).
Agregación. Para t [T] ejecutaremos el generador base para obtener una sinopsis At .
Las sinopsis se agregarán tomando la mediana: dado A1, . . . , AT la cantidad q(x) se
estima tomando la T ,
valores aproximados para q(x) calculados usando cada uno de los , y luego
Ai calculando su mediana. Con este método de agregación, podemos mostrar
la precisión de la consulta q argumentando que la mayoría de Ai 1 ≤ i ≤ T
,
proporciona una precisión de λ + µ (o mejor) para q. Esto implica que el valor
de la mediana de las T aproximaciones a q(x) estará dentro de λ + µ del valor
verdadero.
Notación.
1. A lo largo de la operación del algoritmo, hacemos un seguimiento de varias
variables (explícita o implícitamente). Las variables indexadas por q Q
contienen información relacionada con la consulta q en el conjunto de consultas.
Las variables indexadas por t [T], generalmente calculadas en la ronda t, se
utilizarán para construir la distribución Dt+1 utilizada para el muestreo en el
período de tiempo t + 1.
2. Para un predicado P usamos [[P]] para denotar 1 si el predicado es
verdadero y 0 si es falso.
3. Hay un parámetro de ajuste final α utilizado en el algoritmo. Va a
ser elegido (ver Corolario 6.3 a continuación) para tener valor
1 + 2η
α = α(η) = (1/2) ln .
1 − 2η
El algoritmo aparece en la Figura 6.1. La cantidad ut,q en el Paso
2(2b) es el nuevo peso no normalizado de la consulta. Por el momento,
fijemos α = 1 (solo para que podamos ignorar cualquier factor α ). Sea
aj,q el logaritmo natural del cambio de peso en la ronda j, 1 ≤ j ≤ t, el
nuevo peso viene dado por:
t
ut,q ← exp
aj,q
− .
j=1
Así, al final del paso anterior el peso no normalizado era ut−1,q
t−1
= exp(− j=1 aj,q) y la actualización corresponde a la multiplicación
por e −aj,t . cuando la suma j=1
t aj,q es grande, el peso es pequeño. Cada
vez que una sinopsis da una muy buena aproximación a q(x), sumamos 1
a esta suma; si la aproximación es sólo moderadamente buena (entre λ y
Figura 6.1: Impulso de consultas.
λ + µ/2), sumamos una cantidad positiva, pero menor que 1. Por el contrario, cuando
la sinopsis es muy mala (peor que la precisión de λ + µ ), restamos 1; cuando es
apenas aceptable (entre λ + µ/2 y λ + µ), restamos una cantidad menor.
En el teorema a continuación, vemos una relación inversa entre la pérdida de
privacidad debido al muestreo, capturada por εsample, y la brecha µ entre los
umbrales de precisión e inexactitud.
Teorema 6.1. Sea Q una familia de consultas con una sensibilidad máxima de ρ.
Para una configuración adecuada de los parámetros, y con T = log |Q|/η2 rondas, el
algoritmo de la Figura 6.1 es un algoritmo de impulso de consultas preciso y
diferencialmente privado:
1. Cuando se crea una instancia con un generador de sinopsis de base (k, λ, η,
β), la salida del algoritmo de impulso proporciona respuestas precisas (λ + µ)
a todas las consultas en Q con una probabilidad de al menos 1 − T β, dónde
3
µ O(((log3/2 |Q|) √ k log(1/β)ρ)/(εmuestra ∙ η )). (6.2)
2. Si el generador de sinopsis base es (εbase, δbase) diferencialmente privado,
entonces el algoritmo de refuerzo es (εmuestra + T ∙ εbase, δmuestra + T δbase)
Permitiendo que la constante η se absorba en la notación O grande y tomando ρ =
1 por simplicidad, obtenemos µ = O(((log3/2 |Q|) √ k log(1/β))/εsample ). Por lo tanto,
vemos que reducir el número k de consultas de entrada que necesita el desinfectante
base mejora la calidad de la salida.
De manera similar, a partir del enunciado completo del teorema, vemos que mejorar el
poder de generalización del desinfectante base, que corresponde a tener un valor mayor
de η (una “mayoría fuerte” mayor), también mejora la precisión.
Prueba del Teorema 6.1. Primero probamos la precisión, luego la privacidad.
−
+
Introducimos la notación a y una satisfactoria t,qt,q,
−
1. a
t,
−
q, un+
t q {−1, 1}; y
2. a +
t,q ≤ en, q ≤ a t, q.
Recuérdese que un mayor at,q indica una mayor calidad de la aproximación de la sinopsis
At para q(x).
−
1. a
t, q es 1 si At es λexacta en q, y −1 en caso contrario. para comprobar eso
− −
una t,q = 1 entonces At es λexacto para q, y t,q = −1
≤ at,q, tenga en cuenta que si un
−
entonces
entonces por definición en,q = 1 también. Si en cambio tenemos t q
a ya que siempre tenemos at,q [−1, 1], hemos terminado.
−
Usaremos a para el límite inferior de una medida de la calidad t,q de la salida
del generador base. Por la promesa del generador base, At tiene una precisión
de λ para al menos una fracción de 1/2 + η de la masa de Dt . De este modo,
−
rt Dt [q] ∙ la t q ≥ (1/2 + η) − (1/2 − η) = 2η. (6.3)
q Q
2. a + es −1 si At es (λ + µ)inexacta para q, y 1 en caso contrario. To = −1 entonces

t,q
+ +
verifique que at,q ≤ a t, q, nota que si a t,q At es (λ + µ)
inexacto para q, entonces por definición at,q = −1 también. Si en cambio = 1
+
una t,q entonces ya que siempre tenemos at,q [−1, 1], hemos terminado. +
Por lo es positivo si y solo si At es al menos mínimamente para probar
+
tanto , una t,q adecuadamente precisa para q. Usaremos
t qla
la
a precisión
+ un número
de la agregación. Cuando sumamos los valores a, obtenemos
positivo t,q, si y solo si la mayoría de los At proporcionan aproximaciones
aceptables, es decir, dentro de λ + µ , a q(x). En este caso el valor de la mediana
estará dentro de λ + µ.
Lema 6.2. Después de T rondas de potenciación, con todas las probabilidades menos
T β , las respuestas a todas menos una fracción exp(−η 2T) de las consultas son (λ+µ)
preciso.
Prueba. En la última ronda de impulso, tenemos:
DT +1[q] = uT, q . (6.4)

ZT
Como en,q ≤ a t q tenemos:

+
T + T
+ −α a −α en q
tu mi t=1 t, q ≤ e t=1
= uT,q. (6.5)
T q
(El superíndice “+” nos recuerda que este valor no ponderado era com t,q.) Note que
+ +
a combinando las ecuaciones siempre tenemos u ≥ 0. Calculado usando
T q los términos
(6.4) y (6.5), para todo q Q:
+
tu
DT +1[q] ≥ T q . (6.6)
ZT
Recordando que [[P]] denota la variable booleana que tiene valor 1 si y solo si el
predicado P es verdadero, pasamos a examinar el valor [[A es (λ+µ)inexacto para q]].
Si este predicado es 1, entonces debe darse el caso de que la mayoría de {Aj} sean (λ
+ µ)inexactos, de lo contrario Tj =1
su mediana sería (λ + µ) precisa.
T + a t=1
De nuestra discusión sobre el significado del signo de tener: t,q,
nosotros
T
A es (λ + µ)inexacta para q +
≤ 0
una t, q
t=1
T
−α +
mi un t = 1 t, q ≥ 1
+
tú ≥ 1
T q
+ 0, concluimos que:
Como u ≥
T q
+
[[A es (λ + µ)inexacta para q]] ≤ u
T q
Usando esto junto con la Ecuación (6.6) se obtiene:
1 1 +
∙ ∙ tu
[[A es (λ + µ)inexacta para q]] ≤ T q
|P| q Q
|P| q Q
1 ≤ ∙
DT +1[q] ∙ ZT
|P| q Q
=
ZT
|Q|.
Así, la siguiente afirmación completa la prueba:
Reclamación 6.3. En la ronda t de potenciación, con todas las probabilidades menos tβ :
2
Zt ≤ exp(−η ∙ t) ∙ |Q|
Prueba. Por definición de un generador de sinopsis base, con todas las probabilidades
excepto β , la sinopsis generada tiene una precisión de λ para al menos una (1/2 +
−
1} fracción de la masa de la distribución Dt . Recuerde que a t,q η) {−1,

−
es 1 si y solo si At es λexacto en q, y que a t,q además de la ≤ at,q y recuerdo
−
cantidad rt Dt [q] ∙ a Como se discutió
q Q t q definido en la Ecuación (6.3).
anteriormente, rt mide el “éxito” del generador de sinopsis base en la ronda t, donde
por "éxito" nos referimos a la noción más estricta de precisión λ. Como se resume en
la Ecuación (6.3), si una fracción (1/2 + η) de la masa de Dt se calcula con precisión
λ, entonces rt ≥ 2η. Ahora observe también que para t [T], asumiendo que el
desinfectante base no falló en la ronda t:
Zt = ut,q
q Q
= −α∙at,q
ut−1,q ∙ e
q Q
= Zt−1 ∙ Dt [q] ∙ e
−α∙en,q
q Q
−α∙a −
≤ Zt−1 ∙ Dt [q] ∙ e t q
q Q
− −
1 + a t,q 1 un
−α t, q α
= Zt−1 ∙ Dt [q] ∙ ∙ mi + ∙ mi
2 2
q Q
(analisis de CASO)
= Zt−1 (e α + mi−α ) + rt(e −α mi α )

2
Zt−1
≤ (e α −α ) + 2η(e −α + e mi α ) (rt ≥ 2η y (e −α − e α) ≤ 0)
2
Por simple cálculo vemos que (e α+e −α)+2η(e −α−e α) se minimiza cuando
1 + 2η
α = (1/2) ln .
1 − 2η
Reemplazando esto en la recurrencia, obtenemos
t 2
Zt ≤ ( 1 − 4η 2) |P| ≤ exp(−2η t)|P|.
Esto completa la demostración del Lema 6.2.
El lema implica que la precisión para todas las consultas simultáneamente puede
lograrse estableciendo
en |Q|
T > .
2 η
Privacidad. Mostraremos que la secuencia completa (S1, A1, . . . , ST) puede , en )
generarse mientras se preserva la privacidad diferencial. Tenga en cuenta que esto es
más fuerte de lo que necesitamos: en realidad no generamos los conjuntos S1, . . . , ST .
Por nuestros teoremas de composición adaptativa, la privacidad de cada Ai estará
garantizada por las garantías de privacidad del generador de sinopsis base, junto con el
hecho de que Si−1 se calculó de forma diferencialmente privada. Por lo tanto, basta
probar que dado que (S1, A1, . . . , Si , Ai) es diferencialmente privado, Si+1 también
lo
es. Entonces podemos combinar los parámetros de privacidad usando nuestros teoremas
de composición para calcular una garantía final.
Lema 6.4. Sea ε = 4αT . Para todo i [T], una vez fijado (S1, A1, . . . , Si ,

ρµ
Ai) , el cálculo de cada elemento de Si+1 es (ε , 0)diferencialmente
privado.
, todo j ≤ i, la cantidad dq,j tiene sensibilidad ρ, ya que
Prueba. Fijación A1, . . . , Ai para
Aj (q) es independiente de la base de datos (porque Aj es fijo), y
todo q Q tiene una sensibilidad acotada por ρ. Por lo tanto, para todo j ≤ i, aj,q es
2ρ/µ sensible por construcción, y así
i
=
definitivamente
gi(q) aj,q
j=1
definitivamente
tiene una sensibilidad máxima de 2iρ/µ ≤ 2T ρ/µ. Entonces = 2T ρ/µ es superior
∆gi se une a la sensibilidad de gi .
Para argumentar la privacidad, mostraremos que la selección de consultas para
Si+1 es una instancia del mecanismo exponencial. Piense en −gi(q) como la utilidad
de una consulta q durante el proceso de selección en la ronda i + 1. El mecanismo
exponencial dice que para lograr privacidad diferencial (ε , 0), debemos elegir q
con probabilidad proporcional a
ε
exp −gi(q) 2∆gi .
Dado que ε /2∆gi = α y el algoritmo selecciona q con probabilidad pro −αgi(q)
proporcional a e , vemos ,que esto es exactamente lo que hace el algoritmo.
Limitamos la pérdida de privacidad de liberar el Sis al tratar cada selección de
una consulta como un "mecanismo en miniatura" que, en el transcurso de T rondas
de impulso, se invoca kT veces. Por el Lema 6.4 cada minimecanismo es (4αT ρ/µ,
0)diferencialmente privado. Por el Teorema 3.20, para todo β > 0 la composición de
los mecanismos kT , cada uno de los cuales es (α4T ρ/µ, 0) diferencialmente privado,
es (εmuestra, δmuestra)diferencialmente privado, donde
2
α4T ρ
.
definitivamente
εmuestra = 2kT log(1/δmuestra)(α4T ρ/µ) + kT (6.7)

µ
Nuestra pérdida de privacidad total proviene de la composición de llamadas T al
desinfectante base y la pérdida acumulada de las muestras de kT . Concluimos que
el algoritmo boosting en su totalidad es: (εboost, δboost) diferencialmente privado,
donde
εboost = T εbase + εmuestra
δboost = T δbase + δmuestra
Para obtener los parámetros reclamados en el enunciado del teorema, podemos tomar:
µ O((T 3/2 √ k log(1/β)αρ)/εmuestra). (6.8)
6.2 Generadores de sinopsis base
El algoritmo SmallDB (Sección 4) se basa en la idea de que un pequeño subconjunto
de filas de la base de datos seleccionado al azar proporciona buenas respuestas a
grandes conjuntos de consultas de conteo fraccional. Los generadores de sinopsis
básicos descritos en la sección actual tienen una idea análoga: una pequeña sinopsis
que ofrece buenas aproximaciones a las respuestas a un pequeño subconjunto de
consultas también brinda buenas aproximaciones a la mayoría de las consultas.
Ambos son ejemplos de límites de generalización. En el resto de esta sección, primero
probaremos un límite de generalización y luego lo usaremos para construir generadores
de sinopsis de base diferencial.
6.2.1 Un límite de generalización
Tenemos una distribución D sobre un gran conjunto Q de consultas a aproximar. El
lema a continuación dice que una sinopsis suficientemente pequeña que proporcione
aproximaciones suficientemente buenas a las respuestas de un subconjunto S Q
de consultas seleccionado al azar , muestreado de acuerdo con la distribución D en
Q, con alta probabilidad sobre la elección de S, también dará buenas aproximaciones
a las respuestas a la mayoría de las consultas en Q (es decir, a la mayor parte de la
masa de Q, ponderada por D). Por supuesto, para que tenga algún sentido, la sinopsis
debe incluir un método para proporcionar una respuesta a todas las consultas en Q,
no solo al subconjunto S Q recibido como entrada. Nuestros generadores
particulares, descritos en las Secciones 6.2.2 y el Teorema 6.6 producirán bases de
datos sintéticas; para responder a cualquier consulta, simplemente se puede aplicar
la consulta a la base de datos sintética, pero el lema se establecerá con total
generalidad.
Sea R(y, q) la respuesta dada por la sinopsis y (cuando se usa como entrada para
el procedimiento de reconstrucción) en la consulta q. Una sinopsis y λ se ajusta a una
base de datos x con un conjunto S de consultas si maxq S |R(y, q)−q(x)| ≤ λ. Sea |y|
6.2. Generadores de sinopsis base 131
denote el número de bits necesarios para representar y. Dado que nuestras sinopsis
serán bases de datos sintéticas, |y| = N log2 |X | para algún número N apropiadamente
elegido de elementos del universo. El límite de generalización muestra que si y λ se
ajusta a x con respecto a un conjunto S suficientemente grande (mayor que |y|)
elegido al azar de consultas muestreadas de una distribución D, entonces con alta
probabilidad y λ se ajusta a x para la mayor parte de la masa de d
Lema 6.5. Sea D una distribución arbitraria en un conjunto de consultas Q = {q : X →
R}. Para todo m N , γ (0, 1), η [0, 1/2), sea a = 2(log(1/γ) + m)/(m(1 − 2η)).
Entonces, con una probabilidad de al menos 1−γ sobre la elección de S Da∙m,
toda sinopsis y de tamaño como máximo m bits que λ se ajusta a x con respecto al
conjunto de consultas S, también λ se ajusta a x con respecto a al menos una (1/2 +
η)fracción de D.
Antes de probar el lema, observamos que a es un factor de compresión: estamos
comprimiendo las respuestas a las consultas am en una salida de m bits, por lo que
mayor a corresponde a una mayor compresión. Por lo general, esto significa una
mejor generalización y, de hecho, vemos que si a es más grande, manteniendo m y
γ fijos, podríamos tener η más grande. El lema también dice que, para cualquier
tamaño de salida dado m, el número de consultas necesarias como entrada para
obtener una salida que funcione bien en la mayoría (1/2 + η fracción) de D es solo
O(log(1/γ) + m). Esto es interesante porque un número menor de consultas k que
necesita el generador base conduce, a través de la pérdida de privacidad εsample
debido al muestreo de consultas kT y su relación inversa con la holgura µ (Ecuación
6.7), a una precisión mejorada de la salida del impulso. algoritmo.
Prueba del Lema 6.5. Fijar un conjunto de consultas S Q elegidas de forma
independiente según Da∙m. Examinar una sinopsis arbitraria de m bits y. Tenga en
cuenta que y se describe mediante una cadena de bits m. Digamos que y es malo si |
R(y, q) − q(x)| > λ para al menos una (log(1/γ) + m)/(a ∙ m) fracción de D, lo que
significa que Prq D[|R(y, q) − q(x)| > λ] ≥ (log(1/γ) + m)/(a ∙ m).
En otras palabras, y es malo si existe un conjunto Qy Q de peso fraccionario
al menos (log(1/γ) +m)/(a ∙m) tal que |R(y, q)−q(x) | > λ para q Qy. Para tal y, ¿cuál
es la probabilidad de que y dé respuestas λexactas para cada q S? Esta es
exactamente la probabilidad de que ninguno de
las consultas en S están en Qy, o
− (log(1/γ) + m)/(a ∙ m))a∙m ≤ e −(log(1/γ)+m) ≤ γ ∙ 2 (1 −m
Tomando un límite de unión sobre las 2 m opciones posibles para y, la probabilidad de
que exista una sinopsis de m bits y que sea precisa en todas las consultas en S pero
inexacta en un conjunto de peso fraccionario (log(1/β) +m )/(a ∙m) es como mucho γ.
Haciendo k = am = |S| vemos que es suficiente tener
2(log(1/γ) + m) m ∙
un > . (6.9)
(1 − 2η)
Este simple lema es extremadamente poderoso. Nos dice que al construir un
generador base en la ronda t, solo debemos preocuparnos por garantizar buenas
respuestas para el pequeño conjunto de consultas aleatorias muestreadas de Dt ;
hacerlo bien durante la mayor parte de Dt sucederá automáticamente!
6.2.2 El generador base
Nuestro primer generador funciona por fuerza bruta. Después de muestrear un conjunto
S de k consultas de forma independiente de acuerdo con una distribución D, el
generador base producirá respuestas ruidosas para todas las consultas en S a través
del mecanismo de Laplace. Luego, sin hacer más uso de la base de datos real, el
algoritmo busca cualquier base de datos de tamaño n para la cual estas ruidosas
respuestas sean lo suficientemente cercanas y genera esta base de datos. La privacidad
será inmediata porque todo después de las k invocaciones del mecanismo de Laplace
está en posprocesamiento. Por lo tanto, la única fuente de pérdida de privacidad es la
pérdida acumulativa de estas k invocaciones del mecanismo de Laplace, que sabemos
cómo analizar a través del teorema de composición. La utilidad se derivará de la utilidad
del mecanismo de Laplace, que dice que es poco probable que tengamos un error "muy
grande" incluso en una consulta, junto con el hecho de que la verdadera base de datos
x es una base de datos de n elementos que
se ajusta a estas respuestas ruidosas.1
1Este argumento supone que se conoce el tamaño n de la base de datos. Alternativamente,
podemos incluir una consulta ruidosa de la forma "¿Cuántas filas hay en la base de datos?" y busque
exhaustivamente todas las bases de datos de tamaño cercano a la respuesta a esta consulta.
Teorema 6.6 (Generador de sinopsis base para consultas arbitrarias). Para cualquier
universo de datos X tamaño
, de base de datos n, y clase Q : {X → R} de consultas
de sensibilidad como máximo ρ, para cualquier εbase, δbase > 0, existe una (εbase,
δbase) diferencialmente privada (k, λ , η = 1/3, generador de sinopsis de base β) para
Q, donde k = am > 6(m+log(2/β)) = 6(n log |X |+log(2/β)) y λ > 2b(log k + log(2/β)), donde
b = ρ am log(1/δbase)/εbase.
El tiempo de funcionamiento del generador es
|X |n ∙ poli(n, log(1/β), log(1/εbase), log(1/δbase)).
Prueba. Primero describimos el generador base en un nivel alto, luego determinamos
los valores para ky λ . La sinopsis y producida por el generador base será una base de
datos sintética de tamaño n. Así m = |y| = n ∙ registro |X |. El generador comienza
eligiendo un conjunto S de k consultas, muestreadas independientemente de acuerdo
con D. Calcula una respuesta ruidosa para cada consulta q S usando el mecanismo
de Laplace, agregando a cada respuesta verdadera una extracción independiente de
Lap(b) para una respuesta apropiada. b se determinará más adelante. Sea {q(x)}q Q
la colección de respuestas ruidosas.
El generador enumera sobre todas las |X |n bases de datos de tamaño n, y saca la
primera base de datos lexicográficamente y de tal manera que para cada q S
tenemos |q(y) − q(x)| ≤ λ/2. Si no se encuentra tal base de datos, genera en su lugar,
y decimos que falla. Tenga en cuenta que si |q(x) − q(x)| < λ/2 y |q(y) − q(x)| < λ/2,
entonces |q(y) − q(x)| < λ.
Existen dos fuentes potenciales de falla para nuestro generador en particular. Una
posibilidad es que y falle en generalizar, o sea malo como se define en la prueba del
Lema 6.5. Una segunda posibilidad es que una de las muestras de la distribución de
Laplace sea de una magnitud excesivamente grande, lo que podría provocar la falla del
generador. Elegiremos nuestros parámetros para acotar la probabilidad de cada uno de
estos eventos individualmente como máximo β/2.
Sustituyendo η = 1/3 y m = n log |X| en la Ecuación 6.9 muestra que tomar a > 6(1
+ log(2/β)/m) es suficiente para que la probabilidad de falla debido a la elección de S
esté acotada por β/2. Por lo tanto, tomando k = am > 6(m + log(2/β)) = 6(n log |X | +
log(2/β)) es suficiente.
Tenemos k consultas de sensibilidad como mucho ρ. Usando el mecanismo de
Laplace con parámetro b = 2 2k log(1/δbase)ρ/εbase, asegura que cada consulta incurra
en pérdida de privacidad como máximo εbase/ 2k ln(1/δbase), que por
El corolario 3.21 asegura que todo el procedimiento será (εbase, δbase) diferencialmente
privado.
Elegiremos λ de modo que la probabilidad de que cualquier sorteo de Lap(b) tenga
una magnitud superior a λ/2 sea como mucho β/2. Condicionado al evento de que todos
los sorteos de k tengan una magnitud máxima de λ , sabemos que la base de datos de
entrada en sí se ajustará a nuestras respuestas ruidosas, por lo que el procedimiento no fallará.
Recuerde que las propiedades de concentración de la distribución de Laplace
t
que, con probabilidad, al menos 1−e magnitud extraídas de Lap(b) garantizarán
limitada por tb. Al establecer λ/2 = tb, la probabilidad de que una determinada extracción
−t = mi de −λ /.
2b tenga una magnitud superior a λ/2 está limitada por e . tener
ke−λ/2b < β/2
e 2 λ/2b > k
β λ/2 >
b(log k + log(2/β)) λ > 2b(log k +
log(2/β)).
El caso especial de las consultas lineales. Para el caso especial de consultas lineales,
es posible evitar la búsqueda de fuerza bruta para una base de datos pequeña. La técnica
requiere tiempo que es polinomial en (|Q|, |X |, n, log(1/β)). Nos centraremos en el caso
de consultas de conteo
y esbozar la construcción.
Como en el caso del generador base para consultas arbitrarias, el generador base
comienza seleccionando un conjunto S de k = am consultas según D y calculando
respuestas ruidosas utilizando el ruido de Laplace. El generador de consultas lineales
luego ejecuta un sintetizador en S que, en términos generales, transforma cualquier
sinopsis que proporcione buenas aproximaciones a cualquier conjunto R de consultas en
una base de datos sintética que produzca aproximaciones de calidad similar en el conjunto
R. La entrada al sintetizador será la valores ruidosos para las consultas en S, es decir, R
= S. (Recuerde que cuando modificamos el tamaño de la base de datos siempre pensamos
en términos de la versión fraccionaria de las consultas de conteo: “¿Qué fracción de las
filas de la base de datos satisface la propiedad P ?”)
La base de datos resultante puede ser bastante grande, lo que significa que puede
tener muchas filas. Luego, el generador base submuestrea solo n = (log k log(1/β))/α2
de las filas de la base de datos sintética, creando una base de datos sintética más
pequeña que con una probabilidad de al menos 1 − β tiene una precisión α con respecto
a las respuestas dada por la gran base de datos sintética. Esto produce una sinopsis
de m = ((log k log(1/β))/α2 ) log |X |bit que, según el lema de generalización, con
probabilidad (1−log(1/β)) sobre la elección del k consultas, responde bien en una (1/2 +
η) fracción de Q (ponderada por D).
Como en el caso del generador base para consultas arbitrarias, requerimos
k = am > 6 log(1/β) + 6m. Tomando α 6log k 2 = (log Q)/n obtenemos que
β) + log(1/β) log |X | k > 6 log(1/
α2
registro
|X | = 6 log(1/β) + 6n log k log(1/β) log |
Q|.
El sintetizador no es trivial. Sus propiedades se resumen en
el siguiente teorema.
Teorema 6.7. Sea X un universo de datos, Q un conjunto de consultas de conteo
fraccionario y A un generador de sinopsis diferencialmente privado (ε, δ) con utilidad (α,
β, 0) y salida arbitraria. Entonces existe un sintetizador A que es (ε, δ)diferencialmente
privado y tiene utilidad (3α, β, 0). Una salida pone una base de datos sintética
(potencialmente grande). Su tiempo de ejecución es polinomial en el tiempo de
ejecución de A y (|X |, |Q|, 1/α, log(1/β)).
En nuestro caso, A es el mecanismo de Laplace, y la sinopsis es simplemente el
conjunto de respuestas ruidosas. El teorema de la composición dice que para que A
sea (εbase, δbase) diferencialmente privado, el parámetro del mecanismo de Laplace
debe ser ρ/(εbase/ 2k log(1/δbase)). Para consultas de conteo fraccionario, la
sensibilidad es ρ = 1/n.
Así, cuando apliquemos el Teorema tendremos un α de orden ( k log(1/β)/εbase)ρ.
Aquí, ρ es la sensibilidad. Para consultas de conteo es 1, pero cambiaremos a consultas
de conteo fraccionario, por lo que ρ = 1/n.
Bosquejo de prueba para el teorema 6.7. Ejecute A para obtener conteos
(diferencialmente privados) (fraccionales) en todas las consultas en R. Luego usaremos
la programación lineal para encontrar una base de datos fraccionaria de bajo peso que se aproxime
estos recuentos fraccionarios, como se explica a continuación. Finalmente, transformamos
esta base de datos fraccionaria en una base de datos sintética estándar redondeando los
recuentos fraccionarios.
La salida de A produce un recuento fraccionario para cada consulta q Q. Nunca se
vuelve a acceder a la base de datos de entrada x , por lo que A es (ε, δ) diferencialmente
privada. Sea v el vector resultante de conteos, es decir, vq es el conteo fraccionario que da
la salida de A en la consulta q. Con probabilidad 1 − β, todas las entradas en v son α
exactas.
Una base de datos “fraccional” z que aproxima estos conteos se obtiene de la siguiente
manera. Recuerde la representación del histograma de una base de datos, donde para
cada elemento del universo X, el histograma contiene el número de instancias de este
elemento en la base de datos. Ahora, para cada i X introducimos una variable ai ≥ 0 que
, el número (fraccional) de ocurrencias de i en la base de datos fraccionaria z.
“contará”
Impondremos la restricción
ia = 1.
i X
Representamos el recuento de consultas q en z como la suma del recuento de elementos i
que satisfacen q:
ai
i X st q(i)=1
Queremos que todos estos conteos estén dentro de una precisión aditiva α de los conteos
respectivos en vq. Escribiendo esto como una desigualdad lineal obtenemos:
(vq − α) yo ≤ ai ≤ (vq + α) ay _
i X i X st q(i)=1 i X
Cuando todos los conteos tienen una precisión α con respecto a los conteos en vc, también
ocurre que (con probabilidad 1 − β) todos tienen una precisión 2α con respecto a los
conteos verdaderos en la base de datos original x.
Escribimos un programa lineal con dos restricciones de este tipo para cada consulta
(un total de 2|Q| restricciones). A trata de encontrar una solución fraccionaria para este
programa lineal. Para ver que tal solución existe, observe que la propia base de datos x es
αcercana al vector de conteos v, por lo que existe una solución para el programa lineal (de
hecho, incluso una solución entera), y por lo tanto A encontrará alguna solución fraccionaria.
Concluimos que A puede generar una base de datos fraccionaria con (2α, β, 0)utilidad,
pero realmente queremos una base de datos sintética (enteros). Para transformar la base
de datos fraccionaria en una entera, redondeamos hacia abajo cada ai para i X al
múltiplo m, ás cercano de
, α/|X |, esto cambia cada conteo fraccionario en un máximo de α/|
X | factor aditivo, por lo que los recuentos redondeados tienen una utilidad (3α, β, 0). Ahora
podemos tratar la base de datos fraccionaria redondeada (que tiene un peso total de 1),
como una base de datos sintética de enteros de tamaño (polinomio) como máximo |X |/α.
Recuerde que en nuestra aplicación del Teorema 6.7 definimos A como el mecanismo
que suma el ruido de Laplace con el parámetro ρ/(εbase/ 2k log(1/δbase)). Tenemos k
sorteos, por lo que al tomar
α = ρ 2k log(1/δbase)(log k + log(1/β))
tenemos que A es (α , β, 0)exacta. Para el generador base elegimos = (log |Q|)/n. Si la
2 errores salida del sintetizador es demasiado grande, submuestreamos
registro |Q| log(1/β) = log k log(1/β) α2
norte =
α2
filas Con probabilidad 1 − β , la base de datos resultante mantiene una precisión O(ρ (log |
Q|)/n + ( 2k log(1/δbase)/εbase)(log k + log(1/β)) en todos los conceptos simultáneamente.
Finalmente, el generador base puede fallar si la elección de las consultas S Dk no
conduce a una buena generalización. Con los parámetros que hemos elegido esto ocurre
con probabilidad a lo sumo β, lo que lleva a una probabilidad de falla total de todo el
generador de 3β.
Teorema 6.8 (Generador base para consultas lineales fraccionarias). Para cualquier
universo de datos X , tamaño de base de datos n, y clase Q: {X n → R} de consultas
lineales fraccionarias (con sensibilidad como máximo 1/n), para cualquier εbase, δbase >
0, existe una (εbase, δbase) diferencialmente privada ( generador de sinopsis de base k,
λ, 1/3, 3β) para Q, donde n log(|X |) log(1/
β) log |Q| log(1/β) √
k = O
norte
registro|X | 1
λ = O ∙ .
registro |Q| +
registro|Q| εbase
El tiempo de ejecución del generador base es poli(|X |, n, log(1/β), log(1/εbase)).
El límite de muestreo utilizado aquí es el mismo que el utilizado en la
construcción del mecanismo SmallDB, pero con diferentes parámetros.
Aquí estamos usando estos límites para un generador base en un algoritmo de impulso
complicado con un conjunto de consultas muy pequeño; allí los estamos usando para
una generación de un solo disparo de una base de datos sintética con un enorme
conjunto de consultas.
6.2.3 Montaje de los ingredientes
El error total proviene de la elección de µ (ver Ecuación 6.2) y λ, el parámetro de
precisión para el generador basado.
Recordemos el Teorema 6.1:
Teorema 6.9 (Teorema 6.1). Sea Q una familia de consulta con sensibilidad a lo
sumo ρ. Para una configuración adecuada de los parámetros, y con T = log |Q|/η2
rondas, el algoritmo de la Figura 6.1 es un algoritmo de impulso de consultas preciso
y diferencialmente privado:
1. Cuando se crea una instancia con un generador de sinopsis de base (k, λ, η,
β), la salida del algoritmo de impulso proporciona respuestas precisas (λ + µ)
a todas las consultas en Q con una probabilidad de al menos 1 − T β, dónde
3
µ O(((log3/2 |Q|) √ k log(1/β)ρ)/(εsample ∙ η 2. Si el )). (6.10)
generador de sinopsis base es (εbase, δbase) diferencialmente privado,
entonces el algoritmo de refuerzo es ((εmuestra + T ∙ εbase), T(β + δbase))
privada diferencialmente.
Por la Ecuación 6.7,
2
def α4T ρ
εmuestra = 2kT log(1/β)(α4T ρ/µ) + kT ,
µ
donde α = (1/2)(ln(1 + 2η)(1 − 2η)) O(1). Siempre tenemos T = (log |Q|)/η2 , por lo
que sustituyendo este valor en la ecuación anterior vemos que el límite
3
µ O(((log3/2 |Q|) √ k log(1/β)ρ)/(εmuestra ∙ η ))
en el enunciado del teorema es aceptable.
Para el caso de consultas arbitrarias, con η constante, tenemos
ρ
λ O ( n log |X | log(1/δbase)(log(n log |X |) + log(2/β))) .
εbase
Ahora, εboost = T εbase + εsample. Iguale estos dos términos, de modo que T εbase
= εboost/2 = εsample, por lo que podemos reemplazar el término 1/εbase con 2T /
εboost = (log |Q|/η2 )/2εboost. Ahora nuestros términos para λ y µ tienen
denominadores similares, ya que η es constante. Por lo tanto, podemos concluir que
el error total está acotado por:
n log |X |ρ log3/2 |Q|(log(1/β))3/2
λ + µ O˜ .
impulsar
Con un razonamiento similar, para el caso de consultas de conteo fraccionario
obtenemos
registro |X | registro |Q| log(1/β) 3/2
λ + µ O˜ .
εimpulso√ norte
Para convertir a un límite para consultas de conteo ordinarias, no fraccionarias,
multiplicamos por n para obtener
n registro |X | registro |Q| log(1/β) 3/2
λ + µ O˜ .
impulsar
El algoritmo boosting (Figura 6.1) es una variante del algoritmo AdaBoost de Schapire
y Singer [78]. Consulte Schapire [77] para obtener un excelente estudio sobre el
impulso, y el libro de texto "Boosting" de Freund y Schapire [79] para un tratamiento
completo. El algoritmo de impulso privado cubierto en esta sección se debe a Dwork
et al. [32], que también contiene el generador base para consultas lineales. Este
generador base, a su vez, se basa en el sintetizador de Dwork et al. [28]. En particular,
el Teorema 6.7 proviene de [28]. Dwork, Rothblum y Vadhan también abordaron el
impulso diferencialmente privado en el sentido habitual.
7
Cuando la sensibilidad en el peor de los casos es atípica
En esta sección, describimos brevemente dos técnicas generales, ambas con
garantías de privacidad incondicionales, que a menudo pueden facilitarle la vida
al analista de datos, especialmente cuando se trata de una función que tiene una
sensibilidad arbitraria o difícil de analizar en el peor de los casos. Estos algoritmos
son más útiles en las funciones informáticas que, por alguna razón exógena, el
analista tiene razones para creer que son "generalmente" insensibles en la práctica.
7.1 Submuestra y agregado
La técnica de Submuestra y Agregado produce un método para “forzar” el cálculo
de una función f(x) para que sea insensible, incluso para una función f arbitraria .
Probar la privacidad será trivial. La precisión depende de las propiedades de la
función f y del conjunto de datos específico x; en particular, si f(x) se puede
estimar con precisión, con alta probabilidad, en f(S), donde S es un subconjunto
aleatorio de los elementos en x, entonces la precisión debería ser buena. Muchos
estimadores estadísticos de máxima verosimilitud disfrutan de esta propiedad en
conjuntos de datos "típicos"; es por eso que estos estimadores se emplean en la
práctica.
140
7.1. Submuestra y agregado 141
Figura 7.1: Submuestra y agregado con un algoritmo genérico de agregación diferencialmente privada
M.
En Submuestra y Agregado, las n filas de la base de datos x se dividen
aleatoriamente en m bloques B1, . . . , Bm, cada uno de tamaño n/m. La función
f se calcula exactamente, sin ruido, independientemente en cada bloque. Los
resultados intermedios f(B1), . . . , f(Bm) luego se combinan a través de un
mecanismo de agregación diferencialmente privado; los ejemplos típicos
incluyen agregaciones estándar, como la media recortada en α,1 la media
sorizada de Win2 y la mediana, pero no hay restricciones, y luego agregando
Laplace ruido escalado a la sensibilidad de la función de agregación en cuestión;
consulte la Figura 7.1.
La observación clave en Submuestra y Agregado es que cualquier elemento
individual puede afectar como máximo un bloque y, por lo tanto, el valor de un
solo f(Bi). Por lo tanto, cambiar los datos de cualquier individuo puede cambiar
como máximo una sola entrada a la función de agregación. Incluso si f es
arbitraria, el analista elige la función de agregación y, por lo tanto, es libre de
elegir una que sea insensible, ¡ siempre que la elección sea independiente de
la base de datos! La privacidad es por lo tanto inmediata: Para cualquier δ ≥ 0
y cualquier función f, si el mecanismo de agregación M es (ε, δ)diferencialmente privado
1La media recortada de α es la media después de la fracción α superior e inferior de la
las entradas han sido descartadas.
2La media Winsorizada es similar a la media α recortada excepto que, en lugar de descartarse, las
fracciones α superior e inferior se reemplazan con los valores restantes más extremos.
142 Cuando la sensibilidad en el peor de los casos es atípica
entonces también lo es la técnica Submuestra y Agregado cuando se instancia con f y
M. 3
La utilidad es una historia diferente, y es frustrantemente difícil argumentar incluso
en el caso en que los datos sean abundantes y es muy probable que grandes
subconjuntos aleatorios den resultados similares. Por ejemplo, los datos se pueden
etiquetar como puntos de entrenamiento en un espacio dimensional alto y la función
es una regresión logística, que produce un vector v y etiqueta un punto p con +1 si y
solo si p ∙ v ≥ T para algunos (digamos, fijo) umbral t
Intuitivamente, si las muestras son lo suficientemente abundantes y típicas, entonces
todos los bloques deberían generar vectores similares v. La dificultad surge al obtener
un buen límite en la sensibilidad de la función de agregación en el peor de los casos:
es posible que necesitemos usar el tamaño del rango como un retroceder. No obstante,
se conocen algunas buenas aplicaciones, especialmente en el ámbito de los
estimadores estadísticos, donde, por ejemplo, se puede demostrar que, bajo el
supuesto de “normalidad genérica”, se puede lograr la privacidad sin costo adicional
en eficiencia estadística ( aproximadamente, precisión a medida que crece el número
de muestras). Aquí no definimos la normalidad genérica, pero tenga en cuenta que los
estimadores que se ajustan a estos supuestos incluyen el estimador de máxima
verosimilitud para familias de distribuciones paramétricas "agradables", como las
gaussianas, y los estimadores de máxima verosimilitud para la regresión lineal y la
regresión logística.
Supongamos que la función f tiene un rango discreto de cardinalidad m, digamos,
[m]. En este caso, Subsample y Aggregate necesitarán agregar un conjunto de b
elementos extraídos de [m], y podemos usar Report Noisy ArgMax para encontrar el
resultado más popular. Este enfoque de agregación requiere b ≥ log m para obtener
resultados significativos incluso cuando los resultados intermedios son unánimes.
Veremos una alternativa a continuación sin tal requisito.
Ejemplo 7.1 (Elección de un modelo). Gran parte del trabajo en estadística y
aprendizaje automático aborda el problema de la selección de modelos: dado un
conjunto de datos y una colección discreta de "modelos", cada uno de los cuales es
una familia de distribuciones de probabilidad, el objetivo es determinar el modelo que mejor "se ajusta".
3La elección de la función de agregación puede incluso depender de la base de datos,
pero la selección debe hacerse de manera diferencialmente privada. El costo de privacidad
es entonces el costo de componer la operación de elección con la función de agregación.
7.2. ProponerPruebaLanzamiento 143
los datos. Por ejemplo, dado un conjunto de datos ddimensionales etiquetados, la
colección de modelos puede ser todos los subconjuntos de, como máximo,
características sd , y el objetivo es encontrar el conjunto de características que mejor
permita la predicción de las etiquetas. La función f podría elegir el mejor modelo del
conjunto dado de m modelos, un proceso conocido como ajuste de modelo, a través
de un algoritmo de aprendizaje arbitrario. La agregación para encontrar el valor más
popular se puede realizar a través de Report Noisy Max, que también proporciona
una estimación de su popularidad.
Ejemplo 7.2 (Características significativas). Este es un caso especial de ajuste de
modelos. Los datos son una colección de puntos en R d y la función es la
LASSO muy popular, que produce como resultado una lista L [d] s de características
significativas como máximo sd . Podemos agregar la salida de dos maneras:
característica por característica, equivalente a ejecutar d ejecuciones de Submuestra
y Agregado, una para cada característica, cada una con un rango de tamaño 2, o en
d .
el conjunto como un todo, en cuyo caso la cardinalidad de el rango es s
7.2 ProponerPruebaLiberar
En este punto cabría preguntarse: ¿cuál es el sentido de la agregación si no existe un
acuerdo sustancial entre los bloques? En términos más generales, para cualquier
análisis estadístico razonablemente grande en la vida real, esperamos que los
resultados sean bastante estables, independientemente de la presencia o ausencia
de un solo individuo. De hecho, esta es toda la intuición detrás de la importancia de
una estadística y la utilidad de la privacidad diferencial. Incluso podemos ir más allá
y argumentar que si una estadística no es estable, no deberíamos tener interés en
calcularla. A menudo, nuestra base de datos será de hecho una muestra de una
población más grande, y nuestro verdadero objetivo no es calcular el valor de la
estadística en la base de datos en sí, sino estimarlo para la población subyacente.
Implícitamente, por lo tanto, al calcular una estadística ya estamos asumiendo que la
estadística es estable bajo submuestreo.
Todo lo que hemos visto hasta ahora ha brindado privacidad incluso en conjuntos
de datos muy "idiosincrásicos", para los cuales los algoritmos "típicamente" estables
pueden ser muy inestables. En esta sección presentamos una metodología, Proponer
TestRelease, que está motivada por la filosofía de que si hay
estabilidad insuficiente, entonces se puede abandonar el análisis porque los resultados
no son de hecho significativos. Es decir, la metodología permite al analista verificar
que, en el conjunto de datos dado, la función satisface algún criterio de “robustez” o
“estabilidad” y, si no lo hace, detener el análisis.
El objetivo de nuestra primera aplicación de ProponerPruebaLiberar es crear una
variante del mecanismo de Laplace que agregue ruido escalado a algo estrictamente
más pequeño que la sensibilidad de una función. Esto conduce a la noción de
sensibilidad local, que se define para un par (función, base de datos), por ejemplo, (f,
x). Sencillamente, la sensibilidad local de f con respecto a x es la cantidad en la que
f(y) puede diferir de f(x) para cualquier y adyacente a x.
Definición 7.1 (Sensibilidad local). La sensibilidad local de una función f : X
k → R con respecto a una base de datos x es:
norte
max f(x) − f(y)1.
y adyacente a x
El enfoque ProponerPruebaLiberar consiste en proponer primero un límite,
digamos b, en la sensibilidad local (por lo general, el analista de datos tiene una idea
de cuál debería ser) y luego ejecutar una prueba privada diferencial para garantizar que
la base de datos esté "lejos". de cualquier base de datos para la que este límite no se
cumpla. Si se pasa la prueba, se supone que la sensibilidad está limitada por b, y se
utiliza un mecanismo diferencialmente privado como, por ejemplo, el mecanismo de
Laplace con el parámetro b/, para liberar la respuesta (ligeramente) ruidosa a la consulta.
Tenga en cuenta que podemos ver este enfoque como un algoritmo de dos partes
donde una parte juega un analista de datos honesto y la otra es el mecanismo de
Laplace. Existe una interacción entre el analista honesto y el mecanismo en el que el
algoritmo solicita una estimación de la sensibilidad y luego "instruye" al mecanismo
para que use esta sensibilidad estimada para responder a consultas posteriores. ¿Por
qué tiene que ser tan complicado? ¿Por qué el mecanismo no puede simplemente
agregar ruido escalado a la sensibilidad local sin jugar este juego de estimación
privado? La razón es que la sensibilidad local en sí misma puede ser sensible. Este
hecho, combinado con cierta información auxiliar sobre la base de datos, puede generar
problemas de privacidad: el adversario puede saber que la base de datos es una de x,
que tiene una sensibilidad local muy baja para el cálculo en cuestión, y una vecina y, para la cual
la función tiene una sensibilidad local muy alta. En este caso , el adversario puede adivinar con
bastante precisión cuál de xey es la verdadera base de datos. Por ejemplo, si f(x) = f(y) = s y la
respuesta está lejos de s, entonces el adversario adivinaría y.
Esto es capturado por las matemáticas de la privacidad diferencial. Hay instancias vecinas
de la función mediana que tienen la misma mediana, digamos, m, pero espacios arbitrariamente
grandes en la sensibilidad local. Suponga que la respuesta R a la consulta de la mediana se calcula
a través del mecanismo de Laplace con ruido escalado a la sensibilidad local. Cuando la base de
datos es x , la masa de probabilidad está cerca de m, porque la sensibilidad es pequeña, pero
cuando la base de datos es y, la masa está muy lejos, porque la sensibilidad es grande. Como
caso extremo, suponga que la sensibilidad local en x es exactamente cero, por ejemplo, X = {0,
106}, n es par y x, que tiene tamaño n + 1, contiene 1 + n/2 ceros. Entonces, la mediana de x es
cero y la sensibilidad local de la mediana, cuando la base de datos es x, es 0. Por el contrario, la
base de datos vecina y tiene un tamaño n, contiene n/2 ceros, tiene una mediana cero (hemos
definido mediana para desempatar a favor del menor valor), y la sensibilidad local de la mediana,
cuando la base de datos es y, es 106 . En x toda la masa del mecanismo de Laplace (con parámetro
0/ε = 0) se concentra en el único punto 0; pero en y la distribución de probabilidad tiene una
desviación estándar √ 2 ∙ 106 . Esto destruye toda esperanza de privacidad diferencial.
Para probar que la base de datos está “lejos” de una con una sensibilidad local mayor que el
límite b propuesto, podemos plantear la consulta: “¿Cuál es la distancia de la base de datos real a
la más cercana con una sensibilidad local superior a b?” La distancia a un conjunto fijo de bases
de datos es una consulta de sensibilidad (global) 1, por lo que esta prueba se puede ejecutar de
manera diferencialmente privada agregando ruido Lap(1/ε) a la respuesta verdadera. Para errar
por el lado de la privacidad, el algoritmo puede comparar esta distancia ruidosa con un umbral
conservador, uno que es insignificantemente probable que se exceda debido a un evento extraño
de ruido de Laplace de gran magnitud. Por ejemplo, si el umbral utilizado es, digamos, ln2 n, la
probabilidad de un falso positivo (pasar la prueba cuando la sensibilidad local de hecho excede b)
es como máximo O(n −ε ln n ), por las propiedades del distribución de Laplace. Debido a la
probabilidad insignificante de un falso positivo, la técnica no puede producir privacidad diferencial
(ε, 0) para cualquier ε.
Para aplicar esta metodología al consenso en bloques, como en nuestra
discusión de Submuestra y Agregado, vea los resultados intermedios f(B1), . . . ,
f(Bm) como un conjunto de datos y considere alguna medida de la concentración
de estos valores. Intuitivamente, si los valores están fuertemente concentrados,
entonces tenemos consenso entre los bloques. Por supuesto, todavía necesitamos
encontrar la noción correcta de concentración, una que sea significativa y que tenga
una instanciación diferencialmente privada. En una sección posterior definiremos y
entrelazaremos dos nociones de estabilidad que parecen relevantes para
Submuestra y Agregado: insensibilidad (a la eliminación o adición de algunos
puntos de datos) y estabilidad bajo submuestreo, capturando la noción de que una
submuestra debe producir resultados similares. resultados al conjunto completo de
datos.
7.2.1 Ejemplo: la escala de un conjunto de datos
Dado un conjunto de datos, una pregunta natural es: "¿Cuál es la escala o la
dispersión del conjunto de datos?" Esta es una pregunta diferente de la ubicación
de los datos, que puede ser capturada por la mediana o la media. La escala de
datos es más a menudo capturada por la varianza o un rango intercuantílico. Nos
centraremos en el rango intercuartílico (RIC), un estimador robusto bien conocido
para la escala de los datos. Comenzamos con una intuición aproximada. Suponga
que los datos son muestras iid extraídas de una distribución con
función de distribución F. Entonces IQR(F), definida como F −1 (3/4)−F −1
(1/4),
es una constante, que depende solo de F. Puede ser muy grande o muy pequeña,
pero de cualquier manera, si la densidad de F es suficientemente alta en los dos
cuartiles, entonces, dadas suficientes muestras de F, la distancia intercuartil
empírica (es decir, la muestra) debería estar cerca de IQR(F).
Nuestro algoritmo ProponerPruebaLiberar para la distancia intercuartil primero
prueba cuántos puntos de la base de datos deben cambiarse para obtener un
conjunto de datos con una distancia intercuartil "suficientemente diferente". Solo si
la respuesta (ruidosa) es "suficientemente grande", el algoritmo liberará una
aproximación al rango intercuartílico del conjunto de datos.
La definición de “suficientemente diferente” es multiplicativa, ya que una noción
aditiva para la diferencia de escala no tiene sentido: ¿cuál sería la
escala correcta para la cantidad de aditivo? Por lo tanto, el algoritmo trabaja con el
logaritmo de la escala, lo que conduce a un ruido multiplicativo
en el IQR. Para ver esto, supongamos que, como en lo que podría ser el caso típico, la
distancia intercuartil de la muestra no puede cambiar por un factor de 2 modificando un
solo punto. Luego, el logaritmo (base 2) del intercuartil de la muestra tiene una sensibilidad
local limitada por 1. Esto nos permite publicar de forma privada una aproximación al
logaritmo del rango intercuartílico de la muestra agregando a este valor un sorteo aleatorio
de Lap(1/ε).
Sea IQR(x) el rango intercuartílico de la muestra cuando el conjunto de datos es x. El
algoritmo propone (implícitamente) agregar ruido extraído de Lap(1/ε) al valor log2
(IQR(x)). Para probar si esta magnitud de ruido es suficiente para la privacidad diferencial,
discretizamos R en contenedores separados {[k ln 2,(k+1) ln 2)}k Z y preguntamos
cuántos puntos de datos deben modificarse para obtener una nueva base de datos, el
logaritmo (base 2) de cuyo rango intercuartílico está en un contenedor diferente al de log2
(IQR(x)). Si la respuesta es al menos dos, la sensibilidad local (del logaritmo del rango
intercuartílico) está limitada por el ancho del intervalo. Ahora damos más detalles.
Para comprender la elección del tamaño del contenedor, escribimos
ln IQR(x) c en 2
log2 (IQR(x)) = ln 2 = ,
en 2
de donde encontramos que mirar ln(IQR(x)) en la escala de ln 2 es equivalente a mirar
log2 (IQR(x)) en la escala de 1. Así tenemos contenedores escalados que son intervalos
cuyos extremos son un par de enteros adyacentes: Bk = [k, k + 1), k Z, y hacemos k1
= log2 (IQR(x)), entonces log2 (IQR(x)) [k1, k1 + 1) y informalmente decimos que el
logaritmo del IQR está en bin k1. Considere la siguiente consulta de prueba:
P0 : ¿Cuántos puntos de datos se deben cambiar para obtener una nueva
base de datos z tal que log2 (IQR(z)) / Bk1 ?
Sea A0(x) la respuesta verdadera a Q0 cuando la base de datos es x.
Si A0(x) ≥ 2, entonces los vecinos y de x satisfacen | log2 (RIQ(y)) − log2 (RIQ(x))| ≤ 1. Es
decir, están cerca uno del otro. Esto no es equivalente a estar en el mismo intervalo en la
discretización: log2 (IQR(x)) puede estar cerca de uno de los extremos del intervalo [k1,
k1 + 1) y log2 (IQR(y)) puede estar justo al otro lado del punto final. Haciendo R0 = A0(x)
+ Lap(1/ε), un R0 pequeño, incluso cuando el
extraer de la distribución de Laplace tiene una magnitud pequeña, en realidad podría no indicar
una alta sensibilidad del rango intercuartílico. Para hacer frente al caso de que la sensibilidad
local sea muy pequeña, pero log2 (IQR(x)) esté muy cerca de la frontera, consideramos una
segunda discretización (2) = [k−0.5, k+0.5)}k Z . Denotamos las dos discretizaciones por B(1)
{B k
y B(2) respectivamente. El valor log2 (IQR(x)) —de hecho, cualquier valor— no puede estar
cerca de un límite en ambas discretizaciones. La prueba se pasa si R0 es grande en al menos
una discretización.
El algoritmo de escala (algoritmo 12) a continuación para calcular la escala de la base de
datos supone que se conoce n, el tamaño de la base de datos, y la consulta de distancia ("¿A
qué distancia de una base de datos cuyo rango intercuartílico tiene una sensibilidad superior a
b?") pregunta cómo se deben mover muchos puntos para llegar a una base de datos con alta
sensibilidad del IQR. Podemos evitar esta suposición haciendo que el algoritmo primero haga la
consulta (sensibilidad 1): "¿Cuántos puntos de datos hay en x?" Observamos que, por razones
técnicas, para hacer frente al caso IQR(x) = 0, definimos log 0 = −∞, −∞ = −∞, y sea [−∞, −∞) =
{−∞}.
Algoritmo 12 El Algoritmo de Escala (liberando el rango intercuartílico)
Requerir: conjunto de datos: x X parámetros de privacidad: , 1: δ > 0 ,

para la jésima discretización (j = 1, 2) hacer 2: Calcular
R0(x) = A0(x) + z0, donde z0 R Lap(1/ε). si R0 ≤ 1 + ln(1/δ) entonces (j)
3:
4: Sea s = . 5:
más
z s(j) (j)
6: Vamos _ (j) = RIQ(x) × 2 , donde z s Vuelta(1/ε).
7: termina si 8:
termina para
(1) 9: si s = entonces
10: Volver s 11: más(1) .
12: Devolver s 13: (2) .
Terminar si
Tenga en cuenta que el algoritmo es eficiente: sea x(1), x(2), . . . , x(n) denota los n
puntos de la base de datos después de la clasificación, y deje que x(m) denote la mediana,
por lo que m = (n+1)/2. Entonces, la sensibilidad local de la mediana es max{x(m)− x(m −
1), x(m + 1) − x(m)} y, lo que es más importante, se puede calcular A0(x) considerando
O( n) intervalos deslizantes con ancho 2 k1 y 2 k1+1 cada uno con un punto final en x. El ,
costo computacional para cada intervalo es constante.
No probaremos los límites de convergencia para este algoritmo porque, en aras de la
simplicidad, hemos usado una base para el logaritmo que está lejos de ser óptima (una
mejor base es 1 + 1/ ln n ) . Describimos brevemente los pasos en la prueba de privacidad.
Teorema 7.1. La escala del algoritmo (algoritmo 12) es (4ε, δ) diferencialmente privada.
Prueba. (Esquema). Si s es la abreviatura del resultado obtenido con una sola discretización
y definiendo D0 = {x : A0(x) ≥ 2}, la prueba muestra:
1. La sensibilidad en el peor de los casos de la consulta Q0 es como máximo 1.
2. Es casi igualmente probable que las bases de datos vecinas den como resultado :
Para todas las bases de datos vecinas x, y:
Pr[s = |x] ≤ e ε Pr[s = |y].
3. Es poco probable que las bases de datos que no están en D0 pasen la prueba:
δ x / D0 : Pr[s = |x] ≤ .

2
4. C R +, x D0 y todos los vecinos y de x:
2ε
Pr[s C|x] ≤ e Pr[s C|y] .
Por lo tanto, obtenemos privacidad diferencial (2ε, δ/2) para cada discretización.
Aplicando el Teorema 3.16 (Apéndice B), que dice que “los épsilons y los deltas se suman”,
se obtiene (4ε, δ)privacidad diferencial.
7.3 Estabilidad y privacidad
7.3.1 Dos nociones de estabilidad
Comenzamos por hacer una distinción entre las dos nociones de estabilidad
entrelazadas en esta sección: estabilidad bajo submuestreo, que produce
resultados similares bajo submuestras aleatorias de los datos, y estabilidad de
perturbación, o sensibilidad local baja, para un conjunto de datos dado. En esta
sección definiremos y haremos uso de versiones extremas de ambos.
• Estabilidad de submuestreo: Decimos que f es qsubmuestreo estable en x
si f(ˆx) = f(x) con probabilidad de al menos 3/4 cuando xˆ es una submuestra
aleatoria de x que incluye cada entrada independientemente con
probabilidad q. Usaremos esta noción en Algorithm Asamp, una variante
de Sample and Aggregate.
• Estabilidad de la perturbación: Decimos que f es estable en x si f toma el
valor f(x) en todos los vecinos de x (e inestable en caso contrario).
En otras palabras, f es estable en x si la sensibilidad local de f en x es cero.
Usaremos esta noción (implementada en Algorithm Adist a continuación)
para el paso de agregación de Asamp.
En el corazón de Algorithm Asamp se encuentra una versión relajada de
estabilidad de perturbaciones, donde en lugar de requerir que el valor no cambie
en las bases de datos vecinas, una noción que tiene sentido para rangos
arbitrarios, incluidos rangos discretos arbitrarios, solo requerimos que el valor sea
" close” en bases de datos vecinas, una noción que requiere una métrica en el
rango.
Las funciones f con rangos arbitrarios, y en particular el problema de agregar
salidas en Submuestra y Agregado, motivan el siguiente algoritmo, Adist. En la
entrada f, x, Adist genera f(x) con alta probabilidad 2 log(1/δ) si x está a una
al menos de los datos inestables m distancia
ás cercanos
ε
colocar. El algoritmo es conceptualmente trivial: calcule la distancia al conjunto
de datos inestable más cercano, agregue el ruido de Laplace Lap(1/ε) y verifique
que 2
log(1/δ) esta distancia ruidosa sea al menos .
ε
Si es así, suelte f(x), de lo contrario,
emita . Ahora hacemos esto un poco más formal.
Comenzamos definiendo una medida cuantitativa de la estabilidad de la
perturbación.
7.3. Estabilidad y privacidad 151
Definición 7.2. Una función f : X → R es kestable en la entrada x si agregar o quitar
cualquier elemento k de x no cambia el valor de f, es decir, f(x) = f(y) para todo y tal que |
xy | ≤ k. Decimos que f es estable en x si es (al menos) 1estable en x, e inestable en caso
contrario.
Definición 7.3. La distancia a la inestabilidad de un conjunto de datos x X con con

respecto a una función f es el número de elementos que deben agregarse o quitarse de y
para llegar a un conjunto de datos que no es estable bajo f.
Tenga en cuenta que f es kestable en x si y solo si la distancia de x a
la inestabilidad es al menos k.
Algorithm Adist, una instanciación de ProposeTestRelease para funciones discretas
g, aparece en la Figura 13.
Algoritmo 13 Adist (liberando g(x) basado en la distancia a la inestabilidad) δ > 0, función
Requerir: conjunto de datos: x X privacidad: , g : , parámetros de
X → R
1: d ← distancia de x a la instancia inestable más cercana
2: ̂d ← d + Vuelta(1/ε) 3:
si ̂d > registro (1/δ) entonces
ε
4: Salida g(x)
5: más
6: Salida 7:
finaliza si
La demostración de la siguiente proposición es inmediata a partir de la prop
erties de la distribución de Laplace.
Proposición 7.2. Para cada función g:
1. Adist es (ε, δ)diferencialmente privado. ln(1/
δ)+ln(1/β)
todo β > 0: si g es g(x) con ε
estable en x, entonces Adist(x) = 2. Para
probabilidad de al menos 1 − β, donde la probabilidad el espacio son los
lanzamientos de moneda de Adist.
Este resultado basado en la distancia es el mejor posible, en el siguiente sentido: si
hay dos conjuntos de datos x e y para los que Adist genera diferentes
valores g(x) y g(y), respectivamente, con al menos una probabilidad constante, entonces la
distancia de x a y debe ser Ω(log(1/δ)/ε).
La distancia a la inestabilidad puede ser difícil de calcular, o incluso el límite inferior, por lo
que, en general, esta no es una solución práctica. Dos ejemplos donde la distancia a la inestabilidad
resulta ser fácil de acotar son la mediana y la moda (valor que ocurre con mayor frecuencia).
Adist también puede ser insatisfactorio si la función, digamos f, no es estable en los conjuntos
de datos específicos de interés. Por ejemplo, suponga que f no es estable debido a la presencia
de algunos valores atípicos en x. Las instancias de la media se comportan de esta forma, aunque
para esta función existen alternativas robustas bien conocidas como la media winsorizada, la
media recortada y la mediana. ¿Por qué para las funciones generales f? ¿Existe algún método
para "forzar" que una f arbitraria sea estable en una base de datos x?
Este será el objetivo de Asamp, una variante de Subsample y Aggreg gate que genera f(x)
con alta probabilidad (sobre sus propias elecciones aleatorias) siempre que f sea un submuestreo
estable en x.
7.3.2 Algoritmo Asamp
En Asamp, los bloques B1, . . . , Bm se eligen con reemplazo, de modo que cada bloque tenga la
misma distribución que las entradas (aunque ahora un elemento de x puede aparecer en varios
bloques). Los llamaremos xˆm submuestreados. Las salidas intermedias z = {f(ˆx1), . . . , f(ˆxm)}
función g = modo. La conjuntos de datos xˆ1, . . . , luego se agregan a través de Adist con la
medida de distancia utilizada para estimar la estabilidad del modo en z es una versión escalada de
la diferencia entre la popularidad del modo y la del segundo valor más frecuente. Algoritmo
Asamp, aparece en la Figura 14.
Su tiempo de ejecución está dominado por la ejecución de f aproximadamente 1/q2 veces; por
tanto, es eficiente siempre que f lo sea.
La propiedad clave del algoritmo Asamp es que, en la entrada f, x, genera f(x) con alta
probabilidad, sobre sus propias elecciones aleatorias, siempre que f sea estable en el submuestreo
ε
q en x para q = 64 log(1/ δ) . Este resultado tiene una importante interpretación
estadística.
Recuerde la discusión sobre la selección del modelo del ejemplo 7.1. Dada una colección de
modelos, la complejidad muestral de la selección del modelo es el número de muestras de una
distribución en uno de los modelos necesarios para seleccionar el modelo correcto.
con probabilidad de al menos 2/3. El resultado dice que la selección diferencial de
modelos privados aumenta la complejidad de la muestra de la selección de modelos
(no privados) en un factor independiente del problema (y del rango) de O(log(1/δ)/ε).
Algoritmo 14 Asamp: Bootstrapping para SubmuestreoEstable f
Requerir: conjunto de datos: x, función f : X → R, parámetros de privacidad , δ >
0.
1: q ← 64 ln(1/δ) , m ← registro (n/δ) .
2 q
2: Submuestra m conjuntos de datos xˆ1, ..., xˆm de x, donde xî incluye cada
posición de x independientemente con probabilidad q.
3: si algún elemento de x aparece en más de 2mq establece xî entonces 4:
Alto y salida . 5: sino 6: z
←
{f(ˆx1), ∙ ∙ ∙ , f(ˆxm)}.
7: Para cada r R, sea count(r) = #{i : f(ˆxi) = r}.
8: Deje que count(i) denote la iésima cuenta más grande, i = 1, 2. 9: d
← (count(1) − count(2))/(4mq) − 1 10: Comente
Ahora ejecute Adist(g, z) utilizando d para estimar la distancia a la inestabilidad: ̂d
← d + Lap( ).
1
11: si ̂d > ln(1/δ)/ε
12: entonces
13: Salida g(z) = modo(z).
14: más
15: Salida .
16: terminar si
17: terminar si
Teorema 7.3.
1. El algoritmo Asamp es (ε, δ) diferencialmente privado.
2. Si f es qsubmuestreo estable en la entrada x donde q = entonces 6ε4 ln(1/δ) ,
el algoritmo Asamp(x) genera f(x) con una probabilidad de al menos 1−3δ.
3. Si f se puede calcular en el tiempo T(n) con entradas de longitud n, entonces
log
n Asamp se ejecuta en el tiempo esperado O( 2 )(T(qn) + n).
q
Tenga en cuenta que la declaración de utilidad aquí es una garantía de insumo
por insumo; f no necesita ser qsubmuestreo estable en todas las entradas. Es
importante destacar que no depende del tamaño del rango R. En el contexto de la
selección del modelo, esto significa que uno puede satisfacer de manera eficiente la
privacidad diferencial con un aumento modesto en la complejidad de la muestra
(alrededor de log(1/δ)/ε) siempre que haya es un modelo particular que se selecciona
con una probabilidad razonable.
La prueba de privacidad proviene de la insensibilidad del cálculo de d, la
privacidad de la técnica ProponerPruebaLiberar y la privacidad de Submuestra y
Agregado, ligeramente modificado para permitir el hecho de que este algoritmo realiza
muestreo con reemplazo y, por lo tanto, el agregador tiene mayor sensibilidad, ya que
cualquier individuo puede afectar bloques de hasta 2mq . La principal observación
para analizar la utilidad de este enfoque es que la estabilidad del modo es una
función de la diferencia entre la frecuencia del modo y la del siguiente elemento más
popular. El siguiente lema dice que si f es submuestreo estable en x, entonces x está
lejos de ser inestable con respecto al modo g(z) = g(f(ˆx1), . . . , f(ˆxm)) (pero no
necesariamente con respecto a f), y además se puede estimar la distancia a la
inestabilidad de x de manera eficiente y privada.
Lema 7.4. Fija q (0, 1). Dada f : X la función ̂f = → R, sea ̂f : X → R ser

modo(f(ˆx1), ..., f(ˆxm)) donde cada xî incluye cada elemento de x independientemente
con probabilidad q y m = ln(n/δ)/q2 . Sea d(z) = (contar(1) −contar(2))/(4mq)−1; es
decir, dada una "base de datos" z de valores, d(z)+ 1 es una diferencia escalada entre
el número de ocurrencias de los dos valores más populares. Fijar un conjunto de
datos x. Sea E el evento de que ninguna posición de x está incluida en más de 2mq
de los subconjuntos xî .
Entonces, cuando q ≤ ε/64 ln(1/δ) tenemos:
1. E ocurre con una probabilidad de al menos 1 − δ.
2. Condicionado a E, d cota inferior la estabilidad de ̂f en x, y d
Tiene sensibilidad global 1.
3. Si f es qsubmuestreo estable en x, entonces con una probabilidad de al menos
1 − δ sobre la elección de submuestras, tenemos ̂f(x) = f(x), y, condicionado a
este evento, la prueba final será pasó con
probabilidad al menos 1 − δ, donde la probabilidad está sobre el sorteo de Lap(1/
ε).
Los eventos en las Partes 2 y 3 ocurren simultáneamente con una probabilidad de al
menos 1 − 2δ.
Prueba. La parte 1 se deriva del límite de Chernoff. Para probar la Parte 2, observe
que, condicionado al evento E, agregar o eliminar una entrada en el conjunto de datos
original cambia cualquiera de los conteos conteo (r) en 2mq como máximo . Por lo
tanto, count(1) − count(2) cambia como máximo 4mq. Esto, a su vez, significa que
d(f(ˆx1), . . . , f(ˆxm)) cambia como máximo en uno para cualquier x y, por lo tanto, tiene
una sensibilidad global de uno. Esto también implica que d es el límite inferior de la
estabilidad de ̂f en x.
Pasamos ahora a la parte 3. Queremos argumentar dos hechos:
1. Si f es qsubmuestreo estable en x, entonces es probable que haya una gran
brecha entre los conteos de los dos contenedores más populares.
Específicamente, queremos mostrar que con alta probabilidad count(1) −count(2)
≥ m/4. Tenga en cuenta que si el contenedor más popular tiene un conteo de al
menos 5 m/8 , entonces el segundo contenedor más popular puede tener un
conteo de 3 m/8 como máximo, con una diferencia de m/4. Por definición de
estabilidad de submuestreo, el contenedor más popular tiene un recuento
esperado de al menos 3 m/4 y, por lo tanto, según el límite de Chernoff, tomando
−2mα2
como máximo e = mi α = 1/8, tiene una probabilidad −m/32 de tener un recuento inferior a 5 m/8. (Todo
las probabilidades están sobre el submuestreo.)
2. Cuando la brecha entre los conteos de los dos contenedores más populares es
grande, es poco probable que el algoritmo falle; es decir, es probable que la
1
prueba tenga éxito. La preocupación es que el sorteo de Lap( ) sea nεegativo y
tenga un valor absoluto grande, de modo que ̂d caiga por debajo del umbral
(ln(1/δ)/ε) incluso cuando d sea grande. Para que esto suceda con probabilidad
como máximo δ basta con que d > 2 ln(1/δ)/ε.
Por definición, d = (count(1) −count(2))/(4mq)−1, y, asumiendo que estamos en
el caso de alta probabilidad que acabamos de describir, esto implica
m/4 1
d ≥ − 1 = − 1
4mq 16q
así que es suficiente tener
1
> 2 ln(1/δ)/ε. 16q
Tomando q ≤ ε/64 ln(1/δ) es suficiente.
−m/32
Finalmente, observe que con estos valores de q y m tenemos e < δ.
Ejemplo 7.3. [El problema de los datos sin procesar] Supongamos que tenemos un
analista en quien podemos confiar para seguir las instrucciones y solo publicar la
información obtenida de acuerdo con estas instrucciones. Mejor aún, supongamos que
tenemos tales analistas y podemos confiar en que no se comunicarán entre ellos. No es
necesario que los analistas sean idénticos, pero sí deben considerar un conjunto común
de opciones. Por ejemplo, estas opciones pueden ser estadísticas diferentes en un
conjunto fijo S de estadísticas posibles, y en este primer paso el objetivo del analista es
elegir, para su eventual publicación, la estadística más significativa en S. Posteriormente,
la estadística elegida se volverá a calcular en una manera diferencialmente privada, y el
resultado puede ser publicado.
Tal como se describe, el procedimiento no es privado en absoluto: ¡la elección de la
estadística realizada en el primer paso puede depender de los datos de un solo individuo!
No obstante, podemos usar el marco SubsampleandGgregate para llevar a cabo el
primer paso, con el iésimo analista recibiendo una submuestra de los puntos de datos y
aplicando a esta base de datos más pequeña la función fi para obtener una opción.
Luego, las opciones se agregan como en el algoritmo Asamp; si hay un claro ganador, es
muy probable que sea la estadística seleccionada. Esto se eligió de manera
diferencialmente privada, y en el segundo paso se computará con privacidad diferencial.
Notas bibliográficas
La submuestra y el agregado fueron inventados por Nissim, Raskhodnikova y Smith [68],
quienes fueron los primeros en definir y explotar la baja sensibilidad local.
ProponerPruebaLiberar se debe a Dwork y Lei [22], al igual que el algoritmo para liberar
el rango intercuartílico. La discusión sobre estabilidad y privacidad, y el algoritmo Asamp
que combina estas dos técnicas, se debe a Smith y Thakurta [80]. Este artículo demuestra
el poder de
Asamp analizando las condiciones de estabilidad de submuestreo del famoso
algoritmo LASSO y mostrando que la privacidad diferencial se puede obtener
"gratis", a través de (una generalización de Asamp), precisamente bajo las
condiciones (de datos fijos y de distribución) por las que se conoce a LASSO.
tener un buen poder explicativo.
8
Límites inferiores y resultados de separación
En esta sección, investigamos varios límites inferiores y compensaciones:
1. ¿Cuán inexactas deben ser las respuestas para no destruir por completo
cualquier noción razonable de privacidad?
2. ¿Cómo depende la respuesta a la pregunta anterior del número de consultas?
3. ¿Podemos separar la privacidad diferencial (ε, 0) de la privacidad diferencial (ε,
δ) en términos de la precisión que cada una permite?
4. ¿Existe una diferencia intrínseca entre lo que se puede lograr para
consultas lineales y para consultas arbitrarias de baja sensibilidad mientras se
mantiene la privacidad diferencial (ε, 0)?
Un sabor diferente del resultado de la separación distingue la complejidad
computacional de generar una estructura de datos que maneja todas las consultas en
una clase dada de la de generar una base de datos sintética que logra el mismo
objetivo. Posponemos una discusión de este resultado para la Sección 9.
158
8.1. Ataques de reconstrucción 159
8.1 Ataques de reconstrucción
En la Sección 1 argumentamos que cualquier mecanismo no trivial debe ser aleatorio.
De ello se deduce que, al menos para alguna base de datos, consulta y elección de bits
aleatorios, la respuesta producida por el mecanismo no es perfectamente precisa. La
pregunta de cuán inexactas deben ser las respuestas para proteger la privacidad tiene
sentido en todos los modelos computacionales: interactivos, no interactivos y los modelos
discutidos en la Sección 12.
Para los límites inferiores de la distorsión, asumimos por simplicidad que la base de
datos consta de un solo bit, pero muy sensible, por persona, por lo que podemos pensar
en la base de datos como un vector booleano de n bits d = ( d1 , . . . , dn). Esta es una
abstracción de un entorno en el que las filas de la base de datos son bastante complejas,
por ejemplo, pueden ser registros médicos, pero el atacante está interesado en un campo
específico, como la presencia o ausencia del rasgo de células falciformes. El ataque
abstracto consiste en emitir una cadena de consultas, cada una de las cuales se describe
mediante un subconjunto S de las filas de la base de datos. La consulta pregunta cuántos
1 hay en las filas seleccionadas. Representando la consulta como el vector S característico
de n bits del conjunto S, con 1 en todas las posiciones correspondientes a las filas en S y
0 en todas las demás, la verdadera respuesta a la consulta es el producto interno A(S) =
diSi .
n
i = 1
Arreglar un mecanismo de privacidad arbitrario. Dejaremos que r(S) denote la
respuesta a la consulta S. Esto puede obtenerse explícitamente, digamos, si el mecanismo
es interactivo y se emite la consulta S , o si al mecanismo se le dan todas las consultas
por adelantado y produce una lista de respuestas, o implícitamente, lo que ocurre si el
mecanismo produce una sinopsis de la cual los analistas extraen r(S). Tenga en cuenta
que r(S) puede depender de elecciones aleatorias realizadas por el mecanismo y el
historial de consultas. Sea E(S, r(S)) el error, también llamado ruido o distorsión, de la
respuesta r(S), entonces E(S, r(S)) = |A(S) − r(S)| .
La pregunta que queremos hacer es: "¿Cuánto ruido se necesita para preservar la
privacidad?" La privacidad diferencial es una garantía de privacidad específica, pero
también se podrían considerar nociones más débiles, por lo que en lugar de garantizar la
privacidad, el objetivo modesto en los argumentos del límite inferior será simplemente
evitar catástrofes de privacidad.
160 Límites inferiores y resultados de separación
Definición 8.1. Un mecanismo es manifiestamente no privado si un adversario puede
construir una base de datos candidata c que concuerde con la base de datos real d en
todas las entradas excepto en o(n) , es decir, c − d0 o(n).
En otras palabras, un mecanismo es descaradamente no privado si permite un
ataque de reconstrucción que permite al adversario adivinar correctamente el bit secreto
de todos los miembros de la base de datos excepto uno . (No hay ningún requisito de
que el adversario sepa en qué respuestas es correcta).
Teorema 8.1. Sea M un mecanismo con distorsión de magnitud limitada por E. Entonces
existe un adversario que puede reconstruir la base de datos dentro de las posiciones
4E .
Una consecuencia sencilla del teorema es que un mecanismo de privacidad que
agrega ruido con una magnitud siempre limitada por, digamos, n/401, permite que un
adversario reconstruya correctamente el 99% de las entradas.
Prueba. Sea d la verdadera base de datos. El adversario ataca en dos fases:
1. Estime el número de 1 en todos los conjuntos posibles: Consulta M
en todos los subconjuntos S [n].
2. Descartar bases de datos “distantes”: Para cada base de datos candidata c {0,
1} n si S ,[n] tal que | i Sci − M(S) | > E, luego descartar c. Si no se descarta
c , entonces emita c y deténgase.
Dado que M(S) nunca se equivoca más que E, la base de datos real no se descartará,
por lo que este algoritmo simple (¡pero ineficiente!) generará alguna base de datos
candidata c. Argumentaremos que el número de posiciones en las que c y d difieren es
como máximo 4 ∙ E.
Sean I0 los índices en los que di = 0, es decir, I0 = {i | di = 0}.
De manera similar, defina I1 = {i | di = 1}. Como no se descartó c , |M(I0) − i I0 ci | ≤ E.
Sin embargo, por supuesto |M(I0) − di | ≤ E. De la desigualdad del
i triángulo
I0 se deduce
que c y d difieren como máximo en 2E posiciones en I0; el mismo argumento muestra
que difieren en la mayoría de las posiciones 2E en I1. Por lo tanto, c y d concuerdan en
todas las posiciones excepto en la mayoría de las 4E .
¿Qué pasa si consideramos límites más realistas en el número de consultas?
Pensamos en √ n como un umbral interesante sobre el ruido, por la siguiente razón: si
la base de datos contiene n personas extraídas uniformemente al azar
de una población de tamaño N n, y la fracción de la población que satisface una condición
dada es p, entonces esperamos que el número de filas en la base de datos que satisfagan
la propiedad sea aproximadamente np ± Θ(√ n), por las propiedades de la Distribución
binomial. Es decir, el error de muestreo es del orden de √ n. Nos gustaría que el ruido
introducido por privacidad sea menor que el error de muestreo, idealmente o( √ n). El
siguiente resultado investiga la viabilidad de un error tan pequeño cuando el número de
consultas es lineal en n. El resultado es negativo.
Ignorando la complejidad computacional, para ver por qué podría existir un ataque
de consulta eficiente, modificamos el problema ligeramente, analizando las bases de
datos d {−1, 1} n y los vectores de consulta v {−1, 1} n , la respuesta . La verdad
se define nuevamente como ser d ∙ v, y la respuesta es una versión ruidosa de la
respuesta verdadera. Ahora, considere una base de datos candidata c que está lejos de
d, digamos, c−d0 Ω(n). Para una probabilidad aleatoria v R {−1, , con constante
1} n tenemos (c − d) ∙ v Ω(√ n). Para ver esto, fija x {−1, 1} n y elige v R {−1, 1} n .
Entonces x ∙ v es una suma de variables aleatorias independientes xivi R {−1, 1}, que
tiene expectativa 0 y varianza n, y se distribuye de acuerdo con una distribución binomial
escalada y desplazada.
Por la misma razón, si c y d difieren en al menos αn filas, y v se elige al azar, entonces (c
− d) ∙ v se distribuye binomialmente con media 0 y varianza de al menos αn. Por lo tanto,
esperamos que c ∙ vy d ∙ v difieran en al menos α √ n con probabilidad constante , por las
propiedades de la distribución binomial. Tenga en cuenta que estamos utilizando la
propiedad anticoncentración de la distribución, en lugar de la apelación habitual a la
concentración.
Esto abre un ataque para descartar c cuando el ruido está restringido a ser o( √ n):
calcule la diferencia entre c∙v y la respuesta ruidosa r(v). Si la magnitud de esta diferencia
excede √ n , lo que ocurrirá con probabilidad constante sobre la elección de v , entonces
descarte c.
El siguiente teorema formaliza este argumento y muestra además que el ataque es
resistente incluso a una gran fracción de respuestas completamente arbitrarias: usando
un número lineal de ±1 preguntas, un atacante puede reconstruir casi toda la base de
datos si el curador está limitado a + η de las preguntas dentro de un error absoluto de
o( √ n). responde al menos
1 2
Teorema 8.2. Para cualquier η > 0 y cualquier función α = α(n), existe una constante b y
un ataque usando bn ±1 preguntas que reconstruye a
2α 2
base de datos que concuerda con la base de datos real en todas menos en la )
η
mayoría de las entradas (, si el curador responde 1 2 + η de las preguntas dentro de un
al menos error absoluto de α.
Prueba. Comenzamos con un lema simple.
Lema 8.3. Sea Y = Xi donde cada Xi es una variable aleatoria de Bernoulli independiente
k i = 1
de ±2 con media cero. Entonces para cualquier y y cualquier
+1 .
N, P r[Y [2y, 2(y + )]] ≤
√ k
1
k Prueba. Tenga en cuenta que Y siempre es par y que P r[Y = 2y] = ( (k+y)/2 Esta 2 ) k .
1 k
( 2 ) k de Stirling, que dice que n! puede
expresión es como máximo . Usando la aproximación
k/2
aproximarse mediante √ 2nπ(n/e ) n está acotado por πk .La afirmación se deriva , este
2
de una unión acotada sobre los + 1 valores posibles para Y en [2y, 2(y + )].
El ataque del adversario es elegir bn vectores aleatorios v {−1, 1} n obtener ,
respuestas (y1, . . . , ybn), y luego generar cualquier base de datos c tal que |yi − (Ac)i | ≤
α para al menos + η de los índices i, donde
A es la matriz bn × n cuyas filas son los
1 2
vectores de consulta aleatorios v.
Sea d la verdadera base de datos y sea c la base de datos reconstruida.
Por suposición sobre el comportamiento del mecanismo, |(Ad)i−yi | ≤ α para una fracción
1/2+η de i [bn]. Como no se descartó c , también tenemos que |(Ac)i−yi | ≤ α para una
fracción 1/2+η de i [bn]. Dado que cualquiera de estos dos conjuntos de índices
concuerdan en al menos una fracción de 2η de i [bn], de la desigualdad del triángulo
tenemos que para al menos 2ηbn valores de i, |[(c − d)A]i | ≤ 2α. entradas. Mostraremos
2α 2 que si la c
Deseamos argumentar que c concuerda con d en todo excepto ( )
η
reconstruida está lejos de d, discrepando en al menos (2α/η) entradas, la probabilidad de
2
que una A elegida al azar satisfaga |[A(c−d)]i | ≤ 2α para al menos 2ηbn valores de i será
extremadamente pequeño, tan pequeño que, para un A aleatorio, es extremadamente
improbable que exista un c lejos de d que no sea eliminado por las consultas en A.
Suponga que el vector z = (c − d) {−2, 0, 2} n tiene peso de Hamming al menos
2α 2
) ,lejos de d. Hemos argumentado que, dado que el atacante produce c , |
( por lo que c está
η
(Az) i | ≤ 2α para al menos 2ηbn valores de i.
Llamaremos a tal z malo con respecto a A. Mostraremos que, con alta probabilidad sobre
la elección de A, ningún z es malo con respecto a A.
2α 2 ±2 valores aleatorios.
Para cualquier i, a saber, es la suma de al menos ( η
)
2
Haciendo k = (2α/η) y = 2α, tenemos por el Lema 8.3 que la probabilidad de que viz se
encuentre en un intervalo de tamaño 4α es como máximo η, por lo que el número
esperado de consultas para las cuales |viz| ≤ 2α es como mucho ηbn.
Los límites de Chernoff ahora implican que la probabilidad de que este número exceda
ηbn
2ηbn es como máximo exp(− ηbn z = 4 ). Así, la probabilidad de un determinado
c − d siendo malo con respecto a A
es como máximo exp(−). 4
Tomando un límite de unión sobre los máximos 3 n zs posibles , obtenemos que −ln
ηb
con probabilidad de al menos 1−exp(−n( b > 4 3)), no existe ningún z malo. Tomando
4 ln 3/η, la probabilidad de que exista una z tan mala es exponencialmente
pequeño en n.
Prevenir la falta de privacidad flagrante es un requisito muy bajo para un mecanismo
de privacidad, por lo que si la privacidad diferencial es significativa, los límites inferiores
para prevenir la falta de privacidad flagrante también se aplicarán a cualquier mecanismo
que garantice la privacidad diferencial. Aunque en su mayor parte ignoramos los
problemas computacionales en esta monografía, también está la cuestión de la
eficiencia del ataque. Supongamos que pudiéramos probar que (quizás bajo alguna
suposición computacional) existen mecanismos de baja distorsión que son "difíciles" de
romper; por ejemplo, ¿mecanismos para los cuales es difícil producir una base de datos
candidata c cercana a la base de datos original? Entonces, aunque un mecanismo de
baja distorsión podría no ser diferencialmente privado en teoría, posiblemente podría
proporcionar privacidad contra adversarios limitados. Desafortunadamente, este no es
el caso. En particular, cuando el ruido siempre está en o( √ n), hay un ataque eficiente
usando exactamente n consultas fijas; además, existe incluso un ataque
computacionalmente eficiente que requiere un número lineal de consultas en las que
una fracción de 0,239 puede responderse con ruido salvaje.
En el caso de conjuntos de datos de "escala de Internet", la obtención de respuestas
a n consultas es inviable, ya que n es extremadamente grande, digamos, n ≥ 108 . ¿Qué
sucede si el curador permite solo un número sublineal de preguntas?
Esta investigación condujo a los primeros resultados algorítmicos en (lo que se ha
convertido en) (ε, δ)privacidad diferencial, en los que se mostró cómo mantener la
privacidad frente a un número sublineal de consultas de conteo agregando ruido
binomial de orden o( √ n) — ¡menor que el error de muestreo! — a cada respuesta
verdadera. Usando las herramientas de privacidad diferencial podemos hacer esto ya sea
utilizando (1) el mecanismo de Gauss o (2) el mecanismo de Laplace y composición
avanzada.
8.2 Límites inferiores para la privacidad diferencial
Los resultados de la sección anterior arrojaron límites inferiores sobre la distorsión
necesaria para garantizar una noción razonable de privacidad. En cambio, el resultado
de este apartado es específico de la privacidad diferencial. Aunque algunos de los
detalles de la prueba son bastante técnicos, la idea principal es elegante: supongamos
(de alguna manera) que el adversario ha reducido el conjunto de bases de datos posibles
s
a un conjunto relativamente pequeño S de 2 entre vectores, donde la distancia L1
cada par de vectores es un número grande ∆ . Supongamos además que podemos
encontrar una consulta F, 1Lipschitz kdimensional en cada una de sus coordenadas de
salida, con la propiedad de que las verdaderas respuestas a la consulta se ven muy
diferentes (en la norma L∞ ) en los diferentes vectores de nuestro conjunto; por ejemplo,
la distancia en dos elementos cualesquiera del conjunto puede ser
k
Ω(k). Es útil pensar geométricamente sobre el “espacio de respuesta” R Cada elemento .
x en el conjunto S da lugar a un vector F(x) en el espacio de respuesta.
La respuesta real será una perturbación de este punto en el espacio de respuesta. Luego,
un argumento de casillero basado en el volumen (en el espacio de respuestas) muestra
que, si incluso con una probabilidad moderada las respuestas (ruidosas) son
"razonablemente" cercanas a las respuestas verdaderas, entonces no pueden ser muy pequeñas.
Esto surge del hecho de que para (ε, 0)mecanismos diferencialmente privados M,
para bases de datos arbitrariamente diferentes x, y, cualquier respuesta en apoyo de
M(x) también está en apoyo de M(y). Junto con la construcción de una colección
adecuada de vectores y una consulta (artificial, no contable), el resultado produce un
límite inferior de distorsión que es lineal k/ ε. El argumento apela al Teorema 2.2, que
analiza la privacidad del grupo. En nuestro caso el grupo en cuestión corresponde a los
índices que contribuyen a la distancia (L1) entre un par de vectores en S.
8.2.1 Límite inferior por argumentos de empaquetado
Comenzamos con una observación que dice, intuitivamente, que si las regiones de
respuesta "probables", cuando la consulta es F, son disjuntas, entonces podemos unir
8.2. Límites inferiores para la privacidad diferencial 165
desde abajo, mostrando que la privacidad no puede ser demasiado buena. Cuando
F(xi) − F(xj )∞ es grande, esto significa que para obtener muy buena privacidad, incluso
cuando se restringe a bases de datos que difieren en muchos lugares, debemos obtener
respuestas muy erróneas en alguna coordenada de F.
El argumento utiliza la representación de histograma de las bases de datos. En la
continuación, d = |X | indica el tamaño del universo del que se extraen los elementos de
la base de datos.
Lema 8.4. Suponga la existencia de un conjunto S = {x1, . . . , x2 s }, donde cada xi
N tal que para i d=, j, xi − xj1 ≤ ∆. Además, sea F : sea Bi una región en R el espacio de
d k → R s
, respuesta, y
norte
sea una consulta kdimensional. Para 1 ≤ yo ≤ 2
suponga que los
k , Bi son mutuamente disjuntos. Si M es un mecanismo (ε, 0)
diferencialmente privado para F tal ln(2)(s−1)
s
que, 1 ≤ yo ≤ 2 , Pr[M(xi) Bi ] ≥ 1/2, entonces ε ≥ ∆ .
−1
Prueba. Por supuesto Pr[M(xj ) Bj ] ≥ 2 B2 s son disjuntos, . Dado que las regiones
menos j = i [2s ] tales que Pr[M(xi) Bj ] ≤ 2 B1, . . . , Es decir, para al
−s .
s
una de las 2 − 1 regiones Bj , M(xi) se asigna a esta Bj es la probabilidad de que .
−s
como máximo 2 privacidad referencial, tenemos Combinando esto con dif
−1
2 PrM[Bj |xj ] ≤
exp(ε∆). ≤
2−s PrM[Bj |xi ]
Corolario 8.5. Sea S = {x1, . . . , x2 s } sea como en el Lema 8.4, y suponga que para
cualquier i = j, F(xi)−F(xj )∞ ≥ η. Sea Bi la bola L∞ de radio η/2 con centro en xi . Sea M
R k cualquier mecanismo εdiferencialmente privado para F que satisfaga
s
1 ≤ yo ≤ 2 : Pr[M(xi) Bi ] ≥ 1/2.
Entonces ε ≥ (ln
∆ .
2)(s−1)
Prueba. Las regiones B1, . . . , B2 s son disjuntos, por lo que se cumplen las condiciones
del Lema 8.4. El corolario sigue aplicando el lema y tomando logaritmos.
En el Teorema 8.8 a continuación, veremos las consultas F que son simplemente
consultas generadas independientemente y aleatoriamente (¡no lineales!). Para
S y F adecuados (trabajaremos para encontrarlos) el corolario dice que si con probabilidad
al menos la mitad de todas las respuestas tienen un pequeño error simultáneamente,
entonces la privacidad no puede ser demasiado buena. En otras palabras,
Reclamación 8.6 (Reformulación informal del Corolario 8.5). Para obtener (ε, 0) ln(2)
(s−1)
privacidad diferencial para ε ≤ el mecanismo
∆ , debe agregar ruido
con norma L∞ mayor que η/2 con probabilidad superior a 1/2.
Como ejercicio de calentamiento, demostramos un teorema más sencillo que requiere
un gran universo de datos.
k . Sea M : X k → R
Teorema 8.7. Sea X = {0, 1} un norte
sea un (ε, 0)
mecanismo diferencialmente privado tal que para cada base de datos x X con una norte
probabilidad de al menos 1/2 M(x) genera todos los marginales de 1 vía de x con un
error menor que n/2. Es decir, para cada j [k], la jésima componente de M(x) debería
ser aproximadamente igual al número de filas de x cuyo jésimo bit es 1, hasta un error
menor que n/2. Entonces n Ω(k/ε).
Tenga en cuenta que este límite es estrecho dentro de un factor constante, por el
teorema de composición simple, y que separa (ε, 0)privacidad diferencial de (ε, δ)
privacidad diferencial, para δ 2 −o(n) , ya que, por el teorema de composición
avanzado (Teorema 3.20), el ruido de Laplace con parámetro b = k ln(1/δ)/ε es
suficiente para el primero, en contraste con Ω(k/ε) necesario para el segundo. Tomando
k Θ(n) y, digamos, δ = 2− log2 n , se obtiene la separación
racionar.
Prueba. Para cada cadena w {0, 1} de k , considere la base de datos xw que consta

n filas idénticas, todas iguales a w. Sean Bw R tuplas de números k de todos
que dan respuestas a los marginales de 1 vía en x con error menor que n/2. Eso es,
k
Bw = {(a1, . . . , ak)} R : i [k] |ai − nwi | < n/2}.
Dicho de otra manera, Bw es el ∞ abierto de radio n/2 alrededor de nw {0, n} k .

Observe que los conjuntos Bw son mutuamente disjuntos.
Si M es un mecanismo preciso para responder marginales de 1 vía, entonces para
cada w la probabilidad de aterrizar en Bw cuando la base de datos es xw debería ser
al menos 1/2: Pr[M(xw) Bw] ≥ 1/2. Así, haciendo ∆ = n (ln 2)(s−1) y s = k en el
Corolario
8.5 tenemos ε ≥ ∆ .
Teorema 8.8. Para cualquier k, d, n N y ε (0, 1/40], donde n ≥ min{k/ε, d/ε},

d k → R
existe una consulta F : N con sensibilidad por
coordenada como máximo 1 tal que
cualquier mecanismo diferencialmente privado (ε, 0) agrega ruido de norma L∞ Ω
(min{k/ε, d/ε}) con una probabilidad de al menos 1/2 en algunas bases de datos de
peso como máximo n.
Tenga en cuenta que d = |X | no necesita ser grande aquí, en contraste con el requisito
ment en el teorema 8.7.
Prueba. Sea = min{k, d}. Usando códigos de corrección de errores podemos estafar
d
estructurar un conjunto S = {x1, . . . , x2 s }, donde s = /400, tal que cada xi N
y además
1. i : xi1 ≤ w = /(1280ε)
2. i = j, xi − xj1 ≥ w/10
No damos detalles aquí, pero notamos que las bases de datos en S tienen un
tamaño máximo de w < n, por lo que xi − xj1 ≤ 2w. Tomando ∆ = 2w el conjunto S
satisface las condiciones del Corolario 8.5. El resto de nuestro esfuerzo es obtener
las consultas F a las que aplicaremos el Corolario 8.5.
Dado S = {x1, . . . , x2 s }, donde cada xi N d
, el primer paso es definir a d 2
2 s ES : N → R s
mapea desde el espacio de histogramas a vectores en R , .
Intuitivamente (¡e imprecisamente!), dado un histograma x, el mapeo enumera, para
cada xi S, la distancia L1 de x a xi . Más precisamente, dejando que w sea un
límite superior en el peso de cualquier xi en nuestra colección, definimos el mapeo
de la siguiente manera.
• Para cada xi S, hay una coordenada i en el mapeo.
• La iésima coordenada de LS(x) es max{w/30 − xi − z1, 0}.
Reclamación 8.9. Si x1, . . . , x2 s satisfacen las condiciones
1. ixi1 ≤ w; y
2. i = jxi − xj1 ≥ w/10
entonces el mapa LS es 1Lipschitz; en particular, si z1 − z21 = 1, entonces LS(z1)
− LS(z2)1 ≤ 1, suponiendo w ≥ 31.
Prueba. Dado que asumimos w ≥ 31, tenemos que si z N xi d está cerca de algunos

S, es decir, w/30 > xi −z1, entonces z no puede estar cerca de ningún otro xj S, y lo
mismo es cierto para todo z − z1 ≤ 1 Por lo tanto, para cualquier z1, z2 tal que z1 − z2 ≤
1, si A denota el conjunto de coordenadas donde al menos uno de LS(z1) o LS(z2) es
distinto de cero, entonces A está vacío o es un conjunto único. Dado esto, la declaración
en la reivindicación es inmediata por el hecho de que la aplicación correspondiente a
cualquier coordenada particular es claramente 1Lipschitz.
Finalmente podemos describir las consultas F. Correspondientes a cualquier r
2s d
{−1, 1} , definimos fr : N → R, como
d
fr(x) = LS(x)i ∙ ri ,
yo=1
que es simplemente el producto interior LS ∙ r. F será un mapa aleatorio d rk {−1, 1}
2s
k → R r1, . . . , al
F : N : Seleccione independiente y uniformemente
azar y definir
F(x) = (fr1 (x), . . . , frk (x)).
Es decir, F(x) es simplemente el resultado del producto interno de LS(x) con k vectores
±1 elegidos al azar.
Note que para cualquier x S LS(x) tiene una coordenada con valor w/30 y x S
2s
(y los demás son todos cero), entonces ri {−1, 1} |fri tenemos
(x)| = w/30. Ahora considere cualquier xh, xj S, donde h = j. Se sigue que para
2s
cualquier ri {−1, 1} ,
PR [|viernes (xh) − viernes (xj )| ≥ c/15] ≥ 1/2
Rhode Island
(este evento ocurre cuando (ri)h = −(ri)j ). Una aplicación básica del límite de Chernoff
implica que
Pr [Para al menos 1/10 del ris,
r1,...,rk
|viernes (xh) − viernes (xj )| ≥ w/15] ≥ 1 − 2 −k/30 .
Ahora, el número total de pares (xi , xj ) de bases de datos tales que xi , xj S ≤ 2 k/
2s
es como máximo 2 200. Tomando un límite de unión esto implica
Pr [ h = j, Para al menos 1/10 de los ris,
r1,...,rk
|viernes (xh) − viernes (xj )| ≥ w/15] ≥ 1 − 2 −k/40
Esto implica que podemos arreglar r1, . . . , rk tal que lo siguiente es cierto.
h = j, Para al menos 1/10 del ris, |viernes (xh) − viernes (xj )| ≥ w/
15 Así, para cualquier xh = xj S, F(xh) − F(xj )∞ ≥ w/15.
Estableciendo ∆ = 2w y s = /400 > 3εw (como hicimos arriba), y η = w/15,
satisfacemos las condiciones del Corolario 8.5 y concluimos ∆ ≤ (s − 1)/ε, demostrando
el teorema (a través de la Reclamación 8.6).
El teorema es casi estricto: si k ≤ d entonces podemos aplicar el mecanismo de
Laplace a cada una de las consultas de k sensibilidad 1 componente en F con parámetro
k/ε, y esperamos que la distorsión máxima sea Θ(k ln k/ε) . Por otro lado, si d ≤ k
entonces podemos aplicar el mecanismo de Laplace al histograma ddimensional que
representa la base de datos, y esperamos que la distorsión máxima sea Θ(d ln d/ε).
El teorema en realidad muestra que, dado el conocimiento del conjunto S y el
conocimiento de que la base de datos real es un elemento x S, el adversario puede
determinar completamente x si la norma L∞ de la distorsión es demasiado pequeña.
¿Cómo podría el adversario obtener en la vida real un conjunto S del tipo utilizado en el
ataque? Esto puede ocurrir cuando un sistema de base de datos no privado se ha
estado ejecutando en un conjunto de datos, por ejemplo, x. Por ejemplo, x podría ser un
vector en {0, 1} n y el adversario podría haber aprendido, a través de una secuencia de
consultas lineales de 2/3 , que x C, un código lineal de distancia, digamos n . Por
supuesto, si el sistema de base de datos no promete privacidad, no hay problema.
El problema surge si el administrador decide reemplazar el sistema existente con un
mecanismo diferencialmente privado, después de que varias consultas hayan recibido
respuestas sin ruido. En particular, si el administrador elige usar privacidad diferencial
(ε, δ) para consultas k subsiguientes , entonces la distorsión podría caer por debajo del
límite inferior Ω(k/ε) , permitiendo el ataque descrito en la demostración del Teorema 8.8.
El teorema también enfatiza que existe una diferencia fundamental entre la
información auxiliar sobre (conjuntos de) miembros de la base de datos y la información
sobre la base de datos como un todo. Por supuesto, ya sabíamos esto: que nos digan
que la cantidad de bits secretos suma exactamente 5 000 destruye por completo la
privacidad diferencial, y un adversario que ya conocía el bit secreto de cada miembro
de la base de datos, excepto un individuo, podría concluir el secreto. poco del individuo
restante.
Consecuencias adicionales. Suponga que k ≤ d, entonces = k en el Teorema 8.8.
El límite inferior lineal en k/ε sobre el ruido para k consultas esbozadas en la sección
anterior produce inmediatamente una separación entre consultas de conteo y consultas
arbitrarias de 1 sensibilidad, como la construcción SmallDB 2/3 mientras mantiene
n consultas con ruido aproximadamente n ing privacidad respuestas (más de)
diferencial. De hecho, este resultado también nos permite concluir que no existe una
red α pequeña para grandes conjuntos de consultas arbitrarias de baja sensibilidad,
para α o(n) (ya que, de lo contrario, el mecanismo de la red produciría un algoritmo
(ε, 0) de la deseada exactitud).
Los primeros ataques de reconstrucción, incluido el Teorema 8.1, se deben a Dinur y
Nissim [18], quienes también realizaron un ataque que requería solo el cálculo del
tiempo polinomial y consultas O(n log2 n), siempre que el ruido sea siempre o( √ n). Al
darse cuenta de que los ataques que requieren n consultas lineales aleatorias, cuando
n es "escala de Internet", son inviables, Dinur, Dwork y Nissim dieron los primeros
resultados positivos, mostrando que para un número sublineal de consultas de suma
de subconjuntos, una forma de privacidad (ahora conocida para implicar (ε, δ)
privacidad diferencial) se puede lograr agregando ruido escalado a o( √ n) [18]. Esto
fue emocionante porque sugirió que, si pensamos en la base de datos como extraída
de una población subyacente, incluso para un número relativamente grande de
consultas de conteo, la privacidad podría lograrse con una distorsión menor que el
error de muestreo. Esto incluso conduce, a través de consultas más generales [31, 6],
a la privacidad diferencial.
La visión de estas consultas como un primitivo de programación que preserva la
privacidad [6] inspiró la plataforma de programación de consultas integradas de
privacidad de McSherry [59].
El ataque de reconstrucción del teorema 8.2 aparece en [24], donde Dwork,
McSherry y Talwar demostraron que la reconstrucción en tiempo polinomial es posible
incluso si una fracción de 0,239 de las respuestas tiene ruido salvaje y arbitrario,
siempre que las otras tengan ruido o( √ norte).
El enfoque geométrico, y en particular el Lema 8.4, se debe a Hardt y Talwar [45],
quienes también proporcionaron un algoritmo basado en geometría que demostró que
estos límites son estrictos para números pequeños k ≤ n de consultas , bajo un
conjetura comúnmente aceptada. Posteriormente, Bhaskara et al. eliminaron
la dependencia de la conjetura. [5]. Nikolov et al. extendieron el enfoque
geométrico a un número arbitrario de consultas. [66], quien dio un algoritmo
con error cuadrático medio óptimo de instancia. Para el caso de pocas
consultas, esto conduce, a través de un argumento de refuerzo, a un error de
peor caso esperado bajo. El teorema 8.8 se debe a De [17].
9
Privacidad diferencial
y complejidad computacional
Nuestra discusión sobre la privacidad diferencial hasta ahora ha ignorado los problemas
de la complejidad computacional, lo que permite que tanto el curador como el adversario
estén computacionalmente ilimitados. En realidad, tanto el curador como el adversario
pueden estar limitados computacionalmente.
Limitarnos a un curador computacionalmente limitado restringe lo que el curador
puede hacer, lo que dificulta lograr una privacidad diferencial. Y, de hecho, mostraremos
un ejemplo de una clase de consultas de conteo que, bajo supuestos teóricos de
complejidad estándar, no permite la generación eficiente de una base de datos sintética,
a pesar de que se conocen algoritmos ineficientes, como SmallDB y Private Multiplicative
Weights. A grandes rasgos, las filas de la base de datos son firmas digitales, firmadas
con claves a las que el curador no tiene acceso. La intuición será que cualquier fila en
una base de datos sintética debe ser copiada del original, violando la privacidad, o debe
ser una firma en un mensaje nuevo , es decir, una falsificación, violando la propiedad de
infalsificación de un esquema de firma digital. Desafortunadamente, este estado de cosas
no se limita a ejemplos (potencialmente inventados) basados en firmas digitales: es
incluso difícil crear una base de datos sintética que mantenga relativamente
172
173
marginales bidireccionales precisos.1 En el lado positivo, dado un conjunto Q de
consultas y una base de datos de n filas con filas extraídas de un universo X, se ,
puede generar una base de datos sintética en un polinomio de tiempo en n, |X | y |
Q |.
Si abandonamos el objetivo de una base de datos sintética y nos conformamos
con una estructura de datos a partir de la cual podamos obtener una aproximación
relativamente precisa a la respuesta de cada consulta, la situación es mucho más
interesante. Resulta que el problema está íntimamente relacionado con el problema
de rastrear a los traidores , en el que el objetivo es desalentar la piratería mientras
se distribuye contenido digital a los clientes que pagan.
Si el adversario está restringido al tiempo polinomial, entonces se vuelve más
fácil lograr privacidad diferencial. De hecho, el concepto inmensamente poderoso
de la evaluación segura de funciones produce una forma natural de evitar al
curador de confianza (mientras brinda una mayor precisión que la respuesta
aleatoria), así como una forma natural de permitir que múltiples curadores de
confianza, quienes por razones legales no pueden compartir sus opiniones.
conjuntos de datos, para responder a consultas sobre qué es efectivamente un
conjunto de datos combinados. En pocas palabras, la evaluación de funciones
seguras es una primitiva criptográfica que permite una colección de n partes p1,
p2, . . . , pn, de las cuales menos de una fracción fija son defectuosas (la fracción
varía según el tipo de fallas; para las fallas “honestas pero curiosas”, la fracción es
1), para calcular cooperativamente cualquier función f(x1, . . . , xn), donde xi es la
entrada, o valor, del partido pi , de tal manera que ninguna coalición de partidos
culpables puede interrumpir el cálculo o aprender más sobre los valores de los
partidos no culpables de lo que se puede deducir de la función de salida y los
valores de los miembros de la coalición. Estas dos propiedades se denominan
tradicionalmente corrección y privacidad. Esta noción de privacidad, llamémosla
privacidad SFE, es muy diferente de la privacidad diferencial. Sea V el conjunto de
valores que tienen las partes infractoras y sea pi una parte no infractora . xn)}; por
lo tanto, la privacidad diferencial no permitiría la liberación exacta de f(x1, . . . , xn).
Sin embargo, la evaluación segura de funciones
1Recuerde que los marginales bidireccionales son los conteos, para cada par de atributos
valores, del número de filas en la base de datos que tienen este par de valores.
2
En el caso honesto pero curioso, podemos dejar que V = {xj} para cualquier parte Pj .
174 Privacidad diferencial y complejidad computacional
Los protocolos para calcular una función f pueden modificarse fácilmente para obtener
protocolos diferencialmente privados para f, simplemente definiendo una nueva
función, g, que sea el resultado de sumar el ruido de Laplace Lap(∆f /ε) al valor de f.
En principio, la evaluación segura de funciones permite la evaluación de g. Dado que
g es diferencialmente privada y la propiedad de privacidad SFE, aplicada a g, dice
que no se puede aprender nada sobre las entradas que no se pueda aprender del
valor de g(x1, . . . , xn) junto con la privacidad diferencial V, está asegurada, siempre
que los jugadores defectuosos estén restringidos al tiempo polinomial.
Por lo tanto, la evaluación segura de funciones permite lograr una noción
computacional de privacidad diferencial, incluso sin un curador de confianza, sin
pérdida de precisión en comparación con lo que se puede lograr con un curador de
confianza. En particular, las consultas de conteo se pueden responder con un error
esperado constante al tiempo que se garantiza la privacidad diferencial computacional,
sin un curador de confianza. Veremos que, sin criptografía, el error debe ser Ω(n
1/2 ), lo que demuestra que las suposiciones computacionales probablemente
compran precisión, en el caso de múltiples partes.
9.1 Curadores de tiempo polinomial
En esta sección mostramos que, bajo supuestos criptográficos estándar, es
computacionalmente difícil crear una base de datos sintética que brinde respuestas
precisas a una clase apropiadamente elegida de consultas de conteo, asegurando al
mismo tiempo incluso una noción mínima de privacidad.
Este resultado tiene varias extensiones; por ejemplo, al caso en el que el conjunto
de consultas es pequeño (pero el universo de datos sigue siendo grande) y al caso
en el que el universo de datos es pequeño (pero el conjunto de consultas es grande).
Además, se han obtenido resultados negativos similares para determinadas familias
naturales de consultas, como las correspondientes a las conjunciones.
Usaremos el término sintetizar para denotar el proceso de generar una base de
datos sintética de manera que se preserve la privacidad3 . Por lo tanto, los resultados
de esta sección se refieren a la dureza computacional de la síntesis.
Nuestra noción de privacidad será mucho más débil que la privacidad diferencial, por
lo que la dureza de la síntesis implicará la dureza de la generación de una síntesis.
3
En la Sección 6, un sintetizador tomó como entrada una sinopsis; aquí estamos empezando con
una base de datos, que es una sinopsis trivial.
9.1. Curadores de tiempo polinomial 175
base de datos de una manera diferencialmente privada. Específicamente, diremos que
la síntesis es difícil si es difícil incluso evitar la filtración de elementos de entrada en su
totalidad. Es decir, algún elemento siempre está completamente expuesto.
Tenga en cuenta que si, por el contrario, la filtración de algunos elementos de
entrada no se considera una violación de la privacidad, la síntesis se logra fácilmente
liberando un subconjunto elegido al azar de los elementos de entrada. La utilidad de
esta "base de datos sintética" proviene de los límites de muestreo: con alta probabilidad,
este subconjunto conservará la utilidad incluso con respecto a un gran conjunto de
consultas de conteo.
Al introducir supuestos de complejidad, requerimos un parámetro de seguridad
para expresar tamaños; por ejemplo, tamaños de conjuntos, longitudes de mensajes,
número de bits en una clave de descifrado, etc., así como para expresar dificultad
computacional. El parámetro de seguridad, denominado κ, representa tamaños y
esfuerzos "razonables". Por ejemplo, se supone que es factible buscar exhaustivamente
un conjunto cuyo tamaño sea un polinomio (cualquiera fijo) en el parámetro de seguridad.
La complejidad computacional es una noción asintótica: nos preocupa cómo
aumenta la dificultad de una tarea a medida que crecen los tamaños de los objetos
(universo de datos, base de datos, familia de consultas). Así, por ejemplo, necesitamos
pensar no solo en una distribución sobre bases de datos de un solo tamaño (lo que
hemos venido llamando n en el resto de esta monografía), sino en un conjunto de
distribuciones, indexadas por el parámetro de seguridad . De manera similar, cuando
introducimos la complejidad, tendemos a "suavizar" las afirmaciones: falsificar una firma
no es imposible, ¡uno podría tener suerte! Más bien, asumimos que ningún algoritmo
eficiente tiene éxito con una probabilidad no despreciable, donde "eficiente" y "no
despreciable" se definen en términos del parámetro de seguridad. Ignoraremos estos
puntos finos en nuestra discusión intuitiva, pero los mantendremos en las declaraciones
de teoremas formales.
Hablando informalmente, una distribución de bases de datos es difícil de sintetizar
(con respecto a alguna familia Q de consultas) si para cualquier (supuesto) sintetizador
eficiente, con alta probabilidad sobre una base de datos extraída de la distribución, al
menos uno de los elementos de la base de datos se puede extraer de la supuesta
salida del sintetizador. Por supuesto, para evitar trivialidades, también exigiremos que
cuando este elemento filtrado se excluya de la base de datos de entrada (y, digamos,
se reemplace por un elemento diferente al azar),
la probabilidad de que se pueda extraer de la salida es muy pequeña.
Esto significa que cualquier (supuesto) sintetizador eficiente de hecho compromete
la privacidad de los elementos de entrada en un sentido fuerte.
La definición 9.1 a continuación formalizará nuestros requisitos de utilidad para
un sintetizador. Hay tres parámetros: α describe el requisito de precisión (estar dentro
de α se considera preciso); γ describe la fracción de las consultas en las que se
permite que una síntesis exitosa sea inexacta, y β será la probabilidad de falla.
Para un algoritmo A que produce bases de datos sintéticas, decimos que una
salida A(x) es (α, γ)precisa para un conjunto de consultas Q si |q(A(x))−q(x)| ≤ α para
una fracción 1 − γ de las consultas q Q.
Definición 9.1 ((α, β, γ)Utilidad). Sea Q un conjunto de consultas y X un universo de
datos. Un sintetizador A tiene utilidad (α, β, γ) para bases de datos de n elementos
con respecto a Q y X si para cualquier base de datos de n elementos x:
Pr [A(x) es (α, γ)exacta para Q] ≥ 1 − β
donde la probabilidad es sobre las monedas de A.
Sea Q = {Qn}n=1,2,... un conjunto de familia de consultas, X = {Xn}n=1,2,... un
conjunto de universo de datos. Se dice que un algoritmo es eficiente si su tiempo de
ejecución es poli(n, log(|Qn|), log(|Xn|)).
En la siguiente definición describimos lo que significa que una familia de
distribuciones sea difícil de sintetizar. Un poco más específicamente diremos lo que
significa ser difícil generar bases de datos sintéticas que proporcionen precisión (α,
γ). Como de costumbre, tenemos que hacer de esto un asintótico
declaración.
Definición 9.2 ((µ, α, β, γ, Q)Distribución de base de datos difícil de sintetizar). Sea
Q = {Qn}n=1,2,... un conjunto de familia de consultas, X = {Xn}n=1,2,... sea un conjunto
de universo de datos, y sean µ, α, β, γ [0, 1].
Sea n el tamaño de una base de datos y D un conjunto de distribuciones, donde Dn
es sobre colecciones de n + 1 elementos de Xn.
Denotamos por (x, i, x i ) Dn el experimento de elegir una base de datos
de n elementos, un índice i elegido uniformemente de [n] y un elemento adicional x i
de Xn. Una muestra de Dn nos da un par de bases de datos: x
y el resultado de reemplazar el iésimo elemento de x (bajo
9.2. Algunas distribuciones difíciles de sintetizar 177
un ordenamiento canónico) con x i . Por lo tanto, pensamos que Dn especifica una
distribución en bases de datos de n elementos (y sus vecinos).
Decimos que D es (µ, α, β, γ, Q) difícil de sintetizar si existe un algoritmo
eficiente T tal que para cualquier supuesto sintetizador eficiente A se cumplen las
dos condiciones siguientes:
1. Con una probabilidad de 1−µ sobre la elección de la base de datos x D y
las monedas de A y T, si A(x) mantiene una utilidad α para una fracción de
consultas de 1 − γ , entonces T puede recuperar una de las filas de x de A(x):
(x,i,xiPr ) Dn
lanzamientos de moneda de A,T
[(A(x) mantiene (α, β, γ)utilidad) y (x ∩ T(A(x)) = )] ≤ µ
2. Para todo algoritmo eficiente A, y para todo i [n], si dibujamos para formar
(x, i, x ) de D, y reemplaza xi con x x T no puede,
i i
extrae xi de A(x ) excepto con una pequeña probabilidad:
[xi T(A(x ))] ≤ µ.
(x,i,xiPr ) Dn
lanzamientos de moneda de A, T
Más adelante, nos interesaremos en los mecanismos fuera de línea que
producen sinopsis arbitrarias, no necesariamente bases de datos sintéticas. En
este caso, nos interesará la noción relacionada de difícil de desinfectar (en lugar de
difícil de sintetizar), para lo cual simplemente eliminamos el requisito de que A
produzca una base de datos sintética.
9.2 Algunas distribuciones difíciles de sintetizar
Ahora construimos tres distribuciones que son difíciles de sintetizar.
Un esquema de firma está dado por un triple de (posiblemente aleatorio)
algoritmos (Gen, Sign, Verify):
• Gen : 1N → {(SK, VK)n}n=1,2,... se utiliza para generar un par que consta de
una clave de firma (secreta) y una clave de verificación (pública).
Toma solo el parámetro de seguridad κ N, escrito en unario, como
entrada, y produce un par extraído de (SK, VK) κ, la distribución en (firma,
verificación) pares de claves indexados por κ; dejamos
ps(κ), pv(κ), s(κ) indican las longitudes de la clave de firma, la clave de
verificación y la firma, respectivamente. •
Signo : SKκ × {0, 1} (κ) → {0, 1} s(κ) toma como entrada una clave de firma de un
par extraído de (SK, VK)κ y un mensaje m de longitud (κ), y produce una firma
en m; × {0, 1} (κ) • Verificar: VKκ × {0, 1}
como entrada una clave de verificación,
→ {0, 1u} na
toma
cadena σ y un mensaje m de longitud
(κ), y comprueba que σ es de hecho una firma válida de m bajo la clave de
verificación dada.
Las claves, las longitudes de los mensajes y las longitudes de las firmas son todos polinomios en κ.
La noción de seguridad requerida es que, dado cualquier número polinomial (en
κ) de pares válidos (mensaje, firma), es difícil falsificar una nueva firma, incluso una
nueva firma de un mensaje previamente firmado (recuerde que el algoritmo de firma
puede ser aleatorio, por lo que pueden existir múltiples firmas válidas del mismo
mensaje bajo la misma clave de firma).
Dicho esquema de firma puede construirse a partir de cualquier función unidireccional.
Hablando informalmente, estas son funciones que son fáciles de calcular: f(x) se
puede calcular en polinomio de tiempo en la longitud (número de bits) de x, pero es
difícil de invertir: para cada algoritmo de tiempo polinomial probabilístico, se ejecuta
en polinomio de tiempo en el parámetro de seguridad κ, la probabilidad, sobre una x
elegida al azar en el dominio de f, de encontrar cualquier preimagen válida de f(x),
crece más lentamente que el inverso de cualquier polinomio en κ.
Difícil de sintetizar la distribución I: corregir un esquema de firma arbitrario. El conjunto
Qκ de consultas de conteo contiene una consulta de conteo qvk para cada clave de
verificación vk VKκ. El universo de datos Xκ consiste en el conjunto de todos los
pares posibles (mensaje, firma) de la forma para mensajes de longitud (κ) firmados
con claves en VKκ.
La distribución Dκ en las bases de datos se define mediante el siguiente
procedimiento de muestreo. Ejecute el generador de esquemas de firma Gen(1κ ) para
obtener (sk, vk). Elija aleatoriamente n = κ mensajes en {0, 1} (κ) y ejecute el
procedimiento de firma para cada uno, obteniendo un conjunto de n (mensaje, firma)
pares, todos firmados con la clave sk. Esta es la base de datos x. Tenga en cuenta
que todos los mensajes en la base de datos están firmados con la misma clave de firma.
Un elemento del universo de datos (m, σ) satisface el predicado qvk si y solo si
Verify(vk, m, σ) = 1, es decir, σ es una firma válida para m según la clave de verificación
vk.
Sea x R Dκ una base de datos, y sea sk la clave de firma utilizada, con la
correspondiente clave de verificación vk. Suponiendo que el sintetizador haya producido
y, debe darse el caso de que casi todas las filas de y sean firmas válidas bajo vk (porque
el recuento fraccionario de x para la consulta vk es 1). Por las propiedades de
infalsificación del esquema de firma, todos estos deben provenir de la base de datos de
entrada x : el curador limitado en el tiempo polinomial, que se ejecuta en el tiempo
poli(κ), no puede generar generar un nuevo par válido (mensaje, firma). (Solo un poco)
más formalmente, la probabilidad de que un algoritmo eficiente pueda producir un par
(mensaje, naturaleza de signo) que sea verificable con la clave vk, pero que no esté en
x, es insignificante, por lo que con una probabilidad abrumadora cualquier y que sea
producido por un El sintetizador eficiente solo contendrá filas de x. noción razonable
de) privacidad. 4
Esto contradice (cualquier
En esta construcción, tanto Qκ (el conjunto de claves de verificación) como Xκ (el
conjunto de pares (mensaje, firma)) son grandes (superpolinomio en κ).
Cuando ambos conjuntos son pequeños, es posible generar conjuntos de datos sintéticos
diferencialmente privados y eficientes. Es decir, existe un sintetizador diferencialmente
privado cuyo tiempo de ejecución es polinomial en n = κ, |Qκ| y |Xκ|: calcule conteos
ruidosos usando el mecanismo de Laplace para obtener una sinopsis y luego ejecute el
sintetizador de la Sección 6. Por lo tanto, cuando ambos tienen polinomio de tamaño en
κ, el tiempo de ejecución del sintetizador es polinomial en κ.
Ahora discutimos brevemente las generalizaciones del primer resultado de dureza
para los casos en los que uno de estos conjuntos es pequeño (pero el otro sigue siendo
grande).
Distribución difícil de sintetizar II: En la distribución de la base de datos anterior,
elegimos un solo par de claves (sk, vk) y generamos una base de datos de
4El orden de cuantificación es importante, ya que, de lo contrario, el sintetizador podría
tener la clave de firma cableada. Primero reparamos el sintetizador, luego ejecutamos el
generador y construimos la base de datos. La probabilidad está sobre toda la aleatoriedad en
el experimento: elección del par de claves, construcción de la base de datos y aleatoriedad
utilizada por el sintetizador.
mensajes, todos firmados usando sk; La dureza se obtuvo al requerir que el
sintetizador generara una nueva firma bajo sk, para que la base de datos sintetizada
proporcione una respuesta precisa a la consulta qvk.
Para obtener dureza para la síntesis cuando el tamaño del conjunto de consultas es
solo polinomial en el parámetro de seguridad, nuevamente usamos firmas digitales,
firmadas con una clave única, pero no podemos darnos el lujo de tener una consulta
para cada posible clave de verificación vk, ya que estas son demasiado numerosos.
Para solucionar esto, hacemos dos cambios:
1. Las filas de la base de datos ahora tienen el formulario (clave de verificación,
mensaje, firma). más precisamente, el universo de datos consta de (clave,
mensaje, firma) triples X = {(vk, m, s) : vk VKκ, m {0, 1} (κ)
, s {0, 1} s(κ)}.
2. Agregamos a la clase de consulta exactamente consultas 2pv(κ) , donde pv(κ)
es la longitud de las claves de verificación producidas al ejecutar el algoritmo
de generación Gen(1κ ). Las consultas tienen la forma (i, b) donde 1 ≤ i ≤
pv(κ) y b {0, 1}. El significado de la consulta "(i, b)" es "¿Qué fracción de
las filas de la base de datos son de la forma (vk, m, s) donde Verificar (vk, m,
s) = 1 y el iésimo bit de vk es ¿b?"
Al llenar una base de datos con mensajes firmados de acuerdo con una única
clave vk, nos aseguramos de que las respuestas a estas consultas sean
cercanas a uno para todos 1 ≤ i ≤ p(κ) cuando vki = b, y cercanas a cero
cuando vki = 1 − segundo
Con esto en mente, la distribución difícil de sintetizar en las bases de datos se
construye mediante el siguiente procedimiento de muestreo: Genere un par de
claves de verificación de firma (sk, vk) ← Gen(1κ ), y elija mn uniformemente entre
n = κ mensajes m1, . . . , {0, 1} ( k) . la base de datos x
tendrá n, filas; para j [n] la jésima fila es la clave de verificación, el jésimo
mensaje y su firma válida, es decir, la tupla (vk, mj , Sign(mj , sk)).
A continuación, elija i uniformemente de [n]. Para generar el (n + 1) st elemento x , yo ,
simplemente genere un nuevo par mensajefirma (usando la misma clave sk).
Difícil de sintetizar la distribución III: para probar la dureza en el caso de un espacio
de mensaje de tamaño polinomial (en κ) (pero un conjunto de consultas de tamaño
superpolinomio) usamos una función pseudoaleatoria. En términos generales, estas
son funciones computables en tiempo polinomial con pequeñas descripciones que
no se pueden distinguir eficientemente, basándose únicamente en su comportamiento de
entradasalida, de funciones verdaderamente aleatorias (cuyas descripciones son largas).
Este resultado solo da dificultad de síntesis si insistimos en mantener la utilidad para
todas las consultas. De hecho, si solo estamos interesados en asegurar una utilidad
promedio, entonces el generador base para consultas de conteo descrito en la Sección 6
produce un algoritmo eficiente para sintetizar cuando el universo X es de tamaño
polinomial, incluso cuando Q es exponencialmente grande.
Sea {fs}s {0,1} κ una familia de funciones pseudoaleatorias de [] a [], donde
poli(κ). Más específicamente, necesitamos que el conjunto de todos los pares de
elementos en [] sea “pequeño”, pero mayor que κ; de esta manera, la cadena de bits κ
que describe una función en la familia es más corta que los bits log2 necesarios para
describir una función aleatoria que asigna [] a []. Tal familia de funciones pseudoaleatorias
se puede construir a partir de cualquier función unidireccional.
Nuestro universo de datos será el conjunto de todos los pares de elementos en []:
X = {(a, b) : a, b []}. Qκ contendrá dos tipos de consultas:
1. Habrá una consulta para cada función {fs}s {0,1} κ en la familia
ilía Un elemento del universo (a, b) X satisface la consulta s si y solo si fs(a) =
b.
2. Habrá un número relativamente pequeño, digamos κ, consultas verdaderamente
aleatorias. Tal consulta se puede construir eligiendo aleatoriamente, para cada (a,
b) X , si (a, b) satisfará o no la consulta.
La distribución difícil de sintetizar se genera de la siguiente manera. Primero,
seleccionamos una cadena aleatoria s {0, 1} κ , especificando una función en nuestra
familia. A continuación, generamos, para n = κ valores distintos a1, . . . , un elegido al
azar de [] sin reemplazo, el elemento del universo (a, fs(a)).
La intuición es simple, se basa solo en el primer tipo de consulta y no hace uso de la
distinción de ai . Dada una base de datos x generada de acuerdo con nuestra distribución,
donde la función pseudoaleatoria está dada por s, el sintetizador debe crear una base
de datos sintética (casi) cuyas filas deben satisfacer la consulta s. La intuición es que no
puede encontrar de forma fiable pares de entradasalida que no aparezcan en x.
Un poco más precisamente, para un elemento arbitrario a [] tal que no
fila en x es de la forma (a, fs(a)), la pseudoaleatoriedad de fs dice que un sintetizador
eficiente debería tener una probabilidad como mucho despreciable de más de 1/ de
encontrar fs(a). En este sentido, la pseudoaleatoriedad nos da propiedades similares,
aunque algo más débiles, a las que obtuvimos de las firmas digitales.
Por supuesto, para cualquier a [] dado, el sintetizador puede adivinar con
probabilidad 1/ el valor fs(a), por lo que sin el segundo tipo de consulta, nada obvio
evitaría que ignore x, elija una a arbitraria y generando una base de datos de n copias de
(a, b), donde b se elige uniformemente al azar de []. La intuición ahora es que tal base de
datos sintética daría la fracción incorrecta, ya sea cero o uno, cuando la respuesta
correcta debería ser aproximadamente 1/2 , en las consultas verdaderamente aleatorias.
Formalmente, tenemos:
Teorema 9.1. Sea f : {0, 1} κ → {0, 1} κ una función unidireccional. Para todo a > 0, y para
todo entero n = poli(κ), existe una familia de consulta Q de tamaño exp(poli(κ)), un
universo de datos X de tamaño O(n y una distribución en bases de datos de 2+2a ),
tamaño n es decir (µ, α, β, 0, Q)difícil de sintetizar (es decir, difícil de sintetizar para
consultas en el peor de los casos) para α ≤ 1/3, β ≤ 1/10 y µ = 1/40n
1+a .
El teorema anterior muestra la dureza de la desinfección con datos sintéticos. Tenga
en cuenta, sin embargo, que cuando el conjunto de consultas es pequeño, siempre se
pueden liberar recuentos ruidosos para cada consulta. Concluimos que la desinfección
de clases de consulta pequeñas (con grandes universos de datos) es una tarea que
separa la síntesis eficiente de la generación de sinopsis eficiente (desinfección con
resultados arbitrarios).
9.2.1 Resultados de dureza para sinopsis generales
Los resultados de dureza de la sección anterior se aplican solo a los sintetizadores:
mecanismos fuera de línea que crean bases de datos sintéticas. Existe una estrecha
conexión entre la dureza de formas más generales de mecanismos fuera de línea que
preservan la privacidad, a los que hemos estado llamando mecanismos de publicación de
consultas fuera de línea o generadores de sinopsis, y la existencia de esquemas de
rastreo de traidores , un método de distribución de contenido en el que la clave (breve)
las cadenas se distribuyen a los suscriptores de tal manera que un remitente puede
transmitir mensajes cifrados que cualquier suscriptor puede descifrar, y cualquier
decodificador "pirata" útil construido por una coalición de suscriptores maliciosos
puede rastrearse hasta al menos un colusivo.
Un esquema de rastreo de traidores (clave privada, sin estado) consta de
algoritmos de configuración, cifrado, descifrado y seguimiento. El algoritmo de
configuración genera una clave bk para el emisor y N claves de suscriptor k1, . . . , kN .
El algoritmo Encrypt cifra un bit determinado utilizando la clave bk de la emisora. El
algoritmo Decrypt descifra un texto cifrado dado utilizando cualquiera de las claves
del suscriptor. El algoritmo Trace obtiene la clave bk y el acceso de Oracle a un
cuadro de descifrado (pirata, sin estado) y genera el índice i {1, . . . , N} de una
clave ki que se usó para crear la caja pirata.
Un parámetro importante de un esquema de rastreo de traidores es su resistencia
a la colusión: un esquema es tresiliente si se garantiza que el rastreo funcione
siempre que no se usen más de t claves para crear el decodificador pirata. Cuando t
= N, el rastreo funciona incluso si todos los suscriptores se unen para intentar crear
un decodificador pirata. A continuación se presenta una definición más completa.
Definición 9.3. Un esquema (Configurar, Cifrar, Descifrar, Rastrear) como el anterior
es un esquema de rastreo de traidores tresilient si (i) los textos cifrados que genera
son semánticamente seguros (en términos generales, los algoritmos de tiempo
polinomial no pueden distinguir los cifrados de 0 de los cifrados de 1) , y (ii) ningún
adversario de tiempo polinomial A puede "ganar" en el siguiente juego con una
probabilidad no despreciable (sobre las monedas de Configuración, A y Traza):
A recibe el número de usuarios N y un parámetro de seguridad κ y (de forma
adaptativa) solicita las claves de hasta t usuarios {i1, . . . , eso}. Luego, el adversario
emite un decodificador pirata Dec. El algoritmo Trace se ejecuta con la tecla bk y el
acceso de caja negra5 a Dec; genera el nombre i [N] de un usuario o el símbolo de
error . Decimos que un adversario A "gana" si Dec tiene una ventaja no despreciable
en el descifrado de textos cifrados (incluso una condición más débil que la creación
de un dispositivo de descifrado pirata utilizable), y la salida de Trace no está en
{i1 , . . . , it}, lo que significa que el adversario evitó la detección.
5El acceso de caja negra a un algoritmo significa que uno no tiene acceso a la
interiores; uno solo puede alimentar entradas al algoritmo y observar sus salidas.
La intuición de por qué los esquemas de rastreo de traidores implican resultados de dureza
para contar el lanzamiento de consultas es la siguiente. Arreglar un esquema de rastreo de traidor.
Debemos describir las bases de datos y las consultas de conteo para las cuales la liberación de
consultas es computacionalmente difícil.
Para cualquier n = κ dado, la base de datos x {{0, 1} d} n contendrá claves de usuario del
esquema de rastreo de traidores de un conjunto en connivencia de n usuarios; aquí d es la longitud
de las claves de descifrado obtenidas cuando el algoritmo de instalación. La familia de consultas
se ejecuta en la entrada k Qκ tendrá una consulta qc para cada
1 posible texto cifrado c preguntando "¿Para qué fracción de las filas i [n] c descifra a 1 debajo
de la clave en la fila i?" Tenga en cuenta que, dado que todos los usuarios pueden descifrar, si el
remitente distribuye un cifrado c del bit 1, la respuesta será 1: todas las filas se descifran c a 1, por
lo que la fracción de tales filas es 1. Si en cambio el remitente distribuye un cifrado c del bit 0, la
respuesta será 0: dado que ninguna fila descifra c a 1, la fracción de filas que descifran c a 1 es 0.
Por lo tanto, la respuesta exacta a una consulta qc, donde c es un cifrado de a 1 bit mensajes b,
es b mismo.
Ahora, supongamos que hubiera un mecanismo eficiente de liberación de consultas
diferencialmente privado fuera de línea para consultas en Q. Los colusionadores podrían usar este
algoritmo para producir de manera eficiente una sinopsis de la base de datos que permita a un
analista de datos calcular de manera eficiente respuestas aproximadas a las consultas qc . Si estas
aproximaciones no son triviales, entonces el analista puede usarlas para descifrar correctamente.
Es decir, los cómplices podrían usar esto para formar una caja decodificadora pirata. Pero el rastreo
de traidores asegura que, para cualquier casilla de este tipo, el algoritmo Trace puede recuperar la
clave de al menos un usuario, es decir, una fila de la base de datos. Esto viola la privacidad
diferencial, contradiciendo la suposición de que existe un algoritmo diferencialmente privado
eficiente para liberar Q.
Esta dirección se ha utilizado para descartar la existencia de
desinfectantes fuera de línea para una clase particular de 2 O˜( √ n) consultas de conteo; este
puede extenderse para descartar la existencia de desinfectantes en línea eficientes que respondan
Θ( clase (grande).
˜ norte
2
) contando consultas extraídas adaptativamente de un segundo
La intuición de por qué la dureza de la publicación de consultas fuera de línea para contar
consultas implica el rastreo de traidores es que la falta de protección de la privacidad produce
inmediatamente alguna forma de rastreabilidad; es decir, la dificultad de proporcionar un objeto que
produzca una equivalencia funcional (aproximada) para un conjunto de
9.3. Adversarios de tiempo polinomial 185
filas (claves de descifrado) mientras se preserva la privacidad de cada fila individual (clave
de descifrado), es decir, la dificultad de producir un decodificador imposible de rastrear, es
precisamente lo que estamos buscando en un esquema de rastreo de traidores.
Con un poco más de detalle, dada una distribución de base de datos difícil de
desinfectar y una familia de consultas de conteo, una base de datos de n elementos aleatoria
puede actuar como una "clave maestra", donde el secreto utilizado para descifrar mensajes
es el conteo de datos aleatorios. consultas en esta base de datos. Para un subconjunto S
elegido aleatoriamente de consultas polylog(n) , un conjunto aleatorio de filas polylog(n)
extraídas de la base de datos (muy probablemente) produce una buena aproximación a
todas las consultas en S. Por lo tanto, las claves de usuario individuales se pueden obtener
ejecutando Particionando la base de datos de forma automática en n/polylog(n) conjuntos
de filas de polylog(n) y asignando cada conjunto a un usuario diferente. Estos conjuntos son
lo suficientemente grandes como para que, con una probabilidad abrumadora, sus recuentos
en una colección aleatoria de, por ejemplo, consultas polylog(n), estén todos cerca de los
recuentos de la base de datos original.
Para completar el argumento, se diseña un esquema de cifrado en el que el descifrado
equivale a calcular recuentos aproximados en pequeños conjuntos de consultas aleatorias.
Dado que, por definición, una caja de descifrado pirata puede descifrar, se puede usar una
caja pirata para calcular recuentos aproximados. Si vemos este cuadro como una
desinfección de la base de datos, concluimos (porque la desinfección es difícil) que el
cuadro de descifrado se puede "rastrear" hasta las claves (elementos de la base de datos)
que se usaron para crearlo.
9.3 Adversarios de tiempo polinomial
Definición 9.4 (Privacidad diferencial computacional). Un algoritmo aleatorio Cκ : X → Y es
norte
εcomputacionalmente privado diferencialmente si y solo si para todas las bases de datos x,
y difieren en una sola fila, y para todos los algoritmos polinómicos no uniformes (en κ) T,
Pr[T(Cκ(x)) = 1] ≤ e ε Pr[T(Cκ(y)) = 1] + ν(κ),
donde ν(∙) es cualquier función que crece más lentamente que la inversa de cualquier
polinomio y el agoritmo Cκ se ejecuta en el polinomio en el tiempo en n, log |X | y κ.
Intuitivamente, esto dice que si el adversario está restringido al tiempo polinomial,
entonces los mecanismos computacionalmente privados diferencialmente proporcionan
el mismo grado de privacidad que los algoritmos privados diferencialmente (ε, ν(κ)). En
general, no hay esperanza de deshacerse del término ν(κ) ; por ejemplo, cuando se trata
de cifrado, siempre hay alguna posibilidad (insignificantemente pequeña) de adivinar la
clave de descifrado.
Una vez que asumimos que el adversario está restringido al tiempo polinomial,
podemos usar las poderosas técnicas de computación multipartita segura para proporcionar
algoritmos distribuidos de liberación de consultas en línea, reemplazando el servidor
confiable con un protocolo distribuido que simula un curador confiable. Así, por ejemplo,
un conjunto de hospitales, cada uno con los datos de muchos pacientes, puede realizar
de forma colaborativa análisis estadísticos de la unión de sus pacientes, al tiempo que
garantiza una privacidad diferencial para cada paciente. Una implicación más radical es
que las personas pueden mantener sus propios datos, participando o no en cada consulta
o estudio estadístico específico, al tiempo que garantizan la privacidad diferencial de sus
propios datos.
Ya hemos visto una solución distribuida, al menos para el problema de calcular una
suma de n bits: respuesta aleatoria. Esta solución no requiere supuestos computacionales
y tiene un error esperado de Θ(√ n). Por el contrario, el uso de suposiciones criptográficas
permite análisis mucho más precisos y extensos, ya que al simular el curador puede
ejecutar una implementación distribuida del mecanismo de Laplace, que tiene un error
esperado constante.
Esto lleva a la pregunta natural de si existe algún otro enfoque, que no se base en
suposiciones criptográficas, que produzca una mayor precisión en el entorno distribuido
que la respuesta aleatoria. O, de manera más general, ¿existe una separación entre lo
que se puede lograr con la privacidad diferencial computacional y lo que se puede lograr
con la privacidad diferencial “tradicional”? Es decir, ¿probablemente la criptografía nos
compra algo?
En el escenario multipartidista la respuesta es sí. Todavía limitando nuestra atención
ción a la suma de n bits, tenemos:
Teorema 9.2. Para ε < 1, cada protocolo diferencialmente privado de n partes (ε, 0) para
calcular la suma de n bits (uno por parte) incurre en el error Ω (n 1/2 ) con alta probabilidad.
Un teorema similar se cumple para (ε, δ)privacidad diferencial siempre que δ
o(1/n).
Prueba. (boceto) Sea X1, . . . , Xn ser bits independientes uniformes. La
transcripción T del protocolo es una variable aleatoria T = T(P1(X1), . . . , Pn(Xn),
donde para i [n] el protocolo del jugador i se denota Pi . Condicionado a T = t,
los bits X1, . . . , Xn siguen siendo bits independientes, cada uno con sesgo O(ε).
Además, por privacidad diferencial, la uniformidad de los Xi
, y la Ley de Bayes tenemos:
Pr[Xi = 1|T = t] = Pr[T = t|Xi = 1] ≤ e ε < 1 + 2ε.

Pr[Xi = 0|T = t] Pr[T = t|Xi = 0]
Para terminar la prueba notamos que la suma de n bits independientes, cada
uno con sesgo constante, cae fuera de cualquier intervalo de tamaño o( √ n) con
alta probabilidad. Así, con alta probabilidad, la suma Xi no está en el
i intervalo
[output(T) − o(n 1/2 ), output(T) + o(n 1/2 )].
Una prueba más complicada muestra una separación entre la privacidad
diferencial computacional y la privacidad diferencial ordinaria, incluso para el caso
de dos partes. Es una pregunta abierta fascinante si las suposiciones
computacionales nos compran algo en el caso del curador de confianza. Los
resultados iniciales son negativos: para un pequeño número de consultas de valor
real , es decir, para un número de consultas que no crece con el parámetro de
seguridad, existe una clase natural de medidas de utilidad, incluidas las distancias
Lp y los errores cuadráticos medios, para los cuales cualquier mecanismo
computacionalmente privado se puede convertir en un mecanismo estadísticamente
privado que es más o menos igual de eficiente y logra casi la misma utilidad.
Los resultados negativos para curadores polinómicos limitados en el tiempo y la
conexión con el rastreo de traidores se deben a Dwork et al. [28]. La conexión con
el rastreo de traidores fue investigada más a fondo por Ullman [82], quien demostró
que, asumiendo la existencia de funciones de 1 vía, es computar 2+o(1) consultas
difíciles de responder en lineales arbitrarias con diferenciales cionalmente
privacidad (incluso si sin privacidad las respuestas son fáciles de calcular). En
“Nuestros datos, nosotros mismos”, Dwork, Kenthapadi, McSherry, Mironov y
Naor consideró una versión distribuida del precursor de la privacidad diferencial,
utilizando técnicas de evaluación de funciones seguras en lugar del curador de confianza
[21]. En [64] se inició un estudio formal de la privacidad diferencial computacional , y la
separación entre la precisión que se puede lograr con la privacidad diferencial (ε, 0) en
los casos de múltiples partes y curador único en el Teorema 9.2 se debe a McGregor et
al. [58].
Los resultados iniciales sobre si las suposiciones computacionales sobre el adversario
compran algo en el caso de un curador de confianza se deben a Groce et al. [37].
La construcción de funciones pseudoaleatorias a partir de cualquier función
unidireccional se debe a Håstad et al. [40].
10
Privacidad diferencial y diseño de mecanismos
Una de las áreas más fascinantes de la teoría de juegos es el diseño de mecanismos,
que es la ciencia de diseñar incentivos para que las personas hagan lo que usted
quiere que hagan. La privacidad diferencial ha demostrado tener conexiones
interesantes con el diseño de mecanismos en un par de formas inesperadas.
Proporciona una herramienta para cuantificar y controlar la pérdida de privacidad, lo
cual es importante si las personas a las que el diseñador del mecanismo intenta
manipular se preocupan por la privacidad. Sin embargo, también proporciona una
forma de limitar la sensibilidad del resultado de un mecanismo a las elecciones de
una sola persona, lo que resulta ser una herramienta poderosa incluso en ausencia
de preocupaciones por la privacidad. En esta sección, damos una breve reseña de algunas de estas ideas.
El diseño de mecanismos es el problema del diseño de algoritmos cuando las
entradas al algoritmo están controladas por agentes individuales e interesados, en
lugar del propio diseñador del algoritmo. El algoritmo asigna sus entradas informadas
a algún resultado, sobre el cual los agentes tienen preferencias. La dificultad es que
los agentes pueden informar incorrectamente sus datos si hacerlo hace que el
algoritmo genere un resultado preferido diferente, por lo que el diseñador del
mecanismo debe diseñar el algoritmo para que los agentes siempre tengan incentivos
para informar sus datos verdaderos.
189
190 Privacidad diferencial y diseño de mecanismos
Las preocupaciones del diseño de mecanismos son muy similares a las
preocupaciones del diseño de algoritmos privados. En ambos casos, se considera
que las entradas del algoritmo pertenecen a un tercero1 que tiene preferencias sobre
el resultado. En el diseño de mecanismos, normalmente pensamos que los
individuos obtienen algún valor explícito de los resultados del mecanismo. En el
diseño de algoritmos privados, generalmente pensamos que el individuo experimenta
algún daño explícito por (las consecuencias de) los resultados del mecanismo. De
hecho, podemos dar una definición teórica de utilidad de la privacidad diferencial
que es equivalente a la definición estándar, pero hace explícita la conexión con las
utilidades individuales:
Definición 10.1. Un algoritmo A : N |X| → R es diferencialmente privado si para cada
función f : R → R+, y para cada par de bases de datos vecinas x, y N |X|:
exp(−)Ez A(y) [f(z)] ≤ Ez A(x) [f(z)] ≤ exp()Ez A(y) [f(z)].
Podemos pensar en f como una función que asigna resultados a la utilidad de
un agente arbitrario para esos resultados. Con esta interpretación, un mecanismo
es diferencialmente privado, si para cada agente promete que su participación en el
mecanismo no puede afectar su utilidad futura esperada por más de un factor de
exp() independientemente de cuál sea su función de utilidad.
Demos ahora una breve definición de un problema en el diseño de mecanismos.
Un problema de diseño de mecanismo está definido por varios objetos. Hay n
agentes i [n], y un conjunto de resultados O. Cada agente tiene un tipo, ti T que
solo él conoce, y existe una función de utilidad sobre los resultados u : T ×O → [0,
1]. La utilidad que obtiene el agente i de un resultado o O es u(ti , o), que a
menudo abreviaremos como ui(o). Escribiremos t T n para denotar vectores de
todos los n tipos de agentes, con ti denotando el tipo de agente i, y t−i ≡ (t1, . . . ,
ti−1, ti+1, . . . , tn ) que denota el vector de tipos de todos los agentes excepto el
agente i. El tipo de un agente i especifica completamente su utilidad sobre los
resultados, es decir, dos agentes i = j tales que ti = tj evaluarán cada resultado de
manera idéntica: ui(o) = uj (o) para todo o O.
1
En la configuración de privacidad, el administrador de la base de datos (como un hospital)
puede que ya tenga acceso a los datos en sí, pero, sin embargo, actúa para proteger los
intereses de los agentes que poseen los datos cuando se esfuerza por proteger la privacidad.
10.1. La privacidad diferencial como concepto de solución 191
Un mecanismo M toma como entrada un conjunto de tipos informados, uno de cada jugador, y
selecciona un resultado. Es decir, un mecanismo es un mapeo M : T n → O. Los agentes
elegirán informar sus tipos estratégicamente para optimizar su utilidad, posiblemente teniendo
en cuenta lo que (creen) que harán los demás agentes. En particular, no necesitan informar
sus verdaderos tipos al mecanismo. Si un agente siempre tiene incentivos para informar algún
tipo, sin importar lo que informen sus oponentes, informar ese tipo se denomina estrategia
dominante. Si informar sobre el verdadero tipo de uno es una estrategia dominante para cada
agente, entonces el mecanismo se llama veraz o, de manera equivalente, estrategia dominante
veraz.
Definición 10.2. Dado un mecanismo M : T n → O, la información veraz es una estrategia
dominante aproximada para el jugador i si para cada par de tipos ti
, yo T, y para todo vector de tipos t−i :
u(ti , METRO(ti , t−i)) ≥ u(ti , METRO(t
yo , t−i)) − .
Si la información veraz es una estrategia dominante aproximada para cada jugador, decimos
que M es una estrategia dominante aproximada veraz.
Si = 0, entonces M es exactamente veraz.
Es decir, un mecanismo es veraz si ningún agente puede mejorar su utilidad tergiversando
su tipo, sin importar lo que informen los otros jugadores.
Aquí podemos observar inmediatamente una conexión sintáctica con la definición de
privacidad diferencial. Podemos identificar el espacio tipo T con el universo de datos X. La
entrada al mecanismo por lo tanto consiste en una base de datos de tamaño n, compuesta
por los informes de cada agente.
De hecho, cuando un agente está considerando si debe reportar con veracidad su tipo ti o
mentir, y reportar erróneamente su tipo como t , está decidiendo cuál de yo ,
las dos bases de
datos debe recibir el mecanismo: (t1, . . . , tn), o (t1 , . . . , ti−1, ti , ti+1, . . . , tn) . Tenga en
cuenta que estas dos bases de datos difieren solo en el informe del agente i! Es decir, son
bases de datos vecinas. ¡Así, la privacidad diferencial da una garantía de veracidad aproximada!
10.1 La privacidad diferencial como concepto de solución
Uno de los puntos de partida para investigar la conexión entre la privacidad diferencial y la
teoría de juegos es observar que la privacidad diferencial
es una condición más fuerte que la veracidad aproximada. Tenga en cuenta que
para ≤ 1, exp() ≤ 1 + 2, por lo que la siguiente proposición es inmediata.
Proposición 10.1. Si un mecanismo M es diferencialmente privado, entonces M
también es 2aproximadamente una estrategia dominante veraz.
Como concepto de solución, tiene varias propiedades de robustez que los
mecanismos de prueba de estrategia no tienen. Por la propiedad de composición
de la privacidad diferencial, la composición de 2 mecanismos diferencialmente
privados sigue siendo veraz estrategia 4aproximadamente dominante. Por el
contrario, las propiedades de incentivo de los mecanismos generales de prueba de
estrategia pueden no conservarse bajo composición.
Otra propiedad útil de la privacidad diferencial como concepto de solución es
que se generaliza a la privacidad grupal: supongamos que t y t T n no son
vecinos, sino que difieren en k índices. Recuerde que por privacidad de grupo
tenemos para cualquier jugador i: Eo M(t) [ui(o)] ≤ exp(k)Eo M(t ) [ui(o)]. Es decir,
los cambios en hasta k tipos cambian la salida esperada como máximo ≈ (1+k),
cuando k 1/. Por lo tanto, los mecanismos de privacidad diferencial hacen que la
información veraz sea una estrategia dominante aproximada de 2k, incluso para
coaliciones de agentes k , es decir, la privacidad diferencial proporciona
automáticamente solidez a la colusión. Una vez más, esto contrasta con los
mecanismos veraces de la estrategia dominante general, que en general no ofrecen
garantías contra la colusión.
En particular, la privacidad diferencial permite estas propiedades en entornos
muy generales sin el uso de dinero. En cambio, el conjunto de mecanismos veraces
de la estrategia exactamente dominante cuando no se permiten las transferencias
monetarias es extremadamente limitado.
Concluimos con una desventaja de usar la privacidad diferencial como un
concepto de solución como se indicó: ¡no solo informar verazmente el propio tipo es
una estrategia dominante aproximada, sino que cualquier informe es una estrategia
dominante aproximada! Es decir, la privacidad diferencial hace que el resultado
sea aproximadamente independiente del informe de cualquier agente individual. En
algunos entornos, esta deficiencia se puede paliar. Por ejemplo, suponga que M
es un mecanismo diferencialmente privado, pero que las funciones de utilidad del
agente se definen como funciones tanto del resultado del mecanismo como del tipo
informado t O = O i del agente: formalmente, vemos el espacio de resultado como
× T. Cuando el agente informa el tipo t i el mecanismo, y
10.2. La privacidad diferencial como herramienta en el diseño de mecanismos 193
el mecanismo selecciona el resultado o O, entonces la utilidad experimentada por el
agente está controlada por el resultado o = (o, t función de i ). Ahora considere el
utilidad subyacente u : T × O → [0, 1]. Supongamos que tenemos que fijando una selección
o de el mecanismo, la información veraz es una estrategia dominante, es decir, para todos
los tipos de ti y para todos los resultados o , O :
yo ,
u(ti ,(o, ti)) ≥ u(ti ,(o, t i )).
Entonces queda el hecho de que informar verazmente a un diferencialmente → O sigue
dominante aproximado 2 , porque siendo una estrategia M : T de mecanismo privado
norte
para cualquier informe erróneo t que el jugador piodría considerar, tenemos:
u(ti ,(M(t), ti)) = Eo M(t) [u(ti ,(o, ti))] ≥ (1 +
2)Eo M(t i
,t−i) [u(ti ,(o, ti))]
≥ Eo M(t = i ,t−i) [u(ti ,(o, t i ))]
u(ti ,(M(t yo , t−i), t i )).
Sin embargo, ya no tenemos que cada informe sea una estrategia dominante
aproximada, porque la utilidad del jugador i puede depender arbitrariamente de o = (o, t
privado. i ), y solo o (y no el informe del jugador i t i mismo) es diferencialmente
Este será el caso en todos los ejemplos que consideramos aquí.
10.2 La privacidad diferencial como herramienta en el diseño de mecanismos
En esta sección, mostramos cómo la maquinaria de la privacidad diferencial puede utilizarse
como herramienta para diseñar mecanismos novedosos.
10.2.1 Preparación: subastas de bienes digitales
Para calentar, consideremos un caso especial simple de la primera aplicación de privacidad
diferencial en el diseño de mecanismos. Considere una subasta de bienes digitales, es decir,
una en la que el vendedor tiene un suministro ilimitado de un bien con un costo marginal de
producción cero, por ejemplo, una pieza de software u otro medio digital. Hay n compradores
de demanda unitaria para este bien, cada uno con una valoración desconocida vi [0, 1].
Informalmente, la valoración vi de un postor i representa la cantidad máxima de dinero que
el comprador i
estaría dispuesto a pagar por un bien. No existe una distribución previa sobre las
valoraciones de los postores, por lo que una referencia natural de ingresos es el
ingreso del mejor precio fijado. A un precio p [0, 1], cada postor i con vi ≥ p
comprará. Por lo tanto, los ingresos totales del subastador son
Rev(p, v) = p ∙ |{i : vi ≥ p}|.
El ingreso óptimo es el ingreso del mejor precio fijo: OPT = maxp Rev(p, v). Esta
configuración está bien estudiada: el resultado más conocido para mecanismos
veraces de estrategia exactamente dominante es un mecanismo que logra ingresos
al menos OPT O ( √ n).
Mostramos cómo una simple aplicación del mecanismo exponencial logra
ingresos al menos OPT − O log n . Es decir, el mecanismo cambia exacto por
veracidad aproximada, pero logra una garantía de ingresos exponencialmente
mejor. Por supuesto, también hereda los beneficios de la privacidad diferencial
discutidos anteriormente, como la resiliencia a la colusión y la componibilidad.
La idea es seleccionar un precio del mecanismo exponencial, usando como
nuestro “índice de calidad” los ingresos que obtendría ese precio.
Supongamos que elegimos que el rango del mecanismo exponencial sea R = {α,
2α, . . . , 1}. El tamaño del rango es |R| = 1/α. ¿Qué hemos perdido en ingresos
potenciales si nos limitamos a seleccionar un precio de R? No es dificil ver eso
OPTR ≡ max Rev(p, v) ≥ OPT − αn. p R
Esto se debe a que si es el precio que logra el ingreso óptimo, y cada comprador
p usamos un precio p tal que p al α ≤ pags ≤ pags que compró
precio óptimo continúa comprando y nos proporciona como máximo α menos
ingresos por comprador. Dado que hay como máximo n compradores, la pérdida
total de ingresos es como máximo αn.
Entonces, ¿cómo parametrizamos el mecanismo exponencial? Tenemos una
familia de rangos discretos R, parametrizados por α. Para un vector de valores v y
un precio p R, definimos nuestra función de calidad como q(v, p) = Rev(v, p).
Observe que debido a que cada valor vi [0, 1], podemos restringir la atención a
los precios p ≤ 1 y, por lo tanto, la sensibilidad de q es ∆ = 1: cambiar la valoración
de un postor solo puede cambiar los ingresos a un precio fijo.
precio por a lo sumo vi ≤ 1. Por lo tanto, si requerimos privacidad diferencial, por el
Teorema 3.11, obtenemos que con alta probabilidad, el mecanismo exponencial
devuelve algún precio p tal que
1
Rev(p, v) ≥ (OPT − αn) − O 1 en .
α
Eligiendo nuestro parámetro de discretización α para minimizar las dos fuentes de
error, encontramos que este mecanismo con alta probabilidad nos encuentra un
precio que logra ingresos
iniciar sesión
Rev(p, v) ≥ OPT − O .
¿Cuál es el nivel correcto a elegir para el parámetro de privacidad? Tenga en
cuenta que aquí no vemos necesariamente la privacidad en sí misma como un
objetivo de nuestro cálculo. Más bien, es una forma de negociar la garantía de
ingresos con un límite superior en los incentivos del agente para desviarse. En la
literatura sobre grandes mercados en economía, un objetivo común cuando la
veracidad exacta está fuera de alcance es la “veracidad asintótica”, es decir, el
incentivo máximo que cualquier agente tiene para desviarse de su informe veraz
tiende a 0 según el tamaño del mercado. n crece grande. Para lograr un resultado
como ese aquí, todo lo que necesitamos hacer es establecer una función decreciente
en el número de agentes n. Por ejemplo, si tomamos = 1/ log(n), entonces
obtenemos un mecanismo que es asintóticamente exactamente veraz (es decir, a
medida que el mercado crece, la aproximación a la veracidad se vuelve exacta).
También podemos preguntar cuál es nuestra aproximación al ingreso óptimo a
medida que n crece. Tenga en cuenta que nuestra aproximación a los ingresos
,
óptimos solo es aditiva, por lo que incluso con esta configuración
de podemos
garantizar ingresos de al menos (1 − o(1) )OPT, siempre que OPT crezca más
2
con el tamaño de la población n.
rápido que log(n)
Finalmente, observe que podríamos hacer que el valor informado vi de cada
agente i sea vinculante. En otras palabras, podríamos asignar un artículo al agente
i y extraer el pago del precio publicado seleccionado p siempre que vi ≥ p. Si
hacemos esto, el mecanismo es aproximadamente veraz, porque el precio se elige
mediante un mecanismo diferencialmente privado. Además, no es el caso que cada
informe sea una estrategia dominante aproximada: si un agente informa en exceso,
puede verse obligado a comprar el bien a un precio superior a su valor real.
10.2.2 Mecanismos de selección de equilibrio aproximadamente veraces
Consideremos ahora el problema de la selección de equilibrio aproximadamente veraz.
Recordemos la definición de Equilibrio de Nash: Supongamos que cada jugador tiene un
conjunto de acciones A, y puede elegir jugar cualquier acción ai A.
Supongamos, además, que los resultados son meras elecciones de acciones que los
agentes pueden elegir realizar, y por tanto las funciones de utilidad de los agentes se
definen como u : T × An → [0, 1]. Entonces:
Definición 10.3. Un conjunto de acciones a An es un equilibrio de Nash aproximado
si para todos los jugadores i y para todas las acciones a yo
:
ui(a) ≥ ui(a yo , a−i) −
En otras palabras, cada agente está jugando simultáneamente una mejor respuesta
(aproximada) a lo que están haciendo los otros agentes, asumiendo que están jugando
de acuerdo con a.
En términos generales, el problema es el siguiente: supongamos que nos dan un
juego en el que cada jugador conoce sus propios pagos, pero no los pagos de los demás
(es decir, los jugadores no saben cuáles son los tipos de los otros agentes). Por lo tanto,
los jugadores no conocen la estructura de equilibrio de este juego. Incluso si lo hicieran,
podría haber múltiples equilibrios, con diferentes agentes prefiriendo diferentes equilibrios.
¿Puede un mecanismo ofrecido por un intermediario incentivar a los agentes a reportar
verazmente sus utilidades y seguir el equilibrio que selecciona?
Por ejemplo, imagine una ciudad en la que (digamos) Google Navigation es el
servicio dominante. Cada mañana, cada persona ingresa su punto de partida y destino,
recibe un conjunto de direcciones y elige su ruta de acuerdo con esas direcciones. ¿Es
posible diseñar un servicio de navegación tal que: Cada agente tenga incentivos para
(1) informar con veracidad y (2) luego seguir las instrucciones de manejo provistas?
Tanto la información errónea de los puntos de inicio y final, como la información veraz de
los puntos de inicio y final, pero luego seguir un camino diferente (más corto) deben ser
desincentivados.
Intuitivamente, nuestros dos deseos están en conflicto. En el ejemplo de
desplazamiento anterior, si queremos garantizar que todos los jugadores tengan
incentivos para seguir fielmente la ruta sugerida, entonces debemos calcular un
equilibrio del juego en cuestión dados los informes de los jugadores. Por otro lado, para hacerlo,
nuestra ruta sugerida a algún jugador debe depender de los pares de ubicación/destino informados
de otros jugadores. Esta tensión planteará un problema en términos de incentivos: si calculamos un
equilibrio del juego dados los informes de los jugadores, un agente puede beneficiarse potencialmente
al informar erróneamente, lo que hace que calculemos un equilibrio del juego.
juego equivocado
Sin embargo, este problema se aliviaría en gran medida si el informe del agente i solo tuviera
un pequeño efecto sobre las acciones de los agentes j = i. En este caso, el agente i difícilmente
podría obtener una ventaja a través de su efecto sobre otros jugadores. Luego, suponiendo que
todos informaron verazmente su tipo, el mecanismo calcularía un equilibrio del juego correcto y, por
definición, cada agente i no podría hacer nada mejor que seguir la acción de equilibrio sugerida. En
otras palabras, si pudiéramos calcular un equilibrio aproximado del juego bajo la restricción de la
privacidad diferencial, entonces la información veraz, seguida de la acción sugerida del dispositivo
de coordinación sería un equilibrio de Nash. Un momento de reflexión revela que el objetivo de
calcular de forma privada un equilibrio no es posible en los juegos pequeños, en los que la utilidad
de un agente es una función muy sensible de las acciones (y, por tanto, de las funciones de utilidad)
de los otros agentes. Pero, ¿qué pasa en los juegos grandes?
Formalmente, supongamos que tenemos un juego de n jugadores con un conjunto de acciones
A, y cada agente con tipo ti tiene una función de utilidad ui : An → [0, 1]. Decimos que este juego es
∆grande si para todos los jugadores i = j, vectores de acciones a An A:
, y pares de acciones aj , una j
ui(aj , a−j ) − ui(a j , a−j ) ≤ ∆.
En otras palabras, si algún agente j cambia unilateralmente su acción, entonces su efecto sobre el
pago de cualquier otro agente i = j es como máximo ∆. Tenga en cuenta que si el agente j cambia su
propia acción, entonces su pago puede cambiar arbitrariamente.
Muchos juegos son “grandes” en este sentido. En el ejemplo de viaje anterior, si Alice cambia su ruta
al trabajo, puede aumentar o disminuir sustancialmente su tiempo de viaje, pero solo tendrá un
impacto mínimo en el tiempo de viaje de cualquier otro agente Bob. Los resultados en esta sección
son más fuertes para ∆ = O(1/n), pero se mantienen de manera más general.
Primero, podríamos preguntarnos si necesitamos privacidad en absoluto:
¿podría ser el caso de que en un juego grande, cualquier algoritmo que calcule
el equilibrio de un juego definido por los tipos informados tenga la propiedad de
estabilidad que queremos? La respuesta es no. Como ejemplo simple, considere
n personas que deben elegir cada una si ir a la playa (B) oa la montaña (M).
Las personas conocen en privado sus tipos: la utilidad de cada persona
depende de su propio tipo, su acción y la fracción de otras personas p que van
a la playa. Un tipo Playa obtiene un pago de 10p si visita la playa y 5(1 − p) si
visita la montaña. Un tipo de montaña obtiene un pago de 5p por visitar la playa
y 10(1−p) por visitar la montaña. Tenga en cuenta que este es un juego grande
(es decir, de baja sensibilidad): los pagos de cada jugador son insensibles a las
acciones de los demás. Además, tenga en cuenta que "todos visitan la playa" y
"todos visitan la montaña" son equilibrios del juego, independientemente de la
realización de los tipos. Considere el mecanismo que intenta implementar la
siguiente regla de elección social: "si el número de tipos de playa es inferior a
la mitad de la población, envíe a todos a la playa y viceversa". Debe quedar
claro que si los tipos de montaña son solo una mayoría, entonces cada tipo de
montaña tiene un incentivo para informar erróneamente como un tipo de playa;
y viceversa. Como resultado, a pesar de que el juego es "grande" y las acciones
de los agentes no afectan significativamente los pagos de los demás, el simple
cálculo de los equilibrios a partir de los perfiles de tipos informados en general
no conduce a mecanismos ni siquiera aproximadamente veraces.
Sin embargo, resulta posible dar un mecanismo con la siguiente propiedad:
obtiene el tipo ti de cada agente, y luego calcula un equilibrio correlacionado
aproximado α del juego definido por los tipos reportados.2 (En algunos casos ,
es posible fortalecer este resultado para calcular un equilibrio de Nash
aproximado del juego subyacente). Dibuja un perfil de acción a An del
equilibrio correlacionado e informa la acción ai a cada agente i. El algoritmo
tiene la garantía de que simultáneamente para todos los jugadores i, la
distribución conjunta a−i en los informes a todos los jugadores distintos de i es
diferencialmente privada en
2Un equilibrio correlacionado se define por una distribución conjunta de perfiles de acciones,
A n . Para un perfil de acción a extraído de la distribución, si al agente i solo se le dice ai,
entonces ejecutar la acción ai es la mejor respuesta dada la distribución condicional inducida
sobre a−i. Un equilibrio correlacionado aproximado de α es aquel en el que la desviación mejora
la utilidad de un agente en un máximo de α.
el tipo informado de agente i. Cuando el algoritmo calcula un equilibrio
correlacionado del juego subyacente, esta garantía es suficiente para una forma
restringida de veracidad aproximada: agentes que tienen la opción de participar
o no participar en el mecanismo (pero no informar erróneamente su tipo si optin)
no tienen ningún desincentivo para optar por no participar, porque ningún agente
i puede cambiar sustancialmente la distribución de las acciones inducidas en los
otros jugadores al optar por no participar. Además, dado que opta por participar,
ningún agente tiene incentivos para no seguir su acción sugerida, ya que su
sugerencia es parte de un equilibrio correlacionado. Cuando el mecanismo
calcula un equilibrio de Nash del juego subyacente, el mecanismo se vuelve
veraz incluso cuando los agentes tienen la capacidad de informar erróneamente
su tipo al mecanismo cuando optan por participar.
Más específicamente, cuando estos mecanismos calculan un equilibrio de
Nash aproximado α mientras satisfacen la privacidad diferencial, cada agente
que sigue el comportamiento honesto (es decir, primero acepta e informa su
verdadero tipo, luego sigue la acción sugerida) forma un (2 + α) equilibrio de
Nash aproximado. Esto se debe a que, por privacidad, informar su verdadero
tipo es una estrategia dominante aproximada de 2, y dado que todos informan
su verdadero tipo, el mecanismo calcula un equilibrio aproximado α del juego
verdadero y, por lo tanto, por definición, siguiendo el la acción sugerida es una
mejor respuesta aproximada α. Existen mecanismos para calcular y aproximar el
equilibrio α en juegos grandes con α = O . Por lo tanto, al establecer
1
√ norte
= O 1 esto da un mecanismo de selección de equilibrio n1/4 ,
aproximadamente veraz η para
1
η = 2 + α = O
n1/4 .
En otras palabras, proporciona un mecanismo para coordinar el comportamiento
del equilibrio en juegos grandes que es asintóticamente veraz en el tamaño del
juego, todo ello sin necesidad de transferencias monetarias.
10.2.3 Obtención de veracidad exacta
Hasta ahora hemos discutido mecanismos que son asintóticamente verdaderos
en juegos de grandes poblaciones. Sin embargo, ¿qué pasa si queremos insistir
en mecanismos que son exactamente la estrategia dominante veraz, manteniendo
algunas de las buenas propiedades de las que disfrutan nuestros mecanismos
hasta ahora: por ejemplo, que los mecanismos no necesitan poder extraer pagos
monetarios? ¿Puede la privacidad diferencial ayudar aquí? Puede—en esta
sección, discutimos un marco que utiliza mecanismos diferencialmente privados
como un bloque de construcción para diseñar mecanismos exactamente veraces sin
dinero.
La idea básica es simple y elegante. Como hemos visto, el mecanismo
exponencial a menudo puede brindar excelentes garantías de utilidad al tiempo
que preserva la privacidad diferencial. Esto no produce un mecanismo
exactamente veraz, pero le da a cada agente muy pocos incentivos para
desviarse del comportamiento veraz. ¿Qué pasaría si pudiéramos combinar
esto con un segundo mecanismo que no necesita tener buenas garantías de
utilidad, pero le da a cada agente un incentivo positivo estricto para informar con
veracidad, es decir, un mecanismo que esencialmente solo castiga el
comportamiento no veraz? Entonces, podríamos aleatorizar entre la ejecución
de los dos mecanismos. Si ponemos suficiente peso en el mecanismo de castigo,
entonces heredamos sus propiedades de estricta veracidad. El peso restante
que se pone en el mecanismo exponencial contribuye a las propiedades de
utilidad del mecanismo final. La esperanza es que, dado que el mecanismo
exponencial es aproximadamente una prueba de estrategia para empezar, el
mecanismo aleatorio puede poner poco peso en el mecanismo de castigo
estrictamente veraz y, por lo tanto, tendrá buenas propiedades de utilidad.
Para diseñar mecanismos de castigo, tendremos que trabajar en un entorno
ligeramente no estándar. En lugar de simplemente elegir un resultado, podemos
modelar un mecanismo que elige un resultado, y luego un agente que elige una
reacción a ese resultado, que en conjunto definen su utilidad.
Los mecanismos tendrán entonces la facultad de restringir las reacciones
permitidas por el agente en función de su tipo informado. Formalmente,
trabajaremos en el siguiente marco:
Definición 10.4 (El Medio Ambiente). Un entorno es un conjunto N de n
jugadores, un conjunto de tipos ti ,T, un conjunto finito O de resultados, un
conjunto de reacciones R y una función de utilidad u : T × O × R → [0, 1].
Escribimos ri(t, s, Rˆ i) arg maxr ui(t, s, r) para denotar es óptimo

Rˆ
i
reacción entre opciones Rˆ i R a la alternativa s si es de tipo t.
Un mecanismo de revelación directa M define un juego que se juega
como sigue:
1. Cada jugador i reporta un tipo t 2. i T.
El mecanismo elige una alternativa s O y un subconjunto Rˆ i R
de reacciones, para cada jugador i.
3. Cada jugador i elige una reacción ri Rˆ u(ti , i y experimenta la utilidad
s, ri).
Los agentes juegan para maximizar su propia utilidad. Tenga en cuenta que dado
que no hay más interacción después del tercer paso, los agentes racionales
estratégico. elegirán Rˆ i), por lo que podemos ignorar esto como un paso
Sea ri = ri(ti , s, R = 2R. Entonces un mecanismo es una aplicación aleatoria M : T → O×Rn .
Consideremos el criterio utilitario de bienestar: F(t, s, r) = u(ti , s, ri), Nótese
1
que este tiene una sensibilidad ∆ = 1/n, ya que la utilidad de cada agente
norte
norte yo=1
se encuentra en el rango [0, 1] . Por lo tanto, si simplemente elegimos un resultado
y permitimos que cada agente juegue su mejor reacción de respuesta, el
mecanismo exponencial es un mecanismo diferencialmente privado que, por el
Teorema 3.11, logra el bienestar social al menos OPT − O log |O| con alta norte
probabilidad. Denotemos esta instanciación del mecanismo exponencial, con
puntuación de calidad F, rango O y parámetro de privacidad
, como m
La idea es aleatorizar entre el mecanismo exponencial (con buenas propiedades
de bienestar social) y un mecanismo estrictamente veraz que castigue la
información falsa (pero con malas propiedades de bienestar social). Si mezclamos
adecuadamente, obtendremos un mecanismo exactamente veraz con garantías
razonables de bienestar social.
Aquí hay uno de esos mecanismos de castigo que es simple, pero no
necesariamente el mejor para un problema dado:
Definición 10.5. El mecanismo de compromiso MP (t ) selecciona s O
uniformemente al azar y establece Rˆ
i = {ri(t i , s, Ri)}, es decir, elige un resultado
aleatorio y obliga a todos a reaccionar como si el tipo informado fuera el verdadero.
tipo.
Defina la brecha de un entorno como
γ = mín s O u(ti , s, ri(ti , s, Ri)) − u(ti , s, ri(t yo , s, Ri)) ,

i,ti=t ,t−i
i
máx .
es decir, γ es un límite inferior sobre los jugadores y los tipos del costo del peor de los
casos (sobre s) de informes erróneos. Tenga en cuenta que para cada jugador, este peor
de los casos se realiza con una probabilidad de al menos 1/|O|. Por lo tanto, tenemos la
siguiente observación simple:
Lema 10.2. Por todo yo, ti , yo , _ t−i :
γ
u(ti ,MP (ti , t−i)) ≥ u(ti ,MP (t i , t−i)) + |O|.
Nótese que el mecanismo de compromiso es estrictamente veraz: cada
γ
individuo tiene al menos un incentivo
para no mentir.
|o|
Esto sugiere un mecanismo exactamente veraz con buenas garantías de
bienestar social:
Definición 10.6. El mecanismo exponencial de castigo MP (t) definido con
parámetro 0 ≤ q ≤ 1 selecciona el mecanismo exponencial M(t) con probabilidad 1
− q y el mecanismo de castigo MP (t) con probabilidad complementaria q.
Observe que por la linealidad de la expectativa, tenemos para todo ti , t t−i : yo ,
u(ti ,MP (ti , t−i)) = (1 − q) ∙ u(ti ,M(ti , t−i)) + q ∙ u(ti ,MP (ti , t−i))
≥ (1 − q) u(ti ,M(t yo , t−i)) − 2
γ
+q u(ti ,MP (t i , t−i)) +
|o|
γ
= u(ti ,MP (t yo , t−i)) − (1 − q)2 + q
|O|
γ
= u(ti ,MP (t yo , t−i)) − 2 + q 2 + .
|o|
Los siguientes dos teoremas muestran el incentivo y el bienestar social.
erties de este mecanismo.
qγ
Teorema 10.3. Si 2 ≤ |O| entonces MP es estrictamente veraz.
Tenga en cuenta que también tenemos garantías de utilidad para este mecanismo. Colocar
ajustando el parámetro q para que tengamos un mecanismo veraz:
mi
s,Rˆ MP [F(t, s, r(t, s, Rˆ))]
q) ∙ E s,Rˆ M [F(t, s, r(t, s, Rˆ))] ≥ (1 −
2|O| =
1 − ∙ mi
s,Rˆ M [F(t, s, r(t, s, Rˆ))]
γ
2|O| ≥ 1
1 − ∙ max t,s,r F(t, s, r) − O registro |O|
γ norte
2|O| 1
máx. F(t, s, r) − ≥ − O registro |O| .
t,s,r γ norte
Configuración
registro |O|γ
O
|O|n
encontramos:
|O| registro |O|
mi F(t, s, r) − O .
s,Rˆ MP [F(t, s, r(t, s, Rˆ))] ≥ máx. t, s, r γn
Tenga en cuenta que en este cálculo asumimos que ≤ γ/(2|O|) de modo que ≤ 1 y el mecanismo
2|O|
está bien definido. Esto es cierto para q = suficientemente grande n. Es decir,
γ
hemos mostrado:
Teorema 10.4. Para n lo suficientemente grande, MP logra el bienestar social al menos
|o| registro |O|
OPT − O .
γn
¡Tenga en cuenta que este mecanismo es veraz sin necesidad de pagos!
Consideremos ahora una aplicación de este marco: el juego de localización de
instalaciones. Suponga que una ciudad quiere construir k hospitales para minimizar la distancia
promedio entre cada ciudadano y su hospital más cercano. Para simplificar las cosas, hacemos
la ligera suposición de que la ciudad está construida sobre una discretización de la línea
unitaria.3 Formalmente, sea
3
Si este no es el caso, podemos arrasar fácilmente y luego reconstruir la ciudad.
L(m) = {0, 1/ m , . . . ,
2 1} denota la línea de unidad discreta con tamaño de paso
1 m ,
m. |L(m)| = m+1. Sea T = Ri = L(m) para todo i y sea |O| = L(metro) k .
Defina la utilidad del agente i como:
−|ti − ri |, Si ri s;
u(ti , s, ri) =
−1, de lo contrario.
En otras palabras, los agentes están asociados con puntos en la línea y
un resultado es la asignación de una ubicación en la línea a cada una de
las k instalaciones. Los agentes pueden reaccionar ante un conjunto de
instalaciones decidiendo a cuál ir, y el costo de tal decisión es la distancia
entre su propia ubicación (es decir, su tipo) y la instalación que han elegido.
Note que ri(ti , s) es aquí la facilidad más cercana ri s.
Podemos instanciar el Teorema 10.4. En este caso, tenemos: |O| =
difieren por en
(m + 1)k y γ = 1/m, porque dos posiciones cualesquiera ti = t
i
menos 1/m. Por lo tanto, tenemos:
Teorema 10.5. MP instanciado para el juego de ubicación de instalaciones
es estrictamente veraz y logra al menos el bienestar social:
OPT − O km(m + 1)k log m
norte
.

Esto ya es muy bueno para un pequeño número de instalaciones k, ya que
esperamos que OPT = Ω(1).
10.3 Diseño de mecanismos para agentes conscientes de la privacidad
En la sección anterior, vimos que la privacidad diferencial puede ser útil como herramienta
para diseñar mecanismos, para agentes que solo se preocupan por el resultado elegido
por el mecanismo. Aquí vimos principalmente la privacidad como una herramienta para
lograr objetivos en el diseño de mecanismos tradicionales. Como efecto secundario,
estos mecanismos también preservaron la privacidad de los tipos de jugadores
informados. ¿Es esto en sí mismo un objetivo digno? ¿ Por qué querríamos que nuestros
mecanismos preservaran la privacidad de los tipos de agentes?
Un poco de reflexión revela que los agentes pueden preocuparse por la privacidad.
De hecho, la introspección básica sugiere que en el mundo real, los agentes
valoran la capacidad de mantener privada cierta información "sensible", por ejemplo,
10.3. Diseño de mecanismos para agentes conscientes de la privacidad 205
información de salud o preferencias sexuales. En esta sección, consideramos la
cuestión de cómo modelar este valor para la privacidad y varios enfoques adoptados
en la literatura.
Dado que los agentes pueden tener preferencias por la privacidad, vale la pena
considerar el diseño de mecanismos que preserven la privacidad como un objetivo
adicional, incluso para tareas como la maximización del bienestar que ya podemos
resolver de manera no privada. Como veremos, de hecho es posible generalizar el
mecanismo de VCG para optimizar de manera privada el bienestar social en cualquier
problema de elección social, con un intercambio suave entre el parámetro de privacidad
y el parámetro de aproximación, todo mientras se garantiza la veracidad exacta de la
estrategia dominante.
Sin embargo, podríamos querer ir más allá. En presencia de agentes con
preferencias por la privacidad, si deseamos diseñar mecanismos veraces, debemos
modelar de alguna manera sus preferencias por la privacidad en su función de utilidad,
y luego diseñar mecanismos que sean veraces con respecto a estas nuevas funciones
de utilidad "conscientes de la privacidad". . Como hemos visto con la privacidad
diferencial, lo más natural es modelar la privacidad como una propiedad del propio
mecanismo. Así, nuestras funciones de utilidad no son simplemente funciones del
resultado, sino funciones del resultado y del mecanismo mismo. En casi todos los
modelos, las utilidades de los agentes para los resultados se tratan como linealmente
separables, es decir, tendremos para cada agente i,
ui(o,M, t) ≡ µi(o) − ci(o,M, t).
Aquí µi(o) representa la utilidad del agente para el resultado o y ci(o,M, t) el costo (de
privacidad) que experimenta el agente i cuando se elige el resultado o con el mecanismo
M.
Primero consideraremos quizás el modelo más simple (y más ingenuo) para la
función de costo de privacidad ci . Recuerde que para 1, la privacidad diferencial
promete que para cada agente i, y para cada posible función de utilidad fi , tipo vector t
T n , y desviación t T :
i
|Eo M(ti,t−i) [fi(o)] − Eo M(t i

,t−i) [fi(o)]| ≤ 2Eo M(t) [fi(o)].
Si consideramos que fi representa la “utilidad futura esperada” para el agente i, por lo
tanto, es natural modelar el costo del agente i por tener sus datos utilizados en un
cálculo diferencialmente privado como lineal en . Eso es,
pensamos en el agente i como parametrizado por algún valor vi R, y tomamos:
ci(o,M, t) = vi ,
donde es el valor más pequeño tal que M es diferencialmente privado.
Aquí imaginamos que vi representa una cantidad como Eo M(t) [fi(o)]. En este
escenario, ci no depende del resultado o ni del tipo de perfil t.
Usando esta ingenua medida de privacidad, discutimos un problema básico
en el análisis de datos privados: cómo recopilar los datos, cuando los propietarios
de los datos valoran su privacidad e insisten en recibir una compensación por ello.
En este entorno, no hay un "resultado" que los agentes valoren, aparte de los
pagos, solo hay desutilidad por la pérdida de privacidad. Luego discutiremos las
deficiencias de esta (y otras) medidas de la desutilidad para la pérdida de
privacidad, así como la privacidad en configuraciones de diseño de mecanismos
más generales cuando los agentes tienen utilidad para el resultado del mecanismo.
10.3.1 Una generalización privada del mecanismo VCG
Supongamos que tenemos un problema general de elección social, definido por
un espacio de resultados O, y un conjunto de agentes N con preferencias arbitrarias
sobre los resultados dados por ui : O → [0, 1]. Podríamos querer elegir un resultado
1 n
o O para maximizar el bienestar social F(o) = ui(o). Es bien
i =s
norte 1abido que en
cualquiera de estos escenarios, el mecanismo de VCG puede implementar lo que
resultado o maximiza exactamente el bienestar social, mientras cobra pagos
que hacen que decir la verdad sea una estrategia dominante. ¿Y si queremos
conseguir el mismo resultado, preservando al mismo tiempo la privacidad? ¿Cómo
debe compensarse el parámetro de privacidad con nuestra aproximación al
bienestar social óptimo?
Recuerde que podríamos usar el mecanismo exponencial para elegir un
resultado o O, con un puntaje de calidad F. Para el parámetro de privacidad,
, esto daría una distribución M definida como Pr[M = o] 2n . Además, este
f(o)
Exp mecanismo tiene buenas propiedades de bienestar social: con probabilidad
1 − β, selecciona algunos o tales que: F(o) ≥ ln |O| F(o ) − β . Pero como vimos,
2 la
privacidad diferencial
norte sólo da una veracidad aproximada.
Sin embargo, se puede demostrar que M es la solución al siguiente problema
de optimización exacta:
2
M = argumento máximo Eo D[F(o)] + H(D) ,
D ∆O norte
donde H representa la Entropía de Shannon de la distribución D. En otras
palabras, el mecanismo exponencial es la distribución que maximiza exactamente
el bienestar social esperado, más la entropía de la distribución ponderada por 2/
(n). Esto es significativo por la siguiente razón: se sabe que cualquier mecanismo
que maximice exactamente las utilidades esperadas del jugador en cualquier
rango finito (conocido como mecanismos de rango distributivo máximo) puede
combinarse con pagos para hacer exactamente la estrategia dominante veraz. El
mecanismo exponencial es la distribución que maximiza exactamente el bienestar
social esperado, más la entropía. En otras palabras, si imaginamos que hemos
agregado un solo jugador adicional cuya utilidad es exactamente la entropía de la
distribución, entonces el mecanismo exponencial es máximo en el rango de
distribución. Por lo tanto, se puede combinar con pagos que hacen que la
información veraz sea una estrategia dominante para todos los jugadores, en
particular, para los n jugadores reales. Además, se puede mostrar cómo cargar
los pagos de tal manera que se preserve la privacidad.
El resultado es que para cualquier problema de elección social, el bienestar social
se puede aproximar de una manera que preserva la privacidad diferencial y es
exactamente veraz.
10.3.2 El problema del topógrafo sensible
En esta sección, consideramos el problema de un analista de datos que desea
realizar un estudio utilizando los datos privados de una colección de individuos.
¡Sin embargo, debe convencer a estas personas de que entreguen sus datos!
Las personas experimentan costos por la pérdida de privacidad. El analista de
datos puede mitigar estos costos garantizando privacidad diferencial y
compensándolos por su pérdida, mientras intenta obtener una muestra representativa de datos.
Considere el siguiente problema estilizado del topógrafo sensible Alice. Tiene
la tarea de realizar una encuesta de un conjunto de n individuos N, para determinar
qué proporción de los individuos i N satisfacen alguna propiedad P(i). Su
objetivo final es descubrir el verdadero valor de este |{i N : P(i)}|, pero si eso no
1
norte
es posible, será estadística, s =
satisfecho con alguna estimación sˆ tal que el error, |sˆ−s|, se minimice.
Adoptaremos una noción de precisión basada en grandes límites de desviación y
diremos que un mecanismo topográfico tiene una precisión α si Pr[|sˆ−s| ≥ α] ≤ 1 3 .
El inconveniente inevitable es que las personas valoran su privacidad y no
participarán en la encuesta de forma gratuita. Los individuos experimentan algún
costo en función de su pérdida de privacidad cuando interactúan con Alice, y deben
ser compensados por esta pérdida. Para empeorar las cosas, estos individuos son
agentes racionales (es decir, egoístas) y tienden a informar erróneamente sus
costos a Alice si al hacerlo resultará en una ganancia financiera. Esto coloca el
problema de Alice directamente en el dominio del diseño de mecanismos y requiere
que Alice desarrolle un esquema para intercambiar precisión estadística con costo,
todo mientras maneja los incentivos de los individuos.
Aparte, este problema estilizado es ampliamente relevante para cualquier
organización que haga uso de colecciones de datos potencialmente confidenciales.
Esto incluye, por ejemplo, el uso de registros de búsqueda para proporcionar la
finalización de consultas de búsqueda y el uso del historial de navegación para
mejorar la clasificación del motor de búsqueda, el uso de datos de redes sociales
para seleccionar anuncios gráficos y recomendar nuevos enlaces, y la miríada de
otros datos. servicios impulsados ahora disponibles en la web. En todos estos
casos, el valor se deriva de las propiedades estadísticas de una recopilación de
datos confidenciales a
cambio de algún pago.4 La recopilación de datos a cambio de un precio fijo
podría conducir a una estimación sesgada de las estadísticas de población, porque
tal esquema dar como resultado la recopilación de datos solo de aquellas personas
que valoran su privacidad menos que el precio que se ofrece. Sin embargo, sin
interactuar con los agentes, no tenemos forma de saber qué precio podemos
ofrecer, por lo que tendremos una participación lo suficientemente amplia como
para garantizar que la respuesta que recopilamos tenga solo un pequeño sesgo.
Para obtener una estimación precisa de la estadística, es natural considerar la
compra de datos privados mediante una subasta, como medio para descubrir este
precio. Hay dos obstáculos obvios que uno debe enfrentar al realizar una subasta
de datos privados y un obstáculo adicional que es menos obvio pero más insidioso.
El primer obstáculo es que se debe tener un conocimiento cuantitativo
4El pago no necesita ser explícito y/o denominado en dólares — por ejemplo,
puede ser el uso de un servicio “gratuito”.
formalización de la “privacidad” que se puede utilizar para medir los costos de los
agentes en diversas operaciones sobre sus datos. Aquí, la privacidad diferencial
proporciona una herramienta obvia. Para valores , pro porque exp() ≈ (1 + ),
pequeños de y así, como se discutió anteriormente, un primer corte simple (pero
posiblemente ingenuo) en un modelo es considerar que cada agente tiene algún
costo lineal por participar en un estudio privado. Aquí imaginamos que cada agente
,
i tiene un valor desconocido
para la privacidad vi y experimenta un costo ci() = vi
cuando sus datos privados se usan de una manera diferencialmente privada.5 El
segundo obstáculo es que nuestro objetivo es compensar con estadísticas precisión,
y este último no es un objetivo bien estudiado en el diseño de mecanismos.
El obstáculo final, más insidioso, es que el costo de la pérdida de privacidad de
un individuo puede estar altamente correlacionado con sus propios datos privados.
Supongamos que solo sabemos que Bob tiene un alto valor por la privacidad de su
estado de SIDA, pero no conocemos explícitamente su estado de SIDA en sí. Esto
ya es revelador porque el estado de SIDA de Bob probablemente se correlacione
con su valor por la privacidad, y saber que tiene un alto costo por la privacidad nos
permite actualizar nuestra creencia sobre cuáles podrían ser sus datos privados.
Más concretamente, supongamos que en el primer paso de una encuesta sobre la
prevalencia del SIDA, le pedimos a cada individuo que informe su valor para la
privacidad, con la intención de realizar una subasta para elegir a qué individuos comprar datos.
Si los agentes informan con veracidad, podemos encontrar que los valores
informados forman naturalmente dos grupos: agentes de bajo valor y agentes de
alto valor. En este caso, es posible que hayamos aprendido algo sobre la estadística
de población incluso antes de recopilar datos o realizar pagos y, por lo tanto, los
agentes ya habrán experimentado un costo. Como resultado, los agentes pueden
informar mal su valor, lo que podría introducir un sesgo en los resultados de la
encuesta. Este fenómeno hace que los mecanismos de revelación directa sean
problemáticos y distingue este problema del diseño de mecanismos clásicos.
Armados con un medio para cuantificar la pérdida de un agente i por permitir
que sus datos sean usados por un algoritmo diferencialmente privado (ci() = vi),
estamos casi listos para describir los resultados para el problema del topógrafo
sensible. Recuerde que un algoritmo diferencialmente privado es algún mapeo M :
T n → O, para un espacio de tipo general T . Queda por definir qué
5Como discutiremos más adelante, esta suposición puede ser problemática.
exactamente el tipo de espacio T es. Consideraremos dos modelos. En ambos
modelos asociaremos a cada individuo un bit bi {0, 1} que representa si
cumplen el predicado sensitivo P(i), así como un valor de privacidad vi R +.
1. En el modelo de valor insensible, calculamos el parámetro del mecanismo
privado dejando que el espacio de tipo sea T = {0, 1}: es decir, medimos el
costo de privacidad solo con respecto a cómo el mecanismo trata el bit
, los valores informados para la privacidad,
sensible bi e ignora cómo trata
vi . 6
2. En el modelo de valor sensible, calculamos el parámetro del mecanismo
privado dejando que el espacio de tipo sea T = ({0, 1}×R +): es decir,
medimos la privacidad con respecto a cómo trata al par (bi , vi) para cada
individuo.
Intuitivamente, el modelo de valor insensible trata a los individuos como si
ignoraran la posible pérdida de privacidad debido a las correlaciones entre sus
valores de privacidad y sus bits privados, mientras que el modelo de valor
sensible trata a los individuos como si asumieran que estas correlaciones son el
peor de los casos, es decir, sus valores vi son solo tan revelador como sus bits
privados bi . Se sabe que en el modelo de valor insensible, se pueden derivar
mecanismos de revelación directa aproximadamente óptimos que logran alta precisión y bajo costo.
Por el contrario, en el modelo de valor sensible, ningún mecanismo de revelación
directa individualmente racional puede lograr una precisión no trivial.
Esto deja un estado de cosas algo insatisfactorio. El modelo de valor sensible
captura los temas delicados que realmente queremos tratar y, sin embargo, ¡ahí
tenemos un resultado de imposibilidad! Evitar este resultado de una manera
satisfactoria (por ejemplo, cambiando el modelo o los poderes del mecanismo)
sigue siendo una pregunta abierta intrigante.
10.3.3 Mejores medidas para el costo de la privacidad
En la sección anterior, tomamos el supuesto de modelado ingenuo de que el
costo experimentado por la participación en un mecanismo diferencialmente
privado M era ci(o,M, t) = vi para algún valor numérico vi . esta medida
6Es decir, la parte del mapeo que trata con los valores informados no necesita ser
es problemático por varias razones. Primero, aunque la privacidad diferencial
promete que la pérdida de utilidad de cualquier agente tiene un límite superior
en una cantidad que es (aproximadamente) , lineal, no hay razón para creer que
los costos de los agentes tienen un límite inferior en dicha cantidad. Es decir,
mientras que tomar ci(o,M, t) ≤ vi está bien motivado, hay poco apoyo para hacer
de la desigualdad una igualdad. En segundo lugar, (resulta) que cualquier medida
de privacidad que sea solo una función determinista (no solo una función lineal)
conduce a predicciones conductuales problemáticas.
Entonces, ¿de qué otra manera podríamos modelar ci? Una medida natural
es la información mutua entre el tipo informado de agente i y el resultado del
mecanismo. Para que esto esté bien definido, debemos estar en un mundo
donde el tipo ti de cada agente se extrae de un anterior conocido, ti T . La
estrategia de cada agente es un mapeo σi : T → T , determinando qué tipo
informa, dado su verdadero tipo. Entonces podríamos definir
ci(o,M, σ) = I(T ;M(t−i , σ(T )),
donde I es la información mutua entre la variable aleatoria T que representa el
tipo del agente anterior y M(t−i , σ(T )), la variable aleatoria que representa el
resultado del mecanismo, dado que el agente es la estrategia.
Esta medida tiene un atractivo significativo, porque representa cuán
“relacionada” está la salida del mecanismo con el verdadero tipo de agente i. Sin
embargo, además de requerir una previa sobre los tipos de agentes, observe
una paradoja interesante que resulta de esta medida de pérdida de privacidad.
Considere un mundo en el que hay dos tipos de pan para sándwich: Centeno
(R) y Trigo (W). Además, en este mundo, las preferencias por los sándwiches
son muy vergonzosas y se mantienen en privado. La prioridad sobre los tipos T
es uniforme sobre R y W, y el mecanismo M simplemente le da al agente i un
emparedado del tipo que pretende preferir. Ahora considere dos posibles
estrategias, σveraz y σaleatoria. σveraz corresponde a informar verazmente las
preferencias de sándwich (y, posteriormente, lleva a comer el tipo de sándwich
preferido), mientras que σaleatorio informa aleatoriamente independientemente
del tipo verdadero (y da como resultado el sándwich preferido solo la mitad de las veces).
El costo de usar la estrategia aleatoria es I(T ;M(t−i , σrandom(T )) = 0, ya que el
resultado es independiente del tipo de agente i. Por otro lado, el costo de
informar verazmente es I(T ;M(t−i , σveraz(T )) = 1, ya que
el resultado del emparedado es ahora la función de identidad en el agente es tipo.
Sin embargo, desde la perspectiva de cualquier observador externo, ¡las dos
estrategias son indistinguibles! En ambos casos, el agente i recibe un sándwich
uniformemente aleatorio. Entonces, ¿por qué alguien debería elegir la estrategia
aleatoria? Mientras un adversario crea que está eligiendo al azar, debe elegir la
estrategia honesta.
Otro enfoque, que no necesita información previa sobre los tipos de agentes, es
el siguiente. Podemos modelar agentes con una función de costo ci que satisfaga:
Pr[M(ti , t−i) = o] |
ci(o,M, t)| = ln máx .
ti,t i T Pr[M(t yo , t−i) = o]
Nótese que si M es diferencialmente privado, entonces
Pr[M(ti , t−i) = o]
máx máx t T máximo ln ≤ .
n o O ti,t i T Pr[M(t yo , t−i) = o]
Es decir, podemos ver la privacidad diferencial como un límite de la pérdida de
privacidad en el peor de los casos sobre todos los resultados posibles, mientras que
la medida propuesta aquí considera solo la pérdida de privacidad para el resultado
o (y el vector de tipo t) realmente realizado. Así, para cualquier mecanismo
diferencialmente privado M, |ci(o,M, t)| ≤ para todo o, t, pero será importante que el
costo puede variar según el resultado.
Entonces podemos considerar la siguiente regla de asignación para maximizar
el bienestar social F(o) = Discutimos el c7aso cuando |O| = 2 (que no requiere pagos),
yo=1 u(o).
norte
pero es posible analizar el caso general (con pagos), que implementa de forma
privada el mecanismo VCG para cualquier problema de elección social.
1. Para cada resultado o O, elija un número aleatorio ro de la
distribución Pr[ro = x] exp(−|x|).
2. Salida o = arg maxo O(F(o) + ro).
El mecanismo anterior es diferencialmente privado, y es veraz para los agentes
conscientes de la privacidad, siempre que para cada agente i, y para los dos
resultados o, o O, |µi(o) − µi(o )| > 2. Tenga en cuenta que esto será cierto
7Esta regla de asignación es extremadamente similar y, de hecho, puede modificarse para ser
idéntico al mecanismo exponencial.
para lo suficientemente pequeño siempre que las utilidades de los agentes para los resultados sean distintas.
El análisis procede considerando una realización fija arbitraria de las variables
aleatorias ro y una desviación arbitraria t del informe veraz para ei l iésimo agente.
Hay dos casos: En el primer caso, la desviación no cambia el resultado del
mecanismo. En este caso, ni la utilidad del agente para el resultado µi , ni su costo
por la pérdida de privacidad ci cambian en absoluto, por lo que el agente no se
beneficia de desviarse. En el segundo caso, si el resultado cambia de o a o
cuando el agente i se desvía, debe ser que µi(o ) < µi(o) − 2. Por privacidad
diferencial, sin embargo, |ci(o,M, t) − ci(o ,M, t)| ≤ 2, por lo que el cambio en el
costo de la privacidad no puede ser suficiente para que sea beneficioso.
Finalmente, el enfoque más conservador para modelar los costos de la
privacidad generalmente considerado es el siguiente. Dado un mecanismo M
diferencialmente privado, supóngase sólo que
ci(o,M, t) ≤ vi ,
para algún número vi . Esto es similar a las funciones de costos lineales que
consideramos anteriormente, pero crucialmente, aquí asumimos solo un límite superior.
Esta suposición se cumple con todos los otros modelos de costos de privacidad
que hemos considerado hasta ahora. Se puede demostrar que muchos
mecanismos que combinan un algoritmo diferencialmente privado con un
mecanismo de castigo que tiene la capacidad de restringir las elecciones del
usuario, como los que consideramos en la Sección 10.2.3, mantienen sus
propiedades de veracidad en presencia de agentes con preferencias por
privacidad, siempre que los valores vi estén acotados.
Esta sección se basa en una encuesta de Pai y Roth [70] y una encuesta de Roth
[73]. Las conexiones entre la privacidad diferencial y el diseño de mecanismos
fueron sugeridas por primera vez por Jason Hartline e investigadas por McSherry
y Talwar en su trabajo seminal, "Mechanism Design via Differential Privacy" [61],
donde consideraron la aplicación de la privacidad diferencial para diseñar
información digital aproximadamente veraz. subastas de bienes. El mejor resultado
para mecanismos exactamente veraces en el entorno de bienes digitales se debe
a Balcan et al. [2].
El problema de diseñar mecanismos exactamente veraces utilizando la privacidad
diferencial como herramienta fue explorado por primera vez por Nissim, Smorodinsky
y Tennenholtz en [69], quienes también plantearon por primera vez una crítica al uso
de la privacidad diferencial (en sí misma) como concepto de solución. El ejemplo de
esta sección del uso de la privacidad diferencial para obtener mecanismos exactamente
veraces está tomado directamente de [69]. El problema de los topógrafos sensibles
fue considerado por primera vez por Ghosh y Roth [36] y ampliado por [56, 34, 75, 16].
Fleischer y Lyu [34] consideran el escenario bayesiano discutido en esta sección, y
Ligett y Roth [56] consideran el escenario del peor de los casos con ofertas de tómalo
o déjalo, ambos en un intento de sortear la imposibilidad resultado de [36]. Ghosh y
Ligett consideran un modelo relacionado en el que las decisiones de participación (y
las garantías de privacidad) se determinan solo en equilibrio [35].
La cuestión de realizar el diseño del mecanismo en presencia de agentes que
valoran explícitamente la privacidad como parte de su función de utilidad fue planteada
por primera vez por el influyente trabajo de Xiao [85], quien consideró (entre otras
medidas para el costo de la privacidad) la función de costo de información mutua.
Después de esto, Chen et al. [15] y Nissim et al. [67] mostró cómo en dos modelos
distintos, a veces se pueden diseñar mecanismos veraces incluso para agentes que
valoran la privacidad. Chen Chong, Kash, Moran y Vadhan consideraron la función de
costo basada en resultados que discutimos en esta sección, y Nissim, Orlandi y
Smorodinsky consideraron el modelo conservador de solo acotar por arriba el costo
de cada agente mediante una función lineal en > El “sándwich” paradoja” de valorar la
privacidad según la información mutua se debe a Nissim, Orlandi y Smorodinsky.
Huang y Kannan demostraron que el mecanismo exponencial podía hacerse
exactamente veraz con la adición de pagos [49]. Kearns Pai, Roth y Ullman
demostraron cómo se puede utilizar la privacidad diferencial para derivar mecanismos
de selección de equilibrio asintóticamente veraces [54] mediante el cálculo privado de
equilibrios correlacionados en grandes juegos. Estos resultados fueron reforzados por
Rogers y Roth [71], quienes mostraron cómo calcular de forma privada los equilibrios
de Nash aproximados en juegos de gran congestión, lo que conduce a propiedades
de incentivo más fuertes del mecanismo. Ambos documentos utilizan el concepto de
solución de "Privacidad diferencial conjunta",
lo que requiere que para cada jugador i, la distribución conjunta de los
mensajes enviados a otros jugadores j = i sea diferencialmente privada en su
informe. Este concepto de solución también ha demostrado ser útil en otros
entornos de diseño de mecanismos privados, incluido un algoritmo para
calcular coincidencias privadas de Hsu et al. [47].
11
Privacidad diferencial y aprendizaje automático
Una de las tareas más útiles en el análisis de datos es el aprendizaje automático:
el problema de encontrar automáticamente una regla simple para predecir con
precisión ciertas características desconocidas de datos nunca antes vistos. Muchas
tareas de aprendizaje automático se pueden realizar bajo la restricción de la
privacidad diferencial. De hecho, la restricción de la privacidad no está
necesariamente reñida con los objetivos del aprendizaje automático, ya que
ambos tienen como objetivo extraer información de la distribución de la que se
extrajeron los datos, en lugar de puntos de datos individuales. En esta sección,
examinamos algunos de los resultados más básicos sobre el aprendizaje
automático privado, sin intentar cubrir este amplio campo por completo.
El objetivo del aprendizaje automático suele ser similar al objetivo del análisis
de datos privados. El alumno generalmente desea aprender alguna regla simple
que explique un conjunto de datos. Sin embargo, ella desea que esta regla se
generalice, es decir, debería ser que la regla que aprende no solo describa
correctamente los datos que tiene a mano, sino que también debería poder
describir correctamente los nuevos datos que se extraen de la misma distribución.
En general, esto significa que quiere aprender una regla que capture la información
de distribución sobre el conjunto de datos disponible, de una manera que no
dependa demasiado específicamente de ningún punto de datos único. De
216
217
Por supuesto, este es exactamente el objetivo del análisis de datos privados:
revelar información distributiva sobre el conjunto de datos privados, sin revelar
demasiado sobre ningún individuo en el conjunto de datos. No debería sorprender
entonces que el aprendizaje automático y el análisis de datos privados estén
estrechamente relacionados. De hecho, como veremos, a menudo podemos realizar
el aprendizaje automático privado con casi la misma precisión, con casi la misma
cantidad de ejemplos que podemos realizar con el aprendizaje automático no privado.
Primero definamos brevemente el problema del aprendizaje automático. Aquí,
seguiremos el modelo de aprendizaje automático PAC (o probablemente
aproximadamente correcto) de Valiant . Sea Xd = {0, 1} el dominio de "ejemplos sin
etiquetar". Piense en cada x X como un vector que contiene d atributos booleanos.
Pensaremos en los vectores x X como emparejados con etiquetas y {0, 1}.
Definición 11.1. Un ejemplo etiquetado es un par (x, y) X ×{0, 1}: un vector
emparejado con una etiqueta.
Un problema de aprendizaje se define como una distribución D sobre ejemplos
etiquetados. El objetivo será encontrar una función f : X → {0, 1} que etiquete
correctamente casi todos los ejemplos extraídos de la distribución.
Definición 11.2. Dada una función f : X → {0, 1} y una distribución D sobre ejemplos
etiquetados, la tasa de error de f en D es:
errar(f, D) = Pr [f(x) = y] (x,y) D
También podemos definir la tasa de error de f sobre una muestra finita D:
1
errar(f, D) = |{(x, y) D : f(x) = y}|.
|D|
Un algoritmo de aprendizaje puede observar cierto número de ejemplos
etiquetados tomados de D, y tiene el objetivo de encontrar una función f con una
tasa de error tan pequeña como sea posible cuando se mide en D. Dos parámetros
para medir la calidad de un algoritmo de aprendizaje son su el tiempo de ejecución
y la cantidad de ejemplos que necesita ver para encontrar una buena hipótesis.
Definición 11.3. Se dice que un algoritmo A aprende PAC una clase de funciones
C sobre d dimensiones si para cada α, β > 0, existe un
218 Privacidad diferencial y aprendizaje automático
m = poly(d, 1/α, log(1/β)) tal que para cada distribución D sobre ejemplos etiquetados,
A toma como entrada m ejemplos etiquetados extraídos de D y genera una hipótesis f
C tal que con probabilidad 1 − β:
err(f, D) ≤ min error(f , D) + α

f C
Si minf C err(f , D) = 0, se dice que el alumno opera en el entorno realizable

(es decir, existe alguna función en la clase que etiqueta perfectamente los datos). De lo
contrario, se dice que el alumno opera en el entorno agnóstico . Si A también tiene un
tiempo de ejecución polinomial en d, 1/α y log(1/β), se dice que el alumno es eficiente.
Si hay un algoritmo que PAC aprende C, entonces se dice que C es aprendible por PAC.
La definición anterior de aprendizaje permite que el alumno tenga acceso directo a
ejemplos etiquetados. A veces también es útil considerar modelos de aprendizaje en
los que el algoritmo solo tiene acceso de Oracle a cierta información ruidosa sobre D.
Definición 11.4. Una consulta estadística es alguna función φ : X × {0, 1} → [0, 1]. Un
oráculo de consulta estadística para una distribución sobre ejemplos etiquetados D
con tolerancia τ es un oráculo Oτ tal que para cada
D consulta estadística φ:
O τ D(φ) − E(x,y) D[φ(x, y)] ≤ τ
En otras palabras, un oráculo SQ toma como entrada una consulta estadística φ y
genera un valor que se garantiza que está dentro de ± τ del valor esperado de φ en
ejemplos extraídos de D.
El modelo de consulta estadística de aprendizaje se introdujo para modelar el
problema del aprendizaje en presencia de ruido.
Definición 11.5. Se dice que un algoritmo A aprende SQ una clase de funciones C
sobre d dimensiones si para cada α, β > 0 existe un m = poly(d, 1/α, log(1/β)) tal que A
hace como máximo m consultas de tolerancia τ = 1/m a Oτ f C tales que:
D, y con probabilidad 1−β, genera una hipótesis
err(f, D) ≤ min err(f f C , D) + α
11.1 Ejemplo de complejidad del aprendizaje automático diferencialmente privado 219
Tenga en cuenta que un algoritmo de aprendizaje SQ no obtiene ningún acceso
a D excepto a través del oráculo SQ. Al igual que con el aprendizaje PAC, podemos
hablar sobre un algoritmo de aprendizaje SQ que opera en el entorno realizable o
agnóstico, y hablar sobre la eficiencia computacional del algoritmo de aprendizaje.
Decimos que una clase C es aprendible SQ si existe un algoritmo de aprendizaje SQ
para C.
11.1 La complejidad muestral de diferencialmente privado
aprendizaje automático
Quizás la primera pregunta que uno podría hacerse, con respecto a la relación entre
la privacidad y el aprendizaje, es "¿Cuándo es posible realizar de forma privada el
aprendizaje automático"? En otras palabras, puede solicitar un algoritmo de
aprendizaje de PAC que tome como entrada un conjunto de datos (implícitamente se
supone que se muestrea de alguna distribución D), y luego generar de forma privada
una hipótesis f que con alta probabilidad tiene un error bajo sobre la distribución . Una
pregunta más matizada podría ser: "¿Cuántas muestras adicionales se requieren para
aprender en privado, en comparación con la cantidad de muestras que ya se requieren
para aprender sin la restricción de la privacidad diferencial?" Del mismo modo,
"¿Cuánto tiempo de ejecución adicional se necesita para aprender de forma privada,
en comparación con el tiempo de ejecución necesario para aprender de forma no
privada?" Aquí esbozaremos brevemente los resultados conocidos para la privacidad
diferencial (ε, 0). En general, mejores resultados para (ε, δ)privacidad diferencial se
obtendrán del uso del teorema de composición avanzado.
Un resultado teórico de la información fundamental en el aprendizaje automático
privado es que el aprendizaje PAC privado es posible con un número polinomial de
muestras si y solo si el aprendizaje PAC no privado es posible con un número
polinomial de muestras, incluso en el entorno agnóstico. De hecho, el aumento
necesario en la complejidad de la muestra es relativamente pequeño; sin embargo,
este resultado no preserva la eficiencia computacional. Una forma de hacerlo es
directamente a través del mecanismo exponencial. Podemos instanciar el mecanismo
exponencial con un rango R = C, igual a la clase de consultas a aprender. Dada una
base de datos D, podemos usar el puntaje de calidad q(f, D) = − |{(x, y) D : f(x) =
1
y}|: es decir, buscamos
minimizar el |D| fracción de ejemplos mal clasificados en el
conjunto de datos privado. esto es claramente
una función sensible 1/n de los datos privados, por lo que tenemos a través de nuestro
teorema de utilidad para el mecanismo exponencial que con probabilidad 1−β, este
mecanismo devuelve una función f C que etiqueta correctamente un 2(log |C|+log
1 β)
OPT n fracción de los puntos en la base de datos correctamente.
Recuerde, sin embargo, que en el entorno de aprendizaje, consideramos que la base
de datos D consta de n iid extraídos de alguna distribución sobre ejemplos etiquetados
D. Recuerde la discusión de los límites de muestreo en el Lema 4.3.
Un límite de Chernoff combinado con un límite de unión nos dice que, con alta
probabilidad, si D consta de n iid muestras extraídas de D, entonces para todo log |C| f
C:
|error(f, D) − error(f, D)| ≤ O( ). Por lo tanto, si deseamos encontrar una hipótesis que
norte
tenga un error dentro de α del error óptimo en la distribución D, basta con dibujar una
base de datos D que consta de n ≥ log |C|/α2 muestras, y aprender el mejor clasificador
f en D.
Ahora considere el problema del aprendizaje privado de PAC, usando el mecanismo
exponencial como se describió anteriormente. Recuerde que, por el teorema 3.11, es
muy poco probable que el mecanismo exponencial devuelva una función f con una
puntuación de utilidad inferior a la de en más de un factor aditivo de O((∆u/ε) log |C|) ,
es 1/n. Es donde f óptimo en este caso ∆u, la sensibilidad de la función de utilidad,
decir, con alta probabilidad el mecanismo exponencial devolverá una función f C tal
que:
(registro |C|)
err(f, D) ≤ min error(f , D) + O
f C n
registro |C| (registro |C|)
≤ min f errar(f , D) + O + O .
C norte n

Por lo tanto, si deseamos encontrar una hipótesis que tenga un error dentro de α del
error óptimo en la distribución D, basta con dibujar una base de datos D compuesta por:
registro |C| registro |
n ≥ O máx. , ,
εα C| α2
que no es asintóticamente más que el tamaño de la base de datos que se requiere para
el aprendizaje no privado, siempre que ε ≥ α.
11.1. Ejemplo de complejidad del aprendizaje automático diferencialmente privado 221
Un corolario de este cálculo simple1 es que (ignorando la eficiencia
computacional), una clase de funciones C es aprendible por PAC si y solo si es
aprendible por PAC en privado.
¿Podemos decir algo más fuerte sobre una clase de concepto C que se puede
aprender SQ? Observe que si C es eficientemente aprendible SQ, entonces el
algoritmo de aprendizaje para C solo necesita acceder a los datos a través de un
oráculo SQ, que es muy susceptible a la privacidad diferencial: tenga en cuenta que
un oráculo SQ responde a una consulta de expectativa definida sobre un predicado
φ(x , y) [0, 1], E(x,y) D[φ(x, y)], que es sensible solo 1/n cuando se estima en una
base de datos D que es una muestra de tamaño n de D. Además, el algoritmo de
aprendizaje no necesita recibir la respuesta exactamente, pero se puede ejecutar con
cualquier respuesta a que tenga la propiedad de que: |E(x,y) D[φ(x, y)]−a| ≤ τ : es
decir, el algoritmo se puede ejecutar utilizando respuestas ruidosas en consultas de
baja sensibilidad. El beneficio de esto es que podemos responder tales consultas de
manera computacionalmente eficiente, utilizando el mecanismo de Laplace, pero a
expensas de requerir un tamaño de muestra potencialmente grande. Recuerde que el
mecanismo de Laplace puede responder m 1/n consultas sensibles con diferencial (ε, 0)
privacidad y con el error esperado en el peor de los casos α = registro
n
m _
). Por lo tanto,
O( se puede ejecutar un algoritmo de aprendizaje SQ que requiere las respuestas a m
consultas con precisión α con un tamaño de muestra de n = O(max(m )).
registro m
εα ,
logaritmo
m α2
Comparemos esto con el tamaño de muestra requerido para un estudiante de SQ no
privado. Si el estudiante de SQ necesita hacer m consultas a la tolerancia α, entonces
por un límite de Chernoff y un límite de unión, un tamaño de muestra de O(log m/α2 )
es suficiente. Tenga en cuenta que para ε = O(1) y error α = O(1), el algoritmo no
privado requiere potencialmente exponencialmente menos muestras. Sin embargo,
con la tolerancia de error α ≤ 1/m permitida en la definición de aprendizaje SQ, la
complejidad de la muestra para el aprendizaje SQ privado no es peor que la
complejidad de la muestra para el aprendizaje SQ no privado, para = Θ(1).
El resultado es que, en teoría, la privacidad de la información plantea muy pocos
obstáculos para el aprendizaje automático. Además, para cualquier algoritmo que
acceda a los datos solo a través de un oráculo SQ,2 entonces la reducción a
1Junto con los límites inferiores correspondientes que muestran que para C general, no es posible aprender PAC de
forma no privada utilizando una muestra con puntos o(log |C|/α2 ).
2Y, de hecho, casi todas las clases (con la única excepción de las funciones de paridad) de
Las funciones que se sabe que se pueden aprender con PAC también se pueden aprender usando solo un oráculo SQ.
¡el aprendizaje privado es inmediato a través del mecanismo de Laplace y preserva
la eficiencia computacional!
11.2 Aprendizaje en línea diferencialmente privado
En esta sección, consideramos un problema de aprendizaje ligeramente diferente,
conocido como el problema de aprender del consejo de expertos. Este problema
parecerá algo diferente de los problemas de clasificación que discutimos en la
sección anterior, pero de hecho, el algoritmo simple presentado aquí es
extremadamente versátil y puede usarse para realizar la clasificación entre muchas
otras tareas que no discutiremos aquí.
¡Imagina que estás apostando en carreras de caballos, pero desafortunadamente
no sabes nada sobre caballos! No obstante, tienes acceso a las opiniones de
algunos k expertos, que cada día hacen una predicción sobre qué caballo va a
ganar. Cada día puedes elegir uno de los expertos cuyo consejo seguirás, y cada
día, siguiendo tu apuesta, sabrás qué caballo ganó realmente. ¿Cómo debe decidir
a qué experto seguir cada día y cómo debe evaluar su desempeño? Los expertos
no son perfectos (¡de hecho, es posible que ni siquiera sean buenos!), por lo que
no es razonable esperar que hagas la apuesta correcta todo el tiempo, o incluso la
mayor parte del tiempo si ninguno de los expertos lo hace. . Sin embargo, es posible
que tenga un objetivo más débil: ¿puede apostar a los caballos de tal manera que
lo haga casi tan bien como el mejor experto, en retrospectiva?
Formalmente, un algoritmo de aprendizaje en línea A opera en el siguiente
entorno:
1. Cada día t = 1, . . . , T:
(a) A elige un experto en {1, . . . , k} (b) A
observa una pérdida y yo [0, 1] para cada experto i {1, . . . , k}
t
experimenta una pérdida en .
T
Para una secuencia de pérdidas ≤T ≡ { t} t=1, nosotros escribimos:
T
≤T 1 ti
li( ) =
Tt =1
11.2. Aprendizaje en línea diferencialmente privado 223
para denotar la pérdida promedio total del experto i en todas las rondas T , y escribir
1 T
≤T ) = t
LA( en
Tt =1
para denotar la pérdida media total del algoritmo.
El arrepentimiento del algoritmo se define como la diferencia entre la pérdida en la
que realmente incurrió y la pérdida del mejor experto en retrospectiva:
arrepentimiento(A,
≤T ) = LA( ≤T ) − min ≤T ).
li(
i
El objetivo en el aprendizaje en línea es diseñar algoritmos que tengan la garantía de
≤T ,incluso elegidas adversariamente,
que para todas las posibles secuencias de pérdida,
se garantiza que el arrepentimiento tenderá a cero cuando T → ∞. De hecho, esto es
posible usando el algoritmo de pesos multiplicativos (conocido también por muchos
nombres, por ejemplo, el Algoritmo de Mayoría Ponderada Aleatoria, Cobertura,
Descenso de Gradiente Exponenciado, y los pesos multiplicativos se encuentran entre
los más populares).
Observación 11.1. Ya hemos visto este algoritmo antes en la Sección 4: ¡esta es solo la
regla de actualización de pesos multiplicativos en otra forma!
De hecho, habría sido posible derivar todos los resultados sobre el mecanismo privado
de pesos multiplicativos directamente del límite de arrepentimiento que establecemos
en el Teorema 11.1.
Algoritmo 15 El algoritmo de Pesos multiplicativos (o Mayoría ponderada aleatoria
(RWM)), versión 1. Toma como entrada un flujo de pérdidas , . . . y genera un flujo de
acciones 1 ,a1, 2a2, . . .. Se parametriza mediante un parámetro de actualización η.
RWM(η):
Para cada i {1, . . . , k}, sea wi ← 1. para
t = 1, . . . do Elija la
acción en = i con probabilidad proporcional a wi y establezca wi ← wi ∙
Observar t
exp(−ηt ), para cada i [k] i
fin para
Resulta que este simple algoritmo ya tiene un notable límite de arrepentimiento.
Teorema 11.1. Para cualquier secuencia adversariamente elegida de pérdidas de
longitud T, ≤T = ( ), el 1a, . . . ,
lgoritmo T
de Mayoría ponderada aleatoria con parámetro
de actualización η tiene la garantía de que:
E[Arrepentimiento(RWM(η), ≤T ln(k) )] ≤ , (11.1)

η + ηT
en k
donde k es el número de expertos. Elegir η = T
da:
en k
E[Arrepentimiento(RWM(η), ≤T )] ≤ 2 .
T
Este notable teorema establece que incluso frente a un adversario
En una secuencia inicial de pérdidas, el algoritmo de Mayoría ponderada aleatoria
puede funcionar, en promedio, como el mejor experto entre k en retrospectiva,
menos solo un término aditivo adicional que tiende a cero a una tasa de O( ). En
en k en
otras pTalabras, después de un máximo de T ≤ 4 rondas, k
sαe
2
garantiza que el
arrepentimiento del algoritmo de mayoría aleatoria ponderada será como máximo
α. Además, este límite es el mejor posible.
¿Podemos lograr algo similar, pero bajo la restricción de la privacidad
diferencial? Antes de que podamos hacer esta pregunta, debemos decidir qué es
la base de datos de entrada y con qué granularidad nos gustaría proteger la
privacidad. Dado que la entrada es la colección de vectores de pérdida T como la
≤T 1 , . . . , base dne
), es datos,
atural y c≤omo
ver T = (u ver
no quue
n difiere en toda la pérdida
vector ̂≤T de una base de datos
vecina
ˆ en cualquier paso de tiempo único: es decir, uno ˆ en el que para algún
i = i t y
paso de tiempo fijo para todo i = t, pero en tel que puede diferir
arbitrariamente. t, La salida del algoritmo es la secuencia de acciones que elige,
aT de , y es esto lo que deseamos que salga de manera diferencial a1, . . . ,
manera privada.
Nuestra primera observación es que el algoritmo de mayoría aleatoria
ponderada elige una acción en cada día t de una manera familiar. Aquí
reformulamos el algoritmo de una manera equivalente:
Elige una acción en con probabilidad proporcional a: exp(−η ), que es
t−1
simplemente
j=1
el mJiecanismo exponencial con puntuación de calidad q(i, porque
<T t−1
cada ) = y parámetro
j=1 ji , de privacidad ε = 2η. Tenga en cuenta que [0,
yo
1], la función de calidad tiene sensibilidad 1. Por lo tanto,
11.2. Aprendizaje en línea diferencialmente privado 225
Algoritmo 16 El algoritmo de Pesos multiplicativos (o Mayoría ponderada aleatoria
(RWM)), reformulado. Toma como entrada un flujo de , . . . y genera un flujo de acciones
pérdidas
1
, 2
a1, a2, . . .. Se parametriza mediante un parámetro de actualización η.
RWM(η):
para t = 1, . . . hacer
Elija la acción en = i con probabilidad proporcional a t−1 exp(−η ) j=1 t
Ji
Observar
fin para
cada ronda t, el algoritmo de mayoría aleatoria ponderada elige una acción en de una
manera que preserva la privacidad diferencial 2η , por lo que para lograr la privacidad ε
es suficiente establecer η = ε/2.
Además, en el transcurso de la ejecución del algoritmo, elegirá una acción T veces.
Si queremos que toda la ejecución del algoritmo sea (ε, δ) diferencialmente privado para
algunos ε y δ, podemos simplemente aplicar nuestros teoremas de composición.
Recuerde que por el Teorema 3.20, dado que hay T pasos en total, si cada paso del
algoritmo es (ε , 0) diferencialmente privado para ε = ε/ 8T ln(1/δ), entonces todo el
algoritmo será (ε , δ) diferencialmente privado. Así, el siguiente teorema es inmediato al
hacer η = ε /2:
Teorema 11.2. Para una secuencia de pérdidas de longitud T, el algoritmo RWM(η) con
ε
η = es (ε, δ)diferencialmente privado. √ 32T ln(1/δ)
Sorprendentemente, obtenemos este teorema sin modificar en absoluto el algoritmo
original de mayoría aleatoria ponderada, sino simplemente ajustando η de manera
adecuada. En cierto sentido, ¡obtenemos privacidad gratis!
Por lo tanto, podemos usar el Teorema 11.1, el teorema de la utilidad para el algoritmo
RWM, sin modificaciones también:
Teorema 11.3. Para cualquier secuencia de pérdidas de longitud T elegida por el
1 T
, . . . ,
adversario, ≤T = ( ) la Mayoría ponderada aleatoria
ε
algoritmo con parámetro de actualización η = √ tiene la garantia
32T ln(1/δ)
eso:
ε 32 ln(1/δ) ln k ε
≤T +
E[Arrepentimiento(RWM(η), )] ≤
32T ln(1/δ) √ T
128 ln(1/δ) ln k ε
≤ ,
√ T
donde k es el número de expertos.
Dado que la pérdida por ronda en cada paso de tiempo t es una variable aleatoria
elegida de forma independiente (sobre las opciones de at) con valores acotados en
[−1, 1], también podemos aplicar un límite de Chernoff para obtener una garantía de
alta probabilidad:
Teorema 11.4. Para cualquier secuencia adversariamente elegida de pérdidas de
1
, . . . , dTe Mayoría ponderada aleatoria con parámetro de
longitud T, ≤T = ( ) el algoritmo
ε
actualización η = produce una secuencia de √ 32T ln(1/δ) acciones tales que con una
probabilidad
de al menos 1 − β:
128 ln(1/δ) ln k + en k/β
Arrepentimiento(RWM(η), ≤T ) ≤ ε √
T T
ln(1/δ) ln(k/β) ε √
= O .
T
Este límite es casi tan bueno como el mejor límite posible alcanzable incluso sin
privacidad (es decir, el límite RWM): el límite de arrepentimiento es √ ln (k) ln(1/δ)
mayor solo
por un factor de Ω( ). (Notamos que al usar εun algoritmo diferente con un análisis más
cuidadoso, podemos eliminar este factor extra de √ ln k). Dado que, de hecho, estamos
utilizando el mismo algoritmo, la eficiencia, por supuesto, también se conserva. Aquí
tenemos un poderoso ejemplo de aprendizaje automático donde la privacidad es casi
"gratis". En particular, al igual que con el algoritmo no privado, nuestro límite de utilidad
solo mejora cuanto más tiempo ejecutamos el algoritmo, mientras mantenemos la
misma garantía de privacidad.3
3Por supuesto, tenemos que configurar el parámetro de actualización de manera adecuada, al
igual que tenemos que hacer con el algoritmo no privado. Esto es fácil cuando el número de rondas
T se conoce de antemano, pero también se puede hacer de forma adaptativa cuando el número de
rondas no se conoce de antemano.
11.3. Minimización empírica del riesgo 227
11.3 Minimización empírica del riesgo
En esta sección, aplicamos el algoritmo de mayoría aleatoria ponderada analizado en la
sección anterior a un caso especial del problema de minimización empírica del riesgo para
aprender una función lineal. En lugar de asumir un modelo contradictorio, supondremos que
los ejemplos se extraen de alguna distribución conocida, y deseamos aprender un clasificador
a partir de un número finito de muestras de esta distribución para que nuestra pérdida sea
baja en nuevas muestras extraídas de la misma distribución. .
Supongamos que tenemos una distribución D sobre los ejemplos x [−1, 1]d , y para
cada vector x [−1, 1]d , y para cada vector θ [0, 1]d con θ1 = 1 , definimos la pérdida
de θ en el ejemplo x como Loss(θ, x) = θ, x.
Deseamos encontrar un vector θ para minimizar la pérdida esperada sobre los ejemplos
sacado de D:
θ = Ex D[θ, x]. min
argumento θ [0,1]d:θ1=1
Este problema se puede utilizar para modelar la tarea de encontrar un clasificador lineal de
bajo error. Por lo general, nuestro único acceso a la distribución D es a través de una
colección de ejemplos S [−1, 1]d extraídos iid de D, que sirve como entrada para nuestro
algoritmo de aprendizaje. Aquí pensaremos en esta muestra S como nuestra base de datos
privada, y nos interesará saber qué tan bien es una función de |S| (Podemos aproximar en
la complejidad del algoritmo de aprendizaje). privado el error de θ muestra
Nuestro enfoque será reducir el problema al de aprender con el asesoramiento de
expertos y aplicar la versión privada del algoritmo de mayoría aleatoria ponderada como se
discutió en la última sección:
1. Los expertos serán los d vectores base estándar {e1, . . . , ed}, donde ei = (0, . . . , 0,
1 , 0, . . . , 0).
i
2. Dado un ejemplo x [−1, 1]d , [−1, 1]d al definimos un vector de pérdida (x) x

establecer (x)i = ei palabras, , para cada i {1, . . . , d}. En otra
simplemente establecemos (x)i = xi .
t
3. En el tiempo t, elegimos una función de pérdida muestreando x D y
t
configuración= (x).
Tenga en cuenta que si tenemos una muestra S de D de tamaño |S| = T, entonces
podemos ejecutar el algoritmo RWM en la secuencia de pérdidas como se describe
arriba para un total de T rondas. Esto producirá una secuencia de salidas a1, . . . , ,
1 T
aT T y definiremos nuestro clasificador final como θ i=1 ai . ≡ T
(Recuerde
que cada ai
es un vector base estándar ai {e1, . . . , ed}, por lo que = 1). tienen θ Resumimos
T
algoritmo 1 el
a continuación:
Algoritmo 17 Un algoritmo para aprender funciones lineales. Toma como entrada
una base de datos privada de ejemplos S [−1, 1]d , S = (x1, . . . , xT ), y parámetros
de privacidad ε y δ.
Aprendiz lineal (S, ε, δ):
ε
Sea η ←
√ 32T ln(1/
δ) para t = 1 a T = |S| hacer
Elija el vector en = ei con probabilidad proporcional a exp(−η )
t−1 j
j=1 yo
t
Dejar vector de pérdida = (e1, xt,e2, xt, . . . ,ed, xt).
fin para
T 1 T
Salida θ = T t=1 en .
Ya hemos visto que LinearLearner es privado, ya que es simplemente una
instanciación del algoritmo de mayoría ponderada aleatoria con el parámetro de
actualización correcto η:
Teorema 11.5. LinearLearner(S, ε, δ) es (ε, δ) diferencialmente privado.
Queda por analizar la precisión de clasificación de LinearLearner, que equivale
a considerar el límite de arrepentimiento del algoritmo RWM privado.
Teorema 11.6. Si S consta de T iid muestras x D, entonces con una probabilidad
de al menos 1−β, LinearLearner genera un vector θ T tal que:
T ln(1/δ) ln(d/β) ε √
Ex D[θ , x] ≤ min θ Ex D[θ , x] + O ,
T
donde d es el número de expertos.
11.3. Minimización empírica del riesgo 229
Prueba. Por el Teorema 11.4, tenemos la siguiente garantía con
probabilidad de al menos 1 − β/2:
T T
1 1 ln(1/δ) ln(d/β) ε
en , xt ≤ min ei , xt + O
Tt =1 i {1,...,d} Tt =1 √ T
T
1 ln(1/δ) ln(d/β) ε
= minθ θ , xt + O .
[0,1]d:θ 1=1 Tt =1 √ T
En la primera igualdad, usamos el hecho de que el mínimo de una función
lineal sobre el símplex se logra en un vértice del símplex. Observando que
cada xt D independientemente y que cada xt , ei está acotado en [−1, 1],
podemos aplicar la desigualdad de Azuma dos veces para acotar las dos
cantidades con probabilidad de al menos 1 − β/2:
T T
1 1
en , xt − Ex Dat ,X
Tt =1 Tt =1
T
1 ln(1/β)
, x ≤ O
= en , Txt − Ex Dθ _
T T
t=1
T
1 ln(d/β)
i
máximo
{1,...,d}
ei ,
T xt − Ex Dei , x ≤ O T
t=1 .
Por lo tanto también tenemos:
T
1 en d/β
máximo θ , xt − Ex Dθ , x ≤ O T
θ [0,1]d: θ 1=1 Tt =1 .
La combinación de estas desigualdades nos da nuestro resultado final sobre la salida
t :
del algoritmo θ
T ln(1/δ) ln(d/β) ε .
Ex Dθ , x ≤ min θ Ex Dθ , x + o
[0,1]d:θ 1=1 √ T
El modelo PAC de aprendizaje automático fue introducido por Valiant en 1984 [83], y
el modelo SQ fue introducido por Kearns [53]. El algoritmo de mayoría aleatoria
ponderada se debe originalmente a Littlestone y War muth [57], y se ha estudiado
de muchas formas. Véase Blum y Mansour [9] o Arora et al. [1] para una encuesta.
El límite de arrepentimiento que usamos para el algoritmo de mayoría aleatoria
ponderada se da en [1].
El aprendizaje automático fue uno de los primeros temas estudiados en privacidad
diferencial, comenzando con el trabajo de Blum et al. [7], quienes demostraron que
los algoritmos que operan en el marco de aprendizaje SQ podrían convertirse en
algoritmos de preservación de la privacidad. Kasiviswanathan, Lee, Nissim,
Raskhodnikova y Smith consideraron por primera vez la complejidad de la muestra
del aprendizaje diferencialmente privado, “¿Qué podemos aprender en privado?” [52],
que caracterizan la complejidad muestral del aprendizaje privado hasta factores
polinómicos. Para un análisis más refinado de la complejidad de la muestra del
aprendizaje privado, consulte [3, 4, 12, 19].
También hay un trabajo extenso sobre algoritmos de aprendizaje automático
eficientes, incluidos los marcos bien conocidos de SVM y minimizadores de riesgo
empíricos [13, 55, 76]. También se han estudiado técnicas de aprendizaje espectral,
incluyendo PCA y aproximación de matriz de bajo rango [7, 14, 33, 42, 43, 51].
El aprendizaje privado a partir del asesoramiento de expertos fue considerado
por primera vez por Dwork et al. [26]. El hecho de que el algoritmo de mayoría
ponderada aleatoria conserve la privacidad sin modificaciones (cuando el parámetro
de actualización se establece correctamente) es folklore (a raíz de la composición
avanzada [32]) y ha sido ampliamente utilizado; por ejemplo, en [48]. Para un estudio
más general del aprendizaje privado en línea, consulte [50], y para un estudio más
general de la minimización empírica del riesgo, consulte [50, 13].
12
Modelos adicionales
Hasta ahora, hemos hecho algunas suposiciones implícitas sobre el modelo de análisis de
datos privados. Por ejemplo, hemos asumido que hay algún curador de confianza que tiene
acceso directo al conjunto de datos privado, y hemos asumido que el adversario solo tiene
acceso a la salida del algoritmo, no a ninguno de sus estados internos durante su ejecución.
Pero, ¿y si este no es el caso? ¿Qué pasa si no confiamos en nadie para ver nuestros
datos, ni siquiera para realizar el análisis de datos de preservación de la privacidad? ¿Qué
pasa si algún pirata informático puede obtener acceso al estado interno del algoritmo
privado mientras se está ejecutando? En esta sección, relajamos algunas de nuestras
suposiciones anteriores y consideramos estas preguntas.
En esta sección describimos algunos modelos computacionales adicionales
que han recibido atención en la literatura.
• El modelo local es una generalización de la respuesta aleatoria (consulte la Sección
2) y está motivado por situaciones en las que las personas no confían sus datos al
curador. Si bien esta falta de confianza puede
abordarse mediante computación multipartita segura para simular el papel
desempeñado por el curador de confianza, también existen algunas técnicas que
no requieren criptografía.
231
232 Modelos adicionales
Los siguientes dos modelos consideran flujos de eventos, cada uno de los cuales puede
estar asociado con un individuo. Por ejemplo, un evento puede ser una búsqueda por
parte de una persona en particular en un término arbitrario. En un flujo de eventos dado,
los (potencialmente muchos) eventos asociados con un individuo determinado pueden
intercalarse arbitrariamente con eventos asociados con otros individuos.
• En panprivacidad , se confía en el curador, pero puede estar sujeto a la
divulgación obligatoria de datos no privados, por ejemplo, debido a una citación
o porque la entidad que posee la información es comprada por otra entidad,
posiblemente menos confiable. Por lo tanto, en panprivacidad, el estado interno
del algoritmo también es diferencialmente privado, al igual que la distribución
conjunta del estado interno y las salidas.
• El modelo de observación continua aborda la cuestión de mantener la privacidad
cuando el objetivo es monitorear continuamente y reportar estadísticas sobre
eventos, como compras de medicamentos sin receta que podrían ser indicativos
de una epidemia inminente.
Algunos trabajos abordan la panprivacidad bajo observación continua.
12.1 El modelo local
Hasta ahora, hemos considerado un modelo centralizado de privacidad de datos, en el
que existe un administrador de base de datos que tiene acceso directo a los datos
privados. ¿Qué sucede si, en cambio, no hay un administrador de base de datos de confianza?
Incluso si hay una parte confiable adecuada, hay muchas razones para no querer que
un tercero agregue datos privados. La existencia misma de una base de datos agregada
de información privada plantea la posibilidad de que, en algún momento futuro, llegue a
manos de una parte no confiable, ya sea de forma malintencionada (a través del robo de
datos) o como resultado natural de la sucesión organizacional. Un modelo superior,
desde la perspectiva de los propietarios de los datos privados, sería un modelo local, en
el que los agentes podrían (al azar) responder preguntas de manera diferentemente
privada sobre sus propios datos, sin compartirlos nunca con nadie más. En el contexto
de consultas de predicado, esto parece limitar severamente la expresividad de la
interacción de un mecanismo privado con los datos: el mecanismo puede preguntar a
cada usuario si sus datos satisfacen o no un predicado dado, y
12.1. El modelo local 233
el usuario puede lanzar una moneda y responder con la verdad solo con una probabilidad
ligeramente mayor que responder con un falso. En este modelo ¿qué es posible?
El modelo de privacidad local se introdujo por primera vez en el contexto del
aprendizaje. El modelo de privacidad local formaliza la respuesta aleatoria: no hay una
base de datos central de datos privados. En cambio, cada individuo mantiene la posesión
de su propio elemento de datos (una base de datos de tamaño 1) y responde preguntas
sobre él solo de una manera diferencialmente privada. Formalmente, la base de datos x
N |X| es una colección de n elementos de algún dominio X y cada xi x está en ,
manos de un individuo.
Definición 12.1 (Aleatorizador local). Un aleatorizador εlocal R : X → W es un algoritmo
εdiferencialmente privado que toma como entrada una base de datos de tamaño n = 1.
En el modelo de privacidad local, los algoritmos pueden interactuar con la base de
datos solo a través de un oráculo aleatorio local:
Definición 12.2 (LR Oracle). Un oráculo LR LRD(∙, ∙) toma como entrada un índice i
[n] y un aleatorizador local ε R y genera un valor aleatorio w W elegido de acuerdo
con la distribución R(xi), donde xi D es el elemento en poder del iésimo individuo en
la base de datos.
Definición 12.3 ((Algoritmo local)). Un algoritmo es εlocal si accede a la base de datos
D a través de Oracle LRD, con la siguiente restricción: Si LRD(i, R1), . . . , LRD(i, Rk)
son las invocaciones del algoritmo de LRD en el índice i, donde cada RJ es un
aleatorizador local εj , luego ε1 + ∙ ∙ ∙ + εk ≤ ε.
Debido a que la privacidad diferencial es componible, es fácil ver que
Los algoritmos εlocales son εdiferencialmente privados.
Observación 12.1. Los algoritmos εlocales son εdiferencialmente privados.
Es decir, un algoritmo εlocal interactúa con los datos usando solo una secuencia
de algoritmos εdiferencialmente privados, cada uno de los cuales calcula solo en una
base de datos de tamaño 1. Porque nadie más que su propietario toca alguna pieza de
datos privados. , la configuración local es mucho más segura: no requiere una parte
confiable y no hay una parte central que pueda estar sujeta a piratería. Porque incluso
el algoritmo
nunca ve datos privados, el estado interno del algoritmo también es diferencialmente
privado (es decir, la privacidad local implica privacidad total, que se describe en la
siguiente sección). Una pregunta natural es qué tan restrictivo es el modelo de
privacidad local. En esta sección, simplemente discutimos informalmente los resultados.
El lector interesado puede seguir las referencias bibliográficas al final de esta sección
para más información. Observamos que un nombre alternativo para el modelo de
privacidad local es el modelo completamente distribuido .
Recordamos la definición del modelo de consulta estadística (SQ), presentada en
la Sección 11. En términos generales, dada una base de datos x de tamaño n, el
modelo de consulta estadística permite que un algoritmo acceda a esta base de datos
haciendo un número polinomial (en n) de consultas lineales ruidosas a la base de datos,
donde el error en las respuestas de la consulta es algún polinomio inverso en n.
Formalmente:
Definición 12.4. Una consulta estadística es alguna función φ : X × {0, 1} → [0, 1]. Un
oráculo de consulta estadística para una distribución sobre ejemplos etiquetados D
con tolerancia τ es un oráculo Oτ tal que para cada
D consulta estadística φ:
O τ D(φ) − E(x,y) D[φ(x, y)] ≤ τ En
otras palabras, un oráculo SQ toma como entrada una consulta estadística φ y genera
algún valor que se garantiza que está dentro de ± τ del valor esperado de φ en ejemplos
extraídos de D.
Definición 12.5. Se dice que un algoritmo A aprende SQ una clase de funciones C si
para cada α, β > 0 existe un m = poly(d, 1/α, log(1/β)) tal que A hace como máximo m
consultas de tolerancia τ = 1/m a Oτ y con probabilidad 1 − β, da como resultado
D, una
hipótesis f C tal que:
err(f, D) ≤ min error(f , D) + α

f C
De manera más general, podemos hablar de un algoritmo (para realizar cualquier
cálculo) que opera en el modelo SQ si accede a los datos solo a través de un oráculo
SQ:
Definición 12.6. Se dice que un algoritmo A opera en el modelo SQ si existe un m tal
que A realiza como máximo m consultas de tolerancia τ = 1/ma Oτ y no tiene ningún
otro acceso a la base
D, de datos.
A es eficiente si m es polinomial en el tamaño de la base de datos, D.
12.1. El modelo local 235
Resulta que hasta factores polinómicos en el tamaño de la base de datos y en la
cantidad de consultas, cualquier algoritmo que se pueda implementar en el modelo
SQ se puede implementar y analizar para privacidad en el modelo de privacidad local,
y viceversa. Notamos que hay una distinción entre un algoritmo que se implementa
en el modelo SQ y su análisis de privacidad que se lleva a cabo en el modelo local:
casi todos los algoritmos que hemos presentado al final acceden a los datos utilizando
consultas lineales ruidosas, y por lo que se puede considerar que actúa en el modelo
SQ.
Sin embargo, sus garantías de privacidad se analizan en el modelo centralizado de
privacidad de datos (es decir, debido a alguna parte “global” del análisis, como en el
algoritmo de vector disperso).
En el siguiente resumen, también recordaremos la definición de aprendizaje
PAC, también presentada en la Sección 11:
Definición 12.7. Se dice que un algoritmo A PACaprende una clase de funciones C
si para cada α, β > 0 existe un m = poly(d, 1/α, log(1/β)) tal que para cada distribución
D sobre ejemplos etiquetados, A toma como entrada m ejemplos etiquetados
extraídos de D y genera una hipótesis f C tal que con probabilidad 1 − β:
err(f, D) ≤ min err(f f C , D) + α
Si minf C err(f , D) = 0, se dice que el alumno opera en el entorno

realizable (es decir, existe alguna función en la clase que etiqueta perfectamente los
datos). De lo contrario, se dice que el alumno opera en el entorno agnóstico . Si A
también tiene un tiempo de ejecución polinomial en d, 1/α y log(1/β), se dice que el
alumno es eficiente. Si hay un algoritmo que PAC aprende C, entonces se dice que
C es aprendible por PAC.
Tenga en cuenta que la principal distinción entre un algoritmo de aprendizaje SQ y
un algoritmo de aprendizaje PAC es que el algoritmo de aprendizaje PAC obtiene
acceso directo a la base de datos de ejemplos, mientras que el algoritmo de
aprendizaje SQ solo tiene acceso a los datos a través de un oráculo SQ ruidoso.
Lo que sigue es parte de nuestra comprensión de las limitaciones del modelo SQ
y los problemas que lo separan del modelo centralizado de privacidad de datos.
1. Una sola consulta de sensibilidad 1 puede responderse al error O(1) en el modelo
centralizado de privacidad de datos mediante el mecanismo de Laplace, pero
requiere el error Θ(√ n) en el modelo de privacidad de datos local.
2. El conjunto de clases de funciones que podemos aprender (adecuadamente) en el
modelo de privacidad local es exactamente el conjunto de clases de funciones
que podemos aprender correctamente en el modelo SQ (hasta factores polinómicos
en el tamaño de la base de datos y la complejidad de la consulta del algoritmo ).
En contraste, el conjunto de cosas que podemos aprender (propiamente o
agnósticamente) en el modelo centralizado corresponde al conjunto de cosas que
podemos aprender en el modelo PAC. El aprendizaje de SQ es estrictamente más
débil, pero esto no es una gran desventaja, ya que las funciones de paridad son
esencialmente la única clase interesante que se puede aprender con PAC pero no con SQ.
Hacemos notar que aquí nos referimos explícitamente al aprendizaje adecuado
(es decir, el entorno en el que hay alguna función en la clase que etiqueta
perfectamente los datos). En el modelo PAC no hay diferencia teórica de la
información entre el aprendizaje propio y el agnóstico, pero en el modelo SQ la
diferencia es grande: vea el siguiente punto.
3. El conjunto de consultas que podemos lanzar en el modelo de privacidad local son
exactamente aquellas consultas que podemos aprender de manera agnóstica en
el modelo SQ. En contraste, el conjunto de cosas que podemos liberar en el
modelo centralizado corresponde al conjunto de cosas que podemos aprender
agnósticamente en el modelo PAC. Esta es una desventaja mucho mayor: incluso
las conjunciones (es decir, los marginales) no se pueden aprender de manera
agnóstica en el modelo SQ. Esto se deriva de la reducción de la teoría de la
información desde el aprendizaje agnóstico (es decir, la distinción) hasta la
liberación de consultas que vimos en la Sección 5 utilizando el mecanismo de construcción iterativo.
Observamos que si solo nos preocupan los adversarios computacionalmente limitados,
entonces, en principio, los agentes distribuidos pueden usar el cómputo seguro de
múltiples partes para simular algoritmos privados en el entorno centralizado. Si bien esto
en realidad no brinda una garantía de privacidad diferencial, el resultado de tales
simulaciones será indistinguible del resultado de cálculos privados diferenciales, desde
el punto de vista de un adversario limitado computacionalmente. Sin embargo, los
protocolos de cómputo multipartidistas seguros generales generalmente requieren una
gran cantidad de mensajes que pasan (y, por lo tanto, a veces tienen tiempos de
ejecución irrazonablemente largos).
12.2. Modelo de transmisión panprivada 237
mientras que los algoritmos en el modelo de privacidad local tienden a ser extremadamente
simples.
12.2 Modelo de transmisión panprivada
El objetivo de un algoritmo panprivado es permanecer diferencialmente privado incluso
contra un adversario que puede, en raras ocasiones, observar el estado interno del
algoritmo. Las intrusiones pueden ocurrir por muchas razones, incluidas la piratería, la
citación o el avance de la misión, cuando los datos recopilados para un propósito se usan
para un propósito diferente ("¡Piense en los niños!"). Los algoritmos de transmisión
privados de Pan brindan protección contra todos estos.
Tenga en cuenta que los algoritmos de transmisión ordinarios no necesariamente brindan
privacidad contra las intrusiones, ya que incluso un algoritmo de transmisión con poca
memoria puede contener una pequeña cantidad de elementos de datos en la memoria, que
estarían completamente expuestos en una intrusión. En el aspecto técnico, las intrusiones
pueden ser conocidas por el curador (citación) o desconocidas (piratería). Estos pueden
tener efectos muy diferentes, ya que un curador consciente de una intrusión puede tomar
medidas de protección, como volver a aleatorizar ciertas variables.
12.2.1 Definiciones
Suponemos un flujo de datos de longitud ilimitada compuesto de elementos en un universo
X. Puede ser útil tener en cuenta como motivación el análisis de datos sobre un flujo de
consulta, en el que las consultas van acompañadas de la dirección IP del emisor. Por
ahora, ignoramos el texto de la consulta en sí; el universo X es el universo de direcciones
IP potenciales. Por lo tanto, intuitivamente, la privacidad a nivel de usuario protege la
presencia o ausencia de una dirección IP en el flujo, independientemente de la cantidad de
veces que surja, en caso de que realmente esté presente. Por el contrario, la privacidad a
nivel de eventos simplemente protege la privacidad de los accesos individuales. Por ahora,
nos centramos en la privacidad a nivel de usuario.
Como es habitual en los algoritmos diferencialmente privados, el adversario puede
tener un control arbitrario del flujo de entrada y puede tener un conocimiento auxiliar
arbitrario obtenido de otras fuentes. También puede tener un poder computacional arbitrario.
Suponemos que el algoritmo se ejecuta hasta que recibe una señal especial,
momento en el que produce salidas (observables). El algoritmo puede opcionalmente
continuar ejecutándose y producir salidas adicionales más tarde, nuevamente en
respuesta a una señal especial. Dado que las salidas son observables, no proporcionamos
privacidad para las señales especiales.
Un algoritmo de transmisión experimenta una secuencia de estados internos. y
produce una secuencia (posiblemente ilimitada) de salidas. Sea I el conjunto de posibles
estados internos del algoritmo y σ el conjunto de posibles secuencias de salida.
Suponemos que el adversario solo puede observar los estados internos y la secuencia
de salida; no puede ver los datos en la transmisión (aunque puede tener conocimiento
auxiliar sobre algunos de estos datos) y no tiene acceso a la longitud de la entrada
secuencia.
Definición 12.8 (X Flujos de datos adyacentes). Pensamos en los flujos de datos como
si tuvieran una longitud ilimitada; Los prefijos tienen una longitud finita. Los flujos de
datos S y S son adyacentes a X si difieren solo en la presencia o ausencia de todas las
ocurrencias de un solo elemento u X . Definimos la adyacencia X para los prefijos de
flujo de forma análoga.
PanPrivacidad a nivel de usuario. Un algoritmo Alg mapeando prefijos de flujo de datos
al rango I × σ, es panprivado contra una sola intrusión si para todos los conjuntos I I
de estados internos y σ σ de secuencias de salida, y para todos los pares de prefijos
de flujo de datos adyacentes S , S
Pr[Alg(S) (I , σ )] ≤ e ε Pr[Alg(S ) (I , σ )],
donde los espacios de probabilidad están sobre los lanzamientos de moneda del algoritmo
Alg.
Esta definición habla sólo de una sola intrusión. Para intrusiones múltiples debemos
considerar intercalaciones de observaciones de estados internos y salidas.
La relajación a la privacidad a nivel de evento se obtiene modificando la noción de
adyacencia de modo que, en términos generales, dos flujos son adyacentes si difieren
en una sola instancia de un solo elemento en X; es decir, se elimina/agrega una instancia
de un elemento. Claramente, la privacidad a nivel de evento es una garantía mucho más
débil que la privacidad a nivel de usuario.
12.2. Modelo de transmisión panprivada 239
Observación 12.1. Si asumimos la existencia de una cantidad muy pequeña de almacenamiento
secreto, no visible para el adversario, muchos problemas para los que no hemos podido
obtener soluciones panprivadas tienen soluciones de transmisión (no panprivadas). Sin
embargo, la cantidad de almacenamiento secreto no es tan importante como su existencia,
ya que el almacenamiento secreto es vulnerable a las presiones sociales contra las cuales la
privacidad busca proteger los datos (y al curador).
Estimación de densidad panprivada. Sorprendentemente, la privacidad total se puede lograr
incluso para la privacidad a nivel de usuario de muchos cálculos de transmisión comunes.
Como ejemplo, considere el problema de la estimación de la densidad: dado un universo X de
elementos de datos y un flujo σ, el objetivo es estimar la fracción de X que aparece en el flujo.
Por ejemplo, el universo está formado por todos los adolescentes de una comunidad
determinada (representados por direcciones IP), y el objetivo es entender qué fracción visita
el sitio web de Planned Parenthood.
Las soluciones estándar de transmisión de memoria baja para la estimación de la
densidad implican el registro de los resultados de los cálculos deterministas de al menos
algunos elementos de entrada, un enfoque que inherentemente no es panprivado.
Aquí hay una solución simple, aunque de alta memoria, inspirada en una respuesta aleatoria.
El algoritmo mantiene un bit ba para cada dirección IP a (que puede aparecer cualquier número
de veces en el flujo), inicializado uniformemente al azar. La secuencia se procesa un elemento
a la vez. En la entrada a, el algoritmo se voltea un poco sesgado a 1; es decir, el bit sesgado
tomará valor 0 con probabilidad 1/2 − ε, y valor 1 con probabilidad 1/2 + ε. El algoritmo sigue
este procedimiento independientemente del número de veces que aparece la dirección IP a
en el flujo de datos. Este algoritmo es (ε, 0)diferencialmente privado. Al igual que con la
respuesta aleatoria, podemos estimar la fracción de 1 "reales" por z = 2(y−|X |/2)/|X |, donde
y es el número real de 1 en la tabla después de que se procesa el flujo.
Para garantizar la privacidad total, el algoritmo publica una versión ruidosa de z. Al igual que
con la respuesta aleatoria, el error será del orden de 1/ |X |, lo que arrojará resultados
significativos cuando la densidad sea alta.
Otros problemas para disfrutar de los algoritmos panprivados a nivel de usuario incluyen:
• Estimar, para cualquier t, la fracción de elementos que aparecen exactamente
t veces;
• Estimación de la media recortada de t: aproximadamente, el promedio, sobre
todos los elementos, del mínimo de t y el número de ocurrencias del elemento
en el flujo de datos;
• Estimar la fracción de kheavy hitters (elementos de X que
aparecen al menos k veces en el flujo de datos).
También se pueden definir variantes de estos problemas para datos totalmente
dinámicos , en los que los recuentos se pueden disminuir o incrementar. Por ejemplo,
la estimación de la densidad (¿qué fracción apareció en la corriente?) se convierte en
"¿Cuántos (o qué fracción) de elementos tienen un recuento (neto) igual a cero?" Estos
también se pueden resolver con privacidad panorámica a nivel de usuario, utilizando
variaciones privadas diferenciales de las técnicas de dibujo de la literatura de
transmisión.
12.3 Observación continua
Muchas aplicaciones de análisis de datos involucran cálculos repetidos, ya sea porque
el objetivo completo es monitorear, por ejemplo, las condiciones del tráfico, las
tendencias de búsqueda o la incidencia de la influenza. En tales aplicaciones, se
requiere que el sistema produzca continuamente resultados. Por lo tanto, necesitamos
técnicas para lograr una privacidad diferencial bajo observación continua.
Como de costumbre, la privacidad diferencial requerirá tener esencialmente la
misma distribución en las salidas para cada par de bases de datos adyacentes, pero
¿cómo debemos definir la adyacencia en esta configuración? Consideremos dos
escenarios de ejemplo.
Suponga que el objetivo es monitorear la salud pública mediante el análisis de
estadísticas de un sitio web de autoevaluación H1N1.1 Las personas pueden
interactuar con el sitio para saber si los síntomas que experimentan pueden ser
indicativos de la gripe H1N1. El usuario rellena algunos datos demográficos (edad,
código postal, sexo), y responde a consultas sobre sus síntomas (¿fiebre superior a
100,4 ◦F?, ¿dolor de garganta?, ¿duración de los síntomas?). Esperaríamos que una
persona dada interactuara muy pocas veces con el sitio de autoevaluación H1N1 (por
ejemplo, si restringimos nuestra atención a un período de seis meses).
1https://h1n1.cloudapp.net proporcionó dicho servicio durante el invierno de 2010;
Los datos proporcionados por el usuario se almacenaron para su análisis con el consentimiento del usuario.
12.3. Observación continua 241
período). Para simplificar, digamos que esto es solo una vez. En tal entorno, es suficiente
garantizar la privacidad a nivel de evento , en el que el objetivo de privacidad es ocultar
la presencia o ausencia de un solo evento (interacción de un usuario con el sitio de
autoevaluación).
Supongamos nuevamente que el objetivo es monitorear la salud pública, esta vez
analizando los términos de búsqueda enviados a un motor de búsqueda médica. En este
caso, puede que ya no sea seguro asumir que una persona tiene pocas interacciones
con el sitio web, incluso si restringimos la atención a un período de tiempo relativamente
corto. En este caso, querríamos privacidad a nivel de usuario , asegurando que todo el
conjunto de términos de búsqueda de un usuario esté protegido simultáneamente.
Pensamos en los algoritmos de observación continua como dando pasos en
intervalos de tiempo discretos; en cada paso, el algoritmo recibe una entrada, calcula y
produce una salida. Modelamos los datos como si llegaran en un flujo, como máximo un
elemento de datos en cada intervalo de tiempo. Para captar el hecho de que, en la vida
real, hay períodos de tiempo en los que no sucede nada, los eventos nulos se modelan
mediante un símbolo especial en el flujo de datos.
Así, la noción intuitiva de “t periodos de tiempo” corresponde al procesamiento de una
secuencia de t elementos en el flujo.
Por ejemplo, la motivación detrás de la primitiva de contador a continuación es
contar la cantidad de veces que algo ha ocurrido desde que se inició el algoritmo (el
contador es muy general; no especificamos a priori lo que está contando). Esto está
modelado por un flujo de entrada sobre {0, 1}. Aquí, "0" significa "no pasó nada", "1"
significa que ocurrió el evento de interés, y para t = 1, 2, . . . , T, el algoritmo genera una
aproximación al número de 1 visto en el prefijo de longitud t del
arroyo.
Hay tres opciones naturales:
1. Use una respuesta aleatoria para cada período de tiempo y agregue este valor
aleatorio al contador; 2. Sume el
ruido distribuido según Lap(1/ε) al valor verdadero para cada paso de tiempo y sume
este valor perturbado al contador; 3. Calcule el conteo real en cada paso de
tiempo, agregue ruido distribuido de acuerdo con Lap(T /ε) al conteo y libere este
conteo ruidoso.
Todas estas opciones dan como resultado un ruido del orden de al menos Ω(√ T /ε).
La esperanza es hacerlo mucho mejor al explotar la estructura del conjunto de consultas.
Sea X el universo de posibles símbolos de entrada. Sean S y S prefijos de
flujo (es decir, flujos finitos) de símbolos extraídos de X . Entonces Adj(S, S ) (“S
es adyacente a S ”) si y solo si existen a, b X de modo que si cambiamos
algunas de las instancias de a en S a instancias de b, entonces obtenemos S .
Más formalmente, Adj(S, S ) iff a, b X y R [|S|], tal que S|R:a→b = S .
Aquí, R es un conjunto de índices en el prefijo de flujo S, y S|R:a→b es el
resultado de reemplazar todas las apariciones de a en estos índices con b. Tenga
en cuenta que los prefijos adyacentes siempre tienen la misma longitud.
Para capturar la privacidad a nivel de evento, restringimos la definición de
adyacencia al caso |R| ≤ 1. Para capturar la privacidad a nivel de usuario, no
restringimos el tamaño de R en la definición de adyacencia.
Como se indicó anteriormente, una opción es publicar un conteo ruidoso en
cada paso de tiempo; el conteo publicado en el momento t refleja el número
aproximado de 1 en el prefijo de longitud t del flujo. El desafío de la privacidad es
que los primeros elementos en la transmisión están sujetos a estadísticas de casi
T , por lo que para la privacidad diferencial (ε, 0) estaríamos agregando ruido
escalado a T /ε, lo cual es inaceptable. Además, dado que los 1 son los elementos
"interesantes" de la secuencia, nos gustaría que la distorsión se escalara al
número de 1 que se ven en la secuencia, en lugar de a la longitud de la secuencia.
Esto descarta la aplicación de una respuesta aleatoria a cada elemento de la
secuencia de forma independiente.
El siguiente algoritmo sigue un enfoque clásico para convertir algoritmos
estáticos en algoritmos dinámicos.
Supongamos que T es una potencia de 2. Los intervalos son los naturales
correspondientes a las etiquetas en un árbol binario completo con T hojas, donde
las hojas están etiquetadas, de izquierda a derecha, con los intervalos [0, 0], [1 ,
1], . . . , [T − 1, T − 1] y cada padre se etiqueta con el intervalo que es la unión
de los intervalos que etiquetan a sus hijos. La idea es calcular y liberar un conteo
ruidoso para cada etiqueta [s, t]; es decir, el valor liberado correspondiente a la
etiqueta [s, t] es un conteo ruidoso del número de 1 en las posiciones s, s +
1, . . . , t del flujo de entrada. Para conocer el conteo acumulativo aproximado en
el tiempo t [0, T − 1], el analista usa la representación binaria de t para
determinar un conjunto de como máximo log2 T
Figura 12.1: Algoritmo de contador privado a nivel de evento (no panprivado).
intervalos disjuntos cuya unión es [0, t], y calcula la suma de los conteos ruidosos
liberados correspondientes.2 Consulte la figura 12.1.
Cada posición de la corriente t [0, T − 1] aparece en intervalos como máximo
de 1 + log2 T (porque la altura del árbol es log2 T), por lo que cada elemento de
la corriente afecta como máximo a 1 + log2 T liberado ruidosamente cuenta
Por lo tanto, agregar ruido a cada conteo de intervalo distribuido de acuerdo con
Lap((1 + log2 T)/ε) asegura (ε, 0) privacidad diferencial. En cuanto a la precisión,
dado que la representación binaria de cualquier índice t [0, T − 1] produce un
conjunto disjunto de intervalos como máximo log2 T cuya unión es [0, t], podemos
aplicar el Lema 12.2 a continuación para concluir que el esperado el error está
estrechamente concentrado alrededor de (log2 T) 3/2 . El error máximo esperado,
.
sobre todos los tiempos t, es del orden de (log2
T) 5/3
Lema 12.2. Sea Sea Y1, . . . , Yk ser variables independientes con distri (bi) 2,
Lap(bi). Sean Y = Yi y bmax = miaxi bi . Sean ν ≥ y 0 < λ < i bution
2 √ 2ν 2
bmáx . Entonces
2 λ
Pr[Y > λ] ≤ exp − 8ν 2 .
2Este algoritmo se puede optimizar ligeramente (por ejemplo, nunca usamos el conteo
correspondiente a la raíz, eliminando un nivel del árbol), y se puede modificar para manejar
el caso en el que T no es una potencia de 2 y, lo que es más interesante , cuando T no se
conoce a priori.
Prueba. La función generadora de momentos de Yi es E[exp(hYi)] = 1/(1 − h ≤ 1 + 2x ≤
2 b2 −1
), donde |h| < 1/bi . Usando la desigualdad (1 − x)
i
exp(2x) para 0 ≤ x < 1/2, tenemos E[exp(hYi)] ≤ exp(2h |h| < 1/2bi . Ahora 2 2 b yo
), si
calculamos, para 0 < h < 1/ √ 2bmax:
Pr[Y > λ] = Pr[exp(hY ) > exp(hλ)]
≤ exp(−hλ)E[exp(hY )] =
exp(−hλ) E[exp(hYi)]
i
2 2 v
≤ exp(−hλ + 2h ).
2
Por supuesto, 0 < λ < < 1/ √ 2 √ 2ν
bmáx . Completamos la demostración estableciendo
2
2bmax. h = λ/4ν
Corolario 12.3. Sean Y, ν, {bi}i , bmax como en el Lema 12.2. Para δ (0, 1) y ν >
b 2
max{ bmax ln(2/δ)}, tenemos que
yo Pr[|Y
yo ,
| > ν 8 ln(2/δ)] ≤ δ.
En nuestro caso, todos los bi son iguales (p. ej., b = (log2 T)/ε). Tomando ν = √ kb
tenemos el siguiente corolario:
Corolario 12.4. Para todo λ < α( √ kb) < 2 √ 2kb = 2√ 2kν,
Pr[Y > λ] ≤ e −a 2/8 .
Tenga en cuenta que hemos dado el paso inusual de agregar ruido al conteo antes
de contar, en lugar de después. En términos de las salidas no hay diferencia (la suma
es conmutativa). Sin embargo, tiene un efecto interesante sobre los estados internos
del algoritmo: ¡son diferencialmente privados! Es decir, suponga que la intrusión ocurre
en el tiempo t, y considere cualquier i [0, t]. Dado que hay como máximo log2 T
intervalos que contienen el paso i (en el algoritmo abolimos el intervalo correspondiente
a la raíz), xi afecta como máximo log2 T de los recuentos ruidosos, por lo que xi está
protegido contra la intrusión exactamente por la misma razón que está protegido en las
salidas del algoritmo. Sin embargo, el algoritmo de la figura 12.1 no es panprivado ni
siquiera contra una sola intrusión. Esto se debe a que, si bien su estado interno y sus
salidas son cada uno independiente y diferencialmente privados, la distribución conjunta
no garantiza la privacidad diferencial ε. A
vea por qué esto es así, considere un intruso que ve el estado interno en el
momento t y conoce todo el flujo de datos excepto xt+1, y sea I = [a, b] un
intervalo que contiene tanto t como t + 1. Dado que el el adversario sabe que
hasta puede sustraer de cI la contribución del flujo que ocurre x[0,t] , suena
el tiempo t (es decir, resta del cI observado todo lo que conoce). A partir de
el intruso aprende el valor del x , este el tiempo t los valores xa, xa+1, . . . ,
sorteo de Laplace en el que se inicializó cI . Cuando se publica cI al final del
paso b, el adversario resta del valor publicado este sorteo inicial, junto con las
contribuciones de todos los elementos en x[a,b] excepto xt+1, que no conoce.
Lo que queda es la incógnita xt+1.
12.3.1 Recuento panprivado
Aunque el algoritmo de la Figura 12.1 se modifica fácilmente para garantizar
la privacidad total a nivel de evento contra una sola intrusión, aquí damos un
algoritmo diferente para introducir una poderosa técnica de biyección que ha
demostrado ser útil en otras aplicaciones. Este algoritmo mantiene en su
estado interno un solo contador ruidoso, o acumulador, así como valores de
ruido para cada intervalo. La salida en cualquier período de tiempo dado t es
la suma del acumulador y los valores de ruido para los intervalos que contienen
t. Cuando termina un intervalo I , su ruido asociado se borra de la memoria.
valor, ηI ,
Teorema 12.5. El algoritmo contador de la Figura 12.2, cuando se ejecuta con los
parámetros T, ε, y sufre como máximo una intrusión, produce un contador
panprivado (ε, 0) que, con una probabilidad de al menos 1 − β tiene un error
máximo, sobre su T salidas, de O(log(1/β)∙ log2.5 T /ε). Observamos también que
en cada ronda individualmente (en lugar de en todas las rondas simultáneamente),
con todas las probabilidades menos β , el error tiene una magnitud máxima de
O(log(1/β)∙ log1.5 T /ε).
Prueba. La prueba de precisión es la misma que la del algoritmo de la figura
12.1, basándose en el corolario 12.4. Nos centramos aquí en la prueba de la
panprivacidad.
Durante una intrusión entre pasos atómicos t y t + 1, es decir,
inmediatamente después del procesamiento del elemento en
t el flujo de entrada
Figura 12.2: Algoritmo de contador panprivado a nivel de evento.
(recuerde que comenzamos numerando los elementos con 0), la vista del adversario
consiste en (1) el conteo acumulativo ruidoso (en la variable “conteo”), (2) los valores
de ruido de intervalo ηS en memoria cuando ocurre la intrusión , y (3) la secuencia
completa de todas las salidas del algoritmo t. Considere las bases de datos
tiempo t, digamos, adyacentes x y x que difieren en las rondas 0, 1,, . . . , en el
sin pérdida de generalidad, xt = 1 y x intrusión inmediatamente t = 0, y an ≥ t
después del período de tiempo t caso t (discutiremos el < t a
continuación). Describiremos una biyección entre el vector de tal que
los valores de ruido utilizados en ejecuciones en x y ejecuciones en x ,
los valores de ruido correspondientes inducen puntos de vista adversarios idénticos
X
ε
, en x y y las probabilidades de valores de ruido adyacentes difieren solo por un e
factor multiplicativo. Esto implica panprivacidad εdiferencial.
Por suposición, la cuenta real justo después del período de tiempo t ≥ t
es mayor cuando la entrada es x que cuando la entrada es x . Corrige una ejecución
arbitraria Ex cuando el flujo de entrada es x. Esto equivale a corregir la aleatoriedad
del algoritmo, que a su vez corrige los valores de ruido generados. Describiremos la
ejecución Ex correspondiente describiendo cómo sus valores de ruido difieren de los
de Ex.
La variable de programa Contador se inicializó con ruido de Laplace.
Al aumentar este ruido en 1 en Ex, el valor de Counter justo después del paso es
idéntico en Ex y Ex. Las variables de ruido en la memoria inmediatamente son
independientes de lda
inmediatamente después epntrada;
el eríodo t estos serán
sin cambios en Ej. Haremos que la secuencia de salidas en Ex sea idéntica a las
de Ex cambiando una colección de valores de ruido de intervalo log T ηS que no
están en la memoria cuando el adversario se entromete, de modo que la suma de
todos los valores de ruido en todos se redondee hasta t − 1 no cambia, pero la suma
a partir de la ronda t es mayor en 1 para la base de datos x que para x.
Dado que aumentamos el ruido de inicialización para Counter, ahora necesitamos
disminuir la suma de los valores de ruido de intervalo para los períodos 0, . . . , t − 1
por 1, y deje sin cambios la suma de los valores de ruido de intervalo del período t.
Para ello, encontramos una colección de intervalos disjuntos cuya unión es
{0, . . . , t − 1}. Siempre existe una colección de este tipo, y siempre tiene un tamaño
máximo de log T. Podemos construirla iterativamente, ya que i disminuye desde que
i
log(t − 1) a 0, eligiendo el intervalo de tamaño 2 {0, . . . , está contenido en
t − 1} y no está contenido en un intervalo elegido previamente (si tal intervalo existe).
Dado este conjunto de intervalos disjuntos, también notamos que todos terminan en
, en la memoria cuando el
el tiempo t − 1 < t ≤ t y, por lo tanto, sus ruidos no están
adversario se entromete (justo después del período t ).
En total (teniendo en cuenta también el cambio del valor de ruido inicial para
Contador), la vista completa vista por el adversario es idéntica y las probabilidades
de la (colección de) valores de ruido utilizados para x y x difieren como máximo en
un factor multiplicativo e ε .
Tenga en cuenta que asumimos t ≥ t. Si t < t entonces el ruido inicial añadido
to Counter en Ex será igual que en Ex, y necesitamos sumar 1 a la suma de los
ruidos de intervalo en cada período de tiempo desde t hasta T (la suma de los ruidos
de intervalo antes del tiempo t permanece sin cambios). Esto se hace como se indicó
anteriormente, encontrando una colección disjunta de intervalos logarítmicos T como
máximo que cubra exactamente {t, . . . , T 1}. Los valores de ruido para estos
intervalos aún no están en la memoria cuando la intrusión ocurre en el tiempo t < t,
y la prueba es similar.
12.3.2 Un límite inferior logarítmico (en T )
Dada la cota superior del teorema 12.5, donde el error depende solo
polilogarítmicamente de T, es natural preguntarse si alguna dependencia es
inherente. En esta sección mostramos que una dependencia logarítmica de T es
ciertamente inherente.
Teorema 12.6. Cualquier algoritmo de nivel de evento diferencialmente privado para contar
T rondas debe tener un error Ω (log T) (incluso con ε = 1).
Prueba. Sea ε = 1. Supongamos, en aras de la contradicción, que existe un contador de
nivel de evento diferencialmente privado para flujos de longitud T que garantiza que, con
una probabilidad de al menos 2/3, su conteo en todos los períodos de tiempo es preciso
hasta un error máximo de (log2 T)/4. Sea k = (log2 T)/4. Construimos un conjunto S de T /
k entradas como sigue. Divida los T períodos de tiempo en T /k fases consecutivas, cada
una de longitud k (excepto, posiblemente, la última). Para i = 1, . . . , T /k, la iésima
i
entrada x S tiene 0 bits de entrada en todas partes excepto durante la iésima fase. Es
i =
decir, x k∙i k ◦ 0 k∙((T /k)−(i+1)) 0 ◦ 1 Fo 1 ≤ i ≤ T /k, decimos que una salida coincide
con i
s i
ésima justo antes de la i .
fase la la salida es menor que k/2 y al final de la iésima fase la salida es al menos k/
2. Por precisión, en la entrada x, la salida debe coincidir con i con una probabilidad de al
i
menos 2/3. Por ε privacidad diferencial, esto significa que para cada i, j [T /k] tal que i =
j, la salida en la entrada
yo x debe coincidir con j con probabilidad al menos
−2ε∙k
e = mi −ε log(T 1/2 )
= mi − Iniciar sesión(T 1/2 ) = 1/ √ T .
Esto es una contradicción, porque los eventos que la salida coincide con j son disjuntos
para diferentes j y, sin embargo, la suma de sus probabilidades en la entrada x
i excede 1.
12.4 Error de caso promedio para liberación de consulta
En las Secciones 4 y 5, consideramos varios mecanismos para resolver el problema de la
liberación de consultas privadas, donde nos interesaba el error en el peor de los casos. Es
decir, dada una clase de consultas Q, de tamaño |Q| = k, deseábamos recuperar un vector
k
de respuestas aˆ R tal que para cada consulta
fi Q, |fi(x) − aî | ≤ α para alguna tasa
de error en el peor de los casos α. En otras palabras, si hacemos k que a R denote el
vector de respuestas verdaderas , con ai ≡ fi(x), entonces requerimos un límite de la forma:
a−aˆ∞ ≤ α. En esta sección, consideramos 2 (en lugar de ∞) error: a cota una garantía de
Un límite de esta forma no garantiza utilidad debilitada, en la forma a − aˆ2 ≤ α.
12.4. Error de caso promedio para la liberación de consultas 249
que tenemos un error bajo para cada consulta, pero garantiza que, en promedio,
tenemos un error pequeño.
Aunque este tipo de límite es más débil que el peor de los casos, el mecanismo
es particularmente simple y utiliza una elegante vista geométrica del problema de
liberación de consultas que no hemos visto hasta ahora.
Recuerde que podemos ver la base de datos x como un vector x N |X| con x1
= n. De manera similar, también podemos ver las consultas fi Q como vectores
fi N |X|, tales que fi(x) = fi , x. Por lo tanto, será útil ver nuestra clase de consultas
Q como una matriz A R k×|X|, siendo la iésima fila de A el vector fi . Entonces
podemos ver que nuestro vector de respuesta a R en notación matricial: k es,
A ∙ x = a.
Consideremos el dominio y el rango de A cuando se ve como un mapa lineal. Escriba
B1 = {x R |X| : x1 = 1} denota la unidad 1 bola en |X | espacio dimensional.
Observa
que x nB1, ya que x1 = n. Nos referiremos a nB1 como "Espacio de base de
datos". Escriba K = AB1. Nótese de manera similar que para todo x nB1, a = A ∙ x
nK. Nos referiremos a nK como "espacio de respuesta". Hacemos un par de
observaciones sobre K: Tenga en cuenta que debido a que B1 es centralmente
simétrica, también lo es K , es decir, K = −K. Nótese también que ±A|X| igual a k K
es un politopo convexo con vértices ±A1 , . . . , R
las columnas de A, junto con sus negaciones.
El siguiente algoritmo es extremadamente simple: simplemente responde a cada
consulta de forma independiente con el mecanismo de Laplace y luego se proyecta
de nuevo en el espacio de respuesta. En otras palabras, agrega ruido de Laplace
independiente a cada consulta, lo que, como hemos visto, por sí mismo conduce a
una distorsión que es lineal en k (o al menos √ k, si nos relajamos a (ε, δ)privacidad
diferencial) . Sin embargo, el vector resultante a˜ de respuestas probablemente no
sea consistente con ninguna base de datos y nB1 en el espacio de la base de
datos. Por lo tanto, en lugar de devolver a˜, en su lugar devuelve un vector de
respuesta consistente aˆ nK que es lo más cercano posible a a˜. Como veremos,
este paso de proyección mejora la precisión del mecanismo, sin afectar la privacidad
(¡ya que es solo un procesamiento posterior!)
Primero observamos que Project es diferencialmente privado.
Teorema 12.7. Para cualquier A [0, 1]k×|X| , Project(x, A, ε) preserva (ε, δ)
privacidad diferencial.
Algoritmo 18 El mecanismo de Laplace Kproyectado. Toma como entrada una matriz
A [0, 1]k×|X|, una base de datos x nB1 y unos parámetros de privacidad ε y δ.
Proyecto(x, A, ε, δ):
Sea a = A ∙ x
Para cada i [k], muestree νi Lap( 8k ln(1/δ)/ε), y sea a˜ = a+ν.
Salida aˆ = arg minaˆ nK aˆ − a˜ 2 2 .
Prueba. Simplemente observamos que a˜ es la salida del mecanismo de Laplace en
k consultas de sensibilidad 1, que es (ε, δ) diferencialmente privada según los
teoremas 3.6 y 3.20. Finalmente, dado que aˆ se deriva de a˜ sin más acceso a los
datos privados, la liberación de aˆ es diferencialmente privada por la garantía de
posprocesamiento de privacidad diferencial, Proposición 2.1.
Teorema 12.8. Para cualquier clase de consultas lineales A y base de datos x, sea a
= A ∙ x el vector de respuesta verdadero. Sea aˆ la salida del mecanismo Proyecto: aˆ
= Proyecto(x, A, ε). Con probabilidad al menos 1 − β:
2 kn 192 ln(1/δ) ln(2|X |/β) ≤
a − aˆ 2
.
ε
Para probar este teorema, introduciremos un par de conceptos simples, su
k
de geometría convexa. Para un cuerpo convexo K R , cuerpo polar es K◦ : y,
k
definido como K◦ = {y R La x ≤ 1 para todo x K}. el minkowski
norma definida por un cuerpo convexo K es
xK ≡ min{r R tal que x rK}.
La norma dual de xK es la norma de Minkowski inducida por el cuerpo polar de K, es
decir, xK◦ . Esta norma también tiene la siguiente forma:
xK◦ = máx x, y. y K
El hecho clave que usaremos es la Desigualdad de Holder, que se satisface con
todos los cuerpos convexos con simetría central K:
|x, y| ≤ xKyK◦ .
12.4. Error de caso promedio para la liberación de consultas 251
Demostración del teorema 12.8. La prueba procederá en dos pasos. Primero
mostraremos que: a−aˆ ≤ 2aˆ−a,
2
2 a˜−a, y luego usaremos la ecuación de Holder
desigualdad para acotar esta segunda cantidad.
Lema 12.9.
2
a − aˆ 2 ≤ 2aˆ − un, un˜ − un
Prueba. Calculamos:
2
aˆ a 2 = aˆ − a, aˆ − a
= aˆ − a, a˜ − a + aˆ − a, aˆ − a˜
≤ 2aˆ − a, a˜ − a.
La desigualdad se sigue de calcular:
2
aˆ − a, a˜ − a = a˜ − a 2 + aˆ − a, ̃
a˜ − a
2
≥ aˆ − a˜ 2 + aˆ − a, ̃
a˜ − a
= aˆ − a, ̃
aˆ − a,
Donde se sigue la desigualdad final porque por elección de aˆ, para todo a nK: a˜ −
aˆ 2
2 ≤ un˜ − un 2 2 .
Ahora podemos completar la prueba. Recuerde que, por definición, a˜−a = ν, el
vector del ruido de Laplace iid agregado por el mecanismo de Laplace. Por el Lema
12.9 y la desigualdad de Holder, tenemos:
2
a − aˆ 2 ≤ 2aˆ − a, v
≤ 2aˆ − aKνK◦ .
ˆ
Vinculamos estos dos términos por separado. Dado que por definición a, a nK,
tenemos max(aˆK, aK) ≤ n, y por la desigualdad del triángulo, aˆ − aK ≤ 2n.
A continuación, observe que como νK◦ = maxy Ky, ν, y como el máximo de una
función lineal tomada sobre un politopo se alcanza en un vértice, tenemos: νK◦ =
maxi [|X|] |Ai , ν |.
k
Como todo Ai R es tal que
Ai∞ ≤ 1, y recordando que para cualquier escalar q,
si Z Lap(b), entonces qZ Lap(qb), podemos aplicar el Lema por
Lema 12.2 para acotar las sumas ponderadas de las variables aleatorias de Laplace
Ai , V. Al hacerlo, tenemos que con probabilidad de al menos 1 − β:
i 8k ln(1/δ) ln(|X |/β) , ν| ≤
máximo |A .
i [|X|]
Combinando todos los límites anteriores, obtenemos que con probabilidad 1 −
β:
2 16nk ln(1/δ) ln(|X |/β) ≤
a − aˆ 2
.
2 = k 2
Interpretemos este límite. Observe que a−aˆ 2 i=1(ai −aî) ,
y entonces esto es un límite en la suma de los errores al cuadrado sobre todas las consultas.
Por lo tanto, el error cuadrático promedio por consulta de este mecanismo es solo:
k
1 2 16n ln(1/δ) ln(|X |/β) ≤
(ai − aî) .
k
yo=1
En contraste, el mecanismo privado de pesos multiplicativos garantiza que
maxi [k] |ai − aî | ≤ O˜( √ n log |X |1/4/ε1/2 ), por lo que coincide con la garantía de
error cuadrático medio del mecanismo de Laplace proyectado, con un límite de:
O˜(n log |X |/ε) . Sin embargo, el mecanismo de pesos multiplicativos (y especialmente
su análisis de privacidad) es mucho más complejo que el mecanismo de Laplace
Proyectado. En particular, la parte privada del mecanismo KProjected Laplace es
simplemente el propio mecanismo de Laplace y no requiere coordinación entre
consultas. Curiosamente, y resulta que necesariamente, la coordinación se produce
en la fase de proyección. Dado que la proyección está en posprocesamiento, no
incurre en más pérdida de privacidad; de hecho, puede ser realizado (en línea, si es
necesario) por el propio analista de datos.
El modelo local de privacidad de datos tiene sus raíces en la respuesta aleatoria,
propuesta por primera vez por Warner en 1965 [84]. El modelo local fue formalizado
por Kasiviswanathan et al. [52] en el contexto del aprendizaje, quienes demostraron
que el aprendizaje privado en la modalidad local es equivalente al no privado
aprendizaje en el modelo de consulta estadística (SQ). Gupta et al. demostraron
que el conjunto de consultas que se pueden publicar en el modelo local es
exactamente igual al conjunto de consultas que se pueden aprender de manera
agnóstica en el modelo SQ. [38].
PanPrivacy fue introducido por Dwork et al. [27], y explorado más a fondo por
Mir et al. [62]. La estimación de la densidad panprivada, así como una variante de
baja memoria que usa hash, aparecen en [27].
La privacidad bajo observación continua fue introducida por Dwork et al. [26];
nuestro algoritmo para contar bajo observación continua es de ese documento, al
igual que el límite inferior de error. Algoritmos similares fueron proporcionados por
Chan et al. [11]. La prueba de concentración de la desigualdad de medidas para
las sumas de variables aleatorias de Laplace dadas en el Lema 12.2 es de [11].
El mecanismo de Laplace Proyectado para lograr un error promedio bajo fue
proporcionado por Nikolov et al. [66], quienes también dan instancias de algoritmos
óptimos para el problema de liberación de consultas (error promedio) para cualquier
clase de consultas. Este trabajo amplía una línea de trabajo sobre las conexiones
entre la privacidad diferencial y la geometría iniciada por Hardt y Talwar [45], y
ampliada por Bhaskara et al. [5] y Dwork et al. [30].
Dwork, Naor y Vadhan demostraron una brecha exponencial entre el número
de consultas que pueden ser respondidas (con errores no triviales) por mecanismos
privados diferenciales sin estado y con estado [29]. La lección aprendida (que la
coordinación es esencial para responder de manera precisa y privada a un gran
número de consultas) parece descartar la adición de ruido independiente en el
mecanismo de Laplace Proyectado. La plenitud de estado de ese algoritmo
aparece en el paso de proyección, resolviendo la paradoja.
13
Reflexiones
13.1 Hacia la práctica de la privacidad
La privacidad diferencial se diseñó teniendo en cuenta los conjuntos de datos a escala de Internet.
Los ataques de reconstrucción en la línea de los de la Sección 8 pueden ser llevados a cabo por
un adversario polinomial limitado en el tiempo que solo realiza consultas O (n) en bases de datos
de tamaño n. Cuando n es del orden de cientos de millones, y cada consulta requiere una cantidad
lineal de cómputo, tal ataque no es realista, aunque las consultas se pueden paralelizar.
Esta observación condujo a los primeros pasos hacia la privacidad diferencial: si el adversario está
restringido a un número sublineal de consultas de conteo, entonces o( √ n) ruido por consulta,
¡menos que el error de muestreo! — es suficiente para preservar la privacidad (Corolario 3.21).
¿En qué medida se puede aplicar la privacidad diferencial en conjuntos de datos más
pequeños, o incluso en ataques dirigidos que aíslan un pequeño subconjunto de una base de
datos mucho más grande, sin destruir la utilidad estadística?
En primer lugar, un análisis puede requerir una serie de consultas que comienzan a parecerse al
tamaño de este conjunto más pequeño. En segundo lugar, si ahora n denota el tamaño del
conjunto más pequeño o la base de datos pequeña, y si k es el número de consultas, los errores
fraccionarios del orden de √ k/n son más difíciles de ignorar cuando n es pequeño. Tercero, el
factor ln(1/δ)/ε en el avanzado
254
13.1. Hacia la práctica de la privacidad 255
el teorema de composición se vuelve significativo. Teniendo en cuenta los ataques de
reconstrucción cuando el ruido es o( √ n), parece haber poco margen de maniobra para
conjuntos arbitrarios de k ≈ n consultas de baja sensibilidad.
Hay varias líneas de investigación prometedoras para abordar estos
preocupaciones.
Los errores de consulta no cuentan toda la historia. Como ejemplo de este fenómeno,
considere el problema de la regresión lineal. la entrada es
d
una colección de puntos de datos etiquetados de la forma (x, y), donde x R y y
d
R, para una dimensión arbitraria d. El objetivo es encontrar θ R que “prediga” y “lo
mejor posible”, dado x, bajo el supuesto de que la relación es lineal. Si el objetivo es
simplemente "explicar" el conjunto de datos dado, la privacidad diferencial bien puede
introducir un error inaceptable.
Ciertamente, el algoritmo específico que simplemente calcula
norte
2
argminθ | θ ∙ xi yi |
yo=1
y agrega ruido de Laplace apropiadamente escalado independientemente a cada
coordenada de θ puede producir un ̃θ que difiere sustancialmente de θ. Pero si el
objetivo es aprender un predictor que funcionará bien para futuras entradas no vistas
(x, y), entonces se usa un cálculo ligeramente diferente para evitar el sobreajuste y la
diferencia (posiblemente grande) entre los vectores de coeficientes privados y no
privados no se traduce en una brecha en el error de clasificación!
Un fenómeno similar se ha observado en el ajuste de modelos.
Menos puede ser más. Muchos análisis piden más de lo que realmente utilizan. La
explotación de este principio está en el corazón de Report Noisy Max, donde por el
"precio" de precisión de una medición aprendemos una de las más grandes de muchas
mediciones. Al pedir “menos” (es decir, no exigir que se publiquen todas las medidas
con ruido, sino solo pedir la más grande), obtenemos “más” (mejor precisión). Un
principio familiar en la privacidad es minimizar la recopilación y el reporte. Aquí vemos
este juego en el ámbito de lo que debe revelarse, en lugar de lo que debe usarse en el
cómputo.
Salga cuando NO esté adelante. Esta es la filosofía detrás de ProponerPruebaLiberar,
en la que probamos de una manera que preserva la privacidad.
256 Reflexiones
ese pequeño ruido es suficiente para un cálculo previsto particular en el conjunto de datos
dado.
Algoritmos con límites de precisión dependientes de los datos. Esto se puede ver como
una generalización de Renunciar cuando no estás adelante. Los algoritmos con límites
de precisión dependientes de los datos pueden ofrecer excelentes resultados en conjuntos
de datos "buenos", como en ProponerPruebaLanzamiento, y la precisión puede
degradarse gradualmente a medida que disminuye la "bondad", una mejora con respecto
a ProponerPruebaLanzamiento .
Explotar conjuntos de consultas "agradables". Cuando los conjuntos (potencialmente
grandes) de consultas lineales se presentan como un lote, es posible, mediante el análisis
de la geometría de la matriz de consulta , obtener respuestas de mayor calidad que la que
se obtendría si las consultas se respondieran de forma independiente1 .
Relajación adicional de la privacidad diferencial Hemos visto que (, δ) la privacidad
diferencial es una relajación significativa de la privacidad diferencial que puede proporcionar
límites de precisión sustancialmente mejorados. Además, tal relajación puede ser esencial
para estas mejoras. Por ejemplo, los algoritmos ProponerPruebaLiberar solo pueden
ofrecer (ε, δ)privacidad diferencial para δ > 0. ¿Qué pasa con otras relajaciones, pero
aún significativas, de la privacidad diferencial? La privacidad diferencial concentrada es
una relajación que es incomparable con la privacidad diferencial (ε, δ) y que permite una
mayor precisión. En términos generales, garantiza que la gran pérdida de privacidad
ocurra con una probabilidad muy pequeña; por ejemplo, para todos los k la probabilidad
de pérdida de privacidad kε cae exponencialmente en k (ε, δ)la privacidad diferencial es
2
consistente con tener una pérdida de privacidad infinita con probabilidad . A diferencia de,
δ; por otro lado, la pérdida de privacidad 2ε puede ocurrir en la privacidad diferencial
concentrada con probabilidad constante, mientras que en la privacidad diferencial (ε, δ)
solo ocurrirá con la probabilidad limitada por δ, que normalmente tomamos como
criptográficamente pequeña.
¿Por qué podríamos sentirnos cómodos con esta relajación? La respuesta está en el
comportamiento bajo composición. Como participan los datos de un individuo
1Más precisamente, el análisis es del objeto K = ABk donde A e1 ,s la consulta es la bola L1
k matriz y B 1
kdimensional ; tenga en cuenta que K es la región factible en el espacio de
respuesta cuando la base de datos tiene un elemento.
13.1. Hacia la práctica de la privacidad 257
en muchas bases de datos y muchos cálculos diferentes, quizás la verdadera
preocupación sea la amenaza combinada de exposiciones múltiples. Esto es capturado
por la privacidad bajo composición. La privacidad diferencial concentrada permite una
mejor precisión al mismo tiempo que produce el mismo comportamiento bajo
composición que (ε, δ) (y (ε, 0)) privacidad diferencial.
La privacidad diferencial también enfrenta una serie de desafíos culturales. Uno
de los más significativos es el pensamiento no algorítmico. La privacidad diferencial es
una propiedad de un algoritmo. Sin embargo, muchas personas que trabajan con datos
describen sus interacciones con los datos en términos fundamentalmente no
algorítmicos, como "Primero, observo los datos". De manera similar, la limpieza de
datos a menudo se describe en términos no algorítmicos. Si los datos son
razonablemente abundantes y los analistas son enérgicos, entonces la aplicación de
"Datos sin procesar" de la metodología de Submuestra y Agregado descrita en el
Ejemplo 7.3 sugiere un camino para permitir interacciones no algorítmicas por parte
de analistas de confianza que seguirán las instrucciones. En general, parece plausible
que en conjuntos de datos de alta dimensión y escala de Internet, las interacciones no
algorítmicas sean la excepción.
¿Qué pasa con ε? En el Ejemplo 3.7 aplicamos el Teorema 3.20 para concluir
que para acotar la pérdida de privacidad acumulada durante toda la vida en ε = 1 con
probabilidad 1 − e −32, sobre la participación en 10 000 bases de datos, es suficiente
que cada base de datos sea (1/801 , 0)diferencialmente privado. Si bien k = 10 000
puede ser una sobreestimación, la dependencia de k es bastante débil (√ k) y, en el
peor de los casos, estos límites son estrechos, lo que descarta un límite más flexible
que ε0 = 1/801 para cada base de datos durante el período . vida útil de la base de
datos. Esto es simplemente un requisito demasiado estricto en la práctica.
Quizás podamos hacer una pregunta diferente: fijar ε, digamos, ε = 1 o ε = 1/10;
ahora pregunte: ¿Cómo se pueden repartir múltiples ε? Permitir una pérdida de
privacidad de ε por consulta es demasiado débil, y una pérdida de ε durante la vida útil
de la base de datos es demasiado fuerte. Algo intermedio, digamos, ε por estudio o ε
por investigador, puede tener sentido, aunque esto plantea la pregunta de quién es un
"investigador" y qué constituye un "estudio". Esto brinda una protección sustancialmente
mayor contra el compromiso de privacidad accidental e intencional que las prácticas
actuales, desde enclaves hasta contratos de confidencialidad.
Una propuesta diferente es menos prescriptiva. Esta propuesta se basa en
enfoques normativos de segunda generación para reducir la
258 Reflexiones
degradación, en particular los registros de emisión de contaminantes, como el Inventario
de Emisiones Tóxicas, que se ha demostrado que fomentan mejores prácticas a través
de la transparencia. Tal vez podría surgir un efecto similar con el análisis de datos
privados: un Registro Epsilon que describa los usos de los datos, la granularidad de la
protección de la privacidad, una "tasa de consumo" de pérdida de privacidad por unidad
de tiempo y un límite en la pérdida total de privacidad permitida antes de que se retiren
los datos, cuando se acompañado de una sanción financiera por pérdidas infinitas (o
muy grandes), puede conducir a la innovación y la competencia, desplegando los talentos
y recursos de un conjunto más grande de investigadores y profesionales de la privacidad
en la búsqueda de algoritmos privados diferenciales.
13.2 La lente de privacidad diferencial
Un diccionario etimológico en línea describe el significado original del siglo XVIII del
término de la palabra "estadística" como "ciencia que trata con datos sobre la condición
de un estado o comunidad". Esto resuena con la privacidad diferencial en la violación: si
la presencia o ausencia de los datos de un pequeño número de individuos cambia el
resultado de un análisis, entonces, en cierto sentido, el resultado es "sobre" estos pocos
individuos, y no describe la condición de la comunidad en su conjunto. Dicho de otra
manera, la estabilidad ante pequeñas perturbaciones en los datos es tanto el sello
distintivo de la privacidad diferencial como la esencia de una concepción común del
término “estadística”. La privacidad diferencial está habilitada por la estabilidad (Sección
7) y asegura la estabilidad (por definición). En cierto sentido obliga a que todas las
consultas sean de naturaleza estadística. Como la estabilidad también se entiende cada
vez más como una condición necesaria y suficiente clave para la capacidad de
aprendizaje, observamos una equivalencia moral tentadora entre la capacidad de
aprendizaje, la privacidad diferencial y la estabilidad.
Con esto en mente, no sorprende que la privacidad diferencial sea también un medio
para fines distintos de la privacidad y, de hecho, vimos esto con la teoría de juegos en la
Sección 10. El poder de la privacidad diferencial proviene de su adaptabilidad a la
composición. Así como la composición nos permite construir algoritmos privados
diferencialmente complejos a partir de bloques de construcción privados diferencialmente
más pequeños, proporciona un lenguaje de programación para construir algoritmos
estables para tareas analíticas complejas. Considere, por ejemplo, el problema de
obtener un conjunto de valores de postor y usarlos para cotizar
13.2. La lente de privacidad diferencial 259
una colección de bienes que están a la venta. Informalmente, los precios de
equilibrio walrasianos son precios tales que cada individuo puede comprar
simultáneamente su paquete de bienes favorito dados los precios, mientras
asegura que la demanda es exactamente igual a la oferta de cada bien. Entonces,
a primera vista, parecería que simplemente calcular estos precios y asignar a
cada persona su paquete de bienes favorito dados los precios produciría un
mecanismo en el que los agentes estarían incentivados a decir la verdad sobre
su función de valoración, ya que ¿cómo podría cualquier agente? hacer mejor
que recibir su paquete favorito de bienes? Sin embargo, este argumento falla,
porque en un equilibrio walrasiano, los agentes reciben su paquete de bienes
favorito dados los precios, pero los precios se calculan en función de las
valoraciones informadas, por lo que un agente laborioso pero deshonesto podría
ganar potencialmente manipulando los precios calculados. . Sin embargo, este
problema se resuelve (y resulta un mecanismo aproximadamente veraz) si los
precios de equilibrio se calculan utilizando un algoritmo diferencialmente privado,
precisamente porque los agentes individuales casi no tienen efecto en la
distribución de los precios calculados. Tenga en cuenta que esta aplicación es
posible gracias al uso de herramientas de privacidad diferencial, pero es
completamente ortogonal a las preocupaciones de privacidad. En términos más
generales, esta conexión es más fundamental: calcular equilibrios de varios tipos
utilizando algoritmos que tienen la propiedad de estabilidad garantizada por la
privacidad diferencial conduce a mecanismos aproximadamente veraces que
implementan estos resultados de equilibrio.
La privacidad diferencial también ayuda a garantizar la generalización en el
análisis de datos adaptativos. Adaptabilidad significa que las preguntas formuladas
y las hipótesis probadas dependen de los resultados de preguntas anteriores. La
capacidad de generalización significa que el resultado de un cálculo o una prueba
en el conjunto de datos está cerca de la realidad básica de la distribución de la
que se muestrean los datos. Se sabe que el paradigma ingenuo de responder
consultas con los valores empíricos exactos en un conjunto de datos fijos no
logra generalizarse incluso bajo una cantidad limitada de preguntas adaptativas.
Sorprendentemente, responder con privacidad diferencial no solo garantiza la
privacidad, sino que con alta probabilidad garantiza la generalización incluso para
muchas consultas elegidas de forma exponencial. Por lo tanto, la introducción
deliberada de ruido utilizando técnicas de privacidad diferencial tiene implicaciones
profundas y prometedoras para la validez de la investigación científica tradicional.
Apéndices
A
El mecanismo de Gauss
Sea f : N |X| re → R sea una función ddimensional arbitraria y defina su 2 sensibilidad
como ∆2f = maxadjacentx,y f(x) − f(y)2. El mecanismo gaussiano con parámetro σ agrega
ruido escalado a N (0, σ2 ) a cada uno de los componentes d de la salida.
2
Teorema A.1. Sea ε (0, 1) arbitrario. Para c > 2 ln(1.25/δ), el Mecanismo
Gaussiano con
parámetro σ ≥ c∆2f /ε es (ε, δ)diferencialmente privado.
Prueba. Hay una base de datos D y una consulta f, y el mecanismo devolverá f(D)+η, donde
el ruido se distribuye normalmente. Estamos sumando ruido N (0, σ2 ). Por ahora, suponga
que estamos hablando de funciones con valores reales, por lo que
∆f = ∆1f = ∆2f.
estamos mirando
2
mi (−1/2σ )X 2
en (A.1)
mi (−1/2σ2)(x+∆f) 2 .
Estamos investigando la probabilidad, dado que la base de datos es D, de observar una
salida que ocurre con una probabilidad muy diferente
261
262 El mecanismo de Gauss
bajo D que bajo una base de datos adyacente D donde el espacio
, de probabilidad es el
algoritmo de generación de ruido. El numerador en la relación anterior describe la
probabilidad de ver f(D) + x cuando la base de datos es D, el denominador corresponde a
la probabilidad de ver este mismo valor cuando la base de datos es D. Esta es una razón
de probabilidades, por lo que siempre es positiva, pero el logaritmo de la razón puede ser
negativo. Nuestra variable aleatoria de interés, la pérdida de privacidad, es
2 2
mi (−1/2σ )X
en
mi (−1/2σ2)(x+∆f) 2
y estamos viendo su valor absoluto.
2 2
mi (−1/2σ )X
en (−1/2σ 2 )[x 2−(x+∆f) 2 ] |
= | ln e
mi (−1/2σ2)(x+∆f) 2
1
2 2 2
= | − [x 2σ 2 − (x + 2x∆f + ∆f )]|
1
2
= | (2x∆f + (∆f) 2σ 2 )|. (A.2)
Esta cantidad está acotada por ε siempre que x < σ2 ε/∆f − ∆f /2. Para asegurar la
pérdida de privacidad limitada por ε con probabilidad de al menos 1 − δ, requerimos
2
pr[|x| ≥ σ ε/∆f − ∆f /2] < δ, y porque
nos interesa |x| encontraremos σ tal que
2
Pr[x ≥ σ ε/∆f − ∆f /2] < δ/2.
Supondremos en todo momento que ε ≤ 1 ≤ ∆f.
Usaremos el límite de la cola.
σ
Pr[x > t] ≤ √ mi −t 2/2σ 2 .
2π
Necesitamos:
σ 1
mi −t 2/2σ 2
< δ/2
√ 2π t
1 σ −t 2/2σ 2 < √ 2πδ/2
t 2/2σ
2 > 2/ √ 2πδ
ette σ
2 2
ln(t/σ) + t /2σ > ln(2/ √ 2πδ).
263
2
Tomando t = σ ε/∆f − ∆f /2, obtenemos
2 2 2
ln((σ ε/∆f − ∆f /2)/σ) + (σ ε/∆f − ∆f /2)2 /2σ > ln(2/ √ 2πδ)
2 1
= en .
π d
Escribamos σ = c∆f /ε; deseamos enlazar c. Comenzamos por encontrar las condiciones
bajo las cuales el primer término es no negativo.
2
1 2 ε ∆f 1 (∆f) ε ∆f
σ − = 2c _
−
σ ∆f 2 σ 2 ε ∆f 2
1 ∆f ∆f 2
= 2c _
−
σ ε
ε ∆f ∆f
= 2c _
−
c∆f ε 2
ε
= do .
2c
1 2 ε −
Como ε ≤ 1 y c ≥ 1, tenemos c − ε/(2c) ≥ c − 1/2. Entonces ln( ∆f σ (σ ∆f
2 )) > 0 siempre que c ≥ 3/2. Por lo tanto, podemos centrarnos en el término t 2/σ2 .
2 2
1 σ 2 ε ∆f 2 1 2c _ 1
− = ∆f
−
2σ 2 ∆f 2σ 2 ε 2
2
2 2c _ 1 2 ε 1
−
= (∆f)
ε 2 c 2(∆f) 2 2
2
1 2c _ 1 2 ε
= −
2 ε 2 2c _
1 2 2 2
= (C − ε + ε /4c ).
2
Como ε ≤ 1 la derivada de (c 2−ε+ε 2/4c 2 ) con respecto a c es positiva − ε+ ε 2/4c 2
2 2
en el rango que estamos considerando (c ≥ 3/2), entonces c ≥c _ − 8/9
y es suficiente para asegurar
2 1
2c − 8/9 > 2 ln .
π d
En otras palabras, necesitamos que
2c > 2 ln( 2/π) + 2 ln(1/δ) + ln(e 8/9 ) = ln(2/π) + ln(e 8/9 ) + 2 ln(1/δ),
2
que, dado que (2/π)e 8/9 < 1.55, se cumple siempre que c > 2 ln(1,25/δ).
Partiremos R como R = R1 R2, donde R1 = {x R : |x| ≤ c∆f /ε} y R2 = {x R : |
x| > c∆f /ε}. Fijar cualquier subconjunto S R, y
definir
S1 = {f(x) + x | x R1}
S2 = {f(x) + x | x R2}.
Tenemos
Pr [f(x) + x S] = Pr [f(x) + x S1] x N (0,σ2) x N (0,σ2)
+ Pr [f(x) + x S2] x N (0,σ2)
x N [f(x) + x S1] + δ ≤ Pr

(0,σ2)
ε
≤ mi [f(y) + x S1] + δ,
Prx N ( 0,σ2)
produciendo (ε, δ)privacidad diferencial para el mecanismo gaussiano en una dimensión.
Alta Dimensión. Para extender esto a funciones en Rm, defina ∆f = ∆2f. Ahora podemos
repetir el argumento, utilizando normas euclidianas. Sea v cualquier vector que satisfaga
v ≤ ∆f. Para un par fijo de bases de datos x, y estamos interesados en v = f(x) − f(y), ya
que esto es lo que nuestro ruido debe oscurecer. Como en el caso unidimensional,
buscamos condiciones en σ bajo las cuales la pérdida de privacidad
2 2
mi (−1/2σ )x−µ
en
mi (−1/2σ2)x+v−µ 2
265
está acotado por ε; aquí x se elige de N (0, Σ), donde (Σ) es una matriz diagonal con
2
entradas σ donde µ = (0, . . . ,
, 0).
2 2
mi (−1/2σ )x−µ 2
en (−1/2σ )[x−µ 2−x+v−µ 2 ] |
= | ln e
mi (−1/2σ2)x+v−µ 2
= 2
1 (x 2σ 2 x + v )) .
2
Utilizaremos el hecho de que la distribución de una normal con simetría esférica es
independiente de la base ortogonal de la que se extraen sus normales constituyentes, por
lo que podemos trabajar en una base que esté alineada con v .
Fijar tal base b1, . . . , bm, y dibujar x dibujando primero longitudes con signo [i] λi N (0,
= [λi]ibi ,
σ2 ), para i [m], luego definiendo x y finalmente dejando
x = metro
yo = 1 x . Suponga sin pérdida de generalidad que b1 es paralela a v.
2 x + v 2
Estamos interesados en | X |.
m [i]
Considera el triángulo rectángulo con base v + x ortogonal
[1] y arista 2 x i =
a v. La hipotenusa de este triángulo es x + v.
metro
2 [1] 2
x + v = v + x + X [yo] 2
yo=2
metro
2 =
X X [yo] 2 .
yo=1
Como v es paralela a x 2 [1] tenemos v + x [1] 2 2

= (v + λ1) + 2λ1 . De este modo,
2 − x 2
x + v = v ∙ v. Recuerde que v ≤ ∆f, y λ
N (0, σ), por lo que ahora estamos exactamente de vuelta en el caso unidimensional,
escribiendo λ1 en lugar de x en la Ecuación (A.2):
2 2 2
1 (x 2σ − x + v )) ≤ 1 (2λ1∆f − (∆f) 2σ 2 )
2
y el resto del argumento procede como arriba.
El argumento a favor del caso de alta dimensión destaca una debilidad de la privacidad
diferencial (ε, δ) que no existe para la privacidad diferencial (ε, 0). Arreglar una base de
datos x. En el caso (ε, 0), la garantía de indistinguibilidad se cumple para todas las bases
de datos adyacentes simultáneamente. En el
(ε, δ) la indistinguibilidad de los casos solo se cumple “prospectivamente”, es
decir, para cualquier y fija adyacente a x, la probabilidad de que el mecanismo
permita al adversario distinguir x de y es pequeña. En la prueba anterior, esto
se manifiesta por el hecho de que fijamos v = f(x) − f(y); no tuvimos que discutir
sobre todas las direcciones posibles de v simultáneamente y, de hecho, no
podemos, ya que una vez que fijamos nuestro vector de ruido x N (0, Σ), la
salida en x es o = f(x) + x, puede existir una y adyacente tal que la salida o =
f(x) + x es mucho más probable cuando la base de datos es y que cuando está
en x.
A.1 Notas bibliográficas
El teorema A.1 es un folclore observado inicialmente por los autores de [23].
En [66] aparece una generalización del ruido gaussiano no esférico.
B
Teoremas de composición para (ε, δ)DP
B.1 Extensión del teorema 3.16
Teorema B.1. Sea T1(D) : D → T1(D) C1 una función (, δ)dp, y para cualquier s1 C1,

T2(D, s1) : (D, s1) → T2(D, s1) C2 sea una función (, δ)dp dada la segunda entrada s1.
Luego mostramos que para cualquier vecino D, D para cualquier S C2 × C1, tenemos,
usando la notación en ,
nuestro papel
PAG((T2, T1) S) ≤ e 2P ((T2, T1) S) + 2δ. (B.1)
Prueba. Para cualquier C1 C1, defina
µ(C1) = P(T1 C1) − mi P (T1 C1) + ,
entonces µ es una medida en C1 y µ(C1) ≤ δ ya que T1 es (, δ)dp Como resultado, tenemos
para todo s1 C1,
P(T1 ds1) ≤ e P (T1 ds1) + µ(ds1). (B.2)
También tenga en cuenta que por la definición de (, δ)dp, para cualquier s1 C1,
PAGS((T2, s1) S) ≤ mi PAGS ((T2, s1) S) + δ 1 ≤ e
PAGS ((T2, s1) S) 1 + δ. (B.3)
267
268 Teoremas de composición para (ε, δ)DP
Entonces (B.2) y (B.3) dan (B.1):
P((T2, T1) S) ≤ P((T2, s1) S)P(T1 ds1)

S1
≤ e PAG ((T2, s1) S) 1 + δ PAG (T1 ds1)

S1
≤ e PAGS ((T2, s1) S) 1 PAGS (T1 ds1) + δ

S1
≤ mi PAG ((T2, s1) S) 1

S1
× (e P (T1 ds1) + µ(ds1)) + δ
≤ mi2 P ((T2, s1) S)P (T1 ds1) + µ(S1) + δ

S1
2P ((T2, T1) S) + 2δ. ≤ mi (B.4)
En las ecuaciones anteriores, S1 denota la proyección de S sobre C1.
El evento {(T2, s1) S} se refiere a {(T2(D, s1), s1) S} (o {(T2(D , s1), s1) S}).
Por inducción tenemos:
Corolario B.2 (teorema general de composición para algoritmos (, δ)dp).
Sea T1 : D → T1(D) (, δ)dp, y para k ≥ 2, Tk : (D, s1, . . . , sk−1) → Tk(D, s1, . . . , sk
−1) Ck sea (, δ)dp, para todo dado (sk−1, . . . , s1) Cj . Entonces para todos los
k−1
vecinos D, D y todos los S
j=1
k
j=1 cj
P((T1, . . . , Tk) S) ≤ e kP ((T1, . . . , Tk) S) + kδ.

Expresiones de gratitud
Nos gustaría agradecer a muchas personas por proporcionar comentarios
cuidadosos y correcciones en los primeros borradores de este libro, incluidos
Vitaly Feldman, Justin Hsu, Simson Garfinkel, Katrina Ligett, Dong Lin, David
Parkes, Ryan Rogers, Guy Rothblum, Ian Schmutte, Jon Ullman , Salil
Vadhan, Zhiwei Steven Wu y los árbitros anónimos. Este libro se utilizó en un
curso impartido por Salil Vadhan y Jon Ullman, cuyos estudiantes también
brindaron comentarios detallados. Este libro también se ha beneficiado de
conversaciones con muchos otros colegas, incluidos Moritz Hardt, Ilya
Mironov, Sasho Nikolov, Kobbi Nissim, Mallesh Pai, Benjamin Pierce, Adam
Smith, Abhradeep Thakurta, Abhishek Bhowmick, Kunal Tal war y Li Zhang.
Agradecemos a Madhu Sudan por proponer esta monografía.
269
Referencias
[1] S. Arora, E. Hazan y S. Kale. El método de actualización de pesos multiplicativos:
un metaalgoritmo y aplicaciones. Teoría de la Computación, 8(1):121–164, 2012.
[2] L.V. Balcan, A. Blum, JD Hartline e Y. Mansour. Diseño de mecanismos mediante
aprendizaje automático. En Fundamentos de Ciencias de la Computación, 2005.
FOCS 2005. 46th Annual IEEE Symposium on, páginas 605–614. IEEE, 2005.
[3] A. Beimel, SP Kasiviswanathan y K. Nissim. Límites en la complejidad de la
muestra para el aprendizaje privado y la publicación de datos privados. En Teoría
de la criptografía, páginas 437–454. Springer, 2010.
[4] A. Beimel, K. Nissim y U. Stemmer. Caracterización de la complejidad de la
muestra de estudiantes privados. En Actas de la Conferencia sobre Innovaciones
en Informática Teórica, páginas 97–110. Asociación de Maquinaria de
Computación, 2013.
[5] A. Bhaskara, D. Dadush, R. Krishnaswamy y K. Talwar. Mecanismos
incondicionales diferencialmente privados para consultas lineales. En HJ Karloff
y T. Pitassi, editores, Proceedings of the Symposium on Theory of Computing
Conference, Symposium on Theory of Computing, Nueva York, NY, EE. UU., 19–
22 de mayo de 2012, páginas 1269–1284 . 2012.
[6] A. Blum, C. Dwork, F. McSherry y K. Nissim. Privacidad práctica: el marco SuLQ.
En Chen Li, editor, Principios de los sistemas de bases de datos, páginas 128–
138. ACM, 2005.
[7] A. Blum, C. Dwork, F. McSherry y K. Nissim. Privacidad práctica: el marco sulq.
En Principios de sistemas de bases de datos. 2005.
270
Referencias 271
[8] A. Blum, K. Ligett y A. Roth. Un enfoque de la teoría del aprendizaje para la
privacidad de bases de datos no interactivas. En Cynthia Dwork, editora, Simposio
sobre teoría de la computación, páginas 609–618. Asociación de Maquinaria de
Computación, 2008.
[9] A. Blum y Y. Monsour. Aprendizaje, minimización del arrepentimiento y equilibrios.
2007.
[10] JL Castí. Cinco reglas de oro: grandes teorías de las matemáticas del siglo XX y
por qué son importantes. Wiley, 1996.
[11] TH Hubert Chan, E. Shi y D. Song. Publicación privada y continua de estadísticas.
En Automata, Languages and Programming, páginas 405–417.
Springer, 2010.
[12] K. Chaudhuri y D. Hsu. Ejemplo de límites de complejidad para el aprendizaje
diferencialmente privado. En Actas de la Conferencia Anual sobre Teoría del
Aprendizaje (COLT 2011). 2011.
[13] K. Chaudhuri, C. Monteleoni y AD Sarwate. Minimización empírica del riesgo
diferencialmente privada. Revista de investigación de aprendizaje automático:
JMLR, 12:1069, 2011.
[14] K. Chaudhuri, A. Sarwate y K. Sinha. Componentes principales diferencialmente
privados casi óptimos. En Advances in Neural Information Processing Systems
25, páginas 998–1006. 2012.
[15] Y. Chen, S. Chong, IA Kash, T. Moran y SP Vadhan. Mecanismos veraces para
agentes que valoran la privacidad. Conferencia de la Asociación de Maquinaria
Informática sobre Comercio Electrónico, 2013.
[16] P. Dandekar, N. Fawaz y S. Ioannidis. Subastas de privacidad para sistemas de
recomendación. En Internet and Network Economics, páginas 309–322.
Springer, 2012.
[17] A. De. Límites inferiores en la privacidad diferencial. En Theory of Cryptography
Conference, páginas 321–338. 2012.
[18] I. Dinur y K. Nissim. Revelar información preservando la privacidad.
En Actas de la Asociación de Maquinaria Informática SIGACT SIGMODSIGART
Symposium on Principles of Database Systems, páginas 202–210. 2003.
[19] JC Duchi, MI Jordan y MJ Wainwright. Privacidad local y tarifas minimax
estadísticas. preimpresión de arXiv arXiv:1302.3203, 2013.
[20] C. Dwork. Privacidad diferencial. En Actas del Coloquio Internacional sobre
Autómatas, Lenguajes y Programación (ICALP)(2), páginas 1–12. 2006.
272 Referencias
[21] C. Dwork, K. Kenthapadi, F. McSherry, I. Mironov y M. Naor. Nuestros datos, nosotros
mismos: Privacidad a través de la generación distribuida de ruido. En EURO
CRYPT, páginas 486–503. 2006.
[22] C. Dwork y J. Lei. Privacidad diferencial y estadísticas robustas. En Actas del
Simposio sobre Teoría de la Computación (STOC) de la Asociación Internacional
de Maquinaria de Computación de 2009. 2009.
[23] C. Dwork, F. McSherry, K. Nissim y A. Smith. Calibración del ruido a la sensibilidad
en el análisis de datos privados. En Theory of Cryptography Conference '06, páginas
265–284. 2006.
[24] C. Dwork, F. McSherry y K. Talwar. El precio de la privacidad y los límites de la
decodificación de lp. En Actas del Simposio sobre Teoría de la Computación de la
Asociación de Maquinaria de Computación, páginas 85–94. 2007.
[25] C. Dwork y M. Naor. Sobre las dificultades de la prevención de la divulgación en las
bases de datos estadísticas o el caso de la privacidad diferencial. Revista de
Privacidad y Confidencialidad, 2010.
[26] C. Dwork, M. Naor, T. Pitassi y GN Rothblum. Privacidad diferencial bajo observación
continua. En Proceedings of the Association for Computing Machinery Symposium
on Theory of Computing, páginas 715–724.
Asociación de Maquinaria de Computación, 2010.
[27] C. Dwork, M. Naor, T. Pitassi, GN Rothblum y Sergey Yekhanin.
Algoritmos de transmisión panprivada. En Actas de la Conferencia Internacional
sobre Supercomputación. 2010.
[28] C. Dwork, M. Naor, O. Reingold, GN Rothblum y SP Vadhan. Sobre la complejidad
de la liberación de datos privados diferencialmente: Algoritmos eficientes y
resultados de dureza. En Simposio sobre Teoría de la Computación '09, páginas
381–390. 2009.
[29] C. Dwork, M. Naor y S. Vadhan. La privacidad del analista y el poder del Estado. En
Fundamentos de la Informática. 2012.
[30] C. Dwork, A. Nikolov y K. Talwar. Algoritmos eficientes para la liberación privada de
marginales a través de relajaciones convexas. En Actas del Simposio Anual sobre
Geometría Computacional (SoCG). 2014.
[31] C. Dwork y K. Nissim. Minería de datos que preserva la privacidad en bases de datos
particionadas verticalmente. En Actas de criptología 2004, vol. 3152, páginas 528–
544. 2004.
[32] C. Dwork, GN Rothblum y SP Vadhan. Potenciación y privacidad diferencial. En
Foundations of Computer Science, páginas 51–60. 2010.
Referencias 273
[33] C. Dwork, K. Talwar, A. Thakurta y L. Zhang. Análisis de gauss: límites óptimos
para pca que preserva la privacidad. En Simposio de Teoría de la Computación.
2014.
[34] L. Fleischer y Y.H. Lyu. Subastas aproximadamente óptimas para vender
privacidad cuando los costos están correlacionados con los datos. En Association
for Computing Machinery Conference on Electronic Commerce, páginas 568–
585. 2012.
[35] A. Ghosh y K. Ligett. Privacidad y coordinación: Computación sobre bases de
datos con participación endógena. En Actas de la decimocuarta conferencia
ACM sobre comercio electrónico (EC), páginas 543–560, 2013.
[36] A. Ghosh y A. Roth. Venta de privacidad en una subasta. En Association for
Computing Machinery Conference on Electronic Commerce, páginas 199–208.
2011.
[37] A. Groce, J. Katz y A. Yerukhimovich. Límites de la privacidad diferencial
computacional en el entorno cliente/servidor. En Actas de la Conferencia de
Teoría de la Criptografía. 2011.
[38] A. Gupta, M. Hardt, A. Roth y J. Ullman. Liberación privada de conjunciones y la
barrera de consulta estadística. En Simposio sobre teoría de la computación '11,
páginas 803–812. 2011.
[39] A. Gupta, A. Roth y J. Ullman. Construcciones iterativas y liberación de datos
privados. En Theory of Cryptography Conference, páginas 339–356. 2012.
[40] J. Håstad, R. Impagliazzo, L. Levin y M. Luby. Un generador pseudoaleatorio de
cualquier función unidireccional. Revista SIAM de Computación, 28, 1999.
[41] M. Hardt, K. Ligett y F. McSherry. Un algoritmo simple y práctico para la liberación
de datos privados diferencialmente. En Advances in Neural Information Processing
Systems 25, páginas 2348–2356. 2012.
[42] M. Hardt y A. Roth. Superando la respuesta aleatoria en matrices incoherentes.
En Actas del Simposio sobre Teoría de la Computación, páginas 1255–1268.
Asociación de Maquinaria de Computación, 2012.
[43] M. Hardt y A. Roth. Más allá del análisis del peor de los casos en el cálculo
privado de vectores singulares. En Actas del Simposio sobre Teoría de la
Computación. 2013.
[44] M. Hardt y GN Rothblum. Un mecanismo de pesos multiplicativos para el análisis
de datos que preserva la privacidad. En Foundations of Computer Science,
páginas 61–70. Sociedad de Computación IEEE, 2010.
274 Referencias
[45] M. Hardt y K. Talwar. Sobre la geometría de la privacidad diferencial. En Actas
del Simposio sobre Teoría de la Computación de la Asociación de Maquinaria
de Computación, páginas 705–714. Asociación de Maquinaria de Computación,
2010.
[46] N. Homer, S. Szelinger, M. Redman, D. Duggan, W. Tembe, J. Muehling, J.
Pearson, D. Stephan, S. Nelson y D. Craig. Resolución de individuos que
aportan trazas de ADN a mezclas altamente complejas utilizando
micromatrices de genotipado snp de alta densidad. PLoS Genet, 4, 2008.
[47] J. Hsu, Z. Huang, A. Roth, T. Roughgarden y ZS Wu. Casamientos y
asignaciones privadas. preimpresión de arXiv arXiv:1311.2828, 2013.
[48] J. Hsu, A. Roth y J. Ullman. Privacidad diferencial para el analista a través del
cálculo de equilibrio privado. En Actas del Simposio sobre Teoría de la
Computación (STOC) de la Asociación para la Maquinaria de Computación,
páginas 341–350, 2013.
[49] Z. Huang y S. Kannan. El mecanismo exponencial del bienestar social: Privado,
veraz y casi óptimo. En Simposio anual de IEEE sobre los fundamentos de la
informática (FOCS), páginas 140–149. 2012.
[50] P. Jain, P. Kothari y A. Thakurta. Aprendizaje en línea diferencialmente privado.
Journal of Machine Learning Research — Actas Track, 23:24.1–24.34, 2012.
[51] M. Kapralov y K. Talwar. Sobre la aproximación diferencialmente privada de
bajo rango. En Sanjeev Khanna, editor, Simposio sobre algoritmos discretos,
páginas 1395–1414. SIAM, 2013.
[52] SP Kasiviswanathan, HK Lee, Kobbi Nissim, S. Raskhodnikova y A. Smith.
¿Qué podemos aprender en privado? SIAM Journal on Computing, 40(3):793–
826, 2011.
[53] M.Kearns. Aprendizaje tolerante al ruido eficiente a partir de consultas
estadísticas. Journal of the Association for Computing Machinery (JAssociation
for Computing Machinery), 45(6):983–1006, 1998.
[54] M. Kearns, M. Pai, A. Roth y J. Ullman. Diseño de mecanismos en grandes
juegos: Incentivos y privacidad. En Actas de la 5ª conferencia sobre
Innovaciones en informática teórica (ITCS), 2014.
[55] D. Kifer, A. Smith y A. Thakurta. Minimización del riesgo empírico convexo
privado y regresión de alta dimensión. Revista de investigación de aprendizaje
automático, 1:41, 2012.
[56] K. Ligett y A. Roth. Tómalo o déjalo: realizar una encuesta cuando la privacidad
tiene un costo. En Internet and Network Economics, páginas 378–391.
Springer, 2012.
Referencias 275
[57] N. Littlestone y MK Warmuth. El algoritmo de la mayoría ponderada.
En Simposio anual sobre fundamentos de la informática, 1989, páginas 256–261.
IEEE, 1989.
[58] A. McGregor, I. Mironov, T. Pitassi, O. Reingold, K. Talwar y SP
Vadhan. Los límites de la privacidad diferencial de dos partes. En Foundations of
Computer Science, páginas 81–90. Sociedad de Computación IEEE, 2010.
[59] F. McSherry. Consultas integradas de privacidad (código base). Disponible en el
sitio web de descargas de Microsoft Research. Ver también las Actas de SIG
MOD 2009.
[60] F. McSherry y K. Talwar. Diseño de mecanismos mediante privacidad diferencial.
En Foundations of Computer Science, páginas 94–103. 2007.
[61] F. McSherry y K. Talwar. Diseño de mecanismos mediante privacidad diferencial.
En Foundations of Computer Science, páginas 94–103. 2007.
[62] D. Mir, S. Muthukrishnan, A. Nikolov y RN Wright. Algoritmos panprivados a través
de estadísticas en bocetos. En Actas de la Asociación de Maquinaria Informática
Simposio SIGMODSIGACTSIGART sobre principios de sistemas de bases de
datos, páginas 37–48. Asociación de Maquinaria de Computación, 2011.
[63] I. Mironov. Sobre la importancia de los bits menos significativos para la privacidad
diferencial. En T. Yu, G. Danezis y VD Gligor, editores, Conferencia de la Asociación
para la Maquinaria de Computación sobre Seguridad Informática y de las
Comunicaciones, páginas 650–661. Asociación de Maquinaria de Computación, 2012.
[64] I. Mironov, O. Pandey, O. Reingold y SP Vadhan. Privacidad diferencial
computacional. En Actas de CRIPTOLOGÍA, páginas 126–142. 2009.
[65] A. Narayanan y V. Shmatikov. Desanonimización robusta de grandes conjuntos de
datos dispersos (cómo romper el anonimato del conjunto de datos del premio
netflix). En Actas del Simposio IEEE sobre seguridad y privacidad. 2008.
[66] A. Nikolov, K. Talwar y L. Zhang. La geometría de la privacidad diferencial: los
casos dispersos y aproximados. Simposio de Teoría de la Computación, 2013.
[67] K. Nissim, C. Orlandi y R. Smorodinsky. Diseño de mecanismo consciente de la
privacidad. En Association for Computing Machinery Conference on Elec tronic
Commerce, páginas 774–789. 2012.
[68] K. Nissim, S. Raskhodnikova y A. Smith. Sensibilidad suave y muestreo en el
análisis de datos privados. En Actas del Simposio sobre Teoría de la Computación
de la Asociación de Maquinaria de Computación, páginas 75–84. 2007.
276 Referencias
[69] K. Nissim, R. Smorodinsky y M. Tennenholtz. Diseño de mecanismo aproximadamente óptimo
a través de privacidad diferencial. En Innovaciones en informática teórica, páginas 203–213.
2012.
[70] M. Pai y A. Roth. Privacidad y diseño de mecanismos. Intercambios SIGecom,
2013.
[71] R. Rogers y A. Roth. Selección de equilibrio asintóticamente veraz en grandes juegos de
congestión. preimpresión de arXiv arXiv:1311.2625, 2013.
[72] A. Roth. Privacidad diferencial y la dimensión devastadora de las consultas lineales. En
Aproximación, aleatorización y optimización combinatoria, algoritmos y técnicas, páginas
683–695. Springer, 2010.
[73] A. Roth. Compra de datos privados en una subasta: el problema del topógrafo sensible.
Association for Computing Machinery SIGecom Exchanges, 11(1):1– 8, 2012.
[74] A. Roth y T. Roughgarden. Privacidad interactiva a través del mecanismo mediano. En
Symposium on Theory of Computing '10, páginas 765–774. 2010.
[75] A. Roth y G. Schoenebeck. Realización de encuestas veraces, a bajo precio. En Actas de la
Conferencia ACM sobre Comercio Electrónico, páginas 826–843. 2012.
[76] BIP Rubinstein, PL Bartlett, L. Huang y N. Taft. Aprendizaje en un gran espacio funcional:
mecanismos de preservación de la privacidad para el aprendizaje de svm. preimpresión de
arXiv arXiv:0911.5708, 2009.
[77] R. Schapire. El enfoque de impulso para el aprendizaje automático: una descripción general.
En DD Denison, MH Hansen, C. Holmes, B. Mallick y B. Yu, editores, Estimación y
clasificación no lineales. Springer, 2003.
[78] R. Schapire y Y. Singer. Algoritmos de impulso mejorados que utilizan predicciones con
calificación de confianza. Aprendizaje automático, 39:297–336, 1999.
[79] RE Schapire y Y. Freund. Impulso: Fundamentos y Algoritmos.
Prensa del MIT, 2012.
[80] A. Smith y AG Thakurta. Selección de características privada diferencialmente a través de
argumentos de estabilidad y la robustez del lazo. En Actas de la Conferencia sobre Teoría
del Aprendizaje. 2013.
[81] L. Sweeney. Tejer la tecnología y la política juntas para mantener la confidencialidad. Journal
of Law, Medicina Ética, 25:98–110, 1997.
[82] J.Ullman. Responder n{2+o(1)} consultas de conteo con privacidad diferencial es difícil. En
D. Boneh, T. Roughgarden y J. Feigenbaum, editores, Symposium on Theory of Computing,
páginas 361–370. Asociación de Maquinaria de Computación, 2013.
Referencias 277
[83] LG Valiente. Una teoria de lo aprendible. Communications of the Association
for Computing Machinery, 27(11):1134–1142, 1984.
[84] SLWarner. Respuesta aleatoria: una técnica de encuesta para eliminar el sesgo
de respuesta evasiva. Revista de la Asociación Estadounidense de Estadística,
60(309):63–69, 1965.
[85] D. Xiao. ¿Es compatible la privacidad con la veracidad? En Actas de la
Conferencia sobre Innovaciones en Informática Teórica, páginas 67–86. 2013.

Los Fundamentos Algorítmicos de La Privacidad Diferencial

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Los Fundamentos Algorítmicos de La Privacidad Diferencial

Uploaded by

Copyright:

Available Formats

Machine Translated by Google

∆(B) = x R |B| : xi ≥ 0 para todo i y xi = 1

Pr[M(x) S] ≤ exp(ε) Pr[M(y) S] + δ,

Pr[f(M(x)) S] = Pr[M(x) T] ≤ exp()

Pr[M(x) S] ≤ exp(kε) Pr[M(y) S],

Ea f(M(x))[ui(a)] = ui(a) ∙ Pr [a]

metro yo=1 E[S] su S =

= 3/4 = Pr[Respuesta = No|Verdad = No] = 3.

Consultas numéricas, funciones f : N |X| tipos k → R , son de los mas divertidos

Prueba. Sea x N |X| y y N |X| sea tal que x − y1 ≤ 1, y sea f(∙) alguna

py(z) yo=1 exp(−

Teorema 3.8. Sea f : N |X| δ k → R , y sea y = ML(x, f(∙), ε). Entonces

Prueba. Fijar D = D {a}. Sea c, c respectivamente c , denote el vector de

Pr[ri ≥ 1 + r ] ≥ mi −ε Pr[ri ≥ r ] = e −ε Pr[i|D, r−i ]

Pr[i|D , r−i ] ≥ Pr[ri ≥ 1 + r ] ≥ mi −ε Pr[ri ≥ r ] = e −ε Pr[i|D, r−i ],

yo + rc > c j + rj

Pr[i|D, r−i ] ≥ Pr[ri ≥ r + 1] ≥ mi −ε Pr[ri ≥ r ] = mi −ε Pr[i|D , r−i ],

∆u ≡ máx máx r R |u(x, r) − u(y, r)|.

Prueba. Sean x, y N |X| ser tal que x − y1 ≤ 1. Fija cualquier (r1, r2) R1 ×

D∞(Y Z) = máx. ln Pr[Y S] .

1. A genera dos bases de datos adyacentes x Mi i0 1 y x i , un mecanismo

Prueba. El teorema 3.20 nos dice que la composición será (ε = 2k ln(1/ , kδ + δ ) para

ˆPR [A = a] = Pr ˆ ˆ > g (D) y fk(D) + νk ≥ Tˆ]

Definición 3.10 (Precisión numérica). Diremos que un algoritmo (R { }) que

f(y) = yi ∙ f(χi) = f(xi).

Teorema 4.8. Para cualquier clase finita de consultas lineales Q, si R = {y : y O

Ψt − Ψt+1 ≥ η rt , xt − rt , 2 x − η

|X| t+1 t+1

−ηrt , x − log 1 + η = 2 xt − ηrt ,

≥ η rt , xt − rt , 2 x − η .

α 2a _ α 2a _ 2a _

Observe que x − x 2 1 2 = x 2 1 desde x = 0, yx 2

D0 x tal que D0 = 1/|X | para todo i [|X |].

DA = argumento mínimo máximo Ea D[c(a, b)].

v B = máx mín Mib D[c(a, b)].

una v ≤ f B Eχ DA [c(χ, f)]

Aquí, simplemente observamos que, por definición, si Eχ DA c(χ, f) = c < 0, entonces Eχ DA

2. a + es −1 si At es (λ + µ)­inexacta para q, y 1 en caso contrario. To = −1 entonces

DT +1[q] = uT, q . (6.4)

Como en,q ≤ a t q tenemos:

1} fracción de la masa de la distribución Dt . Recuerde que a t,q η)­ {−1,

= Zt−1 (e α + mi−α ) + rt(e −α ­ mi α )

Lema 6.4. Sea ε = 4αT . Para todo i [T], una vez fijado (S1, A1, . . . , Si ,

εmuestra = 2kT log(1/δmuestra)(α4T ρ/µ) + kT (6.7)

µ O((T 3/2 √ k log(1/β)αρ)/εmuestra). (6.8)

(vq − α) yo ≤ ai ≤ (vq + α) ay _

Requerir: conjunto de datos: x X parámetros de privacidad: , 1: δ > 0 ,

Pr[s = |x] ≤ e ε Pr[s = |y].

δ x / D0 : Pr[s = |x] ≤ .

4. C R +, x D0 y todos los vecinos y de x:

Definición 7.3. La distancia a la inestabilidad de un conjunto de datos x X con con

Lema 7.4. Fija q (0, 1). Dada f : X la función ̂f = → R, sea ̂f : X → R ser

Prueba. Para cada cadena w {0, 1} de k , considere la base de datos xw que consta

Dicho de otra manera, Bw es el ∞ abierto de radio n/2 alrededor de nw {0, n} k .

Teorema 8.8. Para cualquier k, d, n N y ε (0, 1/40], donde n ≥ min{k/ε, d/ε},

Prueba. Dado que asumimos w ≥ 31, tenemos que si z N xi d está cerca de algunos

1. Habrá una consulta para cada función {fs}s {0,1} κ en la familia

Pr[Xi = 1|T = t] = Pr[T = t|Xi = 1] ≤ e ε < 1 + 2ε.

exp(−)Ez A(y) [f(z)] ≤ Ez A(x) [f(z)] ≤ exp()Ez A(y) [f(z)].

≥ Eo M(t = i ,t−i) [u(ti ,(o, t i ))]

Escribimos ri(t, s, Rˆ i) arg maxr ui(t, s, r) para denotar es óptimo

γ = mín s O u(ti , s, ri(ti , s, Ri)) − u(ti , s, ri(t yo , s, Ri)) ,

Lema 10.2. Por todo yo, ti , yo , _ t−i :

2. a + es −1 si At es (λ + µ)inexacta para q, y 1 en caso contrario. To = −1 entonces

1} fracción de la masa de la distribución Dt . Recuerde que a t,q η) {−1,

= Zt−1 (e α + mi−α ) + rt(e −α mi α )

Sea f : N |X| re → R sea una función ddimensional arbitraria y defina su 2 sensibilidad

Teorema B.1. Sea T1(D) : D → T1(D) C1 una función (, δ)dp, y para cualquier s1 C1,