CONFIDE-Bench — Бенчмарк слоёв деидентификации

Двуязычный бенчмарк деидентификации для транскриптов психотерапии.

CONFIDE · github.com/glebis/confide · автор Gleb Kalinin и контрибьюторы CONFIDE · опубликовано для исследований и обучения под лицензией репозитория. Транскрипты терапии синтетические/вымышленные — никаких реальных данных пациентов; единственный реальнотекстовый срез (RU-real / JayGuard) — это внешние, анонимизированные, неклинические публичные данные.

Сайт проекта, объяснение простым языком и как поучаствовать: confide.salient.community.

Слой-детектор на базе LLM (ollama) & локальный атакующий: Qwen2.5-3B-Instruct (qwen2.5:3b) через Ollama, температура 0. Детерминированные слои: Natasha (NER для русского), двуязычный regex-слой и OpenAI Privacy Filter (английский).

Деидентификация — это не один инструмент, а стек детекторов, и честный вопрос в том, какой слой окупает сжигаемый им CPU. Этот бенчмарк составляет слои-детекторы через объединение спанов на транскриптах психотерапии на русском и английском, оценивает каждую комбинацию так, как это делают опубликованные работы по деидентификации — с приоритетом полноты, на уровне сущностей, прямые против квази — и ставит более острый вопрос, чем “насколько хорош инструмент”: что способна отловить только LLM и что всё ещё утекает после маскирования?

1. Какой слой что отлавливает

Именно слой LLM поднимает возраст, медикамент и профессию выше детерминированного базового уровня.

2. Лучшая последовательность по языкам

Столбцы показывают полноту покрытия; ★ — это предлагаемый дефолтный стек, который жертвует небольшой полнотой ради значительного выигрыша в скорости/точности — не всегда самый высокий столбец.

◇ — экспериментальная замена в ★-стеке (LLM Gemma или NER-слой GLiNER): отдельный кэш детектора, не продвинутый дефолт (проверки дисперсии и продвижения не пройдены; см. раздел «Сравнение моделей»).

combo	cov R↑	cov F2↑	ent R↑	direct↑	quasi↑	preds
regex	0.071	0.086	0.398	0.407	0.390	85
natasha	0.775	0.752	0.301	0.370	0.237	1151
ollama·qwen2.5:3b	0.293	0.329	0.230	0.185	0.271	421
natasha+regex	0.846	0.807	0.699	0.778	0.627	1236
natasha+ollama·qwen2.5:3b	0.825	0.774	0.487	0.537	0.441	1333
regex+ollama·qwen2.5:3b	0.342	0.379	0.469	0.463	0.475	480
natasha+regex+ollama·qwen2.5:3b ★	0.875	0.811	0.726	0.815	0.644	1392
natasha+regex+gemma3 ◇	0.954	0.366	0.850	0.907	0.797	9093
natasha+regex+gliner ◇	0.980	0.412	0.885	0.889	0.881	7927

RU-real (срез JayGuard) — 60 док., 77 эталонных упоминаний (внешний, анонимизированный, реальный, но неклинический русский текст — Apache-2.0; только PERSON/LOCATION, эталон получен машинно, без человеческой адъюдикации)

combo	cov R↑	cov F2↑	ent R↑	direct↑	quasi↑	preds
regex	0.000	0.000	0.000	0.000	0.000	13
natasha	0.403	0.418	0.403	0.358	0.700	63
ollama·qwen2.5:3b	0.610	0.547	0.610	0.657	0.300	160
natasha+regex	0.403	0.404	0.403	0.358	0.700	76
natasha+ollama·qwen2.5:3b	0.792	0.674	0.792	0.791	0.800	180
regex+ollama·qwen2.5:3b	0.610	0.547	0.610	0.657	0.300	160
natasha+regex+ollama·qwen2.5:3b ★	0.792	0.674	0.792	0.791	0.800	180
natasha+regex+gemma3 ◇	0.961	0.772	0.961	0.970	0.900	201
natasha+regex+gemma4-12b-mlx ◇	1.000	0.830	1.000	1.000	1.000	172

EN-synth — 32 док., 46 эталонных (gold) упоминаний (нет уровня сущностей / деления на прямые-квази: англоязычные наборы не содержат поэлементной аннотации entity_id, поэтому оценивается только покрытие на уровне упоминаний)

2b. Устойчивость к состязательным примерам (RU)

combo	cov R↑	cov F2↑	preds
regex	0.370	0.419	19
opf	0.783	0.818	38
ollama·qwen2.5:3b	0.500	0.525	49
opf+regex	0.913	0.921	46
opf+ollama·qwen2.5:3b	0.848	0.815	58
regex+ollama·qwen2.5:3b	0.761	0.743	59
opf+regex+ollama·qwen2.5:3b ★	0.978	0.910	66
natasha+regex+ollama·qwen2.5:3b	0.783	0.758	61
presidio	0.913	0.907	51
philter	0.783	0.799	47
presidio+regex+ollama·qwen2.5:3b	0.935	0.880	66
opf+regex+gemma3 ◇	1.000	0.945	62
opf+regex+gemma4-12b-mlx ◇	1.000	0.976	54
opf+regex+gemma4-26b·cloud ◇	1.000	0.984	52
opf+regex+gliner ◇	0.957	0.800	91

На проверке сложных форм полный стек отлавливает 19/20 состязательных идентификаторов — единственная утечка — это русское имя в латинской транслитерации.

2c. Сравнение моделей

Экспериментальная замена модели показывает, что Gemma превосходит базовую Qwen на каждом полном коротком срезе; локальная Gemma4 сильнее всего на русских наборах, а облачная HF Gemma4 лидирует на английском стеке и стабильна на 5 репликах. GLiNER-multi — локальный zero-shot NER-слой — представлен на тех же условиях. ★-дефолты не меняются, пока не пройдены проверки дисперсии и продвижения.

Строки — оценки стеков из отдельных кэшей детекторов, сгенерированные score_llm_experiment.py. Облачные строки использовали только синтетический текст. Chunking Gemma3 на длинном RU-срезе включён как компромисс полноты и шума, а не как продвинутый дефолт; отсутствующие строки опущены, а не засчитаны как ноль.

3. Прямые против квази-идентификаторов (TAB)

combo	cov R↑	cov F2↑	ent R↑	direct↑	quasi↑	preds
regex	0.400	0.455	0.400	0.471	0.000	8
natasha	0.350	0.389	0.350	0.353	0.333	10
ollama·qwen2.5:3b	0.650	0.663	0.650	0.588	1.000	25
natasha+regex	0.750	0.765	0.750	0.824	0.333	18
natasha+regex+ollama·qwen2.5:3b ★	0.950	0.887	0.950	0.941	1.000	30
natasha+regex+gemma3 ◇	1.000	0.917	1.000	1.000	1.000	32
natasha+regex+gemma4-12b-mlx ◇	1.000	0.948	1.000	1.000	1.000	28
natasha+regex+gemma4-26b·cloud ◇	1.000	0.943	1.000	1.000	1.000	26
natasha+regex+gliner ◇	1.000	0.826	1.000	1.000	1.000	41

dataset	model	cov R↑	cov F2↑	ent R	preds
RU-synth long	Qwen2.5-3B	0.875	0.802	0.726	1392
RU-synth long	Gemma3	0.954	0.362	0.850	9093
RU-synth long	GLiNER-multi PII (zero-shot NER)	0.980	0.407	0.885	7927
RU-adv	Qwen2.5-3B	0.950	0.887	0.950	30
RU-adv	Gemma3	1.000	0.917	1.000	32
RU-adv	Gemma4 12B-MLX	1.000	0.948	1.000	28
RU-adv	Gemma4 26B-A4B (HF cloud)	1.000	0.943	1.000	26
RU-adv	GLiNER-multi PII (zero-shot NER)	1.000	0.826	1.000	41
RU-real	Qwen2.5-3B	0.792	0.614	0.792	180
RU-real	Gemma3	0.961	0.730	0.961	201
RU-real	Gemma4 12B-MLX	1.000	0.820	1.000	172
EN-synth	Qwen2.5-3B	0.978	0.870	—	66
EN-synth	Gemma3	1.000	0.904	—	62
EN-synth	Gemma4 12B-MLX	1.000	0.955	—	54
EN-synth	Gemma4 26B-A4B (HF cloud)	1.000	0.962	—	52
EN-synth	GLiNER-multi PII (zero-shot NER)	0.957	0.782	—	91

Прямые идентификаторы достигают полноты на уровне сущностей 0.81; квази-идентификаторы остаются ниже — 0.64.

4. Что выживает — реконструкция & реидентификация

31% квази-идентификаторов выживают в дефолтном стеке (оба клиента); избыточное маскирование стоит 20% от объёма маскирования.

5. Приватность против полезности — можно ли деидентифицировать и всё же анализировать?

Слабый локальный атакующий восстанавливает 1/10 атрибутов (top-3); при этом 91% клинического сигнала переживает маскирование.

6. Стек CONFIDE против устоявшихся базовых решений (Presidio, Philter)

Готовые деидентификаторы могут не уступать стеку по покрытию, но сильно отстают по типозависимому micro-F1.

7. Регуляторный остаточный риск (RU · EN)

Метрики обнаружения измеряют то, что мы ловим; регуляторов же волнует то, что выживает. В проекции на названные риски дефолтный RU-стек оказывается на уровне RED — это обусловлено наличием 9 релевантных остаточных сущности прямых идентификаторов (ключ реидентификации, оставленный в тексте). Ещё 1 — это прописанные словами цифровые идентификаторы, по замыслу выходящие за рамки regex-слоя и описанные отдельно.

датасет	tier	direct res	special res	HIPAA	worst doc	inf rate	link AUC
RU	RED	9	6	4/6	70%	20%	0.46
EN-synth	AMBER	0	0	6/7	0%	20%	0.46

Уровень остаточного риска по каждому языку под ★-дефолтным стеком этого языка. RU получает RED (прямые идентификаторы утекают по строгому критерию сущностей TAB); EN получает AMBER (утечки прямых ID нет, но ненулевой вывод / неполное покрытие HIPAA). Полнота на худшем документе для EN — 0%, потому что при крошечном эталоне один документ с PII может быть полностью пропущен — это шум малой выборки, а не системный сбой EN. Подробности по RU — ниже.

Источники & благодарности

CONFIDE-Bench опирается на перечисленную ниже литературу по деидентификации, реидентификации и документированию. Каждая работа, упомянутая или использованная в этом отчёте, указана здесь со ссылкой на её каноническую страницу (DOI / arXiv / HuggingFace / GitHub). Мы указываем только то, что отчёт действительно использует; включение не означает одобрения со стороны их авторов.

Бенчмарки & метрики

TAB — Text Anonymization Benchmark. Pilán, Lison, Øvrelid, Papadopoulou, Sánchez & Batet (2022), Computational Linguistics 48(4):1053–1101. Источник различения прямых и квази-идентификаторов и полноты на уровне сущностей (замаскированы все упоминания). doi:10.1162/coli_a_00458 · ACL Anthology
2014 i2b2/UTHealth de-identification (Track 1). Stubbs, Kotfila & Uzuner (2015), J. Biomedical Informatics. Строгое оценивание деидентификации на уровне сущностей; точка сравнения для деидентификации клинических записей. PubMed 26225918
2016 CEGS N-GRID / n2c2 psychiatric-intake de-identification. Stubbs, Filannino & Uzuner (2017), J. Biomedical Informatics. Точка сравнения для деидентификации психиатрических приёмных записей. PMC5705537
MEDDOCAN. Spanish synthetic clinical-case de-identification shared task (IberLEF 2019), ~22 PHI types. Смежный клинический бенчмарк деидентификации. PlanTL SPACCC_MEDDOCAN
Presidio-research (F2 evaluation). Microsoft, MIT-licensed. Основа для постановки оценивания деидентификации с весом полноты F₂ (β=2). github.com/microsoft/presidio-research
Tau-Eval. Loiseau et al. (2025), EMNLP System Demonstrations. Постановка оценивания приватности и полезности с учётом задачи. arXiv:2506.05979

Реидентификация & атаки на приватность

Staab et al. — Beyond Memorization: Violating Privacy via Inference with LLMs. ICLR 2024. Постановка атаки вывода (inference) на базе LLM; передовые атакующие выводят гораздо больше, чем использованный здесь локальный атакующий — нижняя оценка. arXiv:2310.07298
Anonymeter. Giomi, Boenisch, Wehmeyer & Tasnádi (2022/PETS 2023), Statice. Постановка задачи на основе атак: выделение (singling out) / связываемость (linkability) / вывод (inference) — три риска по GDPR. arXiv:2211.10459 · GitHub
RAT-Bench. Imperial College (2026 preprint). Постановка бенчмарка остаточной реидентификации на основе атакующего (цитируется как препринт-свидетельство). OpenReview FjbU4kLriN

Детекторы & инструменты

Microsoft Presidio. Лицензия MIT; обнаружение PII на базе spaCy (базовое решение с приоритетом EN). github.com/microsoft/presidio
Philter / philter-lite. Набор правил клинической деидентификации UCSF; philter-lite — это форк Sirona Medical. github.com/SironaMedical/philter-lite · PyPI
Natasha. Инструментарий NLP/NER для русского языка (только кириллица — основа задокументированной утечки через транслитерацию). github.com/natasha/natasha
OpenAI Privacy Filter (OPF), openai/privacy-filter. Модель классификации токенов PII под лицензией Apache-2.0 (используется как основа для имён/адресов в EN). В карточке модели указано, что это вспомогательный инструмент маскирования / минимизации данных, а не гарантия анонимизации или соответствия требованиям. huggingface.co/openai/privacy-filter
Ollama + Qwen. Локальный исполнитель LLM и семейство моделей Qwen, используемые для слоя-детектора на локальной LLM и локального атакующего реидентификации на базе 3B. ollama.com · QwenLM/Qwen2.5

Датасеты

JayGuard NER Benchmark. Just AI (2025), Hugging Face Datasets. Внешний, анонимизированный, реальный, но неклинический разговорный русский датасет с PII (Apache-2.0); срез RU-real построен из него (PERSON/LOCATION). Используется с указанием авторства, как того требует лицензия. huggingface.co/datasets/just-ai/jayguard-ner-benchmark

Документирование & нормативный контекст

Datasheets for Datasets. Gebru et al. (2021), CACM. Microsoft Research
Data Statements for NLP. Bender & Friedman (2018), TACL. ACL Anthology Q18-1041
GDPR Recital 26 & WP29/EDPB anonymisation framework. “Reasonably likely means” и триада выделение (singling out) / связываемость (linkability) / вывод (inference). GDPR (EUR-Lex) · EDPB SME guide
HIPAA de-identification (Safe Harbor & Expert Determination). Сопоставление носит лишь иллюстративный характер — успех в бенчмарке не является сертификацией соответствия требованиям. HHS HIPAA de-id guidance

CONFIDE-Bench — Какой слой окупает свои вычисления?