Логотип KodikKodik

Как работает наш анонимайзер

Наш анонимайзер это локальный защитный слой, который обрабатывает весь код до отправки в облачный LLM-агент. Он работает полностью на стороне клиента и гарантирует, что сырой чувствительный контент никогда не покидает машину разработчика.

1. Автоматическая анонимизация стандартных секретов и персональных данных

По умолчанию система автоматически определяет и скрывает наиболее распространённые типы приватной информации, включая:

  • адреса электронной почты
  • номера телефонов
  • имена пользователей
  • пароли
  • токены, API-ключи, JWT
  • строки подключения к БД
  • ключи AWS/GCP/Azure
  • конфиденциальные значения в переменных, константах и комментариях

Обнаруженные секреты заменяются типизированными плейсхолдерами вроде: SENSITIVE_SECRET_1, SENSITIVE_EMAIL_1, SENSITIVE_DB_URI_1

Таким образом, удалённый LLM видит только структуру и контекст, но никогда - реальные значения.

2. Персональные правила для каждого клиента

Каждый клиент может настроить собственные правила обработки данных:

2.1. Чёрный список файлов

Клиент может указать, какие файлы никогда не должны отправляться в LLM и должны быть полностью заблокированы для доступа агента.

Например:

  • .env
  • *.key
  • *.pem
  • docker-compose.yml
  • config/secrets.json

Если файл находится в чёрном списке, агент физически не сможет получить к нему доступ, даже после анонимизации.

3. Инструмент выделения чувствительных участков кода

В редакторе разработчик может вручную выделить строку или блок кода и отметить их как чувствительные.

Пример 1:

// sensitive-start const internalSecret = "XYZ-1279-ABCD"; // sensitive-end

Пример 2:

// sensitive const something = "custom internal password";

Всё, что отмечено таким образом, будет жёстко маскировано, независимо от формата данных. Это обеспечивает гарантированную защиту для любых нестандартных или внутренних секретов компании.

4. Клиентские конфигурации для кастомных форматов секретов

Некоторые компании используют свои собственные внутренние форматы ключей, токенов, идентификаторов и т.д. Для таких случаев мы предоставляем:

4.1. Пер-клиентные настраиваемые правила распознавания

Клиент может добавить свои маски или регулярные выражения:

CUSTOM_SECRET_PATTERN_1 = /ACME_[A-Z0-9]{12}/

Система будет автоматически маскировать всё, что соответствует этим шаблонам.

5. Возможность дообучения модели под клиента

Если у компании есть специфические форматы, которые сложно описать правилами, мы можем дообучить локальную модель анонимайзера на примерах клиента.

Такое дообучение выполняется локально или на предоставленном обезличенном датасете, без передачи реальных секретных значений.

  • автоматически распознавать их уникальные типы секретов
  • минимизировать ложные срабатывания
  • увеличить точность и полноту обнаружения в их конкретной среде

6. Итог: многоуровневая защита данных

Система сочетает несколько уровней безопасности:

  • Автоматические детекторы стандартных секретов
  • Модель машинного обучения для контекстного обнаружения
  • Чёрные списки файлов
  • Кастомные правила для клиента
  • Ручная маркировка чувствительных блоков
  • Опциональное дообучение под формат секретов конкретной компании

Этот подход обеспечивает максимально возможную защиту и предсказуемость работы, позволяя гибко подстраиваться под требования различных команд и корпоративных политик безопасности.