feat: add backfill_file_metadata management command (RFC §8)

Creates FileMetadata rows for all existing uploaded files that have a non-empty file field but no _metadata FK yet. Idempotent and safe to interrupt. Features: --dry-run report without writing --batch-size rows per batch (default 500) --rate-limit max rows/s for NFS-constrained deployments --skip-hash stat-only (skip SHA-256 for very large instances) --app / --model restrict to a single model For each qualifying row it: 1. reads storage_name from the DB field value (relative path, unchanged) 2. derives original_filename from the path's basename 3. stat()s the file for file_size_bytes (fast, ~0.3 ms/file) 4. optionally SHA-256 hashes it for content_hash (throughput-bound) 5. creates a FileMetadata row and sets the _metadata FK Missing files are warned and counted but do not abort the run, which is expected on dev DBs and documents RFC §7 "broken reference detection". Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2 weeks ago · f3f22c6bba
1 changed files with 204 additions and 0 deletions
--- a/sapl/base/management/commands/backfill_file_metadata.py
+++ b/sapl/base/management/commands/backfill_file_metadata.py
@ -0,0 +1,204 @@
 """
 Backfill FileMetadata rows for all existing uploaded files.
 Run once after deploying MetadataFileField to production.  Safe to interrupt
 and re-run: processes only rows where the _metadata FK is NULL and the file
 field is non-empty.
 Usage:
    python manage.py backfill_file_metadata
    python manage.py backfill_file_metadata --batch-size=200 --rate-limit=20
    python manage.py backfill_file_metadata --dry-run
    python manage.py backfill_file_metadata --app materia --model materialegislativa
 """
 import hashlib
 import os
 import time
 from pathlib import Path
 from django.apps import apps
 from django.conf import settings
 from django.core.management.base import BaseCommand
 from django.db import transaction
 from django.utils import timezone
 # Every (app_label, model_name, field_name) that uses MetadataFileField.
 # Kept in sync with SERVE_FILE_FIELDS in sapl/base/views.py.
 METADATA_FILE_FIELDS = [
    ('materia',       'materialegislativa',               'texto_original'),
    ('materia',       'documentoacessorio',               'arquivo'),
    ('materia',       'proposicao',                       'texto_original'),
    ('protocoloadm',  'documentoadministrativo',          'texto_integral'),
    ('protocoloadm',  'documentoacessorioadministrativo', 'arquivo'),
    ('norma',         'normajuridica',                    'texto_integral'),
    ('norma',         'anexonormajuridica',               'anexo_arquivo'),
    ('comissoes',     'reuniao',                          'upload_pauta'),
    ('comissoes',     'reuniao',                          'upload_ata'),
    ('comissoes',     'reuniao',                          'upload_anexo'),
    ('comissoes',     'documentoacessorio',               'arquivo'),
    ('audiencia',     'audienciapublica',                 'upload_pauta'),
    ('audiencia',     'audienciapublica',                 'upload_ata'),
    ('audiencia',     'audienciapublica',                 'upload_anexo'),
    ('audiencia',     'anexoaudienciapublica',            'arquivo'),
    ('sessao',        'sessaoplenaria',                   'upload_pauta'),
    ('sessao',        'sessaoplenaria',                   'upload_ata'),
    ('sessao',        'sessaoplenaria',                   'upload_anexo'),
    ('sessao',        'justificativaausencia',            'upload_anexo'),
    ('sessao',        'orador',                           'upload_anexo'),
    ('sessao',        'oradorexpediente',                 'upload_anexo'),
    ('sessao',        'oradorordemdia',                   'upload_anexo'),
 ]
 def _compute_hash(path):
    h = hashlib.sha256()
    with open(path, 'rb') as fh:
        for chunk in iter(lambda: fh.read(65536), b''):
            h.update(chunk)
    return h.hexdigest()
 class Command(BaseCommand):
    help = (
        'Backfill FileMetadata rows for all existing uploaded files. '
        'Idempotent — skips rows that already have a _metadata FK set.'
    )
    def add_arguments(self, parser):
        parser.add_argument(
            '--batch-size', type=int, default=500,
            help='Number of rows to process per batch (default: 500).',
        )
        parser.add_argument(
            '--rate-limit', type=int, default=0,
            help='Max rows per second (0 = unlimited; useful on NFS to avoid I/O storms).',
        )
        parser.add_argument(
            '--dry-run', action='store_true',
            help='Report what would be done without writing anything.',
        )
        parser.add_argument(
            '--app', type=str, default=None,
            help='Restrict to a single app_label.',
        )
        parser.add_argument(
            '--model', type=str, default=None,
            help='Restrict to a single model_name (requires --app).',
        )
        parser.add_argument(
            '--skip-hash', action='store_true',
            help='Skip content_hash computation (only stat for file_size_bytes).',
        )
    def handle(self, *args, **options):
        from sapl.base.models import FileMetadata
        batch_size = options['batch_size']
        rate_limit = options['rate_limit']
        dry_run = options['dry_run']
        only_app = options['app']
        only_model = options['model']
        skip_hash = options['skip_hash']
        if dry_run:
            self.stdout.write(self.style.WARNING('DRY RUN — no changes will be written.'))
        targets = [
            (app, model, field)
            for (app, model, field) in METADATA_FILE_FIELDS
            if (only_app is None or app == only_app)
            and (only_model is None or model == only_model)
        ]
        total_created = 0
        total_skipped = 0
        total_errors = 0
        for app_label, model_name, field_name in targets:
            try:
                Model = apps.get_model(app_label, model_name)
            except LookupError:
                self.stdout.write(
                    self.style.ERROR(f'Model {app_label}.{model_name} not found — skipping.'))
                continue
            meta_fk = f'{field_name}_metadata'
            # Only process rows where file is set but metadata FK is NULL.
            qs = Model.objects.filter(
                **{f'{field_name}__isnull': False,
                   f'{meta_fk}__isnull': True}
            ).exclude(
                **{field_name: ''}
            ).only('pk', field_name, meta_fk)
            count = qs.count()
            if count == 0:
                self.stdout.write(
                    f'{app_label}.{model_name}.{field_name}: already up to date.')
                continue
            self.stdout.write(
                f'{app_label}.{model_name}.{field_name}: {count} rows to backfill...')
            batch_start = time.time()
            processed = 0
            for instance in qs.iterator(chunk_size=batch_size):
                field_file = getattr(instance, field_name)
                storage_name = field_file.name  # relative path stored in DB
                original_filename = Path(storage_name).name
                full_path = os.path.join(settings.MEDIA_ROOT, storage_name)
                file_size_bytes = None
                content_hash = ''
                try:
                    stat = os.stat(full_path)
                    file_size_bytes = stat.st_size
                    if not skip_hash:
                        content_hash = _compute_hash(full_path)
                except OSError as e:
                    self.stdout.write(
                        self.style.WARNING(
                            f'  pk={instance.pk}: cannot read {full_path}: {e}'))
                    total_errors += 1
                if dry_run:
                    self.stdout.write(
                        f'  [dry-run] pk={instance.pk} → {storage_name}')
                    total_created += 1
                    processed += 1
                    continue
                with transaction.atomic():
                    meta = FileMetadata(
                        storage_name=storage_name,
                        original_filename=original_filename,
                        file_size_bytes=file_size_bytes,
                        content_hash=content_hash,
                        backfilled_at=timezone.now(),
                    )
                    meta.save()
                    setattr(instance, f'{meta_fk}_id', meta.pk)
                    instance.save(update_fields=[f'{meta_fk}_id'])
                total_created += 1
                processed += 1
                if rate_limit > 0:
                    elapsed = time.time() - batch_start
                    target_elapsed = processed / rate_limit
                    if target_elapsed > elapsed:
                        time.sleep(target_elapsed - elapsed)
            self.stdout.write(
                self.style.SUCCESS(
                    f'  done: {processed} rows processed.'))
        self.stdout.write('')
        self.stdout.write(
            f'Backfill complete — created: {total_created}, '
            f'errors (file missing): {total_errors}.')
        if dry_run:
            self.stdout.write(self.style.WARNING('(dry run — nothing was written)'))