Utiliza Solr para extração de texto (#1219)

9 years ago · 9a8ce5abff
1 changed files with 37 additions and 15 deletions
--- a/sapl/base/search_indexes.py
+++ b/sapl/base/search_indexes.py
@ -1,17 +1,20 @@
 import logging
 import os.path
+import re
+import string

 import textract
-from django.template import Context, loader
+from django.template import loader
 from haystack import indexes
 from textract.exceptions import ExtensionNotSupported

 from sapl.materia.models import DocumentoAcessorio, MateriaLegislativa
 from sapl.norma.models import NormaJuridica
-from sapl.settings import BASE_DIR
+from sapl.settings import BASE_DIR, SOLR_URL

 logger = logging.getLogger(BASE_DIR.name)

+
 class DocumentoAcessorioIndex(indexes.SearchIndex, indexes.Indexable):
    text = indexes.CharField(document=True, use_template=True)

@ -40,6 +43,24 @@ class DocumentoAcessorioIndex(indexes.SearchIndex, indexes.Indexable):
            if not os.path.splitext(arquivo.path)[1][:1]:
                return self.prepared_data

+            # Em ambiente de produção utiliza-se o SOLR
+            if SOLR_URL:
+                extracted_data = self._get_backend(None).extract_file_contents(
+                    arquivo)['contents']
+                # Remove as tags xml
+                extracted_data = re.sub('<[^>]*>', '', extracted_data)
+                # Remove tags \t e \n
+                extracted_data = extracted_data.replace(
+                    '\n', ' ').replace('\t', ' ')
+                # Remove sinais de pontuação
+                extracted_data = re.sub('[' + string.punctuation + ']',
+                                        ' ', extracted_data)
+                # Remove espaços múltiplos
+                extracted_data = " ".join(extracted_data.split())
+
+            # Em ambiente de DEV utiliza-se o Whoosh
+            # Como ele não possui extração, faz-se uso do textract
+            else:
                try:
                    extracted_data = textract.process(
                        arquivo.path,
@ -47,7 +68,8 @@ class DocumentoAcessorioIndex(indexes.SearchIndex, indexes.Indexable):
                except ExtensionNotSupported:
                    return self.prepared_data
                except Exception:
-                msg = 'Erro inesperado processando arquivo: %s' % arquivo.path
+                    msg = 'Erro inesperado processando arquivo: %s' % (
+                        arquivo.path)
                    print(msg)
                    logger.error(msg)
                    return self.prepared_data