webleads-tracker

A quoi sert un moteur de recherche pour les archives ? | Spark Archives

A quoi sert un moteur de recherche pour les archives ?

Moteur de recherche et solution d’archives papier et électroniques

Dans une application de gestion d’archives, la recherche est une fonctionnalité centrale dont l’utilisation est multiple - Recherche simplifiée  des utilisateurs (comme celle d’un moteur de recherche classique) - Recherche avancée pour les archivistes (multicritères) - Recherche exploratoire permettant d’appréhender le stock, ou un vrac, par le biais d’indicateurs statistiques et/ou de recherche par facette - Recherche technique permettant de ne pas encombrer le moteur de persistance principal (l’objectif est ici principalement celui de la performance).

Suivant les cas clients, ces différents enjeux sont plus ou moins mis en avant dans un projet Spark Archives.

Ce qui est certain c’est que l’archivage de documents électroniques permet une rupture fondamentale, via l’indexation du contenu, en mettant à disposition des utilisateurs une recherche directement sur l’information qu’ils recherchent. Mais au-delà, cette disponibilité du contenu des archives va permettre très rapidement l’arrivée de fonctionnalités issues des avancées du Machine Learning, comme la classification (semi) automatique de documents, l’enrichissement de documents par analyse directe du texte, la découverte de contenus similaires,…

Si historiquement les fonctions de recherche techniques comme fonctionnelles étaient portées par le même outil, à savoir le moteur de persistance (le plus souvent via SQL dans une base de données), on a vu l’utilisation de moteurs de recherches internes aux applications se démocratiser (via des outils comme Lucène, de la fondation Apache). Désormais, le moteur de recherche se positionne au centre de l’architecture technique, et a vocation à adresser à la fois les requêtes utilisateurs et les requêtes techniques. On peut penser à terme que ce moteur sera également un outil de persistance applicative, lorsque les solutions (par exemple le moteur ElasticSearch) seront arrivées à maturité suffisante.

Les types de recherche identifiés pour une solution d’archivage

La recherche d’archives peut être mise en œuvre  autour de deux corpus informationnels principaux : Les « données référentielles » et les « données documentaires ». Bien entendu ces corpus peuvent s’entrecroiser.

Pour les « données référentielles » que l’on retrouve à la fois dans la gestion des archives papier et électroniques, la recherche et l’identification des archives doit s’effectuer rapidement à travers quelques métadonnées métiers telles une référence, des dates, une description succincte,  en s’appuyant sur les services propriétaires et le plan de classement voire la localisation et le contenant (la bpîte) pour les archives papier.

Les « données documentaires»  se retrouvent également dans les archives papier et électroniques et dans les fonds, les documents à rechercher ne se basant plus uniquement que sur les métadonnées précitées mais plutôt sur le croisement d’un ensemble de métadonnées avec le contenu lui-même (dans le cadre des documents électroniques et/ou issus d’une chaîne de numérisation et océrisés).

Si ces deux types de recherche peuvent évidemment coexister, il est primordial de définir l’objectif principal de la recherche et du résultat associé souhaité.

Les aspects pratiques liés à la recherche dans une solution d’archivage hybride

Lors de la conception et du paramétrage du moteur de recherche, plusieurs éléments doivent être pris en compte afin de faciliter l’utilisation de cette fonction centrale par les utilisateurs.

Il est important de bien évidemment prendre en compte les pratiques actuelles issues de notre utilisation quotidienne sur les différents sites internet tout en identifiant les particularismes propres aux aspects métiers.

A ce titre, on privilégiera une approche :

  • différenciée par type de population utilisatrice : utilisateurs finaux, services d’archives, back-office. Les besoins de chaque population ne sont pas identiques,
  • privilégiant l’utilisation de la seule barre d’expression ‘à la Google ou à la Bing’  en indexant dans celle-ci les champs nécessaires afin d’avoir une approche affinée,
  • affichant des champs communs et dédiés par typologie documentaire de nature à aiguiller l’utilisateur dans sa recherche pensée en termes qualitatifs et non quantitatifs.

On complètera ces aspects par une prise en compte de :

  • La gestion des périmètres d’accès aux archives (service propriétaire, utilisateurs, plan de classement, confidentialité, droits applicatifs).
  • L’automatisation du remplissage des métadonnées extraites directement du document (ou définies via interfaces de versement).
  • L’indexation des contenus en fonction du format de fichier électronique.

Pour l’expérience utilisateur on aura pour objectif d’aider et de simplifier la recherche avec des fonctions telles que :

  • Aide à la saisie et autocomplétion pour les données référentielles,
  • caractères jokers, opérateurs booléens, syntaxe de recherche pour les utilisateurs avancés,
  • recherche en texte intégral sur le contenu,
  • agrégation via des facettes pour faciliter la navigation dans les résultats de la recherche,
  • surlignage des termes recherchés,
  • visionnage simple et rapide des documents selon leurs formats, des vignettes pour les formats images,…
  • un panier de recherche, un historique de consultation.

Autant d’éléments qui sont devenus aujourd’hui des besoins courants des utilisateurs afin qu’ils gagnent en efficacité, en autonomie dans le respect de la confidentialité des données.

Comme vous le voyez les attentes et besoins associés à la fonction de recherche sont multiples. Ce billet est donc une introduction à une série sur la recherche, dont le prochain traitera des problématiques liées à l’analyse de texte (détection de la langue, lemmatisation,...) ainsi qu’à la notion de pertinence dans la recherche.

Herwann Perrin Responsable Produit Spark Archives

Jérôme Besnard Responsable R&D Spark Archives


Nous contacter : 

Adresse :
La Boursidière
BP 159
92357 Le Plessis-Robinson Cedex
 
Téléphone :
+33 (0)1 46 29 25 25
Email :
 

Crédit illustration: Siraanamwong/113RF
e-mail icon
Twitter icon
Facebook icon
Google icon
LinkedIn icon

Spark Archives, une solution éditée par KLEE GROUP

Contact

Spark Archives
La Boursidière
92357 Le Plessis-Robinson Cedex

+33 (0)1 46 29 25 25

sparkarchives@kleegroup.com

Nous rejoindre

Découvrez nos offres de stages et nos offres d'emploi et postulez en ligne !

Nous suivre