Skip to main content

Analyse de Documents (RAG)

L'Assistant Niort intègre un moteur de recherche documentaire appelé RAG (Retrieval-Augmented Generation). Cela lui permet de "lire" vos documents et de répondre en se basant sur leur contenu.

Fonctionnement technique

Le processus d'analyse se décompose en plusieurs étapes :

  1. Extraction (Parsing) : Les documents (PDF, Word, Excel) sont envoyés à Apache Tika ou Docling pour en extraire le texte brut et la structure.
  2. Découpage (Chunking) : Le texte est découpé en petits morceaux cohérents (segments).
    • Paramètre : Découpage basé sur les en-têtes Markdown activé.
  3. Vectorisation (Embedding) : Chaque segment est transformé en un vecteur mathématique permettant la recherche sémantique.
    • Modèle utilisé : bge_multilingual_gemma2 via l'API Infomaniak.
  4. Stockage : Les vecteurs sont stockés dans la base de données vectorielle intégrée à Open WebUI.

Configuration actuelle (Production)

Voici les paramètres clés configurés dans le système :

ParamètreValeurDescription
Top K5Nombre de segments pertinents envoyés au modèle.
Seuil de pertinence0.0 (Global)Filtrage des résultats (0.0 = laisser l'IA décider).
Moteur d'OCRDocling (OCR activé)Permet de lire le texte dans les images/scans.
Backend PDFdlparse_v4Moteur de rendu haute précision pour les PDF.

Utilisation des documents

Lorsqu'un document est ajouté à une conversation (via # ou l'icône trombone), l'Assistant :

  • Recherche les segments les plus proches de votre question.
  • Injecte ces segments dans le contexte de Kimi K2.5.
  • Cite les sources utilisées pour garantir la fiabilité des réponses.
Optimisation

Pour une analyse optimale, préférez des documents avec des titres clairs (Markdown/Style Word) afin de faciliter le découpage sémantique du texte.