Analyse de Documents (RAG)

L'Assistant Niort intègre un moteur de recherche documentaire appelé RAG (Retrieval-Augmented Generation). Cela lui permet de "lire" vos documents et de répondre en se basant sur leur contenu.

Fonctionnement technique

Le processus d'analyse se décompose en plusieurs étapes :

Extraction (Parsing) : Les documents (PDF, Word, Excel) sont envoyés à Apache Tika ou Docling pour en extraire le texte brut et la structure.
Découpage (Chunking) : Le texte est découpé en petits morceaux cohérents (segments).
- Paramètre : Découpage basé sur les en-têtes Markdown activé.
Vectorisation (Embedding) : Chaque segment est transformé en un vecteur mathématique permettant la recherche sémantique.
- Modèle utilisé : bge_multilingual_gemma2 via l'API Infomaniak.
Stockage : Les vecteurs sont stockés dans la base de données vectorielle intégrée à Open WebUI.

Configuration actuelle (Production)

Voici les paramètres clés configurés dans le système :

Paramètre	Valeur	Description
Top K	5	Nombre de segments pertinents envoyés au modèle.
Seuil de pertinence	0.0 (Global)	Filtrage des résultats (0.0 = laisser l'IA décider).
Moteur d'OCR	Docling (OCR activé)	Permet de lire le texte dans les images/scans.
Backend PDF	dlparse_v4	Moteur de rendu haute précision pour les PDF.

Utilisation des documents

Lorsqu'un document est ajouté à une conversation (via # ou l'icône trombone), l'Assistant :

Recherche les segments les plus proches de votre question.
Injecte ces segments dans le contexte de Kimi K2.5.
Cite les sources utilisées pour garantir la fiabilité des réponses.

Optimisation

Pour une analyse optimale, préférez des documents avec des titres clairs (Markdown/Style Word) afin de faciliter le découpage sémantique du texte.

Fonctionnement technique​

Configuration actuelle (Production)​

Utilisation des documents​

Fonctionnement technique

Configuration actuelle (Production)

Utilisation des documents