Analyse de Documents (RAG)
L'Assistant Niort intègre un moteur de recherche documentaire appelé RAG (Retrieval-Augmented Generation). Cela lui permet de "lire" vos documents et de répondre en se basant sur leur contenu.
Fonctionnement technique
Le processus d'analyse se décompose en plusieurs étapes :
- Extraction (Parsing) : Les documents (PDF, Word, Excel) sont envoyés à Apache Tika ou Docling pour en extraire le texte brut et la structure.
- Découpage (Chunking) : Le texte est découpé en petits morceaux cohérents (segments).
- Paramètre : Découpage basé sur les en-têtes Markdown activé.
- Vectorisation (Embedding) : Chaque segment est transformé en un vecteur mathématique permettant la recherche sémantique.
- Modèle utilisé :
bge_multilingual_gemma2via l'API Infomaniak.
- Modèle utilisé :
- Stockage : Les vecteurs sont stockés dans la base de données vectorielle intégrée à Open WebUI.
Configuration actuelle (Production)
Voici les paramètres clés configurés dans le système :
| Paramètre | Valeur | Description |
|---|---|---|
| Top K | 5 | Nombre de segments pertinents envoyés au modèle. |
| Seuil de pertinence | 0.0 (Global) | Filtrage des résultats (0.0 = laisser l'IA décider). |
| Moteur d'OCR | Docling (OCR activé) | Permet de lire le texte dans les images/scans. |
| Backend PDF | dlparse_v4 | Moteur de rendu haute précision pour les PDF. |
Utilisation des documents
Lorsqu'un document est ajouté à une conversation (via # ou l'icône trombone), l'Assistant :
- Recherche les segments les plus proches de votre question.
- Injecte ces segments dans le contexte de Kimi K2.5.
- Cite les sources utilisées pour garantir la fiabilité des réponses.
Optimisation
Pour une analyse optimale, préférez des documents avec des titres clairs (Markdown/Style Word) afin de faciliter le découpage sémantique du texte.