Traite un fichier et l'insère dans la base de données avec une structure hiérarchique.
Cette fonction effectue l'extraction du texte, la segmentation hiérarchique
et l'insertion en base de données avec gestion des embeddings.
| Parameters: |
-
file_path
(str)
–
Chemin du fichier à traiter.
-
max_length
(int, default:
500
)
–
Taille maximale d'un chunk final. Par défaut à 500 caractères.
-
overlap
(int, default:
100
)
–
Chevauchement entre les chunks. Par défaut à 100 caractères.
-
theme
(Optional[str], default:
'Thème générique'
)
–
Thème à appliquer au document. Par défaut "Thème générique".
-
corpus_id
(Optional[str], default:
None
)
–
Identifiant du corpus (généré automatiquement si None).
|
| Returns: |
-
Dict[str, Any]
–
Dict[str, Any]: Résultat de l'opération avec l'ID du document et les statistiques.
|
| Raises: |
-
FileNotFoundError
–
Si le fichier spécifié n'existe pas.
-
ValueError
–
Si aucun contenu n'a pu être extrait du document ou si une erreur
survient lors de l'insertion en base.
|