References for EXTRACTOR
BaseExtractor
Bases: ABC
Interface abstraite pour tous les extracteurs de documents.
| Attributes: |
|
|---|
__init__(file_path)
Initialise un extracteur avec le chemin du fichier.
| Parameters: |
|
|---|
extract_one(*, max_length=1000)
abstractmethod
Retourne un seul DocumentWithChunks prêt pour la DB.
| Parameters: |
|
|---|
| Returns: |
|
|---|
| Raises: |
|
|---|
DocxExtractor
Bases: BaseExtractor
Convertit un fichier .docx en un unique payload
DocumentWithChunks prêt à être POSTé sur /database/documents.
__init__(file_path)
Initialise l'extracteur DOCX avec les métadonnées par défaut.
| Parameters: |
|
|---|
| Raises: |
|
|---|
extract_one(max_length=1000)
Extrait un seul objet DocumentWithChunks à partir du fichier DOCX.
| Parameters: |
|
|---|
| Returns: |
|
|---|
HtmlExtractor
Bases: BaseExtractor
Convertit n’importe quel document HTML en un ou plusieurs
payloads DocumentWithChunks prêts pour l’endpoint
POST /database/documents.
Le titre du <title> ou du nom de fichier est utilisé comme
document.title.
Tout le texte visible (sans balises) est extrait.
__init__(file_path)
Initialise l'extracteur HTML avec les métadonnées par défaut.
| Parameters: |
|
|---|
| Raises: |
|
|---|
extract_one(max_length=1000)
Extrait un seul objet DocumentWithChunks à partir du fichier HTML.
| Parameters: |
|
|---|
| Returns: |
|
|---|
| Raises: |
|
|---|
iter_text()
Renvoie le texte brut, ligne par ligne (utile pour le stream).
| Returns: |
|
|---|
JsonExtractor
Bases: BaseExtractor
Extrait des contenus stockés dans un fichier JSON.
Le fichier doit être une liste de dictionnaires :
[
{"title": "...", "content": "...", "theme": "...", ...},
...
]
POST /database/documents.
__init__(file_path)
Initialise l'extracteur JSON avec les métadonnées par défaut.
| Parameters: |
|
|---|
| Raises: |
|
|---|
PdfExtractor
Bases: BaseExtractor
Convertit un fichier .pdf en un unique payload
DocumentWithChunks, prêt à être inséré via /database/documents.
extract_one(max_length=1000)
Extrait un seul objet DocumentWithChunks à partir du fichier PDF.
| Parameters: |
|
|---|
| Returns: |
|
|---|
TxtExtractor
Bases: BaseExtractor
Convertit un fichier .txt en un unique payload
DocumentWithChunks, prêt à être envoyé vers /database/documents.
extract_one(max_length=1000)
Extrait un seul objet DocumentWithChunks à partir du fichier TXT.
| Parameters: |
|
|---|
| Returns: |
|
|---|
| Raises: |
|
|---|