References for `EXTRACTOR`

`BaseExtractor`

Bases: ABC

Interface abstraite pour tous les extracteurs de documents.

Attributes:	`file_path` (`Path`) – Chemin vers le fichier à extraire.

`init(file_path)`

Initialise un extracteur avec le chemin du fichier.

Parameters:	`file_path` (`str`) – Chemin vers le fichier à extraire.

`extract_one(*, max_length=1000)` `abstractmethod`

Retourne un seul DocumentWithChunks prêt pour la DB.

Parameters:	`max_length` (`int`, default: `1000` ) – Longueur maximale d'un chunk. Défaut à 1000.

Returns:	`DocumentWithChunks`( `DocumentWithChunks` ) – Document avec ses chunks hiérarchiques.

Raises:	`NotImplementedError` – Si la méthode n'est pas implémentée dans la classe dérivée.

`DocxExtractor`

Bases: BaseExtractor

Convertit un fichier .docx en un unique payload DocumentWithChunks prêt à être POSTé sur /database/documents.

`init(file_path)`

Initialise l'extracteur DOCX avec les métadonnées par défaut.

Parameters:	`file_path` (`str`) – Chemin vers le fichier DOCX.

Raises:	`ValueError` – Si le fichier DOCX ne peut pas être ouvert.

`extract_one(max_length=1000)`

Extrait un seul objet DocumentWithChunks à partir du fichier DOCX.

Parameters:	`max_length` (`int`, default: `1000` ) – Longueur cible pour les segments finaux.

Returns:	`DocumentWithChunks`( `DocumentWithChunks` ) – Objet contenant les chunks et métadonnées.

`HtmlExtractor`

Bases: BaseExtractor

Convertit n’importe quel document HTML en un ou plusieurs payloads DocumentWithChunks prêts pour l’endpoint POST /database/documents.

Le titre du <title> ou du nom de fichier est utilisé comme document.title. Tout le texte visible (sans balises) est extrait.

`init(file_path)`

Initialise l'extracteur HTML avec les métadonnées par défaut.

Parameters:	`file_path` (`str`) – Chemin vers le fichier HTML.

Raises:	`ValueError` – Si le fichier HTML ne peut pas être lu.

`extract_one(max_length=1000)`

Extrait un seul objet DocumentWithChunks à partir du fichier HTML.

Parameters:	`max_length` (`int`, default: `1000` ) – Longueur cible pour les segments finaux.

Returns:	`DocumentWithChunks`( `DocumentWithChunks` ) – Objet contenant les chunks et métadonnées.

Raises:	`ValueError` – Si aucun contenu n'est extrait du document HTML.

`iter_text()`

Renvoie le texte brut, ligne par ligne (utile pour le stream).

Returns:	`Iterator[str]` – Iterator[str]: Texte brut extrait du document HTML.

`JsonExtractor`

Bases: BaseExtractor

Extrait des contenus stockés dans un fichier JSON.

Le fichier doit être une liste de dictionnaires :

[
    {"title": "...", "content": "...", "theme": "...", ...},
    ...
]

Chaque entrée génère un DocumentWithChunks prêt à être envoyé à l’endpoint POST /database/documents.

`init(file_path)`

Initialise l'extracteur JSON avec les métadonnées par défaut.

Parameters:	`file_path` (`str`) – Chemin vers le fichier JSON.

Raises:	`ValueError` – Si le fichier JSON ne peut pas être ouvert ou est vide.

`PdfExtractor`

Bases: BaseExtractor

Convertit un fichier .pdf en un unique payload DocumentWithChunks, prêt à être inséré via /database/documents.

`extract_one(max_length=1000)`

Extrait un seul objet DocumentWithChunks à partir du fichier PDF.

Parameters:	`max_length` (`int`, default: `1000` ) – Longueur cible pour les segments finaux.

Returns:	`DocumentWithChunks`( `DocumentWithChunks` ) – Objet contenant les chunks et métadonnées.

`TxtExtractor`

Bases: BaseExtractor

Convertit un fichier .txt en un unique payload DocumentWithChunks, prêt à être envoyé vers /database/documents.

`extract_one(max_length=1000)`

Extrait un seul objet DocumentWithChunks à partir du fichier TXT.

Parameters:	`max_length` (`int`, default: `1000` ) – Longueur cible pour les segments finaux.

Returns:	`DocumentWithChunks`( `DocumentWithChunks` ) – Objet contenant les chunks et métadonnées.

Raises:	`ValueError` – Si le fichier est vide ou si aucune métadonnée valide n'est trouvée.

References for EXTRACTOR

BaseExtractor

__init__(file_path)

extract_one(*, max_length=1000) abstractmethod

DocxExtractor

__init__(file_path)

extract_one(max_length=1000)

HtmlExtractor

__init__(file_path)

extract_one(max_length=1000)

iter_text()

JsonExtractor

__init__(file_path)

PdfExtractor

extract_one(max_length=1000)

TxtExtractor

extract_one(max_length=1000)

References for `EXTRACTOR`

`BaseExtractor`

`init(file_path)`

`extract_one(*, max_length=1000)` `abstractmethod`

`DocxExtractor`

`init(file_path)`

`extract_one(max_length=1000)`

`HtmlExtractor`

`init(file_path)`

`extract_one(max_length=1000)`

`iter_text()`

`JsonExtractor`

`init(file_path)`

`PdfExtractor`

`extract_one(max_length=1000)`

`TxtExtractor`

`extract_one(max_length=1000)`