References for EXTRACTOR

BaseExtractor

Bases: ABC

Interface abstraite pour tous les extracteurs de documents.

Attributes:
  • file_path (Path) –

    Chemin vers le fichier à extraire.

__init__(file_path)

Initialise un extracteur avec le chemin du fichier.

Parameters:
  • file_path (str) –

    Chemin vers le fichier à extraire.

extract_one(*, max_length=1000) abstractmethod

Retourne un seul DocumentWithChunks prêt pour la DB.

Parameters:
  • max_length (int, default: 1000 ) –

    Longueur maximale d'un chunk. Défaut à 1000.

Returns:
  • DocumentWithChunks( DocumentWithChunks ) –

    Document avec ses chunks hiérarchiques.

Raises:
  • NotImplementedError

    Si la méthode n'est pas implémentée dans la classe dérivée.

DocxExtractor

Bases: BaseExtractor

Convertit un fichier .docx en un unique payload DocumentWithChunks prêt à être POSTé sur /database/documents.

__init__(file_path)

Initialise l'extracteur DOCX avec les métadonnées par défaut.

Parameters:
  • file_path (str) –

    Chemin vers le fichier DOCX.

Raises:
  • ValueError

    Si le fichier DOCX ne peut pas être ouvert.

extract_one(max_length=1000)

Extrait un seul objet DocumentWithChunks à partir du fichier DOCX.

Parameters:
  • max_length (int, default: 1000 ) –

    Longueur cible pour les segments finaux.

Returns:
  • DocumentWithChunks( DocumentWithChunks ) –

    Objet contenant les chunks et métadonnées.

HtmlExtractor

Bases: BaseExtractor

Convertit n’importe quel document HTML en un ou plusieurs payloads DocumentWithChunks prêts pour l’endpoint POST /database/documents.

Le titre du <title> ou du nom de fichier est utilisé comme document.title. Tout le texte visible (sans balises) est extrait.

__init__(file_path)

Initialise l'extracteur HTML avec les métadonnées par défaut.

Parameters:
  • file_path (str) –

    Chemin vers le fichier HTML.

Raises:
  • ValueError

    Si le fichier HTML ne peut pas être lu.

extract_one(max_length=1000)

Extrait un seul objet DocumentWithChunks à partir du fichier HTML.

Parameters:
  • max_length (int, default: 1000 ) –

    Longueur cible pour les segments finaux.

Returns:
  • DocumentWithChunks( DocumentWithChunks ) –

    Objet contenant les chunks et métadonnées.

Raises:
  • ValueError

    Si aucun contenu n'est extrait du document HTML.

iter_text()

Renvoie le texte brut, ligne par ligne (utile pour le stream).

Returns:
  • Iterator[str]

    Iterator[str]: Texte brut extrait du document HTML.

JsonExtractor

Bases: BaseExtractor

Extrait des contenus stockés dans un fichier JSON.

Le fichier doit être une liste de dictionnaires :

[
    {"title": "...", "content": "...", "theme": "...", ...},
    ...
]
Chaque entrée génère un DocumentWithChunks prêt à être envoyé à l’endpoint POST /database/documents.

__init__(file_path)

Initialise l'extracteur JSON avec les métadonnées par défaut.

Parameters:
  • file_path (str) –

    Chemin vers le fichier JSON.

Raises:
  • ValueError

    Si le fichier JSON ne peut pas être ouvert ou est vide.

PdfExtractor

Bases: BaseExtractor

Convertit un fichier .pdf en un unique payload DocumentWithChunks, prêt à être inséré via /database/documents.

extract_one(max_length=1000)

Extrait un seul objet DocumentWithChunks à partir du fichier PDF.

Parameters:
  • max_length (int, default: 1000 ) –

    Longueur cible pour les segments finaux.

Returns:
  • DocumentWithChunks( DocumentWithChunks ) –

    Objet contenant les chunks et métadonnées.

TxtExtractor

Bases: BaseExtractor

Convertit un fichier .txt en un unique payload DocumentWithChunks, prêt à être envoyé vers /database/documents.

extract_one(max_length=1000)

Extrait un seul objet DocumentWithChunks à partir du fichier TXT.

Parameters:
  • max_length (int, default: 1000 ) –

    Longueur cible pour les segments finaux.

Returns:
  • DocumentWithChunks( DocumentWithChunks ) –

    Objet contenant les chunks et métadonnées.

Raises:
  • ValueError

    Si le fichier est vide ou si aucune métadonnée valide n'est trouvée.