References for SPLITTER

Package splitter pour la segmentation sémantique des documents.

Fournit les outils pour segmenter des documents textuels en chunks hiérarchiques optimisés pour la recherche vectorielle.

fallback_segmentation_stream(text, max_length)

Version streaming de la segmentation de secours pour économiser de la mémoire.

Parameters:
  • text (str) –

    Texte à segmenter.

  • max_length (int) –

    Longueur maximale d'un chunk.

Yields:
  • ChunkCreate( ChunkCreate ) –

    Les chunks générés un par un.

semantic_segmentation_stream(text, max_length)

Génère les chunks sémantiques d'un document au fil de l'eau.

Version optimisée pour les grands corpus non structurés avec une meilleure extraction des frontières naturelles de texte et davantage de chunks.

Parameters:
  • text (str) –

    Texte à segmenter.

  • max_length (int) –

    Longueur maximale d'un chunk.

Yields:
  • ChunkCreate( ChunkCreate ) –

    Un chunk à la fois, généré dans l'ordre hiérarchique.