Aller au contenu principal
Productivite Claude Skill

Traitement PDF

Utilisez ce skill pour toute operation sur les fichiers PDF : lecture, extraction de texte et tableaux, fusion, division, rotation, filigrane, creation, remplissage de formulaires, chiffrement et OCR sur PDF scannes.

psychology Prompt du skill
---
name: traitement-pdf
description: Utilisez ce skill des que l'utilisateur veut faire quoi que ce soit avec des fichiers PDF. Cela inclut la lecture ou l'extraction de texte/tableaux, la fusion de plusieurs PDF, la division, la rotation de pages, l'ajout de filigranes, la creation de nouveaux PDF, le remplissage de formulaires, le chiffrement/dechiffrement, l'extraction d'images, et l'OCR sur PDF scannes. Si l'utilisateur mentionne un fichier .pdf ou demande d'en produire un, utilisez ce skill.
---

# Guide de Traitement PDF

## Vue d'ensemble

Ce guide couvre les operations essentielles de traitement PDF avec les bibliotheques Python et les outils en ligne de commande.

## Demarrage rapide

```python
from pypdf import PdfReader, PdfWriter

reader = PdfReader("document.pdf")
print(f"Pages: {len(reader.pages)}")

text = ""
for page in reader.pages:
    text += page.extract_text()
```

## Operations disponibles

### pypdf - Operations de base
- Fusion de PDF: `writer.add_page(page)`
- Division page par page
- Extraction de metadonnees
- Rotation de pages: `page.rotate(90)`
- Ajout de filigrane: `page.merge_page(watermark)`
- Protection par mot de passe: `writer.encrypt("password")`

### pdfplumber - Extraction de texte et tableaux
- Extraction de texte avec mise en page
- Extraction de tableaux vers pandas DataFrame

### reportlab - Creation de PDF
- Creation de PDF basique avec Canvas
- Documents multi-pages avec Platypus
- IMPORTANT: Ne jamais utiliser les caracteres Unicode subscript/superscript. Utiliser les balises `<sub>` et `<super>` dans les objets Paragraph.

### Outils en ligne de commande
- `pdftotext` (poppler-utils) pour extraction de texte
- `qpdf` pour fusion, division, rotation
- `pdftk` pour operations avancees

### OCR sur PDF scannes
```python
import pytesseract
from pdf2image import convert_from_path
images = convert_from_path('scanne.pdf')
for image in images:
    text += pytesseract.image_to_string(image)
```

(Source: github.com/anthropics/skills/skills/pdf)

Checklist de qualite

  • check_circle Fichier PDF source identifie
  • check_circle Operation de traitement choisie
  • check_circle Bibliotheque Python adaptee selectionnee
  • check_circle Resultat verifie sans erreurs
Partager

Autres skills Productivite

group Communaute IA

Rejoignez la communaute

Recevez chaque semaine des prompts exclusifs, des articles en avant-premiere et des ressources gratuites pour maitriser l'IA.

Ou reservez un audit gratuit arrow_forward