PK Systems PK Systems
Outils texte

Nettoyeur HTML

Collez n'importe quel HTML et obtenez du texte brut propre et lisible — balises supprimées, entités décodées, espaces nettoyés.

Nettoyeur HTML

Texte brut

Ce que fait cet outil

Collez un bloc de HTML — directement depuis le code source d'une page, un template d'e-mail, un export rich-text de CMS ou une page web copiée avec son markup — et obtenez du texte brut clair et lisible en sortie. Les balises de niveau bloc deviennent des sauts de ligne, <br> devient un retour à la ligne, les balises d'ancre conservent optionnellement leurs URL entre parenthèses, et les entités nommées/numériques (&amp;, &#x2014;) sont décodées en vrais caractères.

Comment utiliser le nettoyeur HTML

Collez votre HTML dans le champ d'entrée. La sortie en texte brut se met à jour pendant que vous tapez. Utilisez Conserver les URL des liens pour préserver les hrefs des <a> entre parenthèses après le texte du lien — utile pour les versions imprimables d'articles. Fusionner les espaces superflus réduit les suites d'espaces et les lignes vides venues d'un HTML indenté, et Supprimer les espaces de début/fin retire les espaces au début et à la fin de toute la sortie. Cliquez sur Copier pour mettre le résultat dans votre presse-papiers.

Quand utiliser cet outil

Pour nettoyer du contenu collé depuis une page web (qui arrive souvent avec des <span> parasites et des styles inline), préparer une newsletter à partir d'un brouillon HTML, générer du texte alt à partir de blocs rich-content, ou simplement vérifier le contenu lisible d'un extrait de markup. La sortie convient partout où du texte brut est requis : e-mails en texte seul, sortie terminal, descriptions pour moteurs de recherche, ou analyse de longueur de contenu.

Exemples

Entrée Sortie
<p>Hello <b>world</b></p>Hello world
Line one<br>Line twoLine one
Line two
<ul><li>A</li><li>B</li></ul>A
B
<a href="x.com">Site</a>Site (x.com)
&amp; &quot;& "

Questions fréquentes

Supprime-t-il toutes les balises ?
Oui — chaque balise HTML est retirée. Les balises de niveau bloc (<p>, <div>, <li>, titres, etc.) deviennent des sauts de ligne pour préserver les coupures de paragraphe. <br> devient aussi un saut de ligne. <script>, <style> et autres balises similaires voient leur contenu entièrement supprimé, ce qui est presque toujours ce que vous voulez.
Les entités HTML sont-elles décodées ?
Oui. Les entités nommées (&amp;, &quot;, &mdash;, &ndash;, &hellip;, etc.) comme les entités numériques (&#8211;, &#x2014;) sont converties en caractères réels. Donc &amp; devient &, &mdash; devient un vrai tiret cadratin.
Que fait Conserver les URL des liens ?
Quand activé, <a href="https://example.com">site</a> devient site (https://example.com) au lieu de juste site. Utile pour l'impression ou partout où le lecteur ne peut pas cliquer. Quand désactivé, seul le texte visible est conservé et l'URL est ignorée.
Comment les espaces sont-ils gérés ?
Par défaut, les suites d'espaces/tabulations sont fusionnées en un seul espace, et trois lignes vides ou plus sont fusionnées en deux. Chaque ligne est aussi débarrassée de ses espaces de fin. Désactivez Fusionner les espaces superflus pour voir exactement ce qu'a produit le parseur, avec les sauts de ligne d'origine du HTML source préservés.
Puis-je coller une page HTML entière ?
Oui. Les blocs <script>, <style>, <noscript>, <template> et <iframe> voient leur contenu supprimé, donc la sortie est la copie lisible de la page — à peu près ce que verrait un lecteur d'écran ou un moteur de recherche. Pour les très grosses pages, la conversion s'achève quand même dans votre navigateur, sans aller-retour serveur.
Mon HTML est-il envoyé quelque part ?
Non. Le nettoyeur HTML tourne entièrement dans votre navigateur via des regex sur chaîne — pas de rendu DOM, pas de fetch, pas d'envoi. Sûr pour des templates d'e-mails internes, des articles brouillon ou tout markup que vous ne voulez pas voir fuiter.