@ploum J'ai installé et testé la version 2.3 ce matin justement. Je l'ai essayé sur quelques uns de mes sites et j'ai du mal à comprendre sur quels critères il supprime parfois des sections entières de certaines pages HTML. (mais je n'ai pas encore lu toute la doc). Sinon j'ai trouvé ca super ! Bravo !
@ni @vjousse : je l’ai déjà fait et c’est compliqué car la lib utilise un algorithme probabiliste : chaque élément à une probabilité d’être une pub et cette probabilité augmente en rapport avec la taille du contenu. Par exemples les listes HTML sont quasi tout le temps considérées comme des pubs.
Le concept est foireux mais, sans ça, Offpunk serait inutilisable car il n’est pas rare pour une page d’un site de média grand public d’avoir jusqu’à 700 ou 800 liens (qui seraient tous téléchargés)
@ploum @ni d’ailleurs je ne sais plus trop ce qu’on s’était dit à ce sujet ? Car l’alternative est fonctionnelle, elle est ici : https://codeberg.org/vjousse/unmerdify
Mais je ne sais pas trop comment avancer à partir de là pour commencer à l’intégrer à Offpunk (le fait que je sois totalement perdu avec Sourcehut doit y être pour quelque chose 😅)
@ni : c’est la lib python-readability qui supprime ce qu’elle pense être de la pub ou des trucs inutiles.
Et parfois, elle supprime beaucoup trop. @vjousse bosse sur une alternative.
En attendant, la solution est de faire "view full" ou "v full" sur les pages incomplètes.