@ploum J'ai installé et testé la version 2.3 ce matin justement. Je l'ai essayé sur quelques uns de mes sites et j'ai du mal à comprendre sur quels critères il supprime parfois des sections entières de certaines pages HTML. (mais je n'ai pas encore lu toute la doc). Sinon j'ai trouvé ca super ! Bravo !

@ni : c’est la lib python-readability qui supprime ce qu’elle pense être de la pub ou des trucs inutiles.

Et parfois, elle supprime beaucoup trop. @vjousse bosse sur une alternative.

En attendant, la solution est de faire "view full" ou "v full" sur les pages incomplètes.

@ploum @vjousse ok ! Merci pour la réponse rapide ! Je vais fouiller la lib pour comprendre quoi elle supprime du contenu qui me semble utile à moi 🙂

@ni @vjousse : je l’ai déjà fait et c’est compliqué car la lib utilise un algorithme probabiliste : chaque élément à une probabilité d’être une pub et cette probabilité augmente en rapport avec la taille du contenu. Par exemples les listes HTML sont quasi tout le temps considérées comme des pubs.

Le concept est foireux mais, sans ça, Offpunk serait inutilisable car il n’est pas rare pour une page d’un site de média grand public d’avoir jusqu’à 700 ou 800 liens (qui seraient tous téléchargés)

Follow

@ploum @vjousse oui ok je comprend.. dans un monde ideal, un petit retour à l'utilisateur serait bienvenu pour qu'il puisse savoir, au minimum, que quelque chose a été retiré, au mieux, quoi et où (avec un exerpt et une possibilité de charger un élément malgrè tout). Super boulot en tous cas. Merci pour les infos !

Sign in to participate in the conversation
Nico Nacq and friends (?)

Instance à dimension familiale et amicale.