Comparaison de logiciels détecteurs de plagiat : Méthodes et résultats

Dans notre quête du meilleur détecteur de plagiat sur le marché en 2022, nous avons mené une expérience comparant les performances de dix logiciels. Nous avons également mené une expérience supplémentaire comparant onze détecteurs de plagiat gratuits. Certains logiciels étaient inclus dans ces deux expériences.

Notre analyse est basée sur une série de facteurs : pour chaque outil, nous avons analysé la quantité de plagiat qu’il était capable de détecter, la qualité des correspondances, ainsi que sa maniabilité et sa fiabilité. Cet article décrit notre protocole de recherche et explique comment nous sommes parvenus à nos conclusions.

Nous détaillerons:

  • Quels logiciels anti-plagiat nous avons sélectionné
  • Comment nous avons préparé les documents test
  • Comment nous avons analysé les résultats quantitatifs
  • Comment nous avons sélectionné les critères pour l’analyse qualitative

Les logiciels anti-plagiat analysés

Nous avons débuté notre analyse par la recherche des principaux logiciels anti-plagiat disponibles sur le marché pour les particuliers, à l’exception des logiciels d’entreprise. Nous avons fait le choix de ne comparer que des logiciels anti-plagiat dont l’audience ciblée est composée d’étudiant.e.s et/ou d’universitaires.

Pour la comparaison des logiciels anti-plagiat gratuits, nous avons mené une recherche similaire, mais en incluant spécifiquement le terme “gratuit”.

Tous les logiciels payants ont été testés en août 2021 et les logiciels gratuits en janvier 2022.

Certains logiciels étaient inclus dans les deux expériences. Tous les logiciels inclus dans l’une ou l’autre sont listés ci-dessous :

  • Scribbr (en partenariat avec Turnitin)
  • Grammarly
  • Plagiarism Detector
  • PlagScan
  • Pre Post SEO
  • Pro Writing Aid
  • Quetext
  • Unicheck
  • DupliChecker
  • Viper
  • Compilatio
  • Search Engine Reports
  • Writer
  • Check Plagiarism
  • Small SEO Tools
  • Plagiarism Checker
  • Plagly (nous n’avons pas pu générer de rapport)

Les documents test

Le document non corrigé contenait 180 segments plagiés de 180 sources différentes. Celles-ci étaient équitablement réparties selon huit types de sources, afin d’évaluer la performance de chaque source individuellement.

Le premier document comprenait :

  • 20 articles Wikipedia
  • 20 articles de presse anciens
  • 20 articles de presse récents
  • 20 articles de revue disponibles en accès libre
  • 20 articles de petits sites Internet
  • 20 articles de gros sites Internet
  • 20 thèses et mémoires
  • 20 autres PDFs

En règle générale, les articles de revue en accès libre et payant, les thèses et mémoires, les gros sites Internet et les PDFs sont les types de sources les plus pertinents pour les étudiant.e.s et universitaires. Les articles de presse et les sites Internet seraient probablement plus intéressants pour les auteur.e.s et professionnel.le.s du marketing. Les articles Wikipedia peuvent être utiles à tous et toutes.

Si l’on prend ces informations en compte, il est important de distinguer les différents types de sources. Différents profils d’utilisateur.trice.s (étudiant.e.s, universitaires, auteur.e.s, professionnel.le.s du marketing, etc.) utilisent différentes sources et se tournent vers les logiciels anti-plagiat pour différentes raisons.

Vous pouvez obtenir le document test utilisé pour notre analyse en nous écrivant à [email protected]

Les documents test édités

Pour l’étape suivante de notre analyse, le document test a subi trois différents niveaux d’édition : légère, modérée et lourde. Nous voulions déterminer si chaque outil était capable de trouver la source d’un texte qui aurait été modifié à différents degrés.

  • Légèrement édité : nous avons modifié le texte plagié en remplaçant un mot dans chaque phrase.
  • Modérément édité : nous avons modifié le texte plagié en remplaçant deux à trois mots dans chaque phrase, si celle-ci était suffisamment longue.
  • Fortement édité : nous avons modifié le texte plagié en remplaçant quatre à cinq mots dans chaque phrase, si celle-ci était suffisamment longue.

Nous avons limité notre analyse aux sources qui avaient été relevées par chaque détecteur dans le document non édité. Tout logiciel qui n’aurait pas détecté de plagiat dans le texte d’origine serait incapable de détecter du plagiat dans un texte modifié ; dans ce cas, le logiciel est éliminé de notre analyse.

Les documents édités que nous avons testés sont composés de 17 textes extraits de Wikipedia et deux d’articles de presse anciens.

Exemple : les niveaux de modification
Non édité

Le multilinguisme est l’utilisation de plus d’une langue, soit par un locuteur individuel, soit par un groupe de locuteurs. On estime que les locuteurs multilingues sont plus nombreux que les locuteurs monolingues dans la population mondiale.

Légèrement édité

Le multilinguisme est l’utilisation de plus d’une langue, soit par un seul locuteur, soit par un groupe de locuteurs. On estime que les polyglottes sont plus nombreux que les locuteurs monolingues dans la population mondiale.

Modérément édité

Le multilinguisme est l’emploi de plus d’une langue, soit par un seul locuteur, soit par un groupe de locuteurs. On estime que les polyglottes sont plus répandus que les locuteurs monolingues dans la population mondiale.

Fortement édité

Le plurilinguisme est l’emploi de plus d’une langue, soit par un seul locuteur, soit par un ensemble de locuteurs. On présume que les polyglottes sont plus répandus que les locuteurs monolingues dans la population internationale.

Quel est votre taux de plagiat ?

En 10 minutes, vous pouvez savoir si vous avez commis du plagiat et comment l’éliminer.

  • La technologie de Turnitin
  • Un résumé de toutes les sources trouvées
  • Une comparaison avec une base de données énorme

Faites la détection anti-plagiat

Procédure

Nous avons téléchargé chaque version du document dans chacun des logiciels de détection de plagiat pour les tester. Pour comparer les logiciels gratuits, nous avons parfois dû diviser le document en plusieurs parties plus courtes, le nombre de mots par document étant limité. Nous avons cependant fait en sorte de ne pas couper le document au milieu d’une source.

Par la suite, les documents ont été évalués manuellement en prêtant attention à chaque paragraphe plagié pour déterminer si le logiciel :

(0) n’a attribué aucune des phrases à une ou plusieurs source(s)

(1) a attribué une ou plusieurs phrase(s) à une ou plusieurs source(s)

(2) a attribué toutes les phrases à une source

De cette manière, nous avons pu tester si les logiciels avec un taux de plagiat élevé ont bel et bien identifié et lié la bonne source, ou si plusieurs phrases du texte plagié ont été attribuées à différentes sources. Cette méthode a également permis d’identifier les faux positifs (par exemple en mettant en surbrillance des parties non plagiées ou des phrases communes).

Analyse des données

Pour le document original, non édité, nous avons calculé le score total pour chaque logiciel anti-plagiat. Nous avons classé les types de sources selon leur pertinence pour les étudiant.e.s et universitaires. Les types de sources les plus pertinents pèsent double par rapport aux sources les moins pertinentes comme les articles de presse et les petits sites Internet.

Le score total pour le document non édité est de 560. Nous avons ensuite calculé le pourcentage de plagiat détecté par chaque logiciel, en prenant en compte le poids des différents types de sources.

Pour les textes édités, nous avons également calculé le pourcentage de plagiat détecté par chaque logiciel. Cependant, cette fois le score total est de 38, étant donné que nous n’avons inclus que les 19 sources qui ont été identifiées par les logiciels anti-plagiat.

Resultats

Les résultats suivants indiquent le taux de plagiat détecté par les logiciels dans les documents non édités, légèrement édités, modérément édités et fortement édités.

Pour les catégories de textes modifiés, nous n’avons utilisé que les sources qui ont été identifiées par tous les logiciels anti-plagiat au premier tour. Ainsi, certains logiciels ont détecté 100 % de ces sources, même s’ils n’ont pas détecté 100 % des sources dans le document non modifié.

Ce tableau classe les résultats selon le score pour le document non modifié, mais tous les résultats ont été pris en compte dans notre analyse.

Logiciel anti-plagiat Gratuit ou payant ? Non édité Légèrement édité Modérément édité Fortement édité
Scribbr (in partnership with Turnitin) Payant (la version gratuite n’inclut pas le rapport complet) 84 % 100 % 100 % 95 %
Quetext Payant (essai gratuit) 75 % 71 % 61 % 21 %
Viper Payant 70 % 63 % 47 % 18 %
Grammarly Payant 70 % 47 % 37 % 18 %
Check Plagiarism Payant 48 % 47 % 42 % 39 %
Duplichecker Gratuit 47 % 18 % 3 % 11 %
PlagScan Payant (essai gratuit) 46 % 76 % 84 % 37 %
Search Engine Reports Gratuit 45 % 29 % 11 % 8 %
Small SEO Tools Gratuit 45 % 26 % 8 % 11 %
Pre Post SEO Gratuit 41 % 47 % 21 % 8 %
Plagiarism Checker Payant (essai gratuit) 39 % 13 % 5 % 5 %
Unicheck Payant (essai gratuit) 38 % 58 % 50 % 32 %
Plagiarism Detector Gratuit 21 % 37 % 39 % 29 %
Pro Writing Aid Payant 6 % 37 % 34 % 13 %
Compilatio Payant 3 % 45 % 24 % 24 %
Writer Gratuit 0 % 0 % 0 % 0 %

Evaluation des logiciels anti-plagiat

Notre prochaine étape était une analyse qualitative, durant laquelle nous avons évalué la qualité des correspondances, la maniabilité et la fiabilité des logiciels, à l’aide des critères pré-établis. Cela a contribué à une évaluation plus objective et standardisée. Tous les logiciels anti-plagiat ont été évalués de la même manière.

Les critères sélectionnés couvrent une grande partie des besoins des utilisateurs :

  • Qualité des correspondances : Il est crucial que les logiciels anti-plagiat détectent l’entièreté d’une section plagiée et la lient à la bonne source. Des correspondances partielles, où le logiciel met en lien une même phrase à plusieurs sources, résultent en un rapport désordonné et difficile à interpréter. Les faux positifs, où des phrases communes sont marquées comme plagiat, doivent également être pris en compte, puisqu’ils gonflent le pourcentage de plagiat.
  • Maniabilité : Il est essentiel que les logiciels anti-plagiat montrent une vue d’ensemble claire des potentiels problèmes de plagiat. Le rapport doit être clair et cohérent, avec un design épuré. Les utilisateurs doivent pouvoir régler les problèmes dans l’immédiat, par exemple en ajoutant des citations générées automatiquement.
  • Fiabilité : Les étudiant.e.s et universitaires doivent être certain.e.s que leur document ne sera pas stocké ni vendu à des tierces parties. Ainsi, la vérification de leur document n’aura pas pour conséquence des problèmes de plagiat lorsque leur document sera soumis à leur établissement scolaire pour correction ou pour publication. Les outils doivent également proposer un service client en cas de problème.

Citer cet article de Scribbr

Si vous souhaitez citer cette source, vous pouvez la copier/coller ou cliquer sur le bouton “Citez cet article” pour l’ajouter automatiquement à notre Générateur de sources gratuit.

Boyer, A. (2022, 21 décembre). Comparaison de logiciels détecteurs de plagiat : Méthodes et résultats. Scribbr. Consulté le 27 janvier 2023, de https://www.scribbr.fr/le-plagiat/comparison-de-logiciels/

Cet article est-il utile ?
Annabelle Boyer

Annabelle est diplômée d'un master en linguistique et phonologie de l'anglais et agrégée d'anglais. Après avoir corrigé des documents académiques pour Scribbr tout en enseignant en lycée et en université, elle accompagne désormais nos correcteurs et correctrices pour maintenir la qualité de nos services.