Мифы про антиплагиат

Написать эту статью я задумал года полтора назад, написана она была в начале прошлого лета, сначала я ее решил не выкладывать, потом я про нее забыл, наконец, я ее немного «причесал» и все-таки решил опубликовать.

Предлагаю обсудить несколько распространенных заблуждений относительно проверки текстов на уникальность, с которыми я сталкивался. Кому-то некоторые моменты могут показаться уж совсем очевидными, но это действительно настоящие заблуждения настоящих живых людей.


Плагиат идеи

Вроде бы очевидная вещь. Но нет. Разговор с пожилым профессором:

— а если кто-то перепишет мою статью своими словами?
— такая статья будет признана уникальной.
— так зачем тогда нужны все эти проверки?

Пришлось рассказать, что многие не утруждают себя даже «переписыванием своими словами» и выслушать длинную тираду в стиле «о времена, о нравы». Хотя… Лично я думаю что проблема существовала всегда, просто без автоматизированных средств проверки, интернета и открытого доступа ловили «плагиаторов» значительно реже, вот и все. Но это уже лирика.

На самом деле: проверка текста на уникальность проверяет на уникальность только текст, а не его содержание, не смысл.

Про точные величины

С непониманием этого момента сталкивался несколько раз. Многие ожидают, что уникальность у текста — это некая «точная величина». И если проверить текст сначала в одной системе, а потом в другой, то результат тоже должен быть сходным. Разумеется, это не так. Разные инструменты для проверки на уникальность действуют по-разному, в том же Антиплагиате, например, можно подключать разные базы, а в некоторых других системах — нет… В «ETXT Антиплагиат» можно менять размер шингла, что тут же влияет на результат. Разные системы показывают разный результат. Иногда диаметрально противоположный — одна дает уникальность 100%, другая 0%.

На самом деле: разные системы проверки оценивают один и тот же текст по-разному.

Про гарантии

Если предыдущие два заблуждения были редкими, то это встречается достаточно часто. Это вообще основное заблуждение в статье, причем самое опасное и вредное. Заблуждение можно разделить на две части. Первая выглядит так «результат проверки текста (например в том же «Антиплагиат.ру») гарантирует, что текст уникальный«. На самом деле этот результат «гарантирует» (именно так, в кавычках), что на момент проверки вашего текста в нем не обнаружено заимствований из других текстов, находящихся в открытом доступе и дополнительных базах, коль скоро такие были и использовались.  Причем даже при такой формулировке использовать слово «гарантирует», пожалуй, не стоит. Так как иногда текст — вот он, лежит в сети в открытом доступе. Но при проверке почему-то игнорируется (об этом ниже). В общем, все эти проверки — ничего никому толком не гарантируют. Если не верите — читайте дальше.

Вторая часть заблуждения вообще смешная и выглядит как «раз проверка говорит что текст уникальный — значит уникальный и баста, верьте все срочно!«. С этим мы сталкиваемся в редакции иногда… Когда сообщаем автору, что текст у него не уникальный, заимствование вот отсюда. А в ответ нас пытаются «потыкать носом» в скриншот с Антиплагиат.ру. Смотрите мол, уникальный же! Что вы там выдумали такое!? Тут даже комментарии какие-либо излишни.

По-хорошему, результат проверки в той или иной системе говорит лишь о том, что на момент проверки никаких заимствований эта система в проверяемом тексте не нашла (и это вовсе не значит, что их нет). И не более. И уж тем более этот результат ничего не «гарантирует».

На самом деле: никаких гарантий.

Срок годности

Многие ожидают, что уникальность текста — постоянный во времени показатель. Разумеется, это совершенно не так. Даже за небольшой промежуток времени в сети может появиться новый текст, который повлияет на уникальность при проверке. За примерами далеко ходить не надо — есть, например, библиотека «Киберленинка», в которую постоянно добавляются новые статьи. И даже более того — новые журналы, со всем своим, не редко многолетним, архивом. А еще есть сайты, на которых энтузиасты (или «пираты» — как хотите) сканируют и выкладывают в открытый доступ всякие книги. Какие-то сайты, на которых лежали те или иные  тексты, напротив, прекращают свое существование… То есть — каждый день происходит масса процессов, способных повлиять на результат проверки текста на уникальность — причем самым радикальным образом.

Вот вам почти не вымышленная история: некий Вася Пупкин нашел у себя на антресолях старую-престарую и редкую-приредкую книгу, хотя некоторые моменты показались ему еще актуальными. И решил Вася схитрить — взял кусок книги и опубликовал от своего имени как научную статью. А что? Материал хороший, а толком и не опубликован нигде. Да и уникальность показывает отличную, аж 93%!. Не пропадать же добру… А еще через неделю некий Петя Иванов нашел у себя в чулане ту же самую книгу, и так она ему понравилась, что решил он ее сделать достоянием общественности — отсканировал, распознал и выложил в сеть. И стала уникальность «Васиной» статьи 17%…


На самом деле: на самом деле — точно так же, как и с прошлым заблуждением, здесь можно сказать только одно: результат проверки в той или иной системе говорит лишь о том, что на момент проверки результат такой-то. С некоторой долей вероятности результат может измениться уже через несколько часов. Через несколько дней, и, тем паче, месяцев, он может отличаться значительно.

Если текст где-то опубликован, то при проверке на уникальность заимствования из него обязательно будут найдены

Что? Не верите? Да, это НЕ так. Для меня привычная «картина мира» резко изменилась, когда вдруг возникла необходимость проверить достаточно большое количество (несколько сотен) текстов, которые уже были опубликованы в сети в открытом доступе. Вот где я насмотрелся на всякое! Кому интересно — попробуйте, сделаете много интересных открытий. Ведь выложенный в сети текст при проверке его на уникальность играет роль своего рода «эталона», так как в идеальных условиях при проверке его уникальность должна быть 0% или около того.

Я сначала хотел развернуть целое большое тестирование, но сейчас на это совершенно нет времени. Поэтому ограничусь лишь некоторыми тезисами.

Сначала мы с вами пойдем вот сюда: https://apavlov.ru/obhod-antiplagiat/ — это моя первая статья на тему уникальности текстов. На всякий случай уточняю — текст находится в сети, в открытом доступе с октября 2013-го года. То есть, на момент написания этой статьи — почти 4 года. Вот мы его берем и проверяем на уникальность на Антиплагиат.ру (дата и время проверки видны на скриншоте):

Результат проверки текста

Результат проверки текста (нажмите для увеличения).

А по мнению Антиплагиат.ру — текст уникальный. Совсем. Полностью. Не знаю, чем вызвана данная «флуктуация», но это хороший (и не единичный) пример того, как система проверки не видит текст, который лежит в сети в открытом доступе.

Если вы возьметесь за проверку уже опубликованных текстов, то вас ждет много подобных сюрпризов. Не знаю с чем это связано, но особенно плохо находятся тексты, которые опубликованы в формате PDF, а ведь это фактически стандарт для научных изданий. Еще зимой я проверял выборку из 10 случайным образом выбранных статей. Причем интересовала меня в первую очередь даже не какая будет показана уникальность, а будет ли найден источник вообще:

  • Антиплагиат.ру вырвался в лидеры и нашел источник в трех случаях из 10. Вообще по поиску текстов, опубликованных в PDF — Антиплагиат.ру впереди всех, по крайней мере по моему опыту — снимаю шляпу. Но все же проблемы с нахождением таких текстов значительные.;
  • ETXT Антиплагиат не нашел ни одного. Правда, надо сказать, что в недавнем обновлении программы сделаны большие шаги навстречу формату PDF, и что-то в нем все-таки стало находиться (и вообще эта программа быстро развивается);
  • Сервис Text.ru с одной стороны нашел больше всего источников — четыре, но с другой — в двух случаях не выделил их явно. То есть — источник найден, но показано, что оттуда заимствовано, скажем, 15% (хотя заимствован весь текст);
  • Поисковыми системами, используя фразы из статей, можно было обнаружить все тестовые статьи.

Да, тексты почти всех статей были найдены там и сям в HTML (например, в той же Киберленинке), но пара статей из тестовой подборки не была найдена вообще. А это уже повод для определенных размышлений.

Раз уж мы об этом заговорили — куда как лучше находятся тексты, которые где-либо опубликованы а HTML, но и это, как видим на примере статьи с моего сайта, не обязательно. Причем с точки зрения поиска по текстам, которые выложены в HTML в тестировании был явным лидером ETXT Антиплагиат.

Если уж взялись перемывать косточки всем упомянутым — выскажусь и о Text.ru. Лично я прибегаю к нему когда есть какие-то подозрения — иногда сервис вдруг находит то, что «не видят» другие. Но иногда его оценки достаточно сложны для интерпретации. Все-таки он больше ориентирован на копирайтеров и их клиентов, как мне кажется.

На самом деле: при проверке могут быть НЕ найдены заимствования даже из доступного в открытом доступе текста.

Выводы

Из всего этого можно сделать достаточно простой вывод — средства проверки текстов на уникальность пока находятся в достаточно, выражаясь языком компьютерщиков, «сыром» состоянии. Они уже многое могут, они достаточно активно развиваются, безусловно ими надо пользоваться, но вот считать  результат проверки истиной в последней инстанции — пожалуй, пока не стоит.

Добавить комментарий