В этой статье я хотел бы рассказать об одном очень интересном случае, с которым мне пришлось столкнуться недавно. О попытке «обмануть» систему «Антиплагиат».
О самой системе последнее время можно довольно часто услышать, как хорошее так и плохое. Как технический редактор научного журнала я с ней сталкивался не раз. Львиная доля недовольства, на мой взгляд вызвана некоторым недопониманием принципа ее работы. В частности, общаясь с пожилыми учеными, я довольно часто видел, что они ожидают от системы обнаружения «плагиата идеи». По их мнению, если кто-то попытается присвоить себе их научные достижения, пусть и переписав текст «на свой лад», система должна отреагировать – поймать и съесть виновных. Когда же выясняется, что в сферу возможностей «Антиплагиата» это не входит – наступает разочарование.
Система находит заимствования в чистом виде, и это на мой взгляд уже не мало и тоже важно. Если кто-то возьмет кусочек чужой статьи, книги, диссертации, диплома – и вставит в свой текст, система на это укажет. При этом не только указав долю заимствований в тексте, но и перечислив источники, откуда эти заимствования сделаны. Конечно, если переписать заимствованный кусочек «своими словами», то есть сделать рерайт, «Антиплагиат» будет молчать. Однако, очень многие сегодня не утруждают себя и рерайтом.
Есть и обратная сторона медали. Если опубликовать сперва научную статью, а затем ее содержимое, включить, скажем, в диссертацию, то «Антиплагиат» может принять последнее за заимствование, и то, что оба текста принадлежат «перу» одного и того же человека, для него значения не имеет. Ничего плохого в этом нет. Просто на это надо обращать внимание. И если в отношении какого-либо текста система рапортует о высоком проценте плагиата, прежде чем «казнить» автора, стоит посмотреть, что же она там нашла – может быть его же труды, опубликованные где-либо еще.
В любом случае, «Антиплагиат» заставляет потрудится ленивых, делая хотя бы рерайт заимствованного текста. Основные «плагиатчики» у нас, как водится, студенты. Уж сколько я наслушался жалоб о том, что долю оригинального текста в дипломе никак не получается вывести на приемлемый уровень… Но студенты народ находчивый.
Вот и мне недавно пришлось столкнуться со статьей аспиранта одного из подмосковных ВУЗов. В статье меня ждал сюрприз – попытка обмануть «Антиплагиат». Здесь надо сказать, что обмануть «Антиплагиат» аспиранту удалось, но не удалось обмануть редакцию, так что считать ли попытку успешной – вопрос открытый. Если бы речь шла о дипломной или курсовой работе хитрость могла бы и не «всплыть». Однако, выводы оставлю на потом, а сейчас расскажу о самой попытке.
Обнаружить ее удалось лишь на стадии форматирования статьи, однако некоторые сомнения возникли у меня с самого начала. Через мои руки прошло около тысячи научных статей, что позволило выработать некоторые закономерности. Поэтому, едва увидев файл со статьей, объем которого составлял почти 700 килобайт, я сразу отметил для себя: «с картинками». Однако внутри оказалась лишь пара черно-белых схем, которые ну никак не могли придать файлу такой солидный «вес».
Просмотрев весь текст и внеся некоторые поправки в форматирование, я запустил один из макросов, которыми пользуюсь для автоматизации верстки статей. В его задачи входит установка шрифта, его размера, интервала, отступов и т. п. Разумеется, я сильно удивился, когда увидел, что после прогона макроса статья вдруг выросла раз в десять, и стала занимать не 12, а 110 страниц. А произошло именно это. В конце статьи, после списка литературы, появилось еще несколько десятков пустых страниц.
Исходная статья в минимальном масштабе
А вот что стало после применения макроса…
Довольно быстро стало ясно, что страницы вовсе не пустые. Они заполнены текстом, который был «покрашен» в белый цвет. Вернув тексту цвет, я увидел несколько абзацев из статьи, которые повторялись много-много раз. А «отрезав» этот своеобразный «хвост» понял зачем это было нужно, да и все остальное встало на свои места.
… и наконец, окончательный вариант
Например, файл со статьей похудел до 100 килобайт, а результат проверки файла системой «Антиплагиат» показал 59% оригинального текста. Хотя изначально выдавалась оценка 96%. Ну а для того, чтобы опубликовать статью в журнале, надо обеспечить не менее 70% оригинального текста (остальные 30 отводятся на цитирование, выдержки из каких-либо документов и т. п.).
То есть, фактически, бдительность «Антиплагиата» была усыплена увеличением в статье доли оригинального, пусть и бессмысленного (а также скрытого от глаз обычных читателей) текста. Ниже для наглядности я попробовал изобразить смысл сделанного графически.
Итак, мы с вами разобрались зачем. Осталось понять, как? Действительно, как же лишняя сотня страниц была спрятана в документе? И как можно обнаружить такой «припрятанный» текст?
Разумеется, недостаточно добавить большой кусок текста в конец и перекрасить его в белый цвет – это будет сразу заметно. Однако, изначально в статье было 12 страниц… Изучение исходного вариант показало, что текст был не только перекрашен в белый цвет, но и уменьшен до такого размера, что все 200 000 символов на экране выглядели как всего один. Вот ниже на рисунке можно увидеть перекрашенный в черный цвет «паразитный» текст в оригинальном размере.
Так вот. Теперь давайте посмотрим его свойства.
Вроде ничего необычного. Если попробовать проделать обратное преобразование ничего не выйдет. Скажу забегая вперед, что у меня так и не получилось штатными средствами Word уплотнить текст до исходного состояния. Возможно, кунг-фу того, кто это сделал изначально, круче моего кунг-фу, однако я все-таки склоняюсь в сторону мысли о том, что для этого было использовано специальное ПО. Дело в том, что любой «вордовский» файл в формате .docx – это просто-напросто архив, внутри которого можно найти текст, содержащийся в файле, в формате XML, а так же изображения и т. п. Ради интереса можете попробовать самостоятельно, просто изменив расширение файла c .docx на .zip и разархивировав получившееся.
Так вот, анализ XML показал два интересных факта – во-первых многие параметры, касающиеся интервалов в файле, имеют отрицательное значение. Ну а во-вторых присвоены они всему «хвосту» целиком, в то время как Word, как правило, записывает параметры для каждого абзаца… Так что возвращаемся к исходному – файл был изготовлен с помощью специального ПО, или же, как промежуточный вариант XML редактировался вручную.
Остается последний вопрос – как же обнаружить спрятанный текст? Тут все довольно просто. Во-первых, если открыть статью после загрузки в систему «Антиплагиат», его там можно увидеть. Однако, скажем положа руку на сердце – кто это делает? Вот именно. Никто.
Обнаружить текст можно и прямо в Word – для этого надо выполнить команду «выделить» все, а затем установить параметры шрифта – масштаб – 100%, интервал – обычный.
Наконец, текст можно просто-напросто скопировать в любой простой текстовый редактор, не поддерживающий форматирование («Блокнот» например), там всё будет видно.
Ну а поводом заподозрить неладное может стать несопоставимый с содержимым объем файла.
Для себя я выбрал второй способ (проверка в Word) – тем более, написав макрос, такую проверку можно свести к одному клику мышью (а у меня он и так есть).
Ну а в качестве заключения хотелось бы сказать, что этой статьей я вовсе не выдал студентам инструкцию к обходу «Антиплагиата». Ибо в сети имеют место быть совершенно реальные инструкции, которым, судя по количеству комментариев, многие пользуются и вполне успешно.
Как проверяют студенческие работы? Их кучей загружают в «Антиплагиат», а затем смотрят лишь процентное соотношение оригинального и неоригинального текста, не вдаваясь в детали.
Если в ближайшее время на это не будет обращено внимания как пользователями системы, так и ЗАО «Анти-Плагиат», утверждения о том, что система изжила себя, которые можно увидеть на форуме «Антиплагиата», можно будет считать верными.
Кстати, некоторое время спустя история с обходом антиплагиата повторилась.
PS. В статье описан «ранний» способ модификации. Впоследствии описанный способ «обхода» был усовершенствован. Рекомендую прочесть статью «как обнаружить модификацию текстового файла с целю искусственного повышения уникальности«.
PS. PS. Комментарии к этой записи отключены ввиду большого количество желающих порекламировать свои услуги по обходу антиплагиата. Статья-то вроде как о том, как это дело обнаружить.
Если Вам ну очень хочется донести что-то до автора — пишите на мыло.
А количество символов в исходном файле если посмотреть — что показывало?
Показывало 19000 с копейками, т. е. символы спрятанного текста не показывало.
А что за версия офиса на скриншотах?
Это Office 365