Способ обхода антиплагиата «с пробелами» и как его обнаружить

Достаточно долго самым популярным способом «обойти» проверку на уникальность было внедрение в текстовый файл куска неотображаемого уникального текста. Три года назад я уже описывал ранний вариант этой технологии. С тех пор способ несколько мимикрировал, но суть осталась прежней. Как найти такой спрятанный текст я писал уже в другой статье — как обнаружить модификацию текстового файла с целю искусственного повышения уникальности.

Совсем недавно этот способ резко «пропал с радаров», благодаря тому, что многие системы и в первую очередь «Антиплагиат», научились клеймить модифицированные файлы подозрительными. Разумеется, должно было появиться что-то новое, и оно появилось!


Новый способ похож на уже существующие и встречающиеся время от времени различные вариации невидимого символа. Только речь в данном случае идет не о символах, а о пробелах. Открыв один файл я заметил, что в тексте повсюду стоят двойные пробелы. Примерно вот так (для примера я обработал кусочек текста одной из своих прошлых статей):

Новый способ обхода антиплагиата "с пробелами" - учимся выявлять

Сами по себе двойные пробелы не такая уж и редкость. У кого-то они получаются случайно при наборе текста, кто-то ставит специально, чтобы увеличить количество символов. Меня немного удивило то, что такая ситуация была во всем тексте, но не более. Разумеется, я решил удалить лишние пробелы. Делается это очень просто: открываем инструмент поиска и замены, в верхнюю строчку ставим два пробела, в нижнюю один, и нажимаем кнопочку «Заменить все».

Новый способ обхода антиплагиата "с пробелами" - учимся выявлять

После этого, там где было два пробела — станет один. И вот, проделав эту привычную операцию, я вижу, что двойные пробелы никуда не исчезли! Подозрительно! Ну что же, начнем с того, что откроем файл в… LibreOffice Writer! Офисный пакет LibreOffice можно бесплатно загрузить с сайта https://ru.libreoffice.org. В составе этого офисного пакета есть текстовый процессор «Writer». Сам по себе он неплох, однако, не совсем корректно отображает документы, созданные в Word (я писал об этом в статье про офисные пакеты для Linux), но нам это даже на руку! Я уже не раз обращал внимание, что всякие «ухищрения», невидимые в Word, частенько всплывают во Writer’е. Итак, запускаю Writer:

Новый способ обхода антиплагиата "с пробелами" - учимся выявлять

А вот это уже интересно. Оказывается, между пробелами вставлен еще один символ, который Word не отображает. Writer показывает его как неразрывный пробел, но это не он. Заглянув «под капот» текстового файла, в XML, я достаточно быстро обнаружил определенную конструкцию, которая вставляет в документ этот символ. По понятным причинам, приводить ее здесь я не буду.

«Вычистить» документ можно используя Writer и инструмент поиска и замены в нем. Копируем выделенный серым символ, вставляем в строку «найти» (его не будет видно, но, подвигав курсором, можно понять, что символ там есть), строку «заменить на» оставляем пустой, нажимаем кнопку «заменить все».

После проверки чистого документа, становится понятно, что уникальности такая обработка, как ни странно, документу придает. Если обработать весь текст, то уникальность станет 100%, что подозрительно. Поэтому во всех образцах файлов, которые попали ко мне, обработана была лишь часть текста, примерно до такой степени, при которой «Антиплагиат» покажет 70 — 80%.

Сам же способ, очевидно, рассчитан на то, что текстовый файл будут проверять не глядя — натыканные всюду двойные пробелы, по крайней мере мне, тут же бросились в глаза. Если же удалить их с помощью инструмента поиска и замены не выходит — можете быть уверены, что перед вами очередной прием, искусственно завышающий уникальность текста.

Комментарии: 1
  1. Афродита
    01.05.2017 в 14:54 Ответить

    проблема не в преподавателях или программах, а в самой структуре текстового файла. Ну не может преподаватель, даже знающий справиться с некоторыми способами обхода антиплагиата, ну вот никак не может!

Добавить комментарий