Обход антиплагиата с «невидимым символом» и его обнаружение

Я, помнится, уже писал, что работаю техническим редактором в научном журнале. Причем одно из требований к материалам, которые мы принимаем — это оригинальность. На самом деле статьи проходят довольно сложную проверку, однако один из начальных ее рубежей — это известная многим система Антиплагиат. Мы уже сталкивались с попытками эту систему обмануть, я писал об этом в статье О попытке обхода системы Антиплагиат. Ну а это, выходит, вторая часть.

На этот раз был использован более хитрый (но такой же очевидный) способ. Однако шансы на успех у него, возможно, даже и были. Ибо статья прошла предварительную проверку, верстку (а прошлую попытку, как мы помним, удалось заметить именно на верстке), и была изобличена уже в последний момент, попав ко мне.

Что же натолкнуло меня на мысль о том, что требуется дополнительная проверка? На самом деле, существует масса косвенных признаков того, что текст не оригинальный.

Поначалу все было вообще хорошо и красиво, однако после того, как я придал заголовку нужное форматирование (в частности — размер шрифта 18), он стал выглядеть примерно так:

Пример заголовка

Если вы еще не поняли, что меня насторожило, внесу конкретику:

Пример заголовка с пояснениями

 

Да. Вот эти вот интервалы. Мелочь, казалось бы, но когда в день через твои руки проходит по нескольку статей, всякие необычности становятся особенно заметны. Поигравшись с продвинутыми настройками шрифта, от интервалов я не избавился, и стал копать дальше. Начал я с того, что скопировал заголовок в блокнот. Вышло вот что:

Тот же текст в блокноте

Ну вот, казалось бы и все ясно. Пробелы. Так-то оно так, да не так.  Путем нехитрых манипуляций довольно быстро удалось установить, что это не пробелы. Для начала я выделил этот символ в Word. И он выделился:

Выделен паразитный символПри этом Word в статусбаре выдал такой вот интересный вердикт:

Статусбар

Мда. Не знаю, производственная ли это необходимость, или юмор тех, кто придумал этот способ (речь об албанском языке). Но между тем… Разумеется, следующее что я сделал, это попробовал «покрасить» символ в черный цвет, в надежде на то, что сейчас он белый, а после применения цвета станет видим. Однако это мне благополучно не удалось. Он  так и остался невидимым. Поэтому пришлось взяться за скальпель инструмент поиска и замены. Скопировав паразитный символ в буфер обмена, я вставил его в строку «найти» этого инструмента. В строку «заменить на» я забил сочетание символов, которое вряд ли встретится в статье. Не мудрствуя лукаво — qweqwe.

Получилось вот так:

Пробуем заменить невидимый символ на что-нибудь

Пусть Вас не смущает, что верхняя строка пуста. Символ там есть. Если установить в нее курсор, и подвигать стрелочками, это станет очевидно. Ну а добавит уверенности нажатие кнопки «Заменить все»:

Количество найденных символов

Ого! Да эти символы, похоже, были чуть ли не в каждом втором слове! После проведения экзекуции, заголовок стал выглядеть так:

ant2-8

Ну что же, выведем его на чистую воду! Выделяю весь текст, устанавливаю цвет шрифта черный и размер — 18. Получается вот что:

Результат

Вот так. Наши qweqwe появились во многих словах по всему тексту. Не удивительно, что Антиплагиат оценил текст как на 100% оригинальный. Почему? Да потому, что для системы невидимый паразитный символ все равно существует, разделяя слова. И при сравнении с базами данных, Антиплагиат бодро рапортует, что текст оригинальный. Конечно оригинальный — ведь в базе данных сохранен нормальный текст, без невидимых символов.

Прибегнем снова к инструменту поиска и замены, только по-другому. В верхнюю строку мы скопируем нашего албанского героя, а нижнюю просто оставим пустой. Совсем пустой. После нажатия кнопки «Заменить все» — лишние символы будут удалены. И мы сможем-таки узнать оригинальный результат предложенного текста при проверке через Антиплагиат. В нашем случае он составил 58%. Большой впрос — стоила ли игра свеч? Ведь для публикации в журнале надо хотя бы 70 — не такая уж и великая разница. Изменив немного текст, можно было добиться нужного результата.

На этом, казалось бы, можно и закончить, однако я хочу обратить внимание на некоторые интересные особенности этого метода. Начнем с простого. Обратите внимание, заголовок (а скриншоты сделаны в Word), не подчеркнут красным. Мы с Вами отлично знаем, что если в слово вставить лишнюю букву или пробел, это непременно произойдет, если только проверка орфографии включена.  Я пока еще не разобрался, как добиться такого эффекта. Все оказалось совсем просто. Помните, я упоминал албанский язык? Если поменять язык документа на такой, средства проверки орфографии для которого не установлены, то и характерных подчеркиваний не будет.

Далее. Если вы читали первую статью, то помните, что ту попытку обхода системы можно было раскусить, просто открыв текст прямо на «Антиплагиате». Припрятанный уникальный, но бессмысленный кусок текста там был виден. Здесь же все более серьезно. Не видно не только сам символ, но и даже пробел вместо него, как мы с Вами наблюдали это в блокноте.

Ну а теперь возьмемся за скальпель и полезем в XML. Если кто не в курсе — для того, чтобы добраться до внутренностей вордовского файла, надо изменить его расширение на zip, и получившийся архив разархивировать. Внутри будет несколько папок, содержащих различные объекты, имеющиеся в файле, и собственно текст в формате XML, где и можно увидеть что-нибудь занятное в такой ситуации. Поехали:

Искомый символ в XML

Вот он, наш герой. Если честно, я надеялся найти нечто более конкретное, поэтому полез еще глубже, то есть в шестнадцатеричный код:

Шестнадцатеричный код

Где и удалось узнать, что загадочному символу соответствует код 0A20 в таблице Unicode. Символ какого-то мудреного алфавита, которого, видимо, просто-напросто нет в тех шрифтах, которые мы используем. Кстати, по ссылке этот символ в Unicode от 1993 года. В современной таблице кода 0A20 нет вообще. Вот все и встало на свои места. То есть с точки зрения большинства программ… Символ как бы есть, но в то же время, его как бы и нет.

Хитро, кончено, что сказать… Я отлично понимаю, что все мы одарены разными талантами. И вот так взять и написать полтора десятка страниц уникального текста — некоторым сложно. Если вы относитесь к таковым — попробуйте вот это. Не бесплатно конечно. Зато честно. Ну, почти.

Закончить статью, как и предыдущую, я хочу мыслями собственно об «Антиплагиате». Да, система не совершенна, однако же, приятно видеть, что она не стоит на месте. Статья, о которой идет речь выше, попала к нам около месяца назад, и тогда «Антиплагиат» ее проглотил запросто. Теперь же, после загрузки, рядом с ней загорается восклицательный знак — «подозрительный документ». Уже ради интереса я попробовал загрузить туда текст из первой статьи и получил такой же результат. Уже неплохо.

Только вот… Многие ли докопаются до таких тонкостей, даже получив предупреждение? Боюсь, что нет.

PS. Комментарии к этой записи отключены ввиду большого количество желающих порекламировать свои услуги по обходу антиплагиата. Статья-то вроде как о том, как это дело обнаружить.

Если Вам ну очень хочется донести что-то до автора — пишите на мыло. 

PS. PS. Не пишите мне, чтобы я выслал «волшебный символ». Я с другой стороны баррикад 😉