Обход антиплагиата «со спрятанными буквами» и его обнаружение

Я уже аж дважды писал про попытки обхода системы «Антиплагиат» вообще, и других инструментов для оценки степени оригинальности текста, в частности (тем кто не читал — раз и два).

Вообще, случаев в моей практике было, конечно, гораздо больше, однако все они, в основном, походили на историю, описанную во второй статье про обход антиплагиата, поэтому я о них не писал.

И вот, я столкнулся, наверное, с одним из идеальных способов обхода. Как и все идеальное он предельно прост, а обнаружить его достаточно сложно, особенно если текст не вычитывается, а просто просматривается «по диагонали», или даже не просматривается вовсе.

Действовать с вами будем на конкретном примере. Вот я иду в интернет, и нахожу какой-нибудь кусочек текста. Не ходя далеко, я взял кусочек из прошлой статьи этого цикла.

Для проверки я буду использовать не «традиционный» antiplagiat.ru, а утилиту, созданную на бирже копирайтинга ETXT (кстати, в последнее время наблюдаю повышенный интерес со стороны ВУЗов к этой программке. Она того стоит, поверьте).

Что же она нам покажет?

Очередной способ обойти антиплагиат и его обнаружение

Результат ожидаемый – уникальность текста – 0%. Ну что же, копирую тот же фрагмент текста в Word и обрабатываю его нужным способом.

Очередной способ обойти антиплагиат и его обнаружение

Смотрите, повозившись с текстом всего пару минут, я вдруг повысил его оригинальность аж на 39%! И все это – без всякого специального ПО.

Что было сделано? Я просто беру текст и начинаю превращать одни слова в другие. «Во» в «вот», «не» в «нет», слово «вопрос» я превратил в «вопросы». И т.п. вот на картинке ниже красным показаны подставленные буквы:


Текст с модификациями


Дальше, я самым наглым образом перекрашиваю эти красные буквы в белый цвет и уменьшаю. Выходит вот что:


Текст со скрытыми модификациями


Итак, мы с Вами видим текст, язык которого в Word указан как русский, никаких лишних подчеркиваний нет. Даже если проверяющий догадается выполнить цепочку действий «выделить все – размер шрифта 12 – цвет шрифта авто», при достаточном объеме текста, шансы того, что сделанные модификации просто не заметят близки к 100%. Ну а даже если и заметят, то, если модификации делались разумно, можно и опечатками это назвать.

Конечно, такая обработка текста – это большая работа. Это в том случае, если Вы не знакомы с макросами. Если знакомы, то написание макроса, который обработает весь текст за секунды, займет минут 20.

Как видите, практически идеальный вариант. Сам столкнувшись с такой модификацией впервые, я «разоблачил» ее лишь случайно. Удивился элегантности решения, и стал думать над тем, как же быстро и просто проверить текст на наличие подобных модификаций?

Просто выровнять размер шрифта во всем тексте и установить один цвет – явно не то. Потом придется вычитывать весь текст.

Искать в тексте буквы, выделенные белым? Кажется, это очевидное решение, на самом деле оно совершенно не годится. Почему? Потому, что будучи хитрым, я делаю текст не белым, а скажем, выставляя значение по RGB 255-255-254. Для глаза человека это белый цвет. Для машины нет. А проверять сразу много цветов – не выход.

Верное же решение состоит в том, что надо убрать весь текст, в котором цвет шрифта – «Авто». И посмотреть, что же там останется. Обработаем таким образом наш тестовый кусочек. Открываем инструмент поиска и замены, и выставляем такие настройки:

Настройка инструмента поиска и замены

Т.е. весь текст с цветом «Авто» мы меняем на букву икс. Я не знаю почему, но, если менять этот текст на пустоту, ничего не выходит. Надо менять на что-то, обратите на это внимание.

В результате обработки нашего текста мы получили набор из кучки букв X:

Иксы

Ну а теперь сделаем последний шаг – выделим все, и установим размер шрифта (какой-нибудь вменяемый, 12 или больше) и цвет. Если после этого ничего кроме наших букв икс не появилось – значит, текст чист. Ну а если появилось – значит не очень. В нашем примере получилось вот так – явный признак того, что «дело пахнет керосином».

Дело пахнет керосином

В заключении добавлю, что можно написать макрос, который будет выполнять эту проверку нажатием одной кнопочки. Вот он:

Sub проверка()

‘ проверка Макрос


    Selection.Find.ClearFormatting
    Selection.Find.Font.Color = wdColorAutomatic
    Selection.Find.Replacement.ClearFormatting
    With Selection.Find
        .Text = «»
        .Replacement.Text = «x»
        .Forward = True
        .Wrap = wdFindContinue
        .Format = True
        .MatchCase = False
        .MatchWholeWord = False
        .MatchWildcards = False
        .MatchSoundsLike = False
        .MatchAllWordForms = False
    End With
    Selection.Find.Execute Replace:=wdReplaceAll
    Selection.WholeStory
    With Selection.Font
        .Name = «+Основной текст»
        .Size = 12
        .Bold = False
        .Italic = False
        .Underline = wdUnderlineNone
        .UnderlineColor = wdColorAutomatic
        .StrikeThrough = False
        .DoubleStrikeThrough = False
        .Outline = False
        .Emboss = False
        .Shadow = False
        .Hidden = False
        .SmallCaps = False
        .AllCaps = False
        .Color = -587137025
        .Engrave = False
        .Superscript = False
        .Subscript = False
        .Spacing = 0
        .Scaling = 100
        .Position = 0
        .Kerning = 0
        .Animation = wdAnimationNone
        .Ligatures = wdLigaturesNone
        .NumberSpacing = wdNumberSpacingDefault
        .NumberForm = wdNumberFormDefault
        .StylisticSet = wdStylisticSetDefault
        .ContextualAlternates = 0
    End With
End Sub

 

Пожалуй, на этот раз все.

В конце, как водится, обычный после статей этой тематики пассаж. Нет, я не считаю, что публиковать это вредно – студенты знают это и без меня. Я же, скорее, рассказываю, как найти, а не как сделать.

Результат же сложившейся ситуации – бездумное требование 100% уникальности в студенческих работах. Зачем он там? И как его добиться «легально»?

Желающие найти в текстах подобного рода модификации получили здесь рецепт того, как это можно сделать. Те, кто такую проверку текстов не делают — пеняют на себя.

Комментарии на тему услуг по обработке текстов будут безжалостно выпиливаться.

комментариев 10
  1. Камила
    12.03.2017 в 20:11 Ответить

    А как насчет проверки на орфография в таком случае? Пройдет ли ее такой текст?

  2. Розалина
    27.04.2017 в 17:08 Ответить

    Александр, спасибо за ваши статьи! Способ с XML файлом просто убийственный, студенты меня ненавидят)))

    1. Александр Павлов
      27.04.2017 в 17:51 Ответить

      Спасибо за отзыв 🙂 Следите за сайтом, в ближайшие несколько дней опишу способ, с помощью которого со 100% вероятностью можно вывести «на чистую воду» любой текст, как бы он ни был обработан. Студенты будут в восторге! =)

      1. Студент
        14.06.2017 в 00:03 Ответить

        Для Вас в аду будет отдельный котел)

  3. Марина
    05.10.2017 в 22:00 Ответить

    Добрый день! Подскажите пожалуйста, данный способ обхода ещё актуален? Сейчас преподаватели используют ресурс руконтекст

  4. Артём
    26.09.2018 в 17:01 Ответить

    В данный период времени, если уже обманывать систему плагиата то при помощи современных кодировок, которые предоставляют специальные ресурсы. Они идут нога в ногу с системами проверки, как будто за одно)) Я могу посоветовать: …

    1. Александр Павлов
      26.09.2018 в 17:51 Ответить

      Не, не можете… ¯\_(ツ)_/¯

  5. Андрей
    23.07.2019 в 15:41 Ответить

    Искал информацию про обман антиплагиата с помощью разных невидимых символов, в результате прочёл здесь несколько статей про разные способы обмана. Хочу внести свои «пять копеек», может автору или преподавателям поможет.
    Приходилось несколько лет заниматься вёрсткой печатных сборников статей и постепенно выработалась определённая система, благодаря которой часть, описанных здесь, попыток обмана раскрывалась на этапе вёрстки. Поскольку лень — двигатель прогресса, в том же Word’е для этого был создан набор стилей для различных элементов статей: заголовков, подзаголовков, формул, программного кода, табличного текста, списка источников и т.д. Статья форматировалась путём выделения фрагмента и применения к нему соответствующего стиля. Вот на этом этапе моментально и вылезали любые скрытые тексты и им подобная нечисть.
    К слову, проверкой на плагиат тоже приходилось заниматься, наиболее практичным инструментом до сих пор считаю программу etxt из-за её гибкости. Например, там есть настройка, которая позволяет отдельно учитывать правильно оформленное цитирование.
    P.S. Неразрывный пробел и мягкий перенос сам использую часто, но вот чтобы авторы по собственной воле использовали длинное тире — не встречал.

    1. Наталья
      07.12.2019 в 08:02 Ответить

      А про какое длинное тире Вы говорите? Если ctrl+-, то я постоянно использую, если Word автоматически не преобразует

  6. Александр Павлов
    23.07.2019 в 20:02 Ответить

    Андрей, здравствуйте! Со стилями — интересная идея. Я нечто подобное обдумывал. Ну и вообще — спасибо за интересный комментарий! Почти на отдельную статью тянет 😉

Добавить комментарий

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.