PDFLaTeX i Antyplagiat

Ruszyło mnie do napisania tego postu, bo pewnie ktoś może mieć podobne przygody. Otóż w ostatnim dniu przedłużonego terminu zgłosiłem się do Dziekanatu mojej uczelni (tak, po czterdziestce też się da), by złożyć moją wypieszczoną pracę dyplomową. Regulamin powiadał o konieczności złożenia pracy w formacie .doc i .pdf, ale ja postawiłem na to, że to odpowiedni moment na to by zrobić coś poważnego w LaTeX’u. Ładnych kilka(naście) lat zajmowałem się składem tekstu, poskładałem ileśtam książek, czy innych druków. Od samego początku typografia była moim konikiem. I jak tutaj teraz miałbym składać w Wordzie? Na szczęście mój Promotor nie widział problemów. W końcu LaTeX to uczelniany najwyższy standard od lat w wielu uczelniach na świecie.

texmaker z projektem mojej pracy.

I było pięknie do momentu, aż Pani w Dziekanacie (pozdrawiam za cierpliwość) w moim wypieszczonym PDF-ie zrobiła ctrl+a, ctrl+c, by potem wkleić tekst w systemie antyplagiatowym. I niestety. Zamiast polskich znaków jakieś krzaki. I diagnoza: — Nie mogę panu przyjąć tej pracy.

Nieźle. Ostatni dzień. Zacząłem intensywnie myśleć co jest nie tak. Dziekanat jeszcze pół godziny czynny. Co jest grane. Pracę składałem w texmakerze na Mac’u. Moje podejrzenia od razu skierowały się na unikod i jakiś ból w systemie antyplagiatowym. U mnie kopiowanie z świeżo wyprodukowanego PDF-a i wklejanie do edytora tekstowego nie pokazuje niczego złego:

Świeży PDF w macOS’owym Preview. Zaznaczam tekst i kopiuję.
Skopiowany tekst w edytorze. Można zauważyć, że całość  jest w jednym wierszu i przeniesione są dywizy po dzieleniu wyrazów

Lecz niestety okazało się, że po zmianie maszyny, otwarciu na innym komputerze w przeglądarce Adobe w skopiowanym tekście znajdujemy inne znaki niż miały być.

Skopiowany tekst na innej maszynie (to samo działo się gdy otwierałem PDF później, a nie od razu z texmakera)

I co teraz? Unikod odpada. Pierwsze kroki skierowałem w źródła TeX’owe. Porównywałem stworzone z tego samego zestawu nagłówków dokumenty. Praca vs. Referat. I tutaj zauważyłem, że kopiowany tekst z Referatu nie wykazuje błędnego kodowania polskich znaków. Co jest grane? Prawdopodobnie w Referacie nie używam jakiegoś pakietu, który pomimo wyliczenia go w TeX’owych nagłówkach nie bierze udziału w kompilacji. Moje nagłówki Referatu:

\documentclass[12pt,a4paper,oneside,polish]{dcsbook}
\usepackage[utf8]{inputenc}
\usepackage[polish]{babel}
\usepackage{hyperref}
\usepackage{listings}
\usepackage{color}

Nie przedłużając. Dopisanie:

\usepackage{cmap}

sprawiło, że uzyskałem coś, co powinno zaspokoić potrzeby uczelnianego systemu antyplagiatowego (mam nadzieję). Cmap to pakiet bazujący na tablicy znaków firmy Adobe. Czyli twórcy formatu PDF. Powinno być lepiej. I chyba jest, bo w windowsowym Adobe Readerze robię kopiuj:

Zaznaczony tekst w windowsowym Readerze

I sytuacja w windowsowym kopiowaniu:

Warto zauważyć, że nie ma dywizów pozostałych po dzieleniu wyrazów.

Powyższy wklejony test jest w windowsowym kodowaniu (ANSI). Mam nadzieję, że tyle wystarczy, by pracę zarejestrować w systemie antyplagiatowym. [edit: wystarczyło]

Sam PDF ma warstwę wizualną i warstwę, która kryje się pod wyrysowanymi czcionkami. Jak widać na poniższym przykładzie zaznaczenie tekstu pozwoli skopiować niewidoczne dla nas warstwy tekstowe. Cały ambaras w tym, aby było tam to, co widać na warstwie graficznej. Cmap wydaje się rozwiązywać problem.

3 thoughts on “PDFLaTeX i Antyplagiat”

  1. Ciesze się, że trafiłem na Twoją stronę. Miałem podobny problem, może nie aż tak krytyczny jak oddanie pracy dyplomowej ale nie działało kopiowanie ze względu na krzaki. Teraz działa! Dzięki.
    Zapewne się obroniłeś, gratuluję.

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.