PLAGIARISM DETECTION USING SENTENCE SIMILARITY WITH TEXT ALIGNMENT APPROACH

Posted by JMII e-Journal on 02.13
PLAGIARISM DETECTION USING SENTENCE SIMILARITY WITH TEXT ALIGNMENT APPROACH

Mufidah Aisyah Rachmat
Fakultas Informatika, Jurusan Teknik Informatika
Universitas Telkom
Jalan Telekomunikasi No.1, Bandung, Indonesia



Abstrak
Dalam membuat suatu karya tulis atau karya ilmiah tidak dapat dipungkiri bahwa penulis membutuhkan informasi dan referensi dari hasil karya orang lain. Referensi tersebut bisa didapatkan melalui sebuah artikel, buku, paper, atau hasil karya lainnya yang memiliki keterkaitan dengan referensi yang dibutuhkan. Seiring berjalannya waktu, era digital semakin berkembang dan mengakibatkan suatu dokumen mulai direpresentasikan dalam bentuk digital dan dapat di sebarluaskan dengan mudah dengan adanya internet. Hal tersebut mengakibatkan tindakan plagiarisme cenderung lebih mudah dilakukan. Dalam paper ini akan dilakukan pendeteksian plagiarisme menggunakan pendekatan text alignment dengan menggunakan proses (1) Preprocessing (2) Seeding (3) Extension (4) Filtering. Tujuan dari text alignment merupakan mencari pasangan fragmen yang digunakan kembali atau menjadi sumber dari dokumen terduga. Dataset yang digunakan terkategori menjadi beberapa tipe yaitu no plagiarism, no obfuscation, random obfuscation, translation obfuscation, dan summary obfuscation [1] dimana setiap tipe memiliki karakteristiknya masing masing. Adapun dalam penyelesaianya akan digunakan metode sentence similarity menggunakan tf-idf, cosine similarity dan dice coefficient kemudian hasil akhir dari fragmen yang dihasilkan akan dievaluasi dengan 2 evaluasi yaitu evaluasi level kasus dan evaluasi level karakter. Untuk evaluasi pada level kasus didapatkan nilai f-measure sebesar 0.976761563 sedangkan untuk evaluasi level karakter didapatkan nilai f-measure sebesar 0.708385162.
Kata kunci :
plagiarisme, text alignment, sentence similarity, cosine similarity, dice similarity, tf-idf, parameter adaptif.

Abstract
            To make a paper or scientific work can’t be denied that the authors need information and references from other people's work. The reference can be obtained through an article, book, paper, or other works that have relevance to the references that  required. Over the time, the growth of digital era makes documents represented as digital documents that can easily accessed in the internet, therefore it's makes anyone can do a plagiarism easily. This paper will explained about plagiarism detection using text alignment approach that have 4 process (1) Preprocessing (2) Seeding (3) Extension (4) Filtering. The purpose of the text alignment is looking for fragments that reused or be a source of suspicious documents. The dataset that used in this research categorized in 5 types : no plagiarism, no obfuscation, random obfuscation, obfuscation translation and summary obfuscation [1] where each type has their own characteristics. In this paper plagiarism detection using sentence similarity with tf-idf, cosine similarity dan dice coefficient. The final fragment that resulted form that process will evaluate in two ways. First, use case level evaluation that get 0.976761563 for f-measure value. Second, use character level evaluation that get 0.708385162 for f-measure value.
Keywords :
plagiarism, text alignment, sentence similarity, cosine

JMII Vol 2 No 2 Tahun 2017 (periode April - Juni 2017)