Publication: การตรวจเทียบภายนอกหาการลักลอกในงานวิชาการโดยใช้แบบจำลองซัพพอร์ตเวกเตอร์แมชชีนและการวัดค่าความละม้ายของข้อความ
Submitted Date
Received Date
Accepted Date
Issued Date
2017
Copyright Date
Announcement No.
Application No.
Patent No.
Valid Date
Resource Type
Edition
Resource Version
Language
th
File Type
No. of Pages/File Size
ISBN
ISSN
eISSN
DOI
Scopus ID
WOS ID
Pubmed ID
arXiv ID
item.page.harrt.identifier.callno
Other identifier(s)
Journal Title
Volume
Issue
Edition
Start Page
End Page
Access Rights
Access Status
Rights
Rights Holder(s)
Physical Location
Bibliographic Citation
Research Projects
Organizational Units
Authors
Journal Issue
Title
การตรวจเทียบภายนอกหาการลักลอกในงานวิชาการโดยใช้แบบจำลองซัพพอร์ตเวกเตอร์แมชชีนและการวัดค่าความละม้ายของข้อความ
Alternative Title(s)
Extrinsic plagiarism detection in academic texts using a support vector machine model and text similarity measurement
Author(s)
Author’s Affiliation
Author's E-mail
Editor(s)
Editor’s Affiliation
Corresponding person(s)
Creator(s)
Compiler
Advisor(s)
Illustrator(s)
Applicant(s)
Inventor(s)
Issuer
Assignee
Other Contributor(s)
Series
Has Part
Abstract
งานวิจัยชิ้นนี้มีวัตถุประสงค์ 4 ประการ ประการแรกคือ เพื่อวิเคราะห์หาลักษณ์ทางภาษาที่จะใช้ในการจำแนกประเภทข้อความที่มีการลักลอกและไม่มีการลักลอก ประการต่อมาคือ เพื่อพัฒนาระบบต้นแบบสำหรับตรวจเทียบภายนอกหาการลักลอกงานวิชาการโดยใช้แบบจำลองซัพพอร์ตเวกเตอร์แมชชีนและการวัดค่าความละม้ายของข้อความ ประการที่ 3 คือ เพื่อประเมินประสิทธิภาพของระบบต้นแบบที่พัฒนาขึ้นใน 2 แง่มุม ได้แก่ ความเหมาะสมของลักษณะของข้อมูลรับเข้าที่จะใช้ในระบบ และความเหมาะสมของลักษณ์ที่ใช้ในการจำแนกประเภทข้อความที่มีการลักลอกและไม่มีการลักลอก และประการสุดท้ายคือ เพื่อเปรียบเทียบวิธีวัดค่าความละม้ายของข้อความที่มีประสิทธิภาพ เหมาะสมจะนำมาใช้ระบบตรวจหาการลักลอกมากที่สุด ในด้านการดำเนินการวิจัย การศึกษาครั้งนี้ได้เพิ่มขั้นตอนเพื่อศึกษาเกี่ยวกับกลวิธีลักลอกงานวิชาการภาษาไทย โดยเก็บข้อมูลจากการจำลองสถานการณ์การลักลอกแล้วนำมาวิเคราะห์ด้วยแนวคิดทางภาษาศาสตร์ ผลจากการศึกษาในขั้นนี้ได้ถูกนำมาใช้ประโยชน์ในการออกแบบและสร้างคลังข้อมูล ตลอดจนนำมาใช้อ้างอิงในการอภิปรายข้อค้นพบในขั้นต่อไป นอกจากนี้ ยังมีการออกแบบ สร้าง และตรวจสอบคุณภาพของคลังข้อมูลด้วยความรอบคอบและรัดกุม เพื่อให้ผลการศึกษาที่ได้มาในตอนท้ายมีความหนักแน่นน่าเชื่อถือ ผลการศึกษาในด้านการวิเคราะห์หาลักษณ์ทางภาษาสำหรับใช้ในการจำแนกประเภทข้อความที่มีการลักลอกและไม่มีการลักลอกปรากฏว่า สามารถวิเคราะห์หาลักษณ์ทางภาษาโดยอาศัยความรู้ทางภาษาศาสตร์มาประยุกต์เข้ากับวิธีการทางการประมวลภาษาธรรมชาติได้ทั้งหมด 51 ลักษณ์ ซึ่งแบ่งเป็นลักษณ์ทางศัพท์ 25 ลักษณ์ ลักษณ์ทางวากยสัมพันธ์ 23 ลักษณ์ ลักษณ์ทางความหมาย 2 ลักษณ์ และลักษณ์ทางวากยสัมพันธ์และความหมาย 1 ลักษณ์ ส่วนผลการศึกษาในด้านการประเมินประสิทธิภาพของระบบต้นแบบที่พัฒนาขึ้นนั้น ในแง่การประเมินประสิทธิภาพของระบบเมื่อใช้ข้อมูลรับเข้าที่ต่างกันปรากฏว่า เมื่อทดสอบการจำแนกประเภทข้อมูลการลักลอกทุกประเภทแล้ว ข้อมูลรับเข้าประเภทย่อหน้ามีความเหมาะสมที่ใช้ในระบบมากกว่าข้อมูลรับเข้าประเภทหน่วยปริจเฉทพื้นฐาน ส่วนในแง่การประเมินประสิทธิภาพของลักษณ์ ปรากฏว่าลักษณ์ที่ให้ประสิทธิภาพสูงที่สุดเป็นลักษณ์ทางศัพท์ คือลักษณ์ค่าสัมประสิทธิ์ความละม้ายโซเรนเซน-ไดซ์ของไบแกรมของคำ (F = 0.9870) และเมื่อพิจารณาผลในภาพรวมแล้ว พบว่าลักษณ์ทางศัพท์และลักษณ์ทางอักขระให้ประสิทธิภาพสูงกว่าลักษณ์ทางวายสัมพันธ์และลักษณ์ทางความหมาย ทั้งนี้ สาเหตุหลักเป็นเพราะลักษณ์ทางศัพท์และลักษณ์ทางอักขระเป็นการแทนรูปคำและอักขระที่ชัดเจน ในขณะที่ลักษณ์ทางวากยสัมพันธ์และลักษณ์ทางความหมายเป็นการแทนรูปความสัมพันธ์ของหน่วยทางภาษาซึ่งมีความเป็นนามธรรมกว่า ส่วนผลการเปรียบเทียบประสิทธิภาพของวิธีวัดค่าความละม้ายของข้อความ พบว่าค่าบรรทัดฐานของลำดับย่อยร่วมยาวสุดที่ยาวที่สุดของคำสามารถให้ค่าความละม้ายได้สอดคล้องกับค่าความละม้ายที่ให้โดยผู้เชี่ยวชาญทางภาษาไทยมากที่สุด (r = 0.9124) จึงถือว่าเป็นวิธีวัดค่าความละม้ายของข้อความที่มีประสิทธิภาพ สามารถนำมาใช้แทนการระบุค่าความละม้ายโดยมนุษย์ในระบบตรวจหาการลักลอกได้ สาเหตุที่ผลปรากฏเป็นเช่นนี้อาจเป็นเพราะผู้เชี่ยวชาญพิจารณาความละม้ายของข้อความจากลำดับของรูปคำเช่นเดียวกับวิธีการวัดค่าความละม้ายข้างต้น
This research is based on 4 objectives: first, to analyze the linguistic features used to classify plagiarized text and non-plagiarized text. The next is to develop a prototype system for extrinsic academic plagiarism detecting using a support vector machine model and text similarity measurement. The third is to evaluate the effectiveness of the prototype system developed in 2 aspects: the suitability of the input characteristics to be used in the system and the suitability of the features used to classify plagiarized text and non-plagiarized text. And lastly, to compare the effectiveness of the text similarity measurement methods for use in the system. In conducting this research, the analysis of plagiarism strategies in Thai academic texts, which collect data from the simulated plagiarism situation and analyzed them with linguistic concepts, is added in the research phase. The results of this analysis were used to design and construct a corpus. In addition, to make the final findings more credible, a corpus used for this research is also designed, created, and validated with care and circumspection. The result of the analysis of linguistic features used to classify plagiarized text and non-plagiarized text shows that all 51 linguistic features are analyzed, based on linguistic knowledge applied to the methods of natural language processing, including 25 lexical features, 23 syntactic features, 2 semantic features, and 1 syntactic and semantic features. For the results of the study on the effectiveness evaluation of the developed prototype system, in terms of the effectiveness of the input data, it is found that, when testing the classification of all types of plagiarized data, paragraph type input was more appropriate for the system than EDU type input. In terms of effectiveness of the features, it appears that the most effective feature is lexical feature i.e. Sørensen–Dice similarity coefficient of word bigram (F = 0.9870). Considering the overall results, lexical features and character features are more effective than syntactic features and semantic features. The main reason is that the lexical features and character features are derived from the representation of word and character form that is more tangible than syntactic features and semantic features, which derived from the representation of the linguistic relations. And for the results of effectiveness evaluation of the text similarity measurement methods, it is found that the normalized longest common subsequence of word can calculated similarity correlated with Thai language experts the most (r = 0.9124). The reason for this may be because the experts consider the similarity of texts from the sequence of words, as well as the method of the normalized longest common subsequence of word.
This research is based on 4 objectives: first, to analyze the linguistic features used to classify plagiarized text and non-plagiarized text. The next is to develop a prototype system for extrinsic academic plagiarism detecting using a support vector machine model and text similarity measurement. The third is to evaluate the effectiveness of the prototype system developed in 2 aspects: the suitability of the input characteristics to be used in the system and the suitability of the features used to classify plagiarized text and non-plagiarized text. And lastly, to compare the effectiveness of the text similarity measurement methods for use in the system. In conducting this research, the analysis of plagiarism strategies in Thai academic texts, which collect data from the simulated plagiarism situation and analyzed them with linguistic concepts, is added in the research phase. The results of this analysis were used to design and construct a corpus. In addition, to make the final findings more credible, a corpus used for this research is also designed, created, and validated with care and circumspection. The result of the analysis of linguistic features used to classify plagiarized text and non-plagiarized text shows that all 51 linguistic features are analyzed, based on linguistic knowledge applied to the methods of natural language processing, including 25 lexical features, 23 syntactic features, 2 semantic features, and 1 syntactic and semantic features. For the results of the study on the effectiveness evaluation of the developed prototype system, in terms of the effectiveness of the input data, it is found that, when testing the classification of all types of plagiarized data, paragraph type input was more appropriate for the system than EDU type input. In terms of effectiveness of the features, it appears that the most effective feature is lexical feature i.e. Sørensen–Dice similarity coefficient of word bigram (F = 0.9870). Considering the overall results, lexical features and character features are more effective than syntactic features and semantic features. The main reason is that the lexical features and character features are derived from the representation of word and character form that is more tangible than syntactic features and semantic features, which derived from the representation of the linguistic relations. And for the results of effectiveness evaluation of the text similarity measurement methods, it is found that the normalized longest common subsequence of word can calculated similarity correlated with Thai language experts the most (r = 0.9124). The reason for this may be because the experts consider the similarity of texts from the sequence of words, as well as the method of the normalized longest common subsequence of word.
Table of contents
Description
Sponsorship
Degree Name
อักษรศาสตรดุษฎีบัณฑิต
Degree Level
ปริญญาเอก
Degree Department
คณะอักษรศาสตร์
Degree Discipline
Degree Grantor(s)
จุฬาลงกรณ์มหาวิทยาลัย