Publication: การสร้างคลังศัพท์บอกความรู้สึกในภาษาไทยจากบทวิจารณ์ออนไลน์
View online Resources
Submitted Date
Received Date
Accepted Date
Issued Date
2017
Copyright Date
Announcement No.
Application No.
Patent No.
Valid Date
Resource Type
Edition
Resource Version
Language
th
File Type
No. of Pages/File Size
ISBN
ISSN
eISSN
DOI
Scopus ID
WOS ID
Pubmed ID
arXiv ID
item.page.harrt.identifier.callno
Other identifier(s)
Journal Title
Volume
Issue
Edition
Start Page
End Page
Access Rights
Access Status
Rights
Rights Holder(s)
Physical Location
Bibliographic Citation
Research Projects
Organizational Units
Authors
Journal Issue
Title
การสร้างคลังศัพท์บอกความรู้สึกในภาษาไทยจากบทวิจารณ์ออนไลน์
Alternative Title(s)
GENERATING THAI SENTIMENT LEXICON FROM ONLINE REVIEWS
Author’s Affiliation
Author's E-mail
Editor(s)
Editor’s Affiliation
Corresponding person(s)
Creator(s)
Compiler
Advisor(s)
Illustrator(s)
Applicant(s)
Inventor(s)
Issuer
Assignee
Other Contributor(s)
Series
Has Part
Abstract
งานวิจัยนี้มีจุดมุ่งหมายเพื่อสร้างคลังศัพท์บอกความรู้สึกจากบทวิจารณ์สินค้าและบริการออนไลน์ในภาษาไทยโดยใช้วิธีการประมวลภาษาธรรมชาติตามแนวทางการวิจัยด้านภาษาศาสตร์คอมพิวเตอร์ บทวิจารณ์ที่เลือกใช้มาจาก 3 แหล่งข้อมูล ได้แก่ บทวิจารณ์โรงแรมของ Agoda บทวิจารณ์ภาพยนตร์ของ MajorCineplex และบทวิจารณ์แอปพลิเคชันโทรศัพท์มือถือของ Microsoft ซึ่งมีการให้คะแนนร่วมกับการเขียนเนื้อหาบทวิจารณ์ การวิเคราะห์หาคำบอกความรู้สึกจากเนื้อหาบทวิจารณ์อาศัยสมมติฐานว่าคำบอกความรู้สึกจะเกิดร่วมกับคำบอกลักษณะสินค้าซึ่งเป็นคำในกลุ่มคำนามที่มีความถี่การปรากฏสูง การระบุขั้วความรู้สึกบวกลบของคำบอกความรู้สึกจะดูจากค่า tf-idf เชิงบวกและเชิงลบซึ่งคำนวณจากความถี่การปรากฏในกลุ่มข้อมูลบทวิจารณ์ที่มีการให้คะแนนเชิงบวกและเชิงลบตามลำดับ กระบวนการรวบรวมคำบอกความรู้สึกในงานวิจัยนี้ทดลองใช้วิธีการต่างๆ ในสามขั้นตอน คือ การกำหนดชนิดคำบอกความรู้สึก การกำหนดค่าขั้นต่ำของลำดับความถี่ของคำบอกลักษณะสินค้า และการกำหนดค่า tf-idf ขั้นต่ำในการคัดเลือกคำบอกความรู้สึกขั้วบวกและขั้วลบ ผลที่ได้คือชุดคำบอกความรู้สึกที่แตกต่างกัน 112 ชุดจากแต่ละโดเมน จากนั้นชุดคำทั้งหมดจะนำไปทดสอบผลการวิเคราะห์ความรู้สึกเพื่อคัดเลือกชุดคำที่ดีที่สุดสำหรับการสร้างคลังศัพท์ ชุดคำบอกความรู้สึกที่ให้ผลการวิเคราะห์ดีที่สุดมาจากการใช้คำในกลุ่มคำกริยา คำคุณศัพท์ และคำวิเศษณ์เป็นคำบอกความรู้สึก เลือกใช้คำบอกลักษณะที่มีลำดับเปอร์เซ็นต์ไทล์ของความถี่ตั้งแต่ 90 ขึ้นไป และคัดเลือกคำบอกความรู้สึกที่มีผลรวมของค่า tf-idf เชิงบวกและลบมากกว่าหรือเท่ากับ 0 หลังจากนั้นคำบอกความรู้สึกในคลังศัพท์ที่ได้จากแต่ละโดเมนจะนำมาจำแนกประเภทเป็นคำบอกความรู้สึกแบบเจาะจงโดเมนและแบบไม่เจาะจงโดเมน รายการคำที่ได้จะนำมาวิเคราะห์โดยเปรียบเทียบการปรากฏในเนื้อหาบทวิจารณ์โดเมนต่างๆ เพื่อศึกษาความแตกต่างของการเลือกใช้คำบอกความรู้สึกในบทวิจารณ์สินค้าของแต่ละโดเมน ผลการวิเคราะห์พบว่าการใช้คำบอกความรู้สึกของผู้เขียนบทวิจารณ์จะเปลี่ยนไปตามความคาดหวังของผู้ใช้สินค้าหรือบริการและสไตล์การเขียนบทวิจารณ์ในโดเมนนั้นๆ นอกจากนี้การวิเคราะห์ข้อมูลบทวิจารณ์ยังแสดงให้เห็นถึงปัจจัยสำคัญต่างๆ ที่ส่งผลต่อรายการคำบอกความรู้สึกในคลังศัพท์ที่ได้จากงานวิจัยนี้ ซึ่งอาจนำไปใช้ปรับปรุงวิธีการสร้างคลังศัพท์ให้ดีขึ้นได้ ประกอบด้วย การปรากฏของคำบอกลักษณะสินค้า ช่วงคะแนนของบทวิจารณ์เชิงบวกและเชิงลบ แรงจูงใจในการเขียนบทวิจารณ์ และการเลือกใช้สินค้าหรือบริการในโดเมนต่างๆ
This research aims to build up a sentiment lexicon from online product reviews in Thai. The task lies in the area of computational linguistics which involves the use of natural language processing techniques. The data is gathered from 3 domains of online product reviews written in Thai language: hotel reviews from Agoda, movie reviews from MajorCineplex, and mobile-phone application reviews from Microsoft. The data consists of review content and rating scores. Sentiment words are collected with an assumption that they normally occur together with feature words, frequent nouns which represent features of a product. The polarity of each sentiment word is determined by the tf-idf values calculated from the frequencies in positive and negative data. Three steps of data processing are experimented with various settings, i.e. percentile thresholds of noun frequency for feature word selection, combinations of part of speech for sentiment word detection, and the thresholds of the combined tf-idf value of a qualified sentiment word, resulting in 112 different sentiment lexicons for one domain. Every lexicon is then used to perform a sentiment analysis task to find out which one gives the most accurate result. By assessing the overall results across domains, the most effective lexicons are built upon the following settings: set the feature word’s threshold at 90th percentile rank; treat verbs, adjectives, and adverbs as sentiment words; and use any sentiment word that has the combined tf-idf of 0 and above. The next step is exploring the list of sentiment words from each domain in order to distinguish between the domain-dependent and domain-independent type. By examining the contrasting choices of sentiment words between domains, this research concludes that occurrence of a sentiment word depends on customers’ expectations and writing styles. Additionally, a number of important factors could pose a challenge in the construction of a sentiment lexicon as done in this research. Such factors are feature word occurrence, the range of positive and negative rating scores, the motivation behind review submissions, and customers’ selective behaviour.
This research aims to build up a sentiment lexicon from online product reviews in Thai. The task lies in the area of computational linguistics which involves the use of natural language processing techniques. The data is gathered from 3 domains of online product reviews written in Thai language: hotel reviews from Agoda, movie reviews from MajorCineplex, and mobile-phone application reviews from Microsoft. The data consists of review content and rating scores. Sentiment words are collected with an assumption that they normally occur together with feature words, frequent nouns which represent features of a product. The polarity of each sentiment word is determined by the tf-idf values calculated from the frequencies in positive and negative data. Three steps of data processing are experimented with various settings, i.e. percentile thresholds of noun frequency for feature word selection, combinations of part of speech for sentiment word detection, and the thresholds of the combined tf-idf value of a qualified sentiment word, resulting in 112 different sentiment lexicons for one domain. Every lexicon is then used to perform a sentiment analysis task to find out which one gives the most accurate result. By assessing the overall results across domains, the most effective lexicons are built upon the following settings: set the feature word’s threshold at 90th percentile rank; treat verbs, adjectives, and adverbs as sentiment words; and use any sentiment word that has the combined tf-idf of 0 and above. The next step is exploring the list of sentiment words from each domain in order to distinguish between the domain-dependent and domain-independent type. By examining the contrasting choices of sentiment words between domains, this research concludes that occurrence of a sentiment word depends on customers’ expectations and writing styles. Additionally, a number of important factors could pose a challenge in the construction of a sentiment lexicon as done in this research. Such factors are feature word occurrence, the range of positive and negative rating scores, the motivation behind review submissions, and customers’ selective behaviour.
Table of contents
Description
Sponsorship
Degree Name
อักษรศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Department
คณะอักษรศาสตร์
Degree Discipline
Degree Grantor(s)
จุฬาลงกรณ์มหาวิทยาลัย