Publication: การรู้จำชื่อเฉพาะภาษาไทย : การศึกษาชื่อบุคคล สถานที่ และองค์กร
Submitted Date
Received Date
Accepted Date
Issued Date
2010
Copyright Date
Announcement No.
Application No.
Patent No.
Valid Date
Resource Type
Edition
Resource Version
Language
th
File Type
No. of Pages/File Size
ISBN
ISSN
eISSN
DOI
Scopus ID
WOS ID
Pubmed ID
arXiv ID
item.page.harrt.identifier.callno
Other identifier(s)
Journal Title
Volume
Issue
Edition
Start Page
End Page
Access Rights
Access Status
Rights
Rights Holder(s)
Physical Location
Bibliographic Citation
Research Projects
Organizational Units
Authors
Journal Issue
Title
การรู้จำชื่อเฉพาะภาษาไทย : การศึกษาชื่อบุคคล สถานที่ และองค์กร
Alternative Title(s)
Thai named entity recognition : a study of person location and organization names
Author(s)
Author’s Affiliation
Author's E-mail
Editor(s)
Editor’s Affiliation
Corresponding person(s)
Creator(s)
Compiler
Advisor(s)
Illustrator(s)
Applicant(s)
Inventor(s)
Issuer
Assignee
Other Contributor(s)
Series
Has Part
Abstract
ศึกษาวิเคราะห์รูปแบบและโครงสร้างของชื่อบุคคล สถานที่ และองค์กร งานวิจัยนี้ใช้คลังข้อมูลขนาด 80,513 คำ เก็บข้อมูลข่าวภาษาไทยจากคลังข้อมูลภาษาไทยแห่งชาติ ประกอบด้วยชื่อบุคคล 762 ชื่อ ชื่อสถานที่ 774 ชื่อ และชื่อองค์กร 1,418 ชื่อ รูปแบบและโครงสร้างของชื่อบุคคลส่วนใหญ่ประกอบด้วยชื่อและนามสกุล (66.54%) ตามด้วยชื่อเพียงอย่างเดียว (33.46%) รูปแบบและโครงสร้างของชื่อสถานที่และชื่อองค์กรมีความซับซ้อนกว่าชื่อบุคคล โครงสร้างของชื่อสถานที่ที่ใช้มากที่สุด ได้แก่ ชื่อสถานที่ที่เกิดจากคำประกอบกันในโครงสร้างความสัมพันธ์แบบชั้นเดียว (50%) และชื่อสถานที่แบบคำเดี่ยว (29.93%) ตามลำดับ โครงสร้างของชื่อองค์กรที่พบมากที่สุด 2 แบบ ได้แก่ ชื่อองค์กรที่เกิดจากคำหลายคำประกอบกันในโครงสร้างความสัมพันธ์แบบหลายชั้นและชั้นเดียวตามลำดับ (28% และ 22.59%) เมื่อมีการใช้ชื่อเฉพาะในบริบทต่อเนื่อง พบว่าชื่อเฉพาะ 34.22% ไม่มีการเปลี่ยนรูป ในขณะที่ 65.78% มีการเปลี่ยนรูปไป การเปลี่ยนรูปที่พบ ได้แก่ การลดองค์ประกอบและการใช้อักษรย่อ คิดเป็น 58.36% และ 33.45% ตามลำดับ ผลการศึกษาการอ้างข้ามประเภท พบการใช้ชื่อองค์กรอ้างถึงสถานที่ 30.93% และชื่อสถานที่อ้างถึงองค์กร 69.07% โดยคำบุพบทและคำกริยาที่ปรากฏในตำแหน่งหน้าหลังของชื่อเฉพาะแบบอ้างข้ามประเภท ไม่มีน้ำหนักในการบ่งชี้การอ้างข้ามประเภท เนื่องจากมีการปรากฏร่วมกับคำอื่นๆ ในคลังข้อมูลเป็นจำนวนมากกว่า
To analyze patterns and structures of person, location and organization names. A corpus of 80,513 words collected from Thai news in Thai National Corpus is used in this study, in which 762 person names, 774 location names, and 1,418 organization names are analyzed. The most frequently used pattern and structure of person names is composed of first name and last name (66.54%) followed by the use of first name only (33.46%). Patterns and structures of location and organization names are more complex than those of person names. For location names, the most frequently used forms are those composed of multi-words forming into a single level hierarchical structure (50%) followed by the use of a single word (29.93%). For organization names, the top first and second forms are multi-words forming into a multi-level hierarchical and a single structure respectively (28% and 22.59%). When the same named entities are used continuously in the texts, it is found that 34.22% of named entities are continued with the same form, while 65.78% are changed. Within those changed forms, names reduction and abbreviation are accounted for 58.36% and 33.45% respectively. For names used in cross-referencing, organization names referring to location were found 30.93% and the location names referring to organization were found 69.07%. Using only prepositions and verbs on the left and the right of these cross-referencing names is not sufficient for identifying these names because those context words co-occur more often with other words in the corpus.
To analyze patterns and structures of person, location and organization names. A corpus of 80,513 words collected from Thai news in Thai National Corpus is used in this study, in which 762 person names, 774 location names, and 1,418 organization names are analyzed. The most frequently used pattern and structure of person names is composed of first name and last name (66.54%) followed by the use of first name only (33.46%). Patterns and structures of location and organization names are more complex than those of person names. For location names, the most frequently used forms are those composed of multi-words forming into a single level hierarchical structure (50%) followed by the use of a single word (29.93%). For organization names, the top first and second forms are multi-words forming into a multi-level hierarchical and a single structure respectively (28% and 22.59%). When the same named entities are used continuously in the texts, it is found that 34.22% of named entities are continued with the same form, while 65.78% are changed. Within those changed forms, names reduction and abbreviation are accounted for 58.36% and 33.45% respectively. For names used in cross-referencing, organization names referring to location were found 30.93% and the location names referring to organization were found 69.07%. Using only prepositions and verbs on the left and the right of these cross-referencing names is not sufficient for identifying these names because those context words co-occur more often with other words in the corpus.
Table of contents
Description
Sponsorship
Degree Name
อักษรศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Department
คณะอักษรศาสตร์
Degree Discipline
Degree Grantor(s)
จุฬาลงกรณ์มหาวิทยาลัย