Corpus Linguistics for Digital Humanities Research Unit

Corpus Linguistics for Digital Humanities Research Unit

แชร์

หน่วยปฏิบัติการวิจัยภาษาศาสตร์คลังข้อมูล

Photos from วิถีดิจิทัลในมนุษยศาสตร์'s post 05/09/2024

ขอเรียนเชิญผู้ที่สนใจเข้าร่วมการประชุมมนุษยศาสตร์ดิจิทัลไทย 2024 (Thailand Digital Humanities Forum 2024) "วิถีดิจิทัลในมนุษยศาสตร์สู่การพัฒนาทุนมนุษย์อย่างยั่งยืน" ในวันที่ 9-10 กันยายน 2567 ณ ศูนย์มนุษยศาสตร์ดิจิทัล คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย

โดยการประชุมในครั้งนี้ รองศาสตราจารย์ ดร.รักสงบ วิจิตรโสภณ เข้าร่วมการนำเสนองานวิจัยในหัวข้อ 'ภาษาศาสตร์คลังข้อมูลกับ"ภาพ"ผู้สูงวัยในสื่อดิจิทัล'
🗓 วันที่ 9 กันยายน 2567
🕑 14.45-16.30 น.
📌 ศูนย์มนุษยศาสตร์ดิจิทัล

และ รองศาสตราจารย์ ดร.วิโรจน์ อรุณมานะกุล เข้าร่วมการนำเสนองานวิจัยในหัวข้อ 'การศึกษาเปรียบเทียบการวิเคราะห์ตัวบทด้วยวิธีการต่างๆทางภาษาศาสตร์คอมพิวเตอร์'
🗓 วันที่ 10 กันยายน 2567
🕐 13.00-14.30 น.
📌 ศูนย์มนุษยศาสตร์ดิจิทัล

สามารถลงทะเบียนร่วมงานทาง https://forms.gle/t5WgF56X5qXsp3Z19 หรือสแกน QR ในรูปภาพได้เลยค่ะ

06/08/2024

The Department of English and the Corpus Linguistics for Digital Humanities Research Unit at the Faculty of Arts, Chulalongkorn University cordially invite you to a public lecture titled "The Fragment Question 'Why Not?’ A Corpus-Based Perspective" by Professor Jong-Bok Kim, PhD, from the Department of English Linguistics and Literature, Kyung Hee University. Join us on August 19, 2024, from 15:00 to 16:30 at Room 707, Boromrajakumari Building.

To register, please scan the QR code in the poster below.

12/01/2024

🛎ขอเชิญผู้ที่สนใจเข้าร่วมฟังบรรยายออนไลน์ในกิจกรรม "Corpus Talk Series" (บรรยายภาษาไทย) โดยวิทยากรผู้เชี่ยวชาญด้าน Corpus Linguistics ตามวันและเวลาด้านล่าง ผู้ที่สนใจสามารถสแกน QR Code หรือสมัครผ่านลิงก์ https://docs.google.com/forms/d/e/1FAIpQLSeLke6xcg8bXAJHuh04xuKgAc_5HDDWBgjf6gb_tHvf4XFU_g/viewform เพื่อเข้าร่วมกิจกรรมได้เลยนะคะ

🫶All are welcome. กิจกรรมจัดโดย หลักสูตรศิลปศาสตรมหาบัณฑิต สาขาภาษาอังกฤษ คณะมนุษยศาสตร์และสังคมศาสตร์ มหาวิทยาลัยมหาสารคาม

นวัตวิธีในมนุษยศาสตร์ดิจิทัล 05/01/2024

จาก 'มนุษยศาสตร์' สู่ 'มนุษยศาสตร์ดิจิทัล'

วันนี้หน่วยวิจัยฯจะพาทุกท่านมาพบกับบทความดีๆจาก
รศ.ดร.วิโรจน์ อรุณมานะกุล ที่จะทำให้ทุกท่านรู้จักกับ Digital Humanities และนวัตวิถีในมนุษยศาสตร์ดิจิทัลกันมากขึ้นค่ะ

นวัตวิธีในมนุษยศาสตร์ดิจิทัล มนุษยศาสตร์ดิจิทัลคืออะไร

การทำ Multidimensional Analysis 13/11/2023

อีกหนึ่งบทความที่น่าสนใจจาก รศ.ดร.วิโรจน์ อรุณมานะกุล ในหัวข้อ 'การทำ Multidimensional Analysis' โดยบทความนี้จะนำพาทุกท่านไปรู้จักกับโปรแกรม Multidimensional Analysis Tagger ที่สามารถนำไปใช้เพื่อศึกษาตัวบทภาษาอังกฤษ รวมไปถึง genre ต่างๆอีกด้วย ตามไปอ่านบทความดีๆด้านล่างนี้กันเลยค่ะ

Link:

การทำ Multidimensional Analysis การวิเคราะห์โดยใช้ multivariate analysis เป็นวิธีการทางสถิติที่ได้รับความนิยมมากขึ้นในงานวิจัยที่ข้อมูลมีตัวแปรต้น (in...

การทำ Topic modeling 02/11/2023

วันนี้หน่วยวิจัยฯจะพาทุกท่านมาทำความรู้จักกับการทำ Topic modeling จากบทความโดย รศ.ดร.วิโรจน์ อรุณมานะกุล กันค่ะ

Topic modeling คืออะไร และสามารถนำไปใช้อย่างไรได้บ้างตามมาอ่านบทความดีๆด้านล่างนี้กันได้เลยค่ะ

การทำ Topic modeling Topic modeling คืออะไร

22/08/2023

GenAI vs Corpus Tools (Part 1)

เราได้เห็นการใช้ ChatGPT เพื่อสร้าง concordance และวิเคราะห์ข้อมูลที่ได้จาก concordance เช่น การวิเคราะห์หา context และ collocation กันไปแล้วนะคะ ความสามารถของ ChatGPT นี้อาจสร้างความกังวลให้กับวงการภาษาศาสตร์คลังข้อมูลไม่มากก็น้อย ดังนั้น วันนี้หน่วยวิจัยของเราจะพาทุกท่านไปพบกับบทความดีๆที่เสนอให้เห็นประโยชน์ของการใช้คลังข้อมูลที่ไม่สามารถแทนที่ด้วย AI ได้กันค่ะ

จากบทความ “Generative AI and the end of corpus-assisted data-driven learning? Not so fast!” โดย Peter Crosthwaite และ Vit Baisa ผู้เขียนได้ชี้ให้เห็นถึงข้อดีของเครื่องมือและวิธีการทางภาษาศาสตร์คลังข้อมูลที่ยังคงเหนือกว่าความสามารถของ AI ในปัจจุบันไว้หลากหลายข้อ เช่น

- Knowing the data
ข้อดีข้อหนึ่งของคลังข้อมูลภาษานั้นคือการที่เราสามารถระบุได้ว่าข้อมูลภาษานั้นมีที่มาจากแหล่งใดหรือช่วงปีใด เช่น คลังข้อมูล BNC2014 หรือ BAWE เป็นต้น โดยจุดนี้ยังเป็นสิ่งที่ AI ในปัจจุบันอย่าง ChatGPT ยังไม่สามารถทำได้

- Authenticity
ภาษาที่ได้มาจากคลังข้อมูลนั้นเป็นภาษาที่เกิดขึ้นจริงและมีการใช้จริง ในขณะที่ภาษาที่สร้างโดย AI นั้นเป็นการสร้างจากระบบเท่านั้น ดังนั้น ภาษาที่ได้จาก chatbot อย่าง ChatGPT อาจถูกต้องตามหลักไวยากรณ์แต่อาจไม่พบในการใช้จริงนั่นเองค่ะ

- Replicability
สำหรับการสืบค้นข้อมูลในคลังข้อมูลนั้น เราสามารถป้อน Query เดิมเพื่อให้ได้ผลลัพธ์แบบเดิมได้ แต่เมื่อเปรียบกับการป้อนชุดคำสั่งให้กับ AI แล้ว ผลลัพธ์ที่ได้อาจแตกต่างกันออกไปในแต่ละครั้งที่เราป้อนชุดคำสั่ง

อย่างไรก็ตาม เราไม่สามารถปฏิเสธได้ว่าการใช้ AI นั้น มีประโยชน์กับวงการภาษาศาสตร์คลังข้อมูลเช่นกัน จะเป็นอะไรนั้น สามารถติดตามต่อได้ใน Part 2 นะคะ

#ภาษาศาสตร์คลังข้อมูล #จุฬา

References
Crosthwaite, P. & Baisa, V. (2023). Generative AI and the end of corpus-assisted data-driven learning? Not so fast!. Applied Corpus Linguistics. 3 (3). https://doi.org/10.1016/j.acorp.2023.100066

ChatGPT : Code interpreter กับงาน corpus analysis. Part 1 14/08/2023

ChatGPT : Code interpreter กับงาน corpus analysis. Part 1 Code interpreter ทำให้เราสามารถ upload ไฟล์ให้ ChatGPT ช่วยวิเคราะห์ได้ ปกติมักเป็นข้อมูลตาราง Excel แต่สำหรับข้อมูลที่เป็นตัวบท...

24/07/2023

ChatGPT as a Concordancer

ปฏิเสธไม่ได้เลยว่าทุกวันนี้ ChatGPT เข้ามามีบทบาทอย่างมากในหลายๆวงการ ไม่ว่าจะเป็นวงการธุรกิจหรือจะเป็นวงการการศึกษา และหลายๆท่านคงได้ลองใช้ ChatGPT มาแล้วไม่มากก็น้อย สำหรับวันนี้หน่วยวิจัยฯ จะพาทุกท่านมาลองใช้ ChatGPT จากมุมมองของภาษาศาสตร์คลังข้อมูลกันค่ะ

โดยในวันนี้หน่วยวิจัยฯ จะขอนำเสนอบทความที่ชื่อว่า ChatGPT: Friend or foe (to corpus linguists)? โดย Phoebe Lin ซึ่งในบทความนี้ผู้วิจัยได้เขียนชุดคำสั่งเพื่อให้ ChatGPT สร้าง Concordance lines ขึ้นมา ผลปรากฏว่า ChatGPT นั้นสามารถสร้าง Concordance lines ได้ตามชุดคำสั่งและเงื่อนไขที่กำหนด และยังสามารถแสดงผลแบบ KWIC (Keyword in Context) ได้ตามชุดคำสั่งอีกด้วย

อย่างไรก็ตามการใช้ ChatGPT ในการสร้าง Concordance นี้ ยังมีข้อจำกัดบางประการ เช่น ChatGPT เวอร์ชั่นปัจจุบันนี้ (GPT-4) ยังไม่สามารถวิเคราะห์หาค่า Keyness รวมถึงแสดง Concordance line ที่มีความยาวมากกว่าหนึ่งประโยคได้ และที่สำคัญ Concordance lines จาก ChatGPT นี้สร้างขึ้นโดย AI ซึ่งต่างจาก Concordance lines ที่มาจากคลังข้อมูลภาษาซึ่งมีลักษณะสำคัญคือเป็นภาษาที่มาจากการใช้งานในการสื่อสารจริง การใช้ Concordance lines ที่สร้างขึ้นโดย ChatGPT จึงควรคำนึงถึงประเด็นนี้ด้วย อย่างไรก็ตาม ด้วยประสิทธิภาพของ ChatGPT ในปัจจุบันที่มีแนวโน้มจะพัฒนาไปเรื่อย ๆ ก็เป็นที่น่าสนใจไม่น้อยเลยค่ะว่าในอนาคต ChatGPT จะสามารถก้าวข้ามผ่านข้อจำกัดต่างๆเหล่านี้ได้หรือไม่

หากผู้อ่านทุกท่านสนใจจะลองสร้าง Concordance ด้วย ChatGPT ในบทความนี้จะมีชุดคำสั่งที่ทุกท่านสามารถนำไปลองใช้กับ ChatGPT ได้เลยค่ะ สามารถดูชุดคำสั่งและอ่านบทความเพิ่มเติมได้ที่ https://www.sciencedirect.com/science/article/abs/pii/S2666799123000254

Lin, P. (2023). ChatGPT: Friend or foe (to corpus linguists)?. Applied Corpus Linguistics. 3(3). https://doi.org/10.1016/j.acorp.2023.100065

#ภาษาศาสตร์คลังข้อมูล #จุฬา

16/03/2023

ในช่วงสัปดาห์ที่ผ่านมา วงการหนังฮอลลีวู้ดมีงานประกาศรางวัลใหญ่แห่งปีอย่างรางวัลออสการ์ไป วันนี้หน่วยวิจัยฯจึงขอหยิบยกการศึกษาที่นำวิธีการทางภาษาศาสตร์คลังข้อมูลมาศึกษาบทภาพยนตร์กันค่ะ โดยการศึกษานี้เป็นผลงานวิจัยชิ้นล่าสุดจากคุณ Renze Xu และรองศาสตราจารย์ ดร.รักสงบ วิจิตรโสภณ ในหัวข้อ Corpus Linguistics and Cinematic Discourse: Lexical Bundles in Mainstream Film Scripts

งานวิจัยชิ้นนี้ได้รวบรวมบทภาพยนตร์ Top 5 ในสหรัฐอเมริกาตั้งแต่ปี 2005-2019 เช่น ‘The Avengers’, ‘The Hunger Games’, ‘The Devil Wears Prada’, ‘The Greatest Showman’ โดยผู้วิจัยได้สร้างคลังข้อมูลขนาด 2,447,296 คำจากบทภาพยนตร์ 100 เรื่องขึ้นมาเพื่อศึกษาว่าบทภาพยนตร์มีลักษณะการใช้ภาษาอย่างไรผ่านการวิเคราะห์กลุ่มคำเรียง (Lexical bundles) ที่พบในบทภาพยนตร์ จากผลการศึกษาพบว่ากลุ่มคำเรียงที่พบมากที่สุดนั้นเป็นกลุ่มคำที่แสดงความคิด ทัศนคติของตัวละคร (Stance lexical bundles) เช่น ‘I don't know’, ‘don't know what’, ‘I don't think’, ‘you don’t know’ โดยกลุ่มคำที่พบเป็นส่วนใหญ่นั้นมักอยู่ในรูปปฏิเสธ ซึ่งอาจแสดงให้เห็นถึงการเน้นความขัดแย้งเพื่อเดินเรื่อง รวมไปถึงความขัดแย้งภายในของตัวละครต่างๆนั่นเองค่ะ

นอกจากนี้แล้วยังพบกลุ่มคำที่อ้างถึงสิ่งต่างๆ (Referential lexical bundles) รองลงมาเป็นอันดับสอง โดยกลุ่มคำเรียงที่บ่งบอกถึงสถานที่ เช่น ‘in front of the’, ‘the edge of the’, ‘in the middle of’ พบมากที่สุดใน Referential lexical bundles โดยกลุ่มคำเหล่านี้มักพบใน Actor lines ของบทภาพยนตร์ ใช้ในการบ่งบอกถึงการกระทำและการเคลื่อนไหวของตัวละคร ในขณะที่กลุ่มคำที่บ่งบอกเวลามีเพียงวลีเดียว คือ for the first time ซึ่งมิได้เพียงแต่บ่งชี้เวลา หากแต่มักใช้ในการสื่ออารมณ์ความรู้สึกของตัวละครค่ะ

ยังมีกลุ่มคำอื่นๆ ที่พบในบทภาพยนตร์อีกด้วย ทุกท่านสามารถติดตามได้ที่ https://so04.tci-thaijo.org/index.php/LEARN/article/view/263456/178438

Xu, R., & Wijitsopon, R. (2023). Corpus Linguistics and Cinematic Discourse: Lexical Bundles in Mainstream Film Scripts. LEARN Journal: Language Education and Acquisition Research Network, 16(1), 545–574. Retrieved from https://so04.tci-thaijo.org/index.php/LEARN/article/view/263456

#ภาษาศาสตร์คลังข้อมูล #จุฬา

ต้องการให้ธุรกิจของคุณ โรงเรียน ขึ้นเป็นอันดับหนึ่ง โรงเรียน ใน Bangkok?

คลิกที่นี่เพื่อเป็นสมาชิก?

ที่ตั้ง

ประเภท

เบอร์โทรศัพท์

เว็บไซต์

ที่อยู่


จุฬาลงกรณ์มหาวิทยาลัย 254 ถนนพญาไท แขวงวังใหม่ เขตปทุมวัน
Bangkok
10330