ผลวิเคราะห์ความสัมพันธ์ระหว่างนักวิจัย สจล. จากข้อมูล Google Scholar (เวอร์ชั่น 0.1)

ผลวิเคราะห์ความสัมพันธ์ระหว่างนักวิจัย สจล. จากข้อมูล Google Scholar (เวอร์ชั่น 0.1)
เป็นความคืบหน้าส่วนหนึ่งของ OKR Human Cloud รับผิดชอบโดยสำนักบริการคอมพิวเตอร์

  • นำเข้าข้อมูลและวิเคราะห์ข้อมูลโดย น.ส. ภัทรพร ลอยหา และ น.ส. อัญญากัลป์ เตชะพีระสิทธิ์ (นักศึกษาฝึกงานภาคฤดูร้อน จากหลักสูตรวิทยาการข้อมูลและการวิเคราะห์เชิงธุรกิจ คณะเทคโนโนลีสารสนเทศ สจล.)
  • วางกรอบการทำงานและจัดทำแผนภาพโดย ผศ.ดร. รัฐชัย ชาวอุทัย (อาจารย์ภาควิชาวิศวกรรมคอมพิวเตอร์ และ ผู้ช่วยผู้อำนวยการสำนักบริการคอมพิวเตอร์ สจล.)
  • สนับสนุนข้อมูลโดย Google Scholar
  • สนับสนุนการปฏิบัติงานโดย ผู้บริหารและทีมงาน สำนักบริการคอมพิวเตอร์ สจล.

ในการใช้งาน หากฟิลเตอร์งานวิจัยร่วมเป็น 0 หมายความว่า นักวิจัยที่มีเส้นเชื่อมโยงกันมีลักษณะงานวิจัยคล้ายกัน โดยที่ไม่เคยทำวิจัยร่วมกันมาก่อน


ขั้นตอนการวิเคราะห์

  1. ดึงข้อมูลงานวิจัยจากนักวิจัยที่ลงทะเบียนใน Google Scholar และตั้งค่าต้นสังกัดเป็น King Mongkut’s Institute of Technology Ladkrabang ด้วยไลบราลี่ Beautiful Soup
    ดูตัวอย่างจาก https://scholar.google.com/citations?view_op=view_org&hl=en&org=13187086001343916751
  2. นำข้อมูล authors, research title, และ abstract มาใช้
  3. นำ research title และ abstract มาตัดคำ, ใช้เทคนิค Stemming และ Lemmatization, และ TF-IDF เพื่อหา key terms
  4. สรุป key terms ของแต่ละนักวิจัย
  5. นำ key terms ของแต่ละคู่นักวิจัยมาเปรียบเทียบด้วย Jaccard Similarity (ค่าอยู่ระหว่าง 0 – 1)
  6. สรุปจำนวนการเป็น co-author ของแต่ละคู่นักวิจัย
  7. เนื่องจากข้อมูลใน Google Scholar ไม่ระบุคณะ/วิทยาลัย/วิทยาเขต จึงต้องใช้ข้อมูลร่วมกับฐานข้อมูลบุคคลากรของ สจล. แต่พบปัญหาที่ชื่อนักวิจัยทั้งสองแหล่งข้อมูลไม่เหมือนกัน 100% จึงใช้วิธีนับจำนวน A-Z ของแต่ชื่อ แล้วเปรียบเทียบกันด้วย Cosine Similarity
  8. นำมาแสดงผลด้วย Microsoft Power BI

ข้อจำกัดและแนวทางแก้ปัญหา

  • ข้อมูลนักวิจัยมีไม่สมบูรณ์เนื่องจากอ้างอิงจาก Google Scholar เพียงแหล่งเดียว และนักวิจัยหลายท่านไม่ได้ลงทะเบียนบัญชีของ Google Scholar ไว้  ในการแก้ปัญหาแนะนำให้นักวิจัยลงทะเบียนข้อมูลใน Google Scholar
  • ในการหา key terms ด้วย TF-IDF ยังไม่ใช่เทคนิคที่ดีที่สุด ทำให้ได้คำศัพท์หลายคำที่ไม่เกี่ยวข้องออกมา  ในลำดับต่อไปต้องมีการสร้างออนโทโลยีของคำศัพท์งานวิจัยและใช้ Semantic Technology ในการคำนวณความคล้ายกันของนักวิจัย
Scroll to Top