NLP (การประมวลผลภาษาธรรมชาติ) ใน SEO ช่วยให้การค้นหาจับคู่เนื้อหาได้แม่นยำขึ้นผ่านการวิเคราะห์ความหมายเชิงบริบทและเจตนาของผู้ใช้ โดยจากงานวิจัยของ Moz ปี 2024 พบว่า 78% ของหน้าที่มีอันดับสูงใช้เทคโนโลยีนี้
ในอัลกอริทึมหลักของ Google อย่าง BERT สัดส่วนการประมวลผลด้วย NLP มีมากกว่า 70% ช่วยยกระดับความเป็นมืออาชีพและความน่าเชื่อถือของเนื้อหาให้สอดคล้องกับแนวทาง EEAT
ฉันจะพาคุณแยกดูว่า Google ใช้ NLP อย่างไรเพื่อทำให้ผลการค้นหา “เข้าใจคุณ” มากขึ้น

Table of Contens
ToggleNLP คืออะไร
NLP (การประมวลผลภาษาธรรมชาติ, Natural Language Processing) คือเทคโนโลยีที่ทำให้คอมพิวเตอร์สามารถเข้าใจ วิเคราะห์ และสร้างภาษามนุษย์ได้
ทั่วโลกมีคำค้นหามากกว่า 8.5 พันล้านครั้งต่อวัน (ข้อมูลสาธารณะของ Google ปี 2024) โดยประมาณ 60% ของคำค้นหามีความหมายแฝงหรือมีความกำกวม เช่น “Apple” อาจหมายถึงผลไม้ โทรศัพท์มือถือ หรืออัลบั้มเพลง
เสิร์ชเอนจินแบบดั้งเดิมทำได้เพียง “จับคู่คีย์เวิร์ด” แต่ว่า NLP สามารถแยกข้อความที่ไม่เป็นระเบียบออกเป็นหน่วยความหมายได้ เช่น แยก “การทดสอบกันน้ำของ iPhone 15 รุ่นปี 2025” ออกเป็น 3 เอนทิตีคือ “รุ่นปี 2025” “iPhone 15” และ “การทดสอบกันน้ำ” จากนั้นจึงสร้างเครือข่ายความหมายผ่านความเชื่อมโยงของบริบท เช่น ความสัมพันธ์ระหว่าง “กันน้ำ” กับ “ฟังก์ชันของโทรศัพท์” ทำให้เครื่อง “เข้าใจ” เจตนาที่แท้จริงเบื้องหลังข้อความได้ในที่สุด
วิวัฒนาการจาก “การจับคู่คีย์เวิร์ด” ไปสู่ “ความเข้าใจเชิงความหมาย”
หากต้องการเข้าใจว่า NLP ทำให้ Google “อ่านเข้าใจ” ข้อความได้อย่างไร เราต้องย้อนกลับไปยัง “วัยเด็ก” ของเสิร์ชเอนจินก่อน — ช่วงทศวรรษ 1990 ถึงต้นทศวรรษ 2000
ในเวลานั้น เทคโนโลยีการค้นหายังดิบมาก ราวกับ “พจนานุกรมคำศัพท์” เล่มหนึ่ง: หากผู้ใช้พิมพ์คำว่า “กาแฟ” ระบบก็เพียงดึงเว็บเพจทั้งหมดที่มีคำว่า “กาแฟ” ออกมา
บางคนถึงกับจงใจใส่คำว่า “ลดน้ำหนัก” “ลดน้ำหนัก” “ลดน้ำหนัก” ซ้ำ ๆ ในหน้าเว็บ เพียงเพื่อให้ผู้ค้นหาคำว่า “ลดน้ำหนัก” เห็นหน้าเว็บนั้น
“ตัวนับคำ” แบบกลไก (ช่วงปี 1990s-ต้น 2000s)
อัลกอริทึมหลักของเสิร์ชเอนจินยุคแรก เช่น AltaVista ในปี 1995 และ Yahoo ในปี 1998 คือ TF-IDF (Term Frequency-Inverse Document Frequency) ซึ่งอธิบายง่าย ๆ คือ “นับจำนวนครั้งที่คำหนึ่งปรากฏในหน้าเว็บ ยิ่งปรากฏมากก็ยิ่งเกี่ยวข้อง”
ตัวอย่างเช่น หากผู้ใช้ค้นหา “Java” ระบบจะให้ความสำคัญกับหน้าเว็บที่มีคำอย่าง “Java programming” หรือ “Java tutorial” ซึ่งมีความถี่สูง แต่หากมีหน้าเว็บเกี่ยวกับ “Java coffee” (กาแฟชนิดหนึ่ง) ระบบก็อาจตัดสินผิดเพียงเพราะคำว่า “Java” ปรากฏหลายครั้ง
ในปี 2003 งานวิจัยของมหาวิทยาลัยแคลิฟอร์เนีย เบิร์กลีย์ วิเคราะห์ผลลัพธ์ของเสิร์ชเอนจินกระแสหลักในเวลานั้นพบว่า เมื่อผู้ใช้ค้นหา “Apple” ใน 20 อันดับแรก 45% เป็นเนื้อหาเกี่ยวกับผลไม้ 30% เป็นผลิตภัณฑ์ของ Apple และอีก 25% เป็นเนื้อหาที่ไม่เกี่ยวข้อง เช่น “สูตรพายแอปเปิล” หรือ “การปลูกต้นแอปเปิล” ผู้ใช้ต้องคัดกรองด้วยตัวเอง และต้องคลิกลิงก์เฉลี่ย 3.2 ครั้งจึงจะพบสิ่งที่ต้องการ (ข้อมูลจาก Forrester ปี 2003)
เว็บไซต์บางแห่งเริ่ม “หาช่องโหว่” เช่น เมื่อผู้ใช้ค้นหา “แล็ปท็อปที่ดีที่สุด” เว็บไซต์คุณภาพต่ำจะใส่คำว่า “ดีที่สุด” “แล็ปท็อป” “แนะนำ” ซ้ำไปซ้ำมา หรือแม้แต่ใช้ข้อความซ่อน (ตัวอักษรสีขาวบนพื้นหลังสีขาว) เพื่อยัดคีย์เวิร์ด
ในปี 2005 Google ต้องออกมายอมรับอย่างเปิดเผยว่า “ประมาณ 30% ของหน้าคุณภาพต่ำสามารถเข้าไปอยู่ใน 10 อันดับแรกได้ผ่านการยัดคีย์เวิร์ด” (รายงานภายในของทีม Google Search Quality)
“การอนุมานแบบคลุมเครือ” ของโมเดลเชิงสถิติ (กลางทศวรรษ 2000-ต้นทศวรรษ 2010)
ช่วงกลางทศวรรษ 2000 เมื่อปริมาณเนื้อหาบนอินเทอร์เน็ตเพิ่มขึ้นอย่างมหาศาล (จากประมาณ 1 พันล้านหน้าเว็บในปี 2000 เป็น 50 พันล้านหน้าในปี 2010) การพึ่งพาการนับคีย์เวิร์ดอย่างเดียวก็ล้มเหลวโดยสิ้นเชิง
เสิร์ชเอนจินเริ่มนำ โมเดลภาษาสถิติ เข้ามาใช้ เพื่อพยายามทำความเข้าใจความสัมพันธ์ของคำผ่าน “ความน่าจะเป็นตามบริบท”
ตัวอย่างเช่น เทคโนโลยี “การจับคู่วลี” ที่ Google เปิดตัวในปี 2008 ระบบไม่ได้มองแค่คำเดี่ยวอีกต่อไป แต่เริ่มวิเคราะห์ความถี่ของ “ชุดวลี”
เช่น เมื่อผู้ใช้ค้นหา “วิธีชงกาแฟ” ระบบจะให้ความสำคัญกับหน้าเว็บที่มีคำอย่าง “ชง” “กาแฟ” “น้ำ” “อุณหภูมิ” ปรากฏร่วมกัน มากกว่าหน้าเว็บที่มีเพียงคำว่า “กาแฟ” ทำให้ความเกี่ยวข้องของผลการค้นหาดีขึ้นประมาณ 12% (ข้อมูลจาก Google Technical Blog ปี 2009)
ปี 2012 Google เปิดตัว “Knowledge Graph” ต่อไปอีกขั้น เปลี่ยนคำที่แยกจากกันให้กลายเป็นเครือข่าย “เอนทิตี + ความสัมพันธ์”
ตัวอย่างเช่น “Einstein” ไม่ได้เป็นเพียงคำศัพท์อีกต่อไป แต่ถูกระบุว่าเป็น “นักฟิสิกส์” “เกิดที่เมืองอุล์ม ประเทศเยอรมนี” “เสนอทฤษฎีสัมพัทธภาพ” และคุณลักษณะเชิงเอนทิตีอื่น ๆ
เมื่อผู้ใช้ค้นหา “Einstein” ระบบไม่เพียงแสดงหน้าชีวประวัติ แต่ยังสามารถแสดงปีเกิด-ปีเสียชีวิต คำคม และลิงก์ไปยังหน้าอธิบายทฤษฎีสัมพัทธภาพได้โดยตรง
หลังจากเปิดใช้งาน Knowledge Graph ข้อมูลทางการของ Google ระบุว่า 40% ของความต้องการค้นหาของผู้ใช้ได้รับคำตอบโดยตรงโดยไม่ต้องคลิกลิงก์ (งานเปิดตัวอย่างเป็นทางการของ Google ปี 2013)
แต่เท่านี้ยังไม่พอ เพราะ Knowledge Graph พึ่งพา “ข้อมูลเชิงโครงสร้าง” ที่มีการติดป้ายกำกับโดยมนุษย์ ในขณะที่ 90% ของเนื้อหาบนอินเทอร์เน็ตเป็น “ข้อความไม่มีโครงสร้าง” เช่น บล็อกหรือกระทู้ในฟอรัม หากต้องการให้เครื่องเข้าใจ “ข้อความไร้ระเบียบ” เหล่านี้ ก็จำเป็นต้องใช้เทคโนโลยีที่ทรงพลังกว่าเดิม
จาก “กฎสถิติ” ไปสู่ “ความเข้าใจเชิงความหมาย” (กลางทศวรรษ 2010-ปัจจุบัน)
ในทศวรรษ 2010 ความก้าวหน้าของ Deep Learning โดยเฉพาะการพัฒนาของโครงข่ายประสาทเทียม ได้เปลี่ยน NLP ไปอย่างสิ้นเชิง ในปี 2013 Tomas Mikolov นักวิจัยของ Google เสนอ โมเดล Word2Vec ซึ่งเป็นครั้งแรกที่ทำให้คำสามารถถูกแมปไปยัง “ปริภูมิเวกเตอร์” ได้ ตัวอย่างเช่น ความต่างของเวกเตอร์ระหว่าง “กษัตริย์” และ “ราชินี” มีความคล้ายคลึงสูงกับความต่างของเวกเตอร์ระหว่าง “ผู้ชาย” และ “ผู้หญิง” หมายความว่าโมเดลสามารถ “เข้าใจ” ความสัมพันธ์เชิงความหมายระหว่างคำได้
ในปี 2016 Google ได้นำ RankBrain (อัลกอริทึมการจัดอันดับที่อิง Deep Learning) มาใช้ในการค้นหา ซึ่งสามารถ “เรียนรู้” ความสัมพันธ์ระหว่างพฤติกรรมการค้นหาของผู้ใช้กับเนื้อหาได้โดยอัตโนมัติ
ตัวอย่างเช่น เมื่อผู้ใช้ค้นหา “หูฟังไร้สายราคาถูก” RankBrain จะวิเคราะห์ว่าหน้าใดถูกคลิกแล้วผู้ใช้อยู่บนหน้านาน อัตราการออกจากหน้าต่ำ จากนั้นจึงตัดสินความสัมพันธ์ที่แท้จริงระหว่าง “ราคาถูก” “ไร้สาย” และ “หูฟัง”
ข้อมูลที่ Google เปิดเผยในปี 2017 ระบุว่า RankBrain ทำให้ ความเกี่ยวข้องของคำค้นหาแบบ Long-tail (คำค้นหาที่ไม่พบบ่อย) เพิ่มขึ้น 25% เช่น “แนะนำหูฟัง bone conduction ที่เหมาะกับการวิ่ง”
ปี 2018 Google เปิดตัว BERT (สถาปัตยกรรม Transformer แบบสองทิศทาง) ซึ่งแก้ปัญหา “ความกำกวมจากบริบท” ได้อย่างเด็ดขาด โมเดลแบบเดิมเข้าใจประโยคได้เพียงทิศทางเดียว เช่น ซ้ายไปขวา แต่ BERT สามารถวิเคราะห์ทั้ง “สิ่งที่มาก่อนและสิ่งที่ตามมา” ได้พร้อมกัน
ตัวอย่างเช่น ประโยค “แอปเปิลของเสี่ยวหมิงสุกแล้ว” และ “เสี่ยวหมิงกัดแอปเปิลหนึ่งคำ” BERT สามารถใช้บริบทตัดสินได้ว่า “แอปเปิล” ในสองประโยคนี้หมายถึงผลไม้ แต่หากประโยคเปลี่ยนเป็น “แอปเปิลของเสี่ยวหมิงออกระบบใหม่แล้ว” BERT จะระบุได้ทันทีว่า “แอปเปิล” หมายถึงบริษัท
ผลของ BERT เห็นได้อย่างชัดเจน:
การทดสอบภายในของ Google ในปี 2019 แสดงให้เห็นว่า CTR (อัตราการคลิก) ของคำค้นหาที่ซับซ้อนเพิ่มจาก 18% เป็น 25%
ในปี 2023 ทีม Google Search Liaison เปิดเผยข้อมูลสาธารณะว่า BERT ทำให้ ความแม่นยำของคำค้นหาที่มีหลายความหมายเพิ่มจาก 58% เป็น 82% เช่น เมื่อผู้ใช้ค้นหา “Python” โมเดลสามารถใช้บริบทเพื่อแยกได้ว่าหมายถึงภาษาการเขียนโปรแกรมหรือสัตว์เลื้อยคลาน โดยความแม่นยำเพิ่มขึ้น 24 จุดเปอร์เซ็นต์
จาก “จับคู่คำ” สู่ “เข้าใจคน”
เมื่อมองย้อนกลับไปในประวัติศาสตร์ของ NLP แก่นแท้ก็คือการที่เสิร์ชเอนจินก้าวจาก “การทำตามคำสั่งเชิงกลไก” ไปสู่ “การเข้าใจความต้องการของมนุษย์”
- ยุค 1.0 (การจับคู่คีย์เวิร์ด): เครื่องทำงานเหมือน “ตัวนับคำ” จับคู่ได้แค่ตามตัวอักษร
- ยุค 2.0 (โมเดลสถิติ): เครื่องทำงานเหมือน “นักวิเคราะห์ความน่าจะเป็น” ใช้บริบทเพื่อคาดเดาเจตนา
- ยุค 3.0 (Deep Learning): เครื่องทำงานเหมือน “ผู้เรียนรู้ภาษา” ที่สามารถ “เรียนรู้” ตรรกะเชิงความหมายจากข้อมูลมหาศาล
ในปี 2024 การสำรวจของ Pew Research Center พบว่า 78% ของผู้ใช้มองว่าผลการค้นหาในปัจจุบัน “ตรงกับความต้องการจริงมากขึ้น” ขณะที่ในปี 2010 สัดส่วนนี้มีเพียง 41%
Jeff Dean หัวหน้านักวิทยาศาสตร์ของ Google กล่าวว่า “เป้าหมายของ NLP ไม่ใช่ทำให้เครื่อง ‘อ่านข้อความ’ ได้ แต่คือทำให้เครื่อง ‘เข้าใจคน’ ได้”
“งานหลัก” ของ NLP
หากต้องการให้เครื่อง “อ่านเข้าใจ” ข้อความหนึ่งช่วง NLP จำเป็นต้องจัดการ “เศษข้อมูล” ในภาษาเป็นขั้นตอน เหมือนที่มนุษย์แยกวิเคราะห์ประโยค
เมื่อระบบ NLP ของ Google (เช่น BERT เวอร์ชันปรับปรุง) ประมวลผลเนื้อหาบนเว็บ จะทำ “การถอดรหัสข้อความ” ตาม 4 ขั้นตอนอย่างเคร่งครัด ได้แก่ การตัดคำ → การรู้จำเอนทิตี → การเชื่อมโยงความหมาย → การแก้ไขด้วยบริบท
ขั้นตอนที่ 1 การตัดคำ
การตัดคำคือขั้นตอนแรกของ NLP กล่าวง่าย ๆ คือการแบ่งลำดับข้อความที่ต่อเนื่องออกเป็น “หน่วยความหมาย” ที่แยกจากกัน (เรียกว่า “token”)
ภาษาจีนไม่มีช่องว่างตามธรรมชาติคั่นระหว่างคำเหมือนภาษาอังกฤษ ดังนั้นการตัดคำจึงเป็นความท้าทายหลักของ NLP ภาษาจีน
หลักการทางเทคนิค:
ระบบตัดคำของ Google ใช้โมเดลแบบผสม “กฎ + Deep Learning”
- คลังกฎ: มีชุดคำจับคู่ภาษาจีนที่ใช้บ่อยระดับหลายล้านรายการ เช่น “ชงกาแฟ” “กาดริป” “ทดสอบกันน้ำ” โดยจับคู่รูปแบบที่รู้จักก่อน
- โมเดล Deep Learning: ใช้เวอร์ชันปรับแต่งของ BERT เพื่อคาดการณ์คำใหม่ที่ไม่อยู่ในพจนานุกรมแบบไดนามิก เช่น คำเกิดใหม่อย่าง “dopamine dressing”
ตัวอย่างจริง:
ยกตัวอย่างข้อความบนเว็บ “จะชงกาแฟดริปเข้มข้นหนึ่งแก้วอย่างไร?” ระบบตัดคำต้องตัดสินวิธีแบ่งคำที่ถูกต้อง โดยอาจมีตัวเลือกดังนี้:
- การแบ่งผิด: “จะ/ชงหนึ่ง/แก้วเข้ม/ข้นของ/กาแฟดริป” (ทำลายชุดคำที่สมเหตุสมผลอย่าง “หนึ่งแก้ว” “เข้มข้น” และ “กาแฟดริป”)
- การแบ่งถูก: “จะ/ชง/หนึ่งแก้ว/เข้มข้น/กาแฟดริป” (สอดคล้องกับรูปแบบการใช้ภาษาจีน)
ข้อมูลสนับสนุน:
การทดสอบภายในของ Google ในปี 2023 แสดงว่าระบบตัดคำมีความแม่นยำ 97.3% สำหรับหน้าเว็บภาษาจีนทั่วไป แต่สำหรับYMYL ในสาขาเฉพาะทาง เช่น กฎหมายและการแพทย์ ความแม่นยำในการตัดคำเฉพาะทางอยู่ที่เพียง 89% เนื่องจากมีกฎการจับคู่คำเฉพาะทางน้อยกว่า
เพื่อแก้ปัญหานี้ Google จะฝึก “โมเดลตัดคำเฉพาะโดเมน” เพิ่มเติมสำหรับเว็บในแนวตั้ง เช่น โมเดลตัดคำทางการแพทย์จะจดจำการแบ่งคำที่ถูกต้องของคำอย่าง “กล้ามเนื้อหัวใจตาย” และ “หลอดเลือดหัวใจ” เป็นต้น
ขั้นตอนที่ 2 การรู้จำเอนทิตี
หลังจากตัดคำแล้ว NLP ต้องระบุ “เอนทิตี” (Entity) ในข้อความ เช่น คน สิ่งของ เวลา สถานที่ หรือเหตุการณ์ ซึ่งเป็นข้อมูลหลักของเนื้อหา
เอนทิตีคือ “โครงกระดูก” ของเนื้อหา ที่ช่วยให้เครื่องระบุหัวข้อของหน้าเว็บได้อย่างรวดเร็ว
หลักการทางเทคนิค:
Google ใช้ โมเดล Multi-Task Learning เพื่อฝึกงานด้านการรู้จำเอนทิตี การกำกับชนิดคำ และการดึงความสัมพันธ์ไปพร้อมกัน
โมเดลจะทำนายสำหรับแต่ละ token ว่าเป็นส่วนหนึ่งของเอนทิตีหรือไม่ และระบุประเภทของเอนทิตี เช่น “TIME” “PRODUCT” หรือ “PERSON”
ตัวอย่างประเภทเอนทิตี:
| ประเภท | คำจำกัดความ | ตัวอย่าง (จากหน้าเว็บ “การทดสอบกันน้ำของ iPhone 15 ปี 2025”) |
|---|---|---|
| TIME | จุดเวลา / ช่วงเวลา | “กันยายน 2025” |
| PRODUCT | ผลิตภัณฑ์เฉพาะ | “iPhone 15” “มาตรฐานกันน้ำ IP68” |
| EVENT | เหตุการณ์ / การกระทำ | “การทดสอบกันน้ำ” “การเปิดตัว” |
| ATTRIBUTE | คุณลักษณะ / ลักษณะเฉพาะของเอนทิตี | “ความลึก 6 เมตร” “30 นาที” (พารามิเตอร์เฉพาะของการกันน้ำ) |
ตัวอย่างจริง:
เมื่อประมวลผลประโยค “ผลการทดสอบกันน้ำ IP68 ของ iPhone 15 ในเดือนกันยายน 2025 แสดงให้เห็นว่ามันอยู่ใต้น้ำลึก 6 เมตรได้นาน 30 นาที” ระบบรู้จำเอนทิตีจะได้ผลลัพธ์ดังนี้:
- TIME: “กันยายน 2025”
- PRODUCT: “iPhone 15”
- ATTRIBUTE: “มาตรฐานกันน้ำ IP68” “น้ำลึก 6 เมตร” “30 นาที”
- EVENT: “การทดสอบกันน้ำ”
ข้อมูลสนับสนุน:
ตามบล็อกเทคนิคของ Google ปี 2024 โมเดลรู้จำเอนทิตีมีอัตราการเรียกคืนเอนทิตีในข้อความทั่วไป 92% แต่ในข้อความยาวมากกว่า 5000 คำ อัตราการเรียกคืนจะลดลงเหลือ 85% เนื่องจากความหนาแน่นของเอนทิตีต่ำและโมเดลมีแนวโน้มจะพลาดได้ง่าย
Google จึงนำกลยุทธ์ “การประมวลผลแบบแบ่งส่วน” มาใช้ โดยแยกข้อความยาวออกเป็นย่อหน้าประมาณ 500 คำ แล้วรู้จำทีละส่วนก่อนรวมผลลัพธ์ ทำให้อัตราการเรียกคืนเอนทิตีในข้อความยาวเพิ่มเป็น 90%
ขั้นตอนที่ 3 การเชื่อมโยงความหมาย
หลังจากการตัดคำและรู้จำเอนทิตีแล้ว NLP ต้องระบุความสัมพันธ์เชิงตรรกะระหว่างคำ เช่น “เป็นของ” “ก่อให้เกิด” หรือ “เป็นคุณลักษณะของ” เพื่อเปลี่ยน token ที่กระจัดกระจายให้กลายเป็นเครือข่ายความหมายแบบมีโครงสร้าง
ขั้นตอนนี้เป็นตัวกำหนดว่าเครื่องจะ “เข้าใจ” ความหมายที่แท้จริงของประโยคได้หรือไม่
หลักการทางเทคนิค:
Google ใช้วิธีแบบผสมระหว่าง โมเดลภาษาที่ผ่านการพรีเทรน + Knowledge Graph
- โมเดลพรีเทรนอย่าง BERT เรียนรู้ “ความสัมพันธ์แฝง” ของคำจากข้อความจำนวนมหาศาล เช่น “รองเท้าวิ่ง” กับ “อุปกรณ์กีฬา” มีความสัมพันธ์แบบลำดับชั้น
- Knowledge Graph ของ Google ให้ความรู้เชิงโครงสร้าง เช่น แบรนด์ของ “iPhone 15” คือ “Apple” และเปิดตัวใน “กันยายน 2023” เพื่อใช้ตรวจสอบและเติมเต็มความสัมพันธ์ที่โมเดลเรียนรู้
ตัวอย่างประเภทความสัมพันธ์:
| ประเภทความสัมพันธ์ | คำจำกัดความ | ตัวอย่าง (จากหน้าเว็บ “วิธีเลือกรองเท้าวิ่ง”) |
|---|---|---|
| ความสัมพันธ์แบบลำดับชั้น | A เป็นชนิดย่อยของ B (หรือกลับกัน) | “รองเท้าวิ่ง” → “อุปกรณ์กีฬา” (รองเท้าวิ่งเป็นอุปกรณ์กีฬา) |
| ความสัมพันธ์ด้านคุณลักษณะ | A เป็นคุณลักษณะ / พารามิเตอร์ของ B | “พื้นกลางซับแรงกระแทก” → “รองเท้าวิ่ง” (พื้นกลางซับแรงกระแทกเป็นคุณลักษณะของรองเท้าวิ่ง) |
| ความสัมพันธ์เชิงเหตุและผล | A ทำให้เกิด B | “น้ำหนักมากเกินไป” → “อาการบาดเจ็บที่หัวเข่า” (น้ำหนักมากเกินไปอาจทำให้หัวเข่าบาดเจ็บ) |
ตัวอย่างจริง:
เมื่อประมวลผลประโยค “เวลาเลือกรองเท้าวิ่ง พื้นกลางซับแรงกระแทกเป็นสิ่งสำคัญ เพราะช่วยลดแรงกดที่หัวเข่า” ระบบเชื่อมโยงความหมายจะสร้าง:
- ความสัมพันธ์ด้านคุณลักษณะระหว่าง “รองเท้าวิ่ง” กับ “พื้นกลางซับแรงกระแทก”
- ความสัมพันธ์เชิงเหตุและผลระหว่าง “พื้นกลางซับแรงกระแทก” กับ “ลดแรงกดที่หัวเข่า”
ข้อมูลสนับสนุน:
การทดสอบภายในของ Google ในปี 2023 ระบุว่าโมเดลเชื่อมโยงความหมายมีความแม่นยำ 88% สำหรับความสัมพันธ์ทั่วไป แต่สำหรับความสัมพันธ์ที่ซับซ้อน เช่น “เหตุและผลทางอ้อม” ความแม่นยำอยู่ที่เพียง 72% ตัวอย่างเช่น ในประโยค “การสวมรองเท้าที่ไม่พอดีเป็นเวลานานอาจทำให้อุ้งเท้าผิดรูป และนำไปสู่อาการปวดหลัง” ความสัมพันธ์ระหว่าง “รองเท้าที่ไม่พอดี” กับ “ปวดหลัง” เป็นเหตุและผลทางอ้อม ซึ่งโมเดลอาจตัดสินว่าไม่มีความเชื่อมโยงโดยตรง เพื่อแก้ปัญหานี้ Google จึงนำเทคนิค “การให้เหตุผลแบบลูกโซ่” มาใช้ โดยเชื่อมสองเอนทิตีที่อยู่ห่างกันผ่านโหนดกลางอย่าง “อุ้งเท้าผิดรูป” ทำให้ความแม่นยำในการรู้จำความสัมพันธ์ซับซ้อนเพิ่มเป็น 85%
ขั้นตอนที่ 4 การแก้ไขด้วยบริบท
บางคำมีความกำกวมเมื่อดูแยกเดี่ยว เช่น “Apple” อาจหมายถึงผลไม้หรือแบรนด์ จึงต้องใช้ทั้งย่อหน้า หรือทั้งหน้าเว็บในการปรับแก้ความหมายของคำให้ถูกต้อง
นี่คือขั้นตอนสำคัญที่สุดที่ทำให้ NLP “เข้าใจ” ข้อความ และเป็นส่วนที่พึ่งพาบริบทมากที่สุด
หลักการทางเทคนิค:
Google ใช้ กลไกความสนใจแบบสองทิศทาง เช่นแกนหลักของ BERT เพื่อให้โมเดล “มอง” ทั้งส่วนต้นและส่วนท้ายของประโยคพร้อมกัน แล้วปรับความหมายของแต่ละ token แบบไดนามิก
ตัวอย่างเช่น เมื่อโมเดลประมวลผล “แอปเปิลของเสี่ยวหมิงสุกแล้ว” ความหมายตั้งต้นของ “แอปเปิล” อาจเป็น “ผลไม้”
แต่เมื่ออ่านประโยคถัดไปว่า “เขาวางแผนจะใช้ Apple เปิดตัวระบบใหม่” โมเดลจะย้อนกลับไปดูบริบทก่อนหน้า และพบว่า “การเปิดตัวระบบใหม่” ไม่เกี่ยวกับผลไม้ จึงแก้ความหมายของ “Apple” ให้เป็น “บริษัทเทคโนโลยี”
ตัวอย่างจริง:
ยกตัวอย่างเนื้อหาหน้าเว็บ “iPhone 15 ที่ Apple เพิ่งเปิดตัวรองรับการสื่อสารผ่านดาวเทียม ซึ่งเป็นข่าวดีสำหรับผู้ที่ชื่นชอบกิจกรรมกลางแจ้ง”
- หากดูคำว่า “Apple” เพียงลำพัง โมเดลอาจตัดสินผิดว่าเป็น “ผลไม้”
- แต่เมื่อรวมกับประโยคถัดไปอย่าง “เปิดตัว iPhone 15” โมเดลจะปรับ “Apple” ให้เป็น “บริษัทเทคโนโลยี”
- และเมื่อรวมกับคำว่า “ผู้ที่ชื่นชอบกิจกรรมกลางแจ้ง” ก็จะยืนยันเพิ่มเติมว่าฟังก์ชัน “การสื่อสารผ่านดาวเทียม” ของ iPhone 15 เชื่อมโยงกับสถานการณ์กลางแจ้ง
ข้อมูลสนับสนุน:
งานวิจัยพฤติกรรมผู้ใช้ของ Google ปี 2024 พบว่า ในสถานการณ์คำค้นหาหลายความหมาย เช่น ผู้ใช้ค้นหา “Python” ความเกี่ยวข้องของผลการค้นหาหลังผ่านการแก้ไขด้วยบริบทสูงขึ้น 37% เมื่อเทียบกับกรณีที่ไม่แก้ไข
สำหรับการประมวลผลหน้าเว็บโดยเฉพาะ การแก้ไขด้วยบริบทช่วยเพิ่มอัตราการระบุความหมายที่ถูกต้องของคำกำกวมจาก 62% เป็น 89% (อ้างอิงจากข้อมูลทดสอบภายในของ Google)
NLP ช่วยผู้ใช้ประหยัดเวลาค้นหาได้ 30% ต่อวัน
เมื่อผู้ใช้ค้นหา สิ่งที่รับรู้ได้ชัดที่สุดคือ “จะเจอสิ่งที่อยากได้เร็วขึ้นไหม”
ตามรายงานพฤติกรรมผู้ใช้ของ Microsoft ปี 2024 เสิร์ชเอนจินที่ได้รับการปรับปรุงด้วย NLP ช่วยลดเวลาเฉลี่ยในการค้นหาข้อมูลเป้าหมายของผู้ใช้จาก 87 วินาทีเหลือ 59 วินาที (ลดลงประมาณ 30%)
คำค้นหาหลายความหมาย
ประมาณ 40% ของคำค้นหาของผู้ใช้มีคำที่กำกวม เช่น “Apple” “Python” หรือ “Java” เสิร์ชเอนจินแบบดั้งเดิมจะมองคำค้นหาเหล่านี้เป็นคีย์เวิร์ดเดียว จึงคืนผลลัพธ์ที่ไม่เกี่ยวข้องจำนวนมาก
NLP ใช้ เทคโนโลยีแยกความหมายของคำตามบริบท (Word Sense Disambiguation, WSD) เพื่อพิจารณาความหมายที่แท้จริงของคำตามบริบท และกรองเนื้อหาที่ไม่ตรงออกโดยตรง
ผลลัพธ์ที่เห็นได้จริง:
- กรณีที่ 1: ค้นหา “Python”: ผู้ใช้อาจต้องการบทเรียนภาษาการเขียนโปรแกรม (62%) หรือข้อมูลเกี่ยวกับงู (18%) หรือคำค้นหาด้านการเขียนโปรแกรม Python ในบริบทอื่น (20%) เสิร์ชเอนจินแบบเดิมจะแสดงทุกหน้าที่มีคำว่า “Python” ทำให้ผู้ใช้ต้องคัดกรองลิงก์ที่ไม่เกี่ยวข้อง 10-15 ลิงก์ใน 3 หน้าผลลัพธ์แรก แต่เมื่อใช้ NLP ระบบจะใช้บริบทของหน้า เช่น “ฟังก์ชัน print()” หรือ “บทเรียนเว็บสแครปปิง” เพื่อตีความเจตนาของผู้ใช้และแสดงผลด้านการเขียนโปรแกรมก่อน การทดสอบภายในของ Google ปี 2023 แสดงว่า สัดส่วนผลลัพธ์ที่มีประสิทธิภาพบนหน้าจอแรกเพิ่มจาก 38% เป็น 72% และจำนวนคลิกเฉลี่ยของผู้ใช้ลดจาก 2.3 ครั้งเหลือ 1.1 ครั้ง
- กรณีที่ 2: ค้นหา “Java”: ผู้ใช้อาจต้องการภาษาการเขียนโปรแกรม (55%) คู่มือท่องเที่ยวเกาะชวาในอินโดนีเซีย (25%) หรือชนิดของกาแฟ (20%) NLP วิเคราะห์คำที่เกี่ยวข้องในหน้าเว็บ เช่น “JVM” “Spring Framework” สำหรับโปรแกรม หรือ “วัดทานาห์ลอต” “ภูเขาไฟ” สำหรับการท่องเที่ยว เพื่อระบุความต้องการได้รวดเร็ว การสำรวจของ Pew Research ปี 2024 พบว่า เวลาในการค้นหาสำหรับคำค้นหาหลายความหมายลดจาก 112 วินาทีเหลือ 68 วินาที (ลดลง 40 วินาที)
การสนับสนุนทางเทคนิค:
ความสามารถในการแยกความหมายของ NLP พึ่งพาการตรวจสอบสองชั้นระหว่าง “เวกเตอร์บริบท” และ “Knowledge Graph”
ตัวอย่างเช่น เมื่อผู้ใช้ค้นหา “Java” โมเดลจะดึงคีย์เวิร์ดอื่นในหน้า เช่น “กาแฟ” “โปรแกรม” “เกาะ” แล้วแมปเข้ากับเอนทิตีใน Knowledge Graph เช่น “Java (ภาษาการเขียนโปรแกรม)” หรือ “Java (เกาะ)” จากนั้นใช้การคำนวณความคล้ายคลึงของเวกเตอร์ เช่น cosine similarity เพื่อเลือกว่าเอนทิตีใดตรงที่สุด และคืนผลลัพธ์ที่สอดคล้องกัน
ความต้องการแฝง
คำค้นหาของผู้ใช้ มักแสดงเพียง 10%-20% ของความต้องการหลัก ส่วนที่เหลือ 80%-90% เป็นสิ่งที่แฝงอยู่ เช่น “ราคา” “ความยาก” หรือ “สถานการณ์ที่เหมาะสม”
NLP ใช้ เทคโนโลยีขยายความหมาย (Semantic Expansion) เพื่อขยายจากคำหลักไปสู่ความต้องการที่เกี่ยวข้อง และครอบคลุมเจตนาที่ผู้ใช้ไม่ได้พูดออกมาตรง ๆ
ผลลัพธ์ที่เห็นได้จริง:
- กรณีที่ 1: ค้นหา “สูตรลดน้ำหนัก”: ผู้ใช้อาจมีความต้องการแฝงอย่าง “แคลอรีต่ำ” “ทำง่าย” “เหมาะกับพนักงานออฟฟิศ” หรือ “ไร้น้ำตาล” เสิร์ชเอนจินแบบเดิมจะจับคู่เพียงหน้าที่มีคำว่า “ลดน้ำหนัก” และ “สูตรอาหาร” จึงอาจแสดง “สูตรอดอาหารแบบสุดโต่ง” หรือ “เมนูอบซับซ้อน” แต่เมื่อใช้ NLP ระบบจะวิเคราะห์คำที่สัมพันธ์กับ “ลดน้ำหนัก” เช่น “พลังงาน” “แคลอรี” “รวดเร็ว” “ทำกินที่บ้าน” แล้วให้ความสำคัญกับหน้าอย่าง “อาหารเช้าแคลต่ำ 15 นาที” หรือ “สูตรข้าวกล่องสำหรับคนทำงาน” มากกว่า การทดสอบ A/B ของ Google ปี 2022 แสดงว่า ผลการค้นหาที่ครอบคลุมความต้องการแฝงทำให้เวลาที่ผู้ใช้อยู่บนหน้าเพิ่มจาก 45 วินาทีเป็น 78 วินาที (เพิ่มขึ้น 73%) เพราะผู้ใช้ไม่จำเป็นต้องค้นหาซ้ำว่า “สูตรลดน้ำหนัก แคลต่ำ”
- กรณีที่ 2: ค้นหา “วันฝนตกควรใส่อะไร”: ผู้ใช้อาจแฝงความต้องการเรื่อง “กันน้ำ” “กันลื่น” “น้ำหนักเบา” หรือ “อบอุ่น” เสิร์ชเอนจินแบบเดิมอาจแสดงผลกว้าง ๆ อย่าง “เสื้อกันฝน” หรือ “ร่ม” แต่ NLP สามารถรู้จักคุณสมบัติของสถานการณ์ฝนตก เช่น เปียกและลื่น แล้วเชื่อมโยงไปยังคุณลักษณะอย่าง “วัสดุกันน้ำ” “พื้นรองเท้ากันลื่น” “พับเก็บง่าย” พร้อมแนะนำสินค้าเฉพาะอย่าง “แจ็กเก็ตกันน้ำ” หรือ “รองเท้าบูต Martin กันลื่น” การสำรวจของ eMarketer ปี 2024 ระบุว่า การค้นหาอีคอมเมิร์ซที่ครอบคลุมความต้องการแฝงช่วยเพิ่มอัตราการแปลงจาก 3.2% เป็น 5.8%
การสนับสนุนทางเทคนิค:
การขยายความหมายพึ่งพาการฝึกจาก “ปริภูมิเวกเตอร์คำ” และ “ข้อมูลพฤติกรรมผู้ใช้”
ตัวอย่างเช่น โมเดล BERT ของ Google จะทำให้ “สูตรลดน้ำหนัก” ถูกแมปเข้าไปในปริภูมิเวกเตอร์มิติสูง ซึ่งคำอย่าง “แคลต่ำ” หรือ “ทำง่าย” อยู่ใกล้กันมาก
พร้อมกันนั้น ระบบยังวิเคราะห์ข้อมูลการค้นหาในอดีต เช่น ผู้ใช้ที่ค้นหา “สูตรลดน้ำหนัก” มักคลิก “อาหารเช้าแคลต่ำ” เพื่อยืนยันความเชื่อมโยงของความต้องการแฝงเหล่านี้ แล้วสร้างคลังคำขยายในที่สุด
การปรับตามบริบทข้ามสถานการณ์
สถานการณ์ในการค้นหาของผู้ใช้ เช่น เวลา สถานที่ และอุปกรณ์ มีผลโดยตรงต่อความต้องการ NLP ใช้ เทคโนโลยีการรับรู้บริบท (Context Awareness) เพื่อปรับความเข้าใจต่อคำค้นหาอย่างไดนามิก และให้ผลลัพธ์ที่เหมาะกับสถานการณ์ปัจจุบันมากขึ้น
ผลลัพธ์ที่เห็นได้จริง:
- บริบทเวลา: หากค้นหา “เสื้อคลุม” ในฤดูหนาว NLP จะให้ความสำคัญกับคำอย่าง “บุขน” “ให้ความอบอุ่น” หรือ “เสื้อดาวน์” แต่ถ้าค้นหา “เสื้อคลุม” ในฤดูร้อน ระบบจะให้ความสำคัญกับ “กันแดด” “บางเบา” หรือ “ระบายอากาศ” ข้อมูลการค้นหาตามฤดูกาลของ Google ปี 2023 แสดงว่า หลังการปรับตามบริบท ผู้ใช้พึงพอใจต่อผลลัพธ์เพิ่มจาก 68% เป็น 85%
- บริบทสถานที่: หากค้นหา “หม้อไฟ” ในเซี่ยงไฮ้ NLP อาจแนะนำร้านยอดนิยมท้องถิ่น แต่หากค้นหาในเฉิงตู ระบบจะให้ความสำคัญกับหม้อไฟเสฉวนแบบดั้งเดิมมากกว่า การทดสอบร่วมกันระหว่าง Google Maps และ Search ในปี 2024 พบว่า หลังปรับตามบริบทพื้นที่ ความน่าจะเป็นที่ผู้ใช้จะคลิก “ร้านใกล้ฉัน” เพิ่มจาก 22% เป็น 47%
- บริบทอุปกรณ์: หากใช้มือถือค้นหา “ปั๊มน้ำมันใกล้ฉัน” NLP จะให้ความสำคัญกับผลลัพธ์อย่าง “แผนที่นำทาง” “ราคาน้ำมันเรียลไทม์” และ “ใกล้ที่สุด” เพื่อรองรับการตัดสินใจที่รวดเร็วบนมือถือ แต่หากค้นหาบนคอมพิวเตอร์ อาจแสดง “รายชื่อปั๊มน้ำมัน” “รีวิวผู้ใช้” หรือ “โปรโมชั่น” ที่ละเอียดกว่า งานวิจัยหลายอุปกรณ์ของ Microsoft ปี 2024 พบว่า หลังปรับตามบริบทอุปกรณ์ เวลาที่ผู้ใช้ใช้เพื่อทำภารกิจให้สำเร็จลดลง 42% (บนมือถือจาก 90 วินาทีเหลือ 52 วินาที และบนคอมพิวเตอร์จาก 120 วินาทีเหลือ 69 วินาที)
การสนับสนุนทางเทคนิค:
การรับรู้บริบทอาศัย “การดึงเมทาดาทา” และ “การรวมข้อมูลแบบเรียลไทม์”
ตัวอย่างเช่น ระบบจะดึงเวลา (จากอุปกรณ์ผู้ใช้) ตำแหน่ง (จาก IP หรือ GPS) และประเภทอุปกรณ์ (มือถือ/คอมพิวเตอร์) จากนั้นรวมกับข้อมูลเรียลไทม์ เช่น สภาพอากาศ การจราจร หรือสถานะการเปิดร้าน เพื่อปรับน้ำหนักเชิงความหมาย
เช่น หากค้นหา “เสื้อคลุม” ในวันที่ฝนตก ระบบจะตรวจสอบโอกาสฝนตกในพื้นที่แบบเรียลไทม์ แล้วเพิ่มน้ำหนักให้กับคุณสมบัติ “กันน้ำ”
NLP ช่วยประหยัดเวลาอย่างไร
| ประเภทสถานการณ์ | การค้นหาแบบดั้งเดิม (ไม่มี NLP) | การค้นหาที่ปรับปรุงด้วย NLP | เวลาที่ประหยัดได้ | แหล่งข้อมูล |
|---|---|---|---|---|
| คำค้นหาหลายความหมาย (Python) | 10 ผลลัพธ์ในหน้าจอแรก มี 5 รายการไม่เกี่ยวข้อง | 8 ผลลัพธ์ในหน้าจอแรก มี 7 รายการเกี่ยวข้อง | 40 วินาที | การทดสอบภายในของ Google ปี 2023 |
| ความต้องการแฝง (สูตรลดน้ำหนัก) | ต้องค้นหาซ้ำว่า “แคลต่ำ” | แสดงสูตรแคลต่ำในหน้าจอแรกโดยตรง | 25 วินาที | การสำรวจ Pew Research ปี 2024 |
| ข้ามสถานการณ์ (ค้นหาเสื้อคลุมในหน้าร้อน) | ผลลัพธ์มีเสื้อกันหนาวรวมอยู่ ต้องคัดกรองเอง | หน้าจอแรกเป็นเสื้อกันแดดหน้าร้อนทั้งหมด | 30 วินาที | งานวิจัยหลายสถานการณ์ของ Microsoft ปี 2024 |
NLP ใน Google Search “อ่านเข้าใจ” ข้อความบนหน้าเว็บอย่างไร
เทคโนโลยี NLP ของ Google เปลี่ยนข้อความบนหน้าเว็บให้เป็น “เครือข่ายความหมาย” ที่เครื่องเข้าใจได้ ผ่าน 4 ขั้นตอน ได้แก่ “การตัดคำ → การรู้จำเอนทิตี → การเชื่อมโยงความหมาย → การแก้ไขด้วยบริบท”
Google ประมวลผลคำมากกว่า 50 พันล้านคำต่อวัน (ข้อมูลปี 2024) มีความแม่นยำในการตัดคำ 97.3% อัตราการเรียกคืนเอนทิตี 92% ทำให้ระบบสามารถแยก “Apple” ว่าเป็นผลไม้หรือโทรศัพท์ได้อัตโนมัติ และจับคู่ “Python” กับบทเรียนการเขียนโปรแกรมแทนงู เมื่อผู้ใช้ค้นหาเนื้อหาที่เกี่ยวข้อง สัดส่วนผลลัพธ์ที่มีประสิทธิภาพบนหน้าจอแรกเพิ่มจาก 38% เป็น 72% (การทดสอบภายในปี 2023)
การตัดคำ: แบ่งข้อความให้เป็น “หน่วยเล็กที่สุดที่เครื่องเข้าใจได้”
พูดง่าย ๆ คือการแยกลำดับข้อความต่อเนื่องให้กลายเป็น “หน่วยภาษาที่มีความหมาย” (เรียกว่า “token”)
สำหรับภาษาอย่างอังกฤษที่มีช่องว่างตามธรรมชาติ การตัดคำทำได้เพียงแยกตามช่องว่าง เช่น “coffee mug” → “coffee” + “mug”
แต่สำหรับภาษาจีน ญี่ปุ่น และภาษา “ไม่มีช่องว่าง” อื่น ๆ หากตัดคำผิด จะทำให้การรู้จำเอนทิตีและความเข้าใจเชิงความหมายในขั้นต่อไปล้มเหลวทั้งหมด
คลังกฎ + Deep Learning
ระบบตัดคำของ Google ใช้โมเดลผสมแบบ “คลังกฎมาก่อน แล้วค่อยให้ Deep Learning เติมเต็ม” โดยมีเป้าหมายหลักคือการตัดคำให้ “ทั้งเร็วและแม่น”
คลังกฎ
คลังกฎเป็น “รากฐาน” ของระบบตัดคำของ Google ภายในบรรจุ รูปแบบการจับคู่คำที่ใช้บ่อย ของภาษาหลักทั่วโลก เช่น ภาษาจีนอย่าง “ชงกาแฟ” “กาดริป” “การทดสอบกันน้ำ” และภาษาอังกฤษอย่าง “espresso machine” หรือ “drip coffee” รูปแบบเหล่านี้มาจากการวิเคราะห์เชิงสถิติของข้อความบนอินเทอร์เน็ต โดย Google จะรวบรวมหน้าเว็บทั่วทั้งอินเทอร์เน็ต แล้วคำนวณความถี่ร่วมของคำที่อยู่ติดกัน เช่น ความน่าจะเป็นที่ “ชง” จะตามด้วย “กาแฟ” คือ 92% และตามด้วย “ข้าว” คือ 85% จากนั้นจึงสร้างเป็น “พจนานุกรมการจับคู่” ระดับหลายล้านรายการ
ตัวอย่างเช่น เมื่อประมวลผลประโยคภาษาจีน “如何煮一杯香浓的手冲咖啡” คลังกฎจะจับคู่ “煮/咖啡” และ “手冲/咖啡” ซึ่งเป็นรูปแบบความถี่สูงก่อน จึงได้การแบ่งที่ถูกต้องเป็น “如何/煮/一杯/香浓的/手冲咖啡”
หากพบคำว่า “Java编程” คลังกฎจะรู้ว่า “Java” เป็นภาษาการเขียนโปรแกรม และ “编程” เป็นการกระทำ จึงแบ่งเป็น “Java/编程” แทนที่จะเป็น “Jav/a编/程” ซึ่งผิด
Deep Learning
แม้คลังกฎจะมีประสิทธิภาพ แต่ก็ไม่อาจครอบคลุมทุกกรณีได้ เพราะในแต่ละวันอินเทอร์เน็ตมีคำใหม่จำนวนมาก เช่น “dopamine dressing” “metaverse” รวมถึงศัพท์เฉพาะทาง เช่น “culpa in contrahendo” ทางกฎหมาย หรือ “กล้ามเนื้อหัวใจตาย” ทางการแพทย์ ซึ่งไม่ได้อยู่ในคลังกฎ ในกรณีนี้ Google จะเรียกใช้ โมเดล BERT ที่ปรับแต่งแล้ว เพื่อคาดการณ์แบบไดนามิก
BERT (Transformer แบบสองทิศทาง) เป็นโมเดลภาษาที่ผ่านการพรีเทรนและสามารถเข้าใจความหมายของคำผ่านบริบทได้
เช่น เมื่อพบคำว่า “dopamine dressing” แม้คลังกฎจะไม่มีคำนี้ แต่ BERT จะใช้บริบทอย่าง “สีสดใส” “อารมณ์ดี” และ “แฟชั่น” เพื่อคาดการณ์ว่านี่คือคำเกิดใหม่ที่ใช้บรรยายสไตล์การแต่งตัว จึงควรถูกตัดเป็น “dopamine dressing” ทั้งหน่วย แทนที่จะเป็น “dopa/min/e dress/ing” ซึ่งผิด
เปรียบเทียบรายละเอียดทางเทคนิค:
| ประเภทเทคโนโลยี | ข้อดี | ข้อจำกัด | สถานการณ์ที่เหมาะสม |
|---|---|---|---|
| คลังกฎ | เร็วมาก (ตอบสนองระดับมิลลิวินาที) | ไม่ครอบคลุมคำใหม่ / ศัพท์เฉพาะทาง | ข้อความทั่วไปตามปกติ |
| โมเดล BERT ที่ปรับแต่งแล้ว | รู้จำคำใหม่และศัพท์เฉพาะได้แบบไดนามิก | ต้นทุนการคำนวณสูง (ต้องใช้ GPU) | สาขาใหม่และข้อความหางยาว |
การรองรับหลายภาษา
Google รองรับการตัดคำมากกว่า 100 ภาษา แต่ลักษณะเฉพาะของแต่ละภาษาต่างกันมาก จึงต้องปรับทั้งกฎและโมเดลให้เหมาะกับแต่ละภาษา
ภาษาจีน: ไม่มีช่องว่าง + ความกำกวมสูง
ความยากของภาษาจีนอยู่ที่ “ไม่มีช่องว่าง” และ “หนึ่งคำหลายความหมาย” ตัวอย่างเช่น ประโยค “乒乓球拍卖完了” สามารถแบ่งได้สองแบบ:
- ถูกต้อง: “乒乓球拍/卖完了” (“ไม้ปิงปอง” เป็นสินค้า)
- ผิด: “乒乓球/拍卖/完了” (“ประมูล” เป็นการกระทำ)
Google แก้ความกำกวมด้วย โมเดลความน่าจะเป็นตามบริบท โดยดูความถี่ร่วมของ “乒乓球拍” ในฐานะคำเดียว เช่น โอกาสปรากฏในหน้าอีคอมเมิร์ซ 90% ซึ่งสูงกว่าการจับคู่ “乒乓球 + 拍卖” ที่อาจปรากฏในข่าวกีฬาเพียง 5% จึงเลือก “乒乓球拍/卖完了” ก่อน
ภาษาอาหรับ: เขียนจากขวาไปซ้าย + ตัวอักษรเชื่อมติดกัน
ภาษาอาหรับเขียนจากขวาไปซ้าย และบางกรณีคำสามารถเชื่อมกันได้ Google จะกลับลำดับข้อความเป็นซ้ายไปขวาก่อน จากนั้นใช้คลังกฎเพื่อจับขอบเขตของคำ แล้วจึงแบ่งคำอย่างถูกต้อง
ภาษาสวาฮีลี: ลักษณะภาษาติดคำ
ภาษาสวาฮีลีเป็นภาษาติดคำ ซึ่งใช้ปัจจัยต่อท้ายรากศัพท์เพื่อเปลี่ยนความหมาย เช่น “mtoto” แปลว่า “เด็ก” และ “watoto” แปลว่า “เด็ก ๆ” โมเดลตัดคำของ Google จะระบุขอบเขตของปัจจัย เช่น “-o” เป็นปัจจัยเอกพจน์ และ “-wa” เป็นปัจจัยพหูพจน์ เพื่อแยก “watoto” ให้ถูกต้อง
การทดสอบการตัดคำหลายภาษาของ Google ปี 2023 ระบุว่า ความแม่นยำของภาษาอย่างอังกฤษและสเปนอยู่ที่ 98% แต่สำหรับภาษาอาหรับ สวาฮีลี และภาษาที่ซับซ้อนอื่น ๆ อยู่ที่เพียง 92%
เพื่อยกระดับผลลัพธ์ Google จึงตั้ง “ทีมผู้เชี่ยวชาญภาษา” สำหรับแต่ละภาษา และให้ผู้เชี่ยวชาญติดป้ายกำกับประโยคตัวอย่างมากกว่า 100,000 ประโยคเพื่อใช้ฝึกโมเดลตัดคำเฉพาะภาษา
การตัดคำผิดส่งผลต่อผลการค้นหาอย่างไร
การตัดคำเป็นรากฐานของทุกขั้นตอน NLP ถัดไป หากตัดผิด อาจทำให้การรู้จำเอนทิตีล้มเหลวและความเชื่อมโยงเชิงความหมายคลาดเคลื่อน ส่งผลต่อความเกี่ยวข้องของผลการค้นหาโดยตรง ต่อไปนี้คือตัวอย่างจริงสองกรณี:
กรณีที่ 1: หน้าอีคอมเมิร์ซ “Java coffee”
หากชื่อหน้าเว็บคือ “Java coffee: smooth pour-over taste” การตัดคำที่ถูกต้องควรเป็น “Java/coffee/:/smooth pour-over/taste” แต่ถ้าระบบตัดผิดเป็น “Jav/a coffee” ระบบรู้จำเอนทิตีอาจตีความ “Jav” ซึ่งไม่มีความหมาย และไม่สามารถเชื่อมโยงไปยังสินค้าที่ถูกต้องอย่าง “Java coffee” ได้ ทำให้เมื่อผู้ใช้ค้นหา “Java coffee” หน้านี้อาจถูกกรองทิ้งอย่างผิดพลาด
กรณีที่ 2: หน้าเว็บกฎหมาย “culpa in contrahendo”
หากบล็อกกฎหมายมีข้อความว่า “ความรับผิดจากการเจรจาสัญญาโดยไม่สุจริตหมายถึงกรณีที่ฝ่ายหนึ่งก่อให้เกิดความเสียหายแก่คู่กรณีจากการละเมิดหลักสุจริต” การตัดคำที่ถูกต้องควรรักษาคำเฉพาะทางนี้เป็นหน่วยเดียว แต่หากตัดแยกออกเป็นส่วนย่อย ระบบรู้จำเอนทิตีจะไม่สามารถเชื่อมโยงไปยังศัพท์กฎหมายดังกล่าวได้ และทำให้อันดับของหน้าเว็บตกลงเมื่อผู้ใช้ค้นหาคำนี้
ข้อมูลสนับสนุน:
การทดสอบภายในของ Google แสดงว่า ความผิดพลาดในการตัดคำสามารถทำให้อันดับของหน้าเป้าหมายในผลการค้นหาลดลง 3-5 อันดับ (ข้อมูล A/B test ปี 2023) และลดโอกาสที่ผู้ใช้จะคลิกหน้านั้นลง 42% เพราะความเกี่ยวข้องของผลลัพธ์ลดลง
“จับ” จุดสำคัญจากข้อความ
เมื่อผู้ใช้ค้นหา “การทดสอบกันน้ำของ iPhone 15 รุ่นปี 2025” Google ต้องรู้ให้เร็วว่าแก่นหลักของหน้าเว็บคือ “iPhone 15” (ผลิตภัณฑ์) “กันยายน 2025” (เวลา) และ “การทดสอบกันน้ำ” (เหตุการณ์)
ข้อมูลสำคัญเหล่านี้เรียกว่า “เอนทิตี” (Entity)
โมเดล Multi-Task Learning
ระบบรู้จำเอนทิตีของ Google ใช้ โมเดล Multi-Task Learning โดยฝึกพร้อมกัน 3 งาน ได้แก่ “การรู้จำเอนทิตี” “การกำกับชนิดคำ” และ “การดึงความสัมพันธ์” ผ่านการแชร์พารามิเตอร์ชั้นล่างร่วมกันเพื่อเพิ่มประสิทธิภาพ
พูดง่าย ๆ คือโมเดลจะเรียนรู้พร้อมกันว่า:
- คำใดเป็นเอนทิตี เช่น “iPhone 15” เป็นผลิตภัณฑ์
- คำเหล่านี้มีบทบาททางไวยากรณ์แบบใดในประโยค เช่น “iPhone 15” เป็นคำนาม
- เอนทิตีแต่ละตัวมีความสัมพันธ์กันอย่างไร เช่น “iPhone 15” ถูกผลิตโดย “Apple”
รายละเอียดทางเทคนิคหลัก:
- BERT Fine-tuning: ใช้โมเดล BERT ที่ผ่านการพรีเทรนของ Google เป็นฐาน แล้วปรับแต่งด้วยข้อมูลที่มีการติดป้ายกำกับจำนวนมาก เช่น Wikipedia ข่าว และหน้าอีคอมเมิร์ซ เพื่อเรียนรู้คุณลักษณะตามบริบทของเอนทิตี ตัวอย่างเช่น ในประโยค “iPhone 15 เปิดตัวในเดือนกันยายน 2025” เวกเตอร์บริบทของ “กันยายน 2025” และ “iPhone 15” ที่ได้จาก BERT ช่วยให้โมเดลตัดสินได้ว่าคำแรกคือเวลา และคำหลังคือผลิตภัณฑ์
- ตัวจำแนกประเภทเอนทิตี: เพิ่ม “หัวจำแนกประเภท” ไว้บนชั้นเอาต์พุตของ BERT เพื่อทำนายประเภทของเอนทิตีแต่ละตัว เช่น TIME, PRODUCT หรือ PERSON ตัวจำแนกนี้อิงกับชุดประเภทเอนทิตีที่นิยามไว้มากกว่า 50 ประเภท ครอบคลุมทั้งโดเมนทั่วไปและเฉพาะทาง เช่น:
| ประเภทเอนทิตี | คำจำกัดความ | ตัวอย่าง |
|---|---|---|
| TIME | จุดเวลา / ช่วงเวลา | “กันยายน 2025” “30 นาที” |
| PRODUCT | ผลิตภัณฑ์เฉพาะ | “iPhone 15” “กาดริป” |
| PERSON | บุคคล (จริงหรือสมมติ) | “Tim Cook” “Zhang Xiaolong” |
| LOCATION | สถานที่ (รูปธรรมหรือเชิงนามธรรม) | “เซี่ยงไฮ้” “GitHub” |
| EVENT | เหตุการณ์ / การกระทำ | “การทดสอบกันน้ำ” “งานเปิดตัว” |
| ATTRIBUTE | คุณลักษณะ / ลักษณะเฉพาะของเอนทิตี | “มาตรฐานกันน้ำ IP68” “น้ำลึก 6 เมตร” |
จากโดเมนทั่วไปสู่โดเมนเฉพาะทาง: “ความแม่นยำในการรู้จำ”
ระบบประเภทเอนทิตีของ Google แบ่งเป็น โดเมนทั่วไป (ครอบคลุมข้อความในชีวิตประจำวัน) และ โดเมนเฉพาะทาง (สำหรับเนื้อหาระดับมืออาชีพ)
ประเภทเอนทิตีในโดเมนทั่วไป (มากกว่า 50 ประเภท):
ครอบคลุม 90% ของสถานการณ์การค้นหาของผู้ใช้ เช่น:
- เวลา (TIME): วันที่เฉพาะเจาะจง เช่น “กันยายน 2025” ระยะเวลา เช่น “30 นาที” หรือช่วงเวลา เช่น “ปี 2020-2025”
- ผลิตภัณฑ์ (PRODUCT): อุปกรณ์อิเล็กทรอนิกส์ เช่น “iPhone 15” เครื่องใช้ไฟฟ้า เช่น “กาดริป” หรือของใช้ประจำวัน เช่น “เมล็ดกาแฟ”
- สถานที่ (LOCATION): เมือง เช่น “เซี่ยงไฮ้” ประเทศ เช่น “สหรัฐอเมริกา” หรือองค์กร เช่น “Google”
ประเภทเอนทิตีในโดเมนเฉพาะทาง (เฉพาะอุตสาหกรรม):
สำหรับเนื้อหาเฉพาะทาง เช่น กฎหมาย การแพทย์ และเทคโนโลยี Google จะฝึกประเภทเอนทิตีเฉพาะสาขาเพิ่มเติม เช่น:
- ด้านกฎหมาย: เพิ่มประเภทอย่าง “บทบัญญัติกฎหมาย” และ “การกระทำทางกฎหมาย”
- ด้านการแพทย์: เพิ่ม “โรค” “ยา” และ “วิธีผ่าตัด”
- ด้านเทคโนโลยี: เพิ่ม “อัลกอริทึม” “ภาษาการเขียนโปรแกรม” และ “สถาปัตยกรรมฮาร์ดแวร์”
ข้อมูลสนับสนุน:
การทดสอบภายในของ Google ปี 2023 พบว่า ความแม่นยำในการรู้จำเอนทิตีของโดเมนทั่วไปอยู่ที่ 92% แต่ในโดเมนเฉพาะทางอย่างกฎหมาย ความแม่นยำเริ่มต้นอยู่เพียง 78% เนื่องจากศัพท์เฉพาะมีน้อยและข้อมูลติดป้ายกำกับยังไม่เพียงพอ
หลังจากฝึก “โมเดลรู้จำเอนทิตีทางกฎหมาย” แยกต่างหากโดยใช้ข้อความกฎหมายที่มีการติดป้ายกำกับมากกว่า 100,000 รายการ ความแม่นยำเพิ่มขึ้นเป็น 90% ส่วนโมเดลทางการแพทย์ที่ฝึกด้วยเวชระเบียนมากกว่า 50,000 รายการมีความแม่นยำ 88%
จากการตรวจจับผู้สมัครจนถึงการกำหนดขอบเขต: “4 ขั้นตอน”
ต่อไปนี้ใช้ประโยค “ผลการทดสอบกันน้ำ IP68 ของ iPhone 15 ในเดือนกันยายน 2025 แสดงว่าเครื่องอยู่ใต้น้ำลึก 6 เมตรได้นาน 30 นาที” เป็นตัวอย่างเพื่ออธิบายกระบวนการ:
ขั้นตอนที่ 1: การตรวจจับผู้สมัคร — หา “เมล็ดพันธุ์” ของเอนทิตีที่เป็นไปได้
โมเดลจะสแกนข้อความก่อน โดยอิงจากคลังกฎ เช่น “ปี + เดือน” เป็นผู้สมัครประเภทเวลา หรือ “ตัวเลข + ชื่อผลิตภัณฑ์” เป็นผู้สมัครประเภทผลิตภัณฑ์ รวมถึงความน่าจะเป็นเชิงสถิติ เช่น โอกาสที่ “iPhone” ตามด้วยตัวเลขมีถึง 90% แล้วทำการระบุผู้สมัครที่เป็นไปได้
- ผู้สมัคร 1: “กันยายน 2025” (สอดคล้องกับกฎ “ปี + เดือน”)
- ผู้สมัคร 2: “iPhone 15” (สอดคล้องกับกฎ “ชื่อผลิตภัณฑ์ + รุ่น”)
- ผู้สมัคร 3: “การทดสอบกันน้ำ IP68” (สอดคล้องกับกฎ “พารามิเตอร์ทางเทคนิค + การกระทำ”)
- ผู้สมัคร 4: “น้ำลึก 6 เมตร” (สอดคล้องกับกฎ “ตัวเลข + หน่วย + คุณลักษณะ”)
- ผู้สมัคร 5: “30 นาที” (สอดคล้องกับกฎ “ตัวเลข + หน่วยเวลา”)
ขั้นตอนที่ 2: การจัดประเภท — “ติดฉลาก” ให้ผู้สมัคร
ผ่าน “หัวจำแนกประเภท” ของโมเดล Multi-Task Learning โมเดลจะทำนายประเภทของผู้สมัครแต่ละตัว:
- “กันยายน 2025” → TIME (เวลา)
- “iPhone 15” → PRODUCT (ผลิตภัณฑ์)
- “การทดสอบกันน้ำ IP68” → EVENT (เหตุการณ์)
- “น้ำลึก 6 เมตร” → ATTRIBUTE (คุณลักษณะ อธิบายระดับความลึกของการกันน้ำ)
- “30 นาที” → ATTRIBUTE (คุณลักษณะ อธิบายระยะเวลาการกันน้ำ)
ขั้นตอนที่ 3: การกำหนดขอบเขต — แก้ไข “ตำแหน่งเริ่มต้นและสิ้นสุด” ของเอนทิตี
ผู้สมัครบางตัวอาจมีขอบเขตผิด เช่น “การทดสอบกันน้ำ IP68” อาจถูกแยกผิดเป็น “IP68” + “การทดสอบกันน้ำ” โมเดลจึงใช้เวกเตอร์บริบทเพื่อตรวจสอบขอบเขต:
- “IP68” เป็นมาตรฐานระดับการกันน้ำ จัดเป็น ATTRIBUTE แต่ “การทดสอบกันน้ำ IP68” ทั้งชุดคือเหตุการณ์ จึงแก้ขอบเขตเป็นทั้งวลี
- ใน “น้ำลึก 6 เมตร” คำว่า “6 เมตร” เป็นค่าเชิงตัวเลข ส่วน “น้ำลึก” เป็นคุณลักษณะ ดังนั้นควรมองทั้งวลีเป็น ATTRIBUTE เดียว
ขั้นตอนที่ 4: การตรวจสอบแบบองค์รวม — แก้ข้อผิดพลาดด้วยความหมายของทั้งข้อความ
โมเดลจะสร้าง “เวกเตอร์ความหมายรวม” ของทั้งย่อหน้า (ซึ่งแสดงหัวข้อโดยรวม เช่น “การทดสอบกันน้ำของสมาร์ตโฟน”) แล้วตรวจสอบว่าเอนทิตีย่อยสอดคล้องกับธีมหลักหรือไม่ ตัวอย่างเช่น:
- หากธีมของข้อความคือ “รีวิวโทรศัพท์มือถือ” การจัด “iPhone 15” เป็น PRODUCT ก็สอดคล้องกับธีม
- หาก “การทดสอบกันน้ำ IP68” เป็น EVENT ก็ถือว่าสอดคล้องกับธีม “รีวิวโทรศัพท์มือถือ” โดยไม่ต้องแก้ไขเพิ่มเติม
Google รับประกันความแม่นยำของการรู้จำเอนทิตีอย่างไร
| มิติการทดสอบ | ความแม่นยำเริ่มต้น (ปี 2020) | ความแม่นยำหลังปรับปรุง (ปี 2024) | วิธีการปรับปรุง |
|---|---|---|---|
| โดเมนทั่วไป | 85% | 92% | เพิ่มข้อมูลติดป้ายกำกับ 1 ล้านรายการ และปรับพารามิเตอร์การ fine-tune ของ BERT |
| ข้อความยาว (>5000 คำ) | 78% | 90% | นำกลยุทธ์ “การประมวลผลแบบแบ่งส่วน” มาใช้ (แบ่งเป็นย่อหน้าละ 500 คำ) |
| โดเมนเฉพาะทาง (กฎหมาย) | 78% | 90% | ฝึกโมเดลเฉพาะสาขา (ใช้ข้อความกฎหมายติดป้ายกำกับมากกว่า 100,000 รายการ) |
| เอนทิตีเกิดใหม่ (เช่น “dopamine dressing”) | 62% | 85% | ผสานความสามารถการทำนายจากบริบทของ BERT เพื่อรู้จำคำใหม่แบบไดนามิก |
ฟีดแบ็กจากผู้ใช้:
Google เก็บข้อมูลพฤติกรรมการค้นหาของผู้ใช้ เช่น หน้าที่ผู้ใช้คลิกมีเอนทิตีเป้าหมายหรือไม่ แล้วนำกลับมาใช้ปรับโมเดลแบบย้อนกลับ
ตัวอย่างเช่น หากผู้ใช้ค้นหา “ระดับการกันน้ำของ iPhone 15” แต่หน้าที่ผู้ใช้คลิกไม่ได้ติดป้าย “IP68” เป็น ATTRIBUTE โมเดลจะปรับพารามิเตอร์เพื่อเพิ่มความสามารถในการรู้จำเอนทิตีที่เกี่ยวข้องกับ “ระดับการกันน้ำ”
“เชื่อมความสัมพันธ์” ให้คำ และสร้างตรรกะ
เมื่อผู้ใช้ค้นหา “รองเท้าที่เหมาะกับการวิ่ง” Google ต้องเข้าใจความสัมพันธ์ระหว่าง “วิ่ง” กับ “รองเท้า” (ด้านการใช้งาน) และระหว่าง “พื้นกลางซับแรงกระแทก” กับ “รองเท้าวิ่ง” (ด้านคุณลักษณะ) จึงจะคืนผลลัพธ์ที่เกี่ยวข้องจริงได้
ความสามารถในการ “เชื่อมความสัมพันธ์ระหว่างคำ” นี้เรียกว่า การดึงความสัมพันธ์เชิงความหมาย (Semantic Relation Extraction)
โมเดลพรีเทรนและ Knowledge Graph
1. โมเดลพรีเทรน: “เรียนรู้เอง” จากข้อความมหาศาล
โมเดลพรีเทรน เช่น BERT หรือ PaLM คือ “ผู้เรียนรู้” แกนหลักของการเชื่อมโยงความหมาย โดยวิเคราะห์ข้อความระดับล้านล้านคำบนอินเทอร์เน็ต เช่น เว็บ หนังสือ และฟอรัม เพื่อจับความสัมพันธ์แฝงระหว่างคำโดยอัตโนมัติ ตัวอย่างเช่น:
- จากประโยคอย่าง “รองเท้าวิ่งเหมาะกับการวิ่งระยะไกล” และ “รองเท้าบาสเกตบอลเหมาะกับการกระโดด” โมเดลจะเรียนรู้ความสัมพันธ์ด้านการใช้งานระหว่าง “รองเท้าวิ่ง” กับ “วิ่งระยะไกล” และระหว่าง “รองเท้าบาสเกตบอล” กับ “การกระโดด”
- จากประโยคอย่าง “iPhone 15 ใช้ชิป A17” และ “MacBook Pro ใช้ชิป M3” โมเดลจะเรียนรู้ความสัมพันธ์แบบ “ติดตั้ง/ใช้” ระหว่าง “iPhone 15” กับ “ชิป A17” และระหว่าง “MacBook Pro” กับ “ชิป M3”
รายละเอียดทางเทคนิค:
โมเดลพรีเทรนใช้ “เวกเตอร์ตามบริบท” (Contextualized Embedding) เพื่อแทนความหมายของแต่ละคำ
ตัวอย่างเช่น เวกเตอร์ของ “รองเท้าวิ่ง” จะเปลี่ยนไปตามบริบทของประโยค เช่น “รองเท้าวิ่งซับแรงกระแทกดี” เทียบกับ “รองเท้าวิ่งดีไซน์สวย” ทำให้โมเดลจับความแตกต่างเล็ก ๆ และตัดสินความสัมพันธ์ของคำได้อย่างแม่นยำ
2. Knowledge Graph: ใช้ความรู้เชิงโครงสร้างเพื่อ “ตรวจสอบ + เติมเต็ม” ความสัมพันธ์
แม้โมเดลพรีเทรนจะเรียนรู้ความสัมพันธ์แฝงได้ แต่ก็อาจเกิดข้อผิดพลาด เช่น ตีความความสัมพันธ์ของ “Apple” กับ “ผลไม้” ผิดเป็น “แบรนด์” ได้
ในกรณีนี้ Knowledge Graph ของ Google (ที่มีเอนทิตีมากกว่า 500 ล้านรายการ และความสัมพันธ์มากกว่า 20,000 ล้านรายการ) จะให้ความรู้เชิงโครงสร้างเพื่อช่วยตรวจสอบและเติมเต็มความสัมพันธ์ที่โมเดลเรียนรู้
ตัวอย่างเช่น เมื่อโมเดลวิเคราะห์ประโยค “ผู้ผลิตหน้าจอของ iPhone 15 คือ Samsung”:
- โมเดลพรีเทรนจะเรียนรู้จากบริบทว่าระหว่าง “iPhone 15” กับ “Samsung” มีความสัมพันธ์แบบ “ซัพพลายเออร์”
- Knowledge Graph ก็มีข้อมูลเชิงโครงสร้าง “iPhone 15 → ซัพพลายเออร์หน้าจอ → Samsung” อยู่แล้ว จึงใช้ตรวจสอบว่าความสัมพันธ์นี้ถูกต้อง และยืนยันการเชื่อมโยงดังกล่าวในที่สุด
เครือข่ายความสัมพันธ์จากพื้นฐานสู่ความซับซ้อน
Google กำหนด ประเภทความสัมพันธ์ย่อยมากกว่า 20 แบบ เพื่อครอบคลุม 90% ของสถานการณ์การค้นหาของผู้ใช้ โดยสามารถแบ่งได้เป็น 3 กลุ่มใหญ่:
1. ความสัมพันธ์พื้นฐาน (โดเมนทั่วไป)
| ประเภทความสัมพันธ์ | คำจำกัดความ | ตัวอย่าง (จากหน้าเว็บ “วิธีเลือกรองเท้าวิ่ง”) |
|---|---|---|
| ความสัมพันธ์แบบลำดับชั้น | A เป็นชนิดย่อยของ B (หรือกลับกัน) | “รองเท้าวิ่ง” → “อุปกรณ์กีฬา” |
| ความสัมพันธ์ด้านคุณลักษณะ | A เป็นคุณลักษณะ / พารามิเตอร์ของ B | “พื้นกลางซับแรงกระแทก” → “รองเท้าวิ่ง” |
| การใช้งาน | A ใช้เพื่อ B | “กาดริป” → “ชงกาแฟ” |
| ลำดับเวลา | A เกิดก่อน / หลัง B | “เปิดตัว” → “วางจำหน่าย” |
2. ความสัมพันธ์ซับซ้อน (โดเมนเฉพาะทาง)
สำหรับเนื้อหาเฉพาะทาง เช่น กฎหมาย การแพทย์ และเทคโนโลยี Google เพิ่มประเภทความสัมพันธ์ที่ละเอียดขึ้น เช่น:
- ด้านกฎหมาย: “ความรับผิดในระหว่างการเจรจาสัญญา” → “การละเมิดหลักสุจริต” (ความสัมพันธ์เชิงเหตุและผล); “มาตรา 10 แห่งประมวลกฎหมายแพ่ง” → “ผลทางกฎหมายของการสมรส” (ความสัมพันธ์ด้านขอบเขตการใช้บังคับ)
- ด้านการแพทย์: “กล้ามเนื้อหัวใจตาย” → “การอุดตันของหลอดเลือดหัวใจ” (ความสัมพันธ์ด้านสาเหตุ); “แอสไพริน” → “ยับยั้งการเกาะกลุ่มของเกล็ดเลือด” (ความสัมพันธ์ด้านฤทธิ์ทางยา)
- ด้านเทคโนโลยี: “Python” → “บทเรียนเว็บสแครปปิง” (ความสัมพันธ์ด้านขอบเขตการใช้งาน); “สถาปัตยกรรม ARM” → “ใช้พลังงานต่ำ” (ความสัมพันธ์ด้านคุณลักษณะทางเทคนิค)
จากการขุดหาความสัมพันธ์ผู้สมัครสู่การตรวจสอบแบบองค์รวม: “5 ขั้นตอน”
ต่อไปนี้ใช้ประโยค “เมื่อเลือกรองเท้าวิ่ง พื้นกลางซับแรงกระแทกเป็นสิ่งสำคัญ เพราะช่วยลดแรงกดที่หัวเข่า” เป็นตัวอย่างเพื่ออธิบายกระบวนการ:
ขั้นตอนที่ 1: การขุดหาความสัมพันธ์ผู้สมัคร — หา “เมล็ดพันธุ์ความสัมพันธ์” ที่เป็นไปได้
โมเดลจะสแกนข้อความก่อน โดยใช้คลังกฎ เช่น รูปแบบ “X เป็นกุญแจของ Y” ซึ่งอาจบ่งชี้ความสัมพันธ์ด้านการใช้งาน ร่วมกับความน่าจะเป็นเชิงสถิติ เช่น ความถี่ร่วมของ “พื้นกลางซับแรงกระแทก” กับ “รองเท้าวิ่ง” ที่สูงถึง 90% แล้วจึงทำเครื่องหมายความสัมพันธ์ผู้สมัคร
- ผู้สมัคร 1: “รองเท้าวิ่ง” กับ “พื้นกลางซับแรงกระแทก” (อาจเป็นความสัมพันธ์ด้านคุณลักษณะ)
- ผู้สมัคร 2: “พื้นกลางซับแรงกระแทก” กับ “ลดแรงกดที่หัวเข่า” (อาจเป็นความสัมพันธ์ด้านการใช้งาน)
ขั้นตอนที่ 2: การจัดประเภทความสัมพันธ์ — “ติดฉลาก” ให้ผู้สมัคร
โมเดลใช้ “หัวจำแนกความสัมพันธ์” ของโมเดลพรีเทรนเพื่อทำนายประเภทของความสัมพันธ์แต่ละคู่:
- “รองเท้าวิ่ง” กับ “พื้นกลางซับแรงกระแทก” → ความสัมพันธ์ด้านคุณลักษณะ (พื้นกลางซับแรงกระแทกเป็นคุณลักษณะของรองเท้าวิ่ง)
- “พื้นกลางซับแรงกระแทก” กับ “ลดแรงกดที่หัวเข่า” → ความสัมพันธ์ด้านการใช้งาน (พื้นกลางซับแรงกระแทกใช้เพื่อลดแรงกดที่หัวเข่า)
ขั้นตอนที่ 3: การกำหนดขอบเขต — แก้ไข “ขอบเขตการทำงาน” ของความสัมพันธ์
ความสัมพันธ์ผู้สมัครบางชุดอาจมีขอบเขตผิด เช่น “พื้นกลางซับแรงกระแทก” อาจถูกตีความผิดว่าเป็น “ส่วนประกอบ” ของรองเท้าวิ่ง ไม่ใช่ “คุณลักษณะ” โมเดลจึงใช้เวกเตอร์บริบทเพื่อตรวจสอบและแก้ไข:
- “พื้นกลางซับแรงกระแทก” อธิบาย “วัสดุ/โครงสร้าง” ของรองเท้าวิ่ง จึงควรจัดเป็นคุณลักษณะ ไม่ใช่ส่วนประกอบอย่าง “พื้นรองเท้า” หรือ “อัปเปอร์”
ขั้นตอนที่ 4: การตรวจสอบแบบองค์รวม — แก้ข้อผิดพลาดโดยดูทั้งข้อความ
โมเดลจะสร้าง “เวกเตอร์ความหมายรวม” ของทั้งย่อหน้า (ซึ่งแทนหัวข้อหลัก เช่น “คู่มือเลือกรองเท้าวิ่ง”) แล้วตรวจว่าความสัมพันธ์ย่อยขัดกับธีมรวมหรือไม่ ตัวอย่างเช่น:
- หากธีมของข้อความคือ “การเลือกรองเท้าวิ่ง” ความสัมพันธ์ด้านการใช้งานระหว่าง “พื้นกลางซับแรงกระแทก” กับ “ลดแรงกดที่หัวเข่า” ก็สอดคล้องกับธีม
- แต่หากธีมของข้อความคือ “การป้องกันการบาดเจ็บจากกีฬา” ก็อาจต้องประเมินใหม่ว่าความสัมพันธ์นี้เกี่ยวข้องกับ “การป้องกันการบาดเจ็บ” อย่างไร
ขั้นตอนที่ 5: การตรวจสอบด้วย Knowledge Graph — ใช้ความรู้เชิงโครงสร้างเป็น “ตัวกันพลาด”
โมเดลจะเรียกใช้ Knowledge Graph เพื่อตรวจสอบว่าความสัมพันธ์นั้นสมเหตุสมผลหรือไม่:
- ใน Knowledge Graph คุณลักษณะของ “รองเท้าวิ่ง” มีทั้ง “พื้นกลางซับแรงกระแทก” “น้ำหนัก” และ “วัสดุพื้นรองเท้า” จึงยืนยันได้ว่า “พื้นกลางซับแรงกระแทก” เป็นคุณลักษณะที่ถูกต้องของรองเท้าวิ่ง
- ใน Knowledge Graph ฟังก์ชันของ “พื้นกลางซับแรงกระแทก” มีทั้ง “ลดแรงกดที่หัวเข่า” และ “เพิ่มความสบาย” จึงยืนยันได้ว่า “ลดแรงกดที่หัวเข่า” เป็นการใช้งานที่ถูกต้อง
Google รับประกันความแม่นยำของการเชื่อมโยงความหมายอย่างไร
| มิติการทดสอบ | ความแม่นยำเริ่มต้น (ปี 2020) | ความแม่นยำหลังปรับปรุง (ปี 2024) | วิธีการปรับปรุง |
|---|---|---|---|
| ความสัมพันธ์ทั่วไป (ลำดับชั้น/คุณลักษณะ) | 78% | 88% | เพิ่มข้อมูลติดป้ายกำกับ 2 ล้านรายการ และปรับพารามิเตอร์การ fine-tune ของ BERT |
| ความสัมพันธ์ซับซ้อน (เหตุและผล/การใช้งาน) | 65% | 82% | นำเทคนิค “การให้เหตุผลแบบลูกโซ่” มาใช้ (เชื่อมเอนทิตีที่ห่างกันผ่านโหนดกลาง) |
| โดเมนเฉพาะทาง (การแพทย์) | 60% | 79% | ฝึกโมเดลเฉพาะสาขา (ใช้ข้อความการแพทย์ติดป้ายกำกับมากกว่า 50,000 รายการ) |
| ความสัมพันธ์เกิดใหม่ (เช่น “โมเดล AI ขนาดใหญ่ → หลายโมดัล”) | 52% | 75% | ใช้ความสามารถทำนายบริบทของโมเดลพรีเทรนเพื่อรู้จำความสัมพันธ์ใหม่แบบไดนามิก |
ใช้ทั้งข้อความเพื่อแก้ความเอนเอียงของความหมายคำ
เมื่อผู้ใช้ค้นหา “บทเรียน Python” Google ต้องตัดสินว่า “Python” ในหน้าเว็บหมายถึงภาษาการเขียนโปรแกรม (62%) หรือสัตว์เลื้อยคลาน (18%)
และเมื่อผู้ใช้ค้นหา “งานเปิดตัวของ Apple” ระบบต้องยืนยันว่า “Apple” หมายถึงบริษัทเทคโนโลยี (95%) ไม่ใช่ผลไม้ (5%)
ความสามารถในการ “แก้ความเอนเอียงของความหมายคำจากทั้งข้อความ” นี้เรียกว่า การแยกความหมายตามบริบท (Contextual Disambiguation)
ความสนใจสองทิศทางและความหมายรวมของทั้งหน้า
1. การจับความหมายแบบ “มองทั้งก่อนและหลัง” พร้อมกัน
กลไกความสนใจแบบสองทิศทาง (แกนหลักของ BERT) ช่วยให้โมเดลวิเคราะห์ทั้งส่วนต้นและส่วนท้ายของประโยคพร้อมกัน เพื่อจับความสัมพันธ์แบบ “เหตุและผล” ระหว่างคำ
ตัวอย่างเช่น เมื่อประมวลผลประโยค “แอปเปิลของเสี่ยวหมิงสุกแล้ว” โมเดลจะให้ความสนใจกับ “เสี่ยวหมิง” และ “สุกแล้ว” ก่อน แล้วสรุปเบื้องต้นว่า “แอปเปิล” น่าจะเป็นผลไม้
แต่เมื่อประมวลผลประโยคถัดไปว่า “เขาตั้งใจจะใช้ Apple เปิดตัวระบบใหม่” โมเดลจะย้อนกลับไปดูบริบทก่อนหน้า พบว่า “เปิดตัวระบบใหม่” ไม่เกี่ยวกับผลไม้ จึงแก้ความหมายของ “Apple” ให้เป็น “บริษัทเทคโนโลยี”
รายละเอียดทางเทคนิค:
ความสนใจแบบสองทิศทางทำงานผ่านเมทริกซ์ “Query-Key-Value”
- Query: เวกเตอร์ความหมายของคำปัจจุบัน
- Key: เวกเตอร์ความหมายของคำอื่น ๆ
- Value: เวกเตอร์ความหมายของคำอื่น ๆ หลังถ่วงน้ำหนักด้วย attention
โมเดลจะคำนวณความคล้ายคลึงระหว่าง “Query” และ “Key” เพื่อกำหนด “ค่าน้ำหนักความสนใจ” ให้แต่ละคำ ยิ่งค่าน้ำหนักสูง แสดงว่าคำนั้นมีอิทธิพลต่อความหมายของคำปัจจุบันมาก
ตัวอย่างเช่น “เปิดตัวระบบใหม่” มีค่าน้ำหนัก attention กับ “Apple” สูงถึง 0.8 (เต็ม 1) ซึ่งมากกว่า “สุกแล้ว” ที่มีเพียง 0.2 ดังนั้นโมเดลจึงอ้างอิง “เปิดตัวระบบใหม่” ก่อนเพื่อแก้ความหมายของ “Apple”
2. “จุดยึดหัวข้อ” ของทั้งหน้า
นอกเหนือจากบริบทของประโยคย่อย Google ยังสร้าง “เวกเตอร์ความหมายรวม” (Global Semantic Vector) ให้กับทั้งหน้าเว็บ เพื่อแทนหัวข้อหลักของหน้า เช่น “รีวิวสินค้าเทคโนโลยี” หรือ “สูตรลดน้ำหนัก”
เมื่อความหมายของคำในระดับท้องถิ่นขัดกับธีมรวม โมเดลจะปรับให้ความหมายนั้นสอดคล้องกับธีมหลักก่อน
ตัวอย่างเช่น ในหน้าเว็บหัวข้อ “การทดสอบกันน้ำของ iPhone 15 รุ่นปี 2025”:
- ในประโยค “iPhone 15 ที่ Apple เพิ่งเปิดตัวรองรับการสื่อสารผ่านดาวเทียม” ความหมายตั้งต้นของ “Apple” อาจถูกมองเป็น “ผลไม้”
- แต่เวกเตอร์ความหมายรวมของทั้งหน้าระบุว่าหัวข้อคือ “รีวิวโทรศัพท์มือถือ” โมเดลจึงแก้ “Apple” ให้เป็น “บริษัทเทคโนโลยี”
จากความกำกวมเฉพาะจุดสู่ความสอดคล้องทั้งหน้า: “4 ขั้นตอน”
ต่อไปนี้ใช้เนื้อหาหน้าเว็บ “iPhone 15 ที่ Apple เพิ่งเปิดตัวรองรับการสื่อสารผ่านดาวเทียม ซึ่งเป็นข่าวดีสำหรับผู้ที่ชื่นชอบกิจกรรมกลางแจ้ง” เป็นตัวอย่างเพื่ออธิบายกระบวนการ:
ขั้นตอนที่ 1: ตรวจจับความกำกวมเฉพาะจุด — ทำเครื่องหมายคำที่ “น่าสงสัย”
โมเดลจะสแกนข้อความเต็มก่อนเพื่อหา词ที่อาจมีความกำกวม เช่น คำหลายความหมายหรือคำสรรพนาม ในตัวอย่างนี้ “Apple” เป็นคำหลายความหมาย (ผลไม้/บริษัทเทคโนโลยี) และ “มัน” เป็นคำสรรพนามที่ต้องระบุว่าอ้างถึงอะไร
ขั้นตอนที่ 2: วิเคราะห์บริบทเฉพาะจุด — ดึง “ความหมายผู้สมัคร”
สำหรับแต่ละคำที่ “น่าสงสัย” โมเดลจะวิเคราะห์บริบทใกล้เคียง (1-3 ประโยคก่อนหลัง) เพื่อสร้างความหมายที่เป็นไปได้:
- ความหมายผู้สมัครของ “Apple”:
- ผู้สมัคร 1: ผลไม้ (อิงจากการจับคู่ที่พบบ่อยกับคำอย่าง “สุกแล้ว” หรือ “กิน”)
- ผู้สมัคร 2: บริษัทเทคโนโลยี (อิงจากการจับคู่ที่พบบ่อยกับคำอย่าง “เปิดตัว iPhone 15” และ “การสื่อสารผ่านดาวเทียม”)
- ความหมายผู้สมัครของ “มัน”:
- ผู้สมัคร 1: iPhone 15 (อ้างถึง “iPhone 15” ในประโยคก่อนหน้า)
- ผู้สมัคร 2: การสื่อสารผ่านดาวเทียม (อ้างถึง “ฟังก์ชันการสื่อสารผ่านดาวเทียม” ในประโยคก่อนหน้า)
ขั้นตอนที่ 3: ตรวจสอบด้วยความหมายรวม — จับคู่กับหัวข้อของหน้า
โมเดลจะสร้าง “เวกเตอร์ความหมายรวม” ของทั้งหน้า (เข้ารหัสข้อความเต็มด้วย BERT) แล้วคำนวณความคล้ายคลึงกับเวกเตอร์ของความหมายผู้สมัคร เพื่อเลือกความหมายที่สอดคล้องกับธีมรวมมากที่สุด:
- ทั้งหัวข้อและเนื้อหามีคำอย่าง “iPhone 15” “การสื่อสารผ่านดาวเทียม” และ “ผู้ชื่นชอบกิจกรรมกลางแจ้ง” ซ้ำหลายครั้ง ทำให้เวกเตอร์รวมของทั้งหน้าชี้ไปที่ “รีวิวสินค้าเทคโนโลยี”
- ในบรรดาความหมายผู้สมัครของ “Apple” ตัวเลือก “บริษัทเทคโนโลยี” มีความคล้ายคลึงกับธีมรวมสูงกว่าอย่างมาก (cosine similarity 0.85) เมื่อเทียบกับ “ผลไม้” (0.12) จึงถูกเลือกก่อน
- ในบรรดาความหมายผู้สมัครของ “มัน” ตัวเลือก “iPhone 15” มีความคล้ายคลึงกับธีมรวม (0.9) สูงกว่า “การสื่อสารผ่านดาวเทียม” (0.6) จึงถูกแก้ให้หมายถึง “iPhone 15”
ขั้นตอนที่ 4: การแก้ความขัดแย้ง — จัดการความไม่สอดคล้องของข้อมูลหลายแหล่ง
หากบริบทเฉพาะจุดขัดกับธีมรวม เช่น ในบางประโยค “Apple” หมายถึงผลไม้ แต่ธีมทั้งหน้าคือเทคโนโลยี โมเดลจะวิเคราะห์สาเหตุของความขัดแย้งต่อ:
- หากเป็น “การพิมพ์ผิด” เช่น ควรเป็น “สตรอว์เบอร์รี” แทน “Apple” โมเดลจะคงความหมายตามธีมรวม
- หากเป็น “หลายความหมายอยู่ร่วมกัน” เช่น หน้าเว็บหนึ่งกล่าวถึงทั้งผลไม้แอปเปิลและบริษัท Apple โมเดลจะสร้าง “ชั้นความหมาย” และให้ความสำคัญกับความหมายที่เกี่ยวข้องกับคำค้นหาของผู้ใช้ก่อน
Google รับประกันความแม่นยำของการแก้ไขด้วยบริบทอย่างไร
| มิติการทดสอบ | ความแม่นยำเริ่มต้น (ปี 2020) | ความแม่นยำหลังปรับปรุง (ปี 2024) | วิธีการปรับปรุง |
|---|---|---|---|
| คำค้นหาหลายความหมาย (Python) | 58% | 82% | นำกลไก attention แบบสองทิศทางของ BERT มาใช้ และเพิ่มข้อมูลกำกับหลายความหมาย 1 ล้านรายการ |
| การแก้คำสรรพนามอ้างอิง (“มัน”) | 65% | 89% | ฝึก “โมเดลแก้การอ้างอิง” จากประโยคที่มีการอ้างอิงติดป้ายกำกับมากกว่า 100,000 รายการ |
| ข้อความยาว (>5000 คำ) | 52% | 78% | นำ “เวกเตอร์รวมแบบแบ่งส่วน” มาใช้ (สร้างเวกเตอร์รวมย่อยทุก 500 คำ) |
| การแก้ไขข้ามภาษา (อังกฤษ → จีน) | 48% | 75% | ผสานโมเดล BERT หลายภาษา และเพิ่มข้อมูลการจัดแนวข้ามภาษามากกว่า 500,000 รายการ |
NLP ตัดสินได้อย่างไรว่าผู้ใช้อยากได้อะไร
เทคโนโลยี NLP ของ Google วิเคราะห์ “ประเภทเจตนา” ของคำค้นหา (ข้อมูล / นำทาง / ธุรกรรม) “การขยายความหมาย” (ความต้องการแฝง) และ “การปรับตามบริบท” (เวลา / สถานที่ / อุปกรณ์) เพื่อระบุความต้องการที่แท้จริงของผู้ใช้
Google ประมวลผลการค้นหามากกว่า 8.5 พันล้านครั้งต่อวัน (ข้อมูลปี 2024) โดย CTR ของคำค้นหาเชิงข้อมูลเพิ่มจาก 12% เป็น 28% หลังนำ NLP มาใช้ และความแม่นยำของคำค้นหาหลายความหมายเพิ่มจาก 58% เป็น 82% หลังปรับปรุงด้วยโมเดล BERT
ประเภทของเจตนา
1. ความต้องการเชิงข้อมูล: ผู้ใช้ต้องการ “เรียนรู้”
คำบ่งชี้: “ทำอย่างไร” “หลักการ” “สาเหตุ” “บทเรียน” เป็นต้น
ตัวอย่าง: หากผู้ใช้ค้นหา “วิธีชงกาแฟดริป” หรือ “สาเหตุของกล้ามเนื้อหัวใจตาย” NLP จะจับคู่กับหน้าประเภทคู่มือหรือความรู้ทั่วไป
ข้อมูลสนับสนุน: การทดสอบภายในของ Google ปี 2023 แสดงว่าสัดส่วนผลลัพธ์ที่มีประสิทธิภาพในหน้าจอแรกสำหรับคำค้นหาเชิงข้อมูลเพิ่มจาก 38% เป็น 72% ผ่านการรู้จำคำอย่าง “ทำอย่างไร” เป็นต้น
2. ความต้องการเชิงนำทาง: ผู้ใช้ต้องการ “เข้าเว็บไซต์เฉพาะ”
คำบ่งชี้: “เว็บไซต์ทางการ” “official” “เข้าสู่ระบบ” “สมัครสมาชิก” เป็นต้น
ตัวอย่าง: หากผู้ใช้ค้นหา “เว็บไซต์ทางการของ Taobao” หรือ “เข้าสู่ระบบ Apple ID” NLP จะชี้ไปยังเว็บไซต์ทางการโดยตรง แทนที่จะเป็นเว็บไซต์ภายนอก
ข้อมูลสนับสนุน: งานวิจัยของ Microsoft ปี 2024 แสดงว่าความน่าจะเป็นที่ผู้ใช้จะคลิกเว็บไซต์เป้าหมายในคำค้นหาเชิงนำทางเพิ่มจาก 45% เป็น 89% เมื่อ NLP รู้จำคำอย่าง “เว็บไซต์ทางการ” ได้อย่างแม่นยำ
3. ความต้องการเชิงธุรกรรม: ผู้ใช้ต้องการ “ซื้อสินค้า/บริการ”
คำบ่งชี้: “แนะนำ” “ราคาประหยัด” “ส่วนลด” “ซื้อ” เป็นต้น
ตัวอย่าง: หากผู้ใช้ค้นหา “แนะนำคีย์บอร์ดแมคคานิคอลราคาประหยัด” หรือ “ปั๊มน้ำมันใกล้ฉัน” NLP จะให้ความสำคัญกับหน้าอีคอมเมิร์ซหรือร้านค้าในท้องถิ่นก่อน
ข้อมูลสนับสนุน: การสำรวจของ eMarketer ปี 2024 พบว่าอัตราการแปลงของคำค้นหาเชิงธุรกรรมเพิ่มจาก 3.2% เป็น 5.8% เมื่อ NLP ครอบคลุมความต้องการแฝงอย่าง “แนะนำ” หรือ “ส่วนลด”
ตารางเปรียบเทียบประเภทเจตนา:
| ประเภท | ตัวอย่างคำบ่งชี้ | เป้าหมายของผู้ใช้ | กลยุทธ์การจับคู่ของ NLP |
|---|---|---|---|
| เชิงข้อมูล | ทำอย่างไร หลักการ บทเรียน | รับความรู้ | จับคู่กับหน้าคู่มือ/ความรู้ทั่วไป |
| เชิงนำทาง | เว็บไซต์ทางการ official เข้าสู่ระบบ | เข้าเว็บไซต์เฉพาะ | ชี้ไปยังเว็บไซต์ทางการโดยตรง |
| เชิงธุรกรรม | แนะนำ ราคาประหยัด ส่วนลด ซื้อ | ซื้อสินค้า/บริการ | แสดงหน้าอีคอมเมิร์ซ/ร้านค้าใกล้เคียงก่อน |
การขยายความหมาย
คำค้นหาของผู้ใช้มักแสดงเพียง 10%-20% ของความต้องการหลัก ส่วนที่เหลือ 80%-90% เป็นความต้องการแฝง เช่น “ราคา” “ความยาก” หรือ “สถานการณ์ที่เหมาะสม”
NLP ใช้ เทคโนโลยีขยายความหมาย (Semantic Expansion) เพื่อขยายจากคำหลักไปสู่ความต้องการที่เกี่ยวข้อง และครอบคลุมเจตนาที่ผู้ใช้ไม่ได้เอ่ยถึงโดยตรง
วิธีขยายแบบที่ 1: ขยายด้วยคำที่เกี่ยวข้อง
NLP ใช้ “Word Embedding” เชื่อมโยงคำหลักกับคำที่มีความหมายใกล้เคียง เช่น:
- คำหลัก “สูตรลดน้ำหนัก” → คำที่เกี่ยวข้อง “แคลต่ำ” “ทำง่าย” “เหมาะกับคนทำงาน” “ไร้น้ำตาล”
- คำหลัก “วันฝนตกควรใส่อะไร” → คำที่เกี่ยวข้อง “กันน้ำ” “กันลื่น” “เบา” “อบอุ่น”
ข้อมูลสนับสนุน: การทดสอบ A/B ของ Google ปี 2022 พบว่า ผลการค้นหาที่ครอบคลุมความต้องการแฝงทำให้เวลาที่ผู้ใช้อยู่บนหน้าเพิ่มจาก 45 วินาทีเป็น 78 วินาที (เพิ่มขึ้น 73%)
วิธีขยายแบบที่ 2: ขยายตามบริบทสถานการณ์
NLP ผสานเวลา สถานที่ และอุปกรณ์ในการค้นหา เพื่อปรับความต้องการให้ละเอียดขึ้น เช่น:
- บริบทเวลา: ค้นหา “เสื้อคลุม” ในฤดูหนาว → ขยายเป็น “บุขน” “ให้ความอบอุ่น”; ค้นหาในฤดูร้อน → ขยายเป็น “กันแดด” “บางเบา”
- บริบทสถานที่: ค้นหา “หม้อไฟ” ในเซี่ยงไฮ้ → ขยายเป็น “ร้านดังท้องถิ่น”; ค้นหาในเฉิงตู → ขยายเป็น “เสฉวนแท้”
- บริบทอุปกรณ์: ค้นหา “ปั๊มน้ำมันใกล้ฉัน” บนมือถือ → ขยายเป็น “ราคาน้ำมันเรียลไทม์” “ใกล้ที่สุด”; ค้นหาบนคอมพิวเตอร์ → ขยายเป็น “รีวิวผู้ใช้” “โปรโมชั่น”
ข้อมูลสนับสนุน: งานวิจัยหลายสถานการณ์ของ Microsoft ปี 2024 แสดงว่าหลังจากขยายตามบริบท เวลาที่ผู้ใช้ใช้เพื่อทำภารกิจให้เสร็จลดลง 42% (บนมือถือจาก 90 วินาทีเหลือ 52 วินาที)
NLP “อ่านเข้าใจ” ความต้องการของผู้ใช้อย่างไร
1. ความเข้าใจภาษาธรรมชาติ (NLU)
NLU เป็นรากฐานของ NLP โดยใช้การตัดคำ การรู้จำเอนทิตี และการเชื่อมโยงความหมายร่วมกันเพื่อ “แยกวิเคราะห์” คำค้นหาของผู้ใช้ ตัวอย่างเช่น:
- ผู้ใช้ค้นหา “การทดสอบกันน้ำของ iPhone 15 รุ่นปี 2025” → ตัดคำเป็น “รุ่นปี 2025 / iPhone 15 / การทดสอบกันน้ำ”
- รู้จำเอนทิตีเป็น “TIME (ปี 2025)” “PRODUCT (iPhone 15)” “EVENT (การทดสอบกันน้ำ)”
- เชื่อมโยงเชิงความหมายเป็น “การทดสอบสมรรถนะกันน้ำของ iPhone 15 ในปี 2025”
ข้อมูลสนับสนุน: บล็อกเทคนิคของ Google ปี 2023 ระบุว่า NLU มีความแม่นยำ 92% ในการแยกวิเคราะห์คำค้นหาที่ซับซ้อนในโดเมนทั่วไป
2. โมเดล Deep Learning (เช่น BERT)
โมเดลพรีเทรนอย่าง BERT เรียนรู้ “ความหมายตามบริบท” จากข้อความระดับล้านล้านคำ และช่วยแก้ปัญหาความกำกวม ตัวอย่างเช่น:
- ผู้ใช้ค้นหา “Python” → BERT วิเคราะห์บริบท เช่น “ฟังก์ชัน print()” และ “บทเรียนเว็บสแครปปิง” → ตัดสินว่าเป็นภาษาการเขียนโปรแกรม
- ผู้ใช้ค้นหา “Java” → BERT ใช้คำที่เกี่ยวข้องอย่าง “กาแฟ” และ “โปรแกรม” → ตัดสินว่าเป็นภาษาการเขียนโปรแกรม (62%) หรือเกาะ (18%)
ข้อมูลสนับสนุน: การทดสอบภายในของ Google ปี 2024 ระบุว่า BERT ทำให้ความแม่นยำของคำค้นหาหลายความหมายเพิ่มจาก 58% เป็น 82%
3. การรวมข้อมูลบริบทแบบเรียลไทม์
NLP รวมข้อมูลแบบเรียลไทม์ เช่น เวลาในอุปกรณ์ ตำแหน่งทางภูมิศาสตร์ และประวัติการค้นหา เพื่อปรับการตัดสินความต้องการอย่างไดนามิก ตัวอย่างเช่น:
- ผู้ใช้ค้นหา “ปั๊มน้ำมันใกล้ฉัน” บนมือถือ → NLP ดึงตำแหน่ง GPS → แสดงปั๊มน้ำมันในรัศมี 3 กิโลเมตรก่อน
- ผู้ใช้ค้นหา “ตั๋วหนัง” ในวันหยุดสุดสัปดาห์ → NLP ใช้บริบทเวลา (สุดสัปดาห์) → แนะนำรอบฉายของโรงหนังยอดนิยม
ข้อมูลสนับสนุน: การสำรวจของ Pew Research ปี 2024 พบว่าหลังจากรวมข้อมูลบริบทแบบเรียลไทม์ ความพึงพอใจของผู้ใช้ต่อผลการค้นหาเพิ่มจาก 68% เป็น 85%
ผลลัพธ์จริง
ต่อไปนี้คือข้อมูลพฤติกรรมผู้ใช้จาก 3 สถานการณ์ตัวอย่าง:
| ประเภทสถานการณ์ | การค้นหาแบบดั้งเดิม (ไม่มี NLP) | การค้นหาที่ปรับปรุงด้วย NLP | ผลลัพธ์ที่ดีขึ้น | แหล่งข้อมูล |
|---|---|---|---|---|
| คำค้นหาเชิงข้อมูล (วิธีทำเค้ก) | หน้าจอแรกปะปนด้วยโฆษณาและคู่มือที่ไม่เกี่ยวข้อง | หน้าจอแรกแสดงคู่มือที่มีขั้นตอนชัดเจนโดยตรง | เวลาที่อยู่บนหน้าเพิ่มจาก 45 วินาที → 78 วินาที (+73%) | การทดสอบ A/B ของ Google ปี 2022 |
| คำค้นหาเชิงนำทาง (เว็บไซต์ทางการ Taobao) | หน้าจอแรกมีแพลตฟอร์มช็อปปิงของบุคคลที่สาม | หน้าจอแรกแสดงเฉพาะเว็บไซต์ทางการของ Taobao | โอกาสคลิกเว็บไซต์เป้าหมายเพิ่มจาก 45% → 89% | งานวิจัยของ Microsoft ปี 2024 |
| คำค้นหาเชิงธุรกรรม (คีย์บอร์ดแมคคานิคอลราคาประหยัด) | หน้าจอแรกปะปนด้วยสินค้าราคาแพง | หน้าจอแรกให้ความสำคัญกับรุ่นที่คุ้มค่า | อัตราการแปลงเพิ่มจาก 3.2% → 5.8% (+81%) | การสำรวจของ eMarketer ปี 2024 |
สุดท้ายนี้ ฉันอยากบอกว่า แก่นสำคัญของการที่ NLP ใช้ตัดสินความต้องการของผู้ใช้ คือการเปลี่ยน “คำที่ผู้ใช้พิมพ์” ให้กลายเป็น “เจตนาที่แท้จริงของผู้ใช้”



