เพลโต ดาต้า อินเทลลิเจนซ์
ค้นหาแนวตั้ง & Ai

Apple ภูมิใจนำเสนอ ReALM เข้าใจบริบทของหน้าจอ

วันที่:

นักวิจัยของ Apple ได้เปิดเผยผลิตภัณฑ์ใหม่ของพวกเขาที่เรียกว่า ReALM AI ที่พวกเขาอ้างว่าสามารถเข้าใจสิ่งที่อยู่บนหน้าจอของผู้ใช้และตอบสนองต่อคำขอตามนั้น

นักวิจัยระบุว่าแบบจำลองดังกล่าวยังฉลาดกว่า GPT-4 ในงานต่างๆ แม้ว่าจะมีพารามิเตอร์น้อยกว่าก็ตาม ซึ่งเกิดขึ้นก่อนการเปิดตัว iOS 18 อย่างเป็นทางการที่ WWDC 2024 ในเดือนมิถุนายน โดยคาดว่าจะมีแรงผลักดันครั้งใหญ่อยู่เบื้องหลัง สิริ 2.0 ใหม่ อย่างไรก็ตาม ยังไม่ชัดเจนว่า Apple จะรวม ReALM ใหม่เข้ากับ Siri ให้ทันงาน WWDC 2024 หรือไม่

อ่านเพิ่มเติม: Nicki Minaj, Kate Perry และศิลปินอีก 200 คนตำหนินักพัฒนา AI สำหรับเพลง 'Devaluing'

ทำความเข้าใจบนหน้าจอ

Apple กำลังตามทันเวที AI และประกาศเกี่ยวกับ AI ขณะนี้ นักวิจัยจากผู้ผลิต iPhone ได้สร้างความก้าวหน้าในการเปิดตัวโมเดล AI ใหม่ – ReALM ซึ่งสามารถ “เข้าใจสิ่งที่อยู่บนหน้าจอของคุณ”

สิ่งนี้เกิดขึ้นเพียงไม่ถึงหนึ่งเดือนหลังจากการเข้าซื้อกิจการสตาร์ทอัพด้าน AI ดาร์วินเอไอ. ตามที่นักวิจัยระบุว่า โมเดลนี้จะแปลงข้อมูลจากหน้าจอของผู้ใช้เป็นข้อความ ซึ่งช่วยให้สามารถทำงานได้บนอุปกรณ์ "โดยไม่ต้องมีการจดจำภาพขนาดใหญ่"

รุ่นดังที่กล่าวไว้ใน เอกสารการวิจัย มีประสิทธิภาพเหนือกว่า GPT-4 อย่างมากแม้ว่าจะมีพารามิเตอร์น้อยกว่า แต่ก็พิจารณาสิ่งที่อยู่บนหน้าจอรวมถึงงานที่กำลังทำงานอยู่เบื้องหลัง

ตัวอย่างเช่น เมื่อผู้ใช้เรียกดูหน้าเว็บและพบธุรกิจที่ต้องการโทรหา พวกเขาสามารถขอให้ Siri "โทรหาธุรกิจนี้" ได้ ตอนนี้เมื่อใช้ ReALM โมเดลจะทำให้ Siri สามารถ "ดู" รายละเอียดการติดต่อและ "เริ่มต้นการโทรได้โดยตรง"

สิ่งนี้แสดงให้เห็นว่าโมเดลเข้าใจบริบทของหน้าจอที่ช่วยปรับปรุงประสบการณ์ผู้ใช้ได้อย่างไร

ตาม MSPowerUser รายงานการรวมโมเดลใหม่เข้ากับการอัปเดต Siri ในอนาคตจะช่วยให้ Apple สร้างประสบการณ์ผู้ใช้แบบแฮนด์ฟรีที่ราบรื่นยิ่งขึ้น สิ่งนี้คาดว่าจะทำให้ Siri สามารถสนทนาได้มากขึ้น แต่ไม่ต้องปรับใช้โมเดลภาษาขนาดใหญ่เช่นราศีเมถุน

รายงานระบุเพิ่มเติมว่า ผู้ผลิต iPhone ยังทำงานกับ MM1 ซึ่งสามารถลดความจำเป็นในการแจ้งหลายครั้งเพื่อให้ได้ผลลัพธ์ที่ต้องการ และเครื่องมือจัดการรูปภาพ AI

การแข่งขันที่เหนือกว่า

ตามรายงานการวิจัย ReALM เหนือกว่าคู่แข่งและรุ่นก่อนหน้าในชุดข้อมูลต่างๆ ซึ่งรวมถึงชุดข้อมูลการสนทนาสังเคราะห์ การสนทนา และที่มองไม่เห็น

บทความวิจัยยังเน้นย้ำเป็นพิเศษว่า ReALM ทำงานอย่างสมบูรณ์กับข้อมูลบนหน้าจอ GPT-4 ของ OpenAI ได้อย่างไร ในระหว่างการฝึก ReALM อาศัยการเข้ารหัสข้อความเพียงอย่างเดียว ในขณะที่ GPT-4 สามารถเข้าถึงภาพหน้าจอได้

ทั้ง GPT-4 และ ReALM แสดงผลลัพธ์ที่เหมือนกันเมื่อนักวิจัยประเมินประสิทธิภาพของพวกเขา

“อย่างไรก็ตาม ReALM มีประสิทธิภาพเหนือกว่า GPT-4 เมื่อพูดถึงการสืบค้นเฉพาะโดเมนเนื่องจากมีการปรับแต่งตามคำขอของผู้ใช้” ตาม MSPowerUser

นักวิจัยอธิบายว่า: “เราต้องการเน้นย้ำถึงการได้รับชุดข้อมูลบนหน้าจอเป็นพิเศษ และพบว่าโมเดลของเราที่มีวิธีการเข้ารหัสข้อความสามารถทำงานได้เกือบเท่ากับ GPT-4 แม้ว่ารุ่นหลังจะมีภาพหน้าจอมาให้ก็ตาม”

ตามที่นักวิจัยกล่าวว่า สิ่งนี้ทำให้ ReALM สามารถเข้าใจ “ความแตกต่างของความตั้งใจของผู้ใช้และตอบสนองตามนั้น”

อีกด้านของโมเดล

การวิจัยเน้นย้ำว่า ReALM ใช้ LLM ในการแก้ปัญหาอ้างอิงอย่างไร ตาม MSPowerUser โมเดลสามารถเข้าใจหน้าจอของผู้ใช้ตลอดจนคำขอของพวกเขาโดย "การแปลงเอนทิตีบนหน้าจอให้เป็นข้อความภาษาธรรมชาติ แม้ว่าจะยังคงมีประสิทธิภาพสำหรับแอปพลิเคชันบนอุปกรณ์ก็ตาม

อย่างไรก็ตาม แม้ว่าโมเดลจะเข้ารหัสตำแหน่งของเอนทิตีบนหน้าจอ แต่ก็อาจไม่ได้บันทึกทุกรายละเอียดจาก "คำค้นหาของผู้ใช้ที่ซับซ้อนซึ่งต้องใช้ความเข้าใจที่ซับซ้อนเกี่ยวกับความสัมพันธ์เชิงพื้นที่"

ตามที่ คู่มือของ Tomนี่ไม่ใช่การโจมตี AI ครั้งแรกของ Apple ในช่วงไม่กี่เดือนที่ผ่านมา บริษัทได้ดำเนินการผสมผสานเครื่องมือต่างๆ เพื่อเพิ่มประสิทธิภาพบนอุปกรณ์ ซึ่งแสดงให้เห็นถึงความมุ่งมั่นที่จะทำให้ AI เป็นศูนย์กลางของธุรกิจของพวกเขา

ตอนนี้ ReALM เป็นรุ่นล่าสุดจากผู้ผลิต iPhone ที่มุ่งเน้นการปรับปรุงรุ่นที่มีอยู่โดยเฉพาะ ทำให้เร็วขึ้นและมีประสิทธิภาพมากขึ้น

จุด_img

ข่าวกรองล่าสุด

จุด_img

แชทกับเรา

สวัสดี! ฉันจะช่วยคุณได้อย่างไร?