นักวิจัยของ Apple ได้เปิดเผยผลิตภัณฑ์ใหม่ของพวกเขาที่เรียกว่า ReALM AI ที่พวกเขาอ้างว่าสามารถเข้าใจสิ่งที่อยู่บนหน้าจอของผู้ใช้และตอบสนองต่อคำขอตามนั้น
นักวิจัยระบุว่าแบบจำลองดังกล่าวยังฉลาดกว่า GPT-4 ในงานต่างๆ แม้ว่าจะมีพารามิเตอร์น้อยกว่าก็ตาม ซึ่งเกิดขึ้นก่อนการเปิดตัว iOS 18 อย่างเป็นทางการที่ WWDC 2024 ในเดือนมิถุนายน โดยคาดว่าจะมีแรงผลักดันครั้งใหญ่อยู่เบื้องหลัง สิริ 2.0 ใหม่ อย่างไรก็ตาม ยังไม่ชัดเจนว่า Apple จะรวม ReALM ใหม่เข้ากับ Siri ให้ทันงาน WWDC 2024 หรือไม่
อ่านเพิ่มเติม: Nicki Minaj, Kate Perry และศิลปินอีก 200 คนตำหนินักพัฒนา AI สำหรับเพลง 'Devaluing'
ทำความเข้าใจบนหน้าจอ
Apple กำลังตามทันเวที AI และประกาศเกี่ยวกับ AI ขณะนี้ นักวิจัยจากผู้ผลิต iPhone ได้สร้างความก้าวหน้าในการเปิดตัวโมเดล AI ใหม่ – ReALM ซึ่งสามารถ “เข้าใจสิ่งที่อยู่บนหน้าจอของคุณ”
สิ่งนี้เกิดขึ้นเพียงไม่ถึงหนึ่งเดือนหลังจากการเข้าซื้อกิจการสตาร์ทอัพด้าน AI ดาร์วินเอไอ. ตามที่นักวิจัยระบุว่า โมเดลนี้จะแปลงข้อมูลจากหน้าจอของผู้ใช้เป็นข้อความ ซึ่งช่วยให้สามารถทำงานได้บนอุปกรณ์ "โดยไม่ต้องมีการจดจำภาพขนาดใหญ่"
รุ่นดังที่กล่าวไว้ใน เอกสารการวิจัย มีประสิทธิภาพเหนือกว่า GPT-4 อย่างมากแม้ว่าจะมีพารามิเตอร์น้อยกว่า แต่ก็พิจารณาสิ่งที่อยู่บนหน้าจอรวมถึงงานที่กำลังทำงานอยู่เบื้องหลัง
ตัวอย่างเช่น เมื่อผู้ใช้เรียกดูหน้าเว็บและพบธุรกิจที่ต้องการโทรหา พวกเขาสามารถขอให้ Siri "โทรหาธุรกิจนี้" ได้ ตอนนี้เมื่อใช้ ReALM โมเดลจะทำให้ Siri สามารถ "ดู" รายละเอียดการติดต่อและ "เริ่มต้นการโทรได้โดยตรง"
สิ่งนี้แสดงให้เห็นว่าโมเดลเข้าใจบริบทของหน้าจอที่ช่วยปรับปรุงประสบการณ์ผู้ใช้ได้อย่างไร
ตาม MSPowerUser รายงานการรวมโมเดลใหม่เข้ากับการอัปเดต Siri ในอนาคตจะช่วยให้ Apple สร้างประสบการณ์ผู้ใช้แบบแฮนด์ฟรีที่ราบรื่นยิ่งขึ้น สิ่งนี้คาดว่าจะทำให้ Siri สามารถสนทนาได้มากขึ้น แต่ไม่ต้องปรับใช้โมเดลภาษาขนาดใหญ่เช่นราศีเมถุน
รายงานระบุเพิ่มเติมว่า ผู้ผลิต iPhone ยังทำงานกับ MM1 ซึ่งสามารถลดความจำเป็นในการแจ้งหลายครั้งเพื่อให้ได้ผลลัพธ์ที่ต้องการ และเครื่องมือจัดการรูปภาพ AI
ข่าว AI: นักวิจัยของ Apple เพิ่งเปิดเผยโมเดล AI ใหม่ที่สามารถ 'มองเห็น' และเข้าใจบริบทของหน้าจอได้
นอกจากนี้ ยังมีการพัฒนาเพิ่มเติมจากตัวแทน AI แบบโอเพ่นซอร์สที่เรียกว่า SWE-agent, Anthropic, Apple Vision Pro และ Baidu
นี่คือทุกสิ่งที่เกิดขึ้นใน AI ตอนนี้:
— โรวัน เฉิง (@rowancheung) April 3, 2024
การแข่งขันที่เหนือกว่า
ตามรายงานการวิจัย ReALM เหนือกว่าคู่แข่งและรุ่นก่อนหน้าในชุดข้อมูลต่างๆ ซึ่งรวมถึงชุดข้อมูลการสนทนาสังเคราะห์ การสนทนา และที่มองไม่เห็น
บทความวิจัยยังเน้นย้ำเป็นพิเศษว่า ReALM ทำงานอย่างสมบูรณ์กับข้อมูลบนหน้าจอ GPT-4 ของ OpenAI ได้อย่างไร ในระหว่างการฝึก ReALM อาศัยการเข้ารหัสข้อความเพียงอย่างเดียว ในขณะที่ GPT-4 สามารถเข้าถึงภาพหน้าจอได้
ทั้ง GPT-4 และ ReALM แสดงผลลัพธ์ที่เหมือนกันเมื่อนักวิจัยประเมินประสิทธิภาพของพวกเขา
“อย่างไรก็ตาม ReALM มีประสิทธิภาพเหนือกว่า GPT-4 เมื่อพูดถึงการสืบค้นเฉพาะโดเมนเนื่องจากมีการปรับแต่งตามคำขอของผู้ใช้” ตาม MSPowerUser
นักวิจัยอธิบายว่า: “เราต้องการเน้นย้ำถึงการได้รับชุดข้อมูลบนหน้าจอเป็นพิเศษ และพบว่าโมเดลของเราที่มีวิธีการเข้ารหัสข้อความสามารถทำงานได้เกือบเท่ากับ GPT-4 แม้ว่ารุ่นหลังจะมีภาพหน้าจอมาให้ก็ตาม”
ตามที่นักวิจัยกล่าวว่า สิ่งนี้ทำให้ ReALM สามารถเข้าใจ “ความแตกต่างของความตั้งใจของผู้ใช้และตอบสนองตามนั้น”
อีกด้านของโมเดล
การวิจัยเน้นย้ำว่า ReALM ใช้ LLM ในการแก้ปัญหาอ้างอิงอย่างไร ตาม MSPowerUser โมเดลสามารถเข้าใจหน้าจอของผู้ใช้ตลอดจนคำขอของพวกเขาโดย "การแปลงเอนทิตีบนหน้าจอให้เป็นข้อความภาษาธรรมชาติ แม้ว่าจะยังคงมีประสิทธิภาพสำหรับแอปพลิเคชันบนอุปกรณ์ก็ตาม
อย่างไรก็ตาม แม้ว่าโมเดลจะเข้ารหัสตำแหน่งของเอนทิตีบนหน้าจอ แต่ก็อาจไม่ได้บันทึกทุกรายละเอียดจาก "คำค้นหาของผู้ใช้ที่ซับซ้อนซึ่งต้องใช้ความเข้าใจที่ซับซ้อนเกี่ยวกับความสัมพันธ์เชิงพื้นที่"
ตามที่ คู่มือของ Tomนี่ไม่ใช่การโจมตี AI ครั้งแรกของ Apple ในช่วงไม่กี่เดือนที่ผ่านมา บริษัทได้ดำเนินการผสมผสานเครื่องมือต่างๆ เพื่อเพิ่มประสิทธิภาพบนอุปกรณ์ ซึ่งแสดงให้เห็นถึงความมุ่งมั่นที่จะทำให้ AI เป็นศูนย์กลางของธุรกิจของพวกเขา
ตอนนี้ ReALM เป็นรุ่นล่าสุดจากผู้ผลิต iPhone ที่มุ่งเน้นการปรับปรุงรุ่นที่มีอยู่โดยเฉพาะ ทำให้เร็วขึ้นและมีประสิทธิภาพมากขึ้น
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
- เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
- เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
- เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
- ที่มา: https://metanews.com/apple-researchers-boast-its-realm-understands-screen-context/