Apple ภูมิใจนำเสนอ ReALM เข้าใจบริบทของหน้าจอ

นักวิจัยของ Apple ได้เปิดเผยผลิตภัณฑ์ใหม่ของพวกเขาที่เรียกว่า ReALM AI ที่พวกเขาอ้างว่าสามารถเข้าใจสิ่งที่อยู่บนหน้าจอของผู้ใช้และตอบสนองต่อคำขอตามนั้น

นักวิจัยระบุว่าแบบจำลองดังกล่าวยังฉลาดกว่า GPT-4 ในงานต่างๆ แม้ว่าจะมีพารามิเตอร์น้อยกว่าก็ตาม ซึ่งเกิดขึ้นก่อนการเปิดตัว iOS 18 อย่างเป็นทางการที่ WWDC 2024 ในเดือนมิถุนายน โดยคาดว่าจะมีแรงผลักดันครั้งใหญ่อยู่เบื้องหลัง สิริ 2.0 ใหม่ อย่างไรก็ตาม ยังไม่ชัดเจนว่า Apple จะรวม ReALM ใหม่เข้ากับ Siri ให้ทันงาน WWDC 2024 หรือไม่

อ่านเพิ่มเติม: Nicki Minaj, Kate Perry และศิลปินอีก 200 คนตำหนินักพัฒนา AI สำหรับเพลง 'Devaluing'

ทำความเข้าใจบนหน้าจอ

Apple กำลังตามทันเวที AI และประกาศเกี่ยวกับ AI ขณะนี้ นักวิจัยจากผู้ผลิต iPhone ได้สร้างความก้าวหน้าในการเปิดตัวโมเดล AI ใหม่ – ReALM ซึ่งสามารถ “เข้าใจสิ่งที่อยู่บนหน้าจอของคุณ”

สิ่งนี้เกิดขึ้นเพียงไม่ถึงหนึ่งเดือนหลังจากการเข้าซื้อกิจการสตาร์ทอัพด้าน AI ดาร์วินเอไอ. ตามที่นักวิจัยระบุว่า โมเดลนี้จะแปลงข้อมูลจากหน้าจอของผู้ใช้เป็นข้อความ ซึ่งช่วยให้สามารถทำงานได้บนอุปกรณ์ "โดยไม่ต้องมีการจดจำภาพขนาดใหญ่"

รุ่นดังที่กล่าวไว้ใน เอกสารการวิจัย มีประสิทธิภาพเหนือกว่า GPT-4 อย่างมากแม้ว่าจะมีพารามิเตอร์น้อยกว่า แต่ก็พิจารณาสิ่งที่อยู่บนหน้าจอรวมถึงงานที่กำลังทำงานอยู่เบื้องหลัง

ตัวอย่างเช่น เมื่อผู้ใช้เรียกดูหน้าเว็บและพบธุรกิจที่ต้องการโทรหา พวกเขาสามารถขอให้ Siri "โทรหาธุรกิจนี้" ได้ ตอนนี้เมื่อใช้ ReALM โมเดลจะทำให้ Siri สามารถ "ดู" รายละเอียดการติดต่อและ "เริ่มต้นการโทรได้โดยตรง"

สิ่งนี้แสดงให้เห็นว่าโมเดลเข้าใจบริบทของหน้าจอที่ช่วยปรับปรุงประสบการณ์ผู้ใช้ได้อย่างไร

ตาม MSPowerUser รายงานการรวมโมเดลใหม่เข้ากับการอัปเดต Siri ในอนาคตจะช่วยให้ Apple สร้างประสบการณ์ผู้ใช้แบบแฮนด์ฟรีที่ราบรื่นยิ่งขึ้น สิ่งนี้คาดว่าจะทำให้ Siri สามารถสนทนาได้มากขึ้น แต่ไม่ต้องปรับใช้โมเดลภาษาขนาดใหญ่เช่นราศีเมถุน

รายงานระบุเพิ่มเติมว่า ผู้ผลิต iPhone ยังทำงานกับ MM1 ซึ่งสามารถลดความจำเป็นในการแจ้งหลายครั้งเพื่อให้ได้ผลลัพธ์ที่ต้องการ และเครื่องมือจัดการรูปภาพ AI

ข่าว AI: นักวิจัยของ Apple เพิ่งเปิดเผยโมเดล AI ใหม่ที่สามารถ 'มองเห็น' และเข้าใจบริบทของหน้าจอได้

นอกจากนี้ ยังมีการพัฒนาเพิ่มเติมจากตัวแทน AI แบบโอเพ่นซอร์สที่เรียกว่า SWE-agent, Anthropic, Apple Vision Pro และ Baidu

นี่คือทุกสิ่งที่เกิดขึ้นใน AI ตอนนี้:

— โรวัน เฉิง (@rowancheung) April 3, 2024

การแข่งขันที่เหนือกว่า

ตามรายงานการวิจัย ReALM เหนือกว่าคู่แข่งและรุ่นก่อนหน้าในชุดข้อมูลต่างๆ ซึ่งรวมถึงชุดข้อมูลการสนทนาสังเคราะห์ การสนทนา และที่มองไม่เห็น

บทความวิจัยยังเน้นย้ำเป็นพิเศษว่า ReALM ทำงานอย่างสมบูรณ์กับข้อมูลบนหน้าจอ GPT-4 ของ OpenAI ได้อย่างไร ในระหว่างการฝึก ReALM อาศัยการเข้ารหัสข้อความเพียงอย่างเดียว ในขณะที่ GPT-4 สามารถเข้าถึงภาพหน้าจอได้

ทั้ง GPT-4 และ ReALM แสดงผลลัพธ์ที่เหมือนกันเมื่อนักวิจัยประเมินประสิทธิภาพของพวกเขา

“อย่างไรก็ตาม ReALM มีประสิทธิภาพเหนือกว่า GPT-4 เมื่อพูดถึงการสืบค้นเฉพาะโดเมนเนื่องจากมีการปรับแต่งตามคำขอของผู้ใช้” ตาม MSPowerUser

นักวิจัยอธิบายว่า: “เราต้องการเน้นย้ำถึงการได้รับชุดข้อมูลบนหน้าจอเป็นพิเศษ และพบว่าโมเดลของเราที่มีวิธีการเข้ารหัสข้อความสามารถทำงานได้เกือบเท่ากับ GPT-4 แม้ว่ารุ่นหลังจะมีภาพหน้าจอมาให้ก็ตาม”

ตามที่นักวิจัยกล่าวว่า สิ่งนี้ทำให้ ReALM สามารถเข้าใจ “ความแตกต่างของความตั้งใจของผู้ใช้และตอบสนองตามนั้น”

อีกด้านของโมเดล

การวิจัยเน้นย้ำว่า ReALM ใช้ LLM ในการแก้ปัญหาอ้างอิงอย่างไร ตาม MSPowerUser โมเดลสามารถเข้าใจหน้าจอของผู้ใช้ตลอดจนคำขอของพวกเขาโดย "การแปลงเอนทิตีบนหน้าจอให้เป็นข้อความภาษาธรรมชาติ แม้ว่าจะยังคงมีประสิทธิภาพสำหรับแอปพลิเคชันบนอุปกรณ์ก็ตาม

อย่างไรก็ตาม แม้ว่าโมเดลจะเข้ารหัสตำแหน่งของเอนทิตีบนหน้าจอ แต่ก็อาจไม่ได้บันทึกทุกรายละเอียดจาก "คำค้นหาของผู้ใช้ที่ซับซ้อนซึ่งต้องใช้ความเข้าใจที่ซับซ้อนเกี่ยวกับความสัมพันธ์เชิงพื้นที่"

ตามที่ คู่มือของ Tomนี่ไม่ใช่การโจมตี AI ครั้งแรกของ Apple ในช่วงไม่กี่เดือนที่ผ่านมา บริษัทได้ดำเนินการผสมผสานเครื่องมือต่างๆ เพื่อเพิ่มประสิทธิภาพบนอุปกรณ์ ซึ่งแสดงให้เห็นถึงความมุ่งมั่นที่จะทำให้ AI เป็นศูนย์กลางของธุรกิจของพวกเขา

ตอนนี้ ReALM เป็นรุ่นล่าสุดจากผู้ผลิต iPhone ที่มุ่งเน้นการปรับปรุงรุ่นที่มีอยู่โดยเฉพาะ ทำให้เร็วขึ้นและมีประสิทธิภาพมากขึ้น

เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
ที่มา: https://metanews.com/apple-researchers-boast-its-realm-understands-screen-context/

เพลโต ดาต้า อินเทลลิเจนซ์
ค้นหาแนวตั้ง & Ai

Apple ภูมิใจนำเสนอ ReALM เข้าใจบริบทของหน้าจอ

ทำความเข้าใจบนหน้าจอ

การแข่งขันที่เหนือกว่า

อีกด้านของโมเดล

Anito Legends วางจำหน่ายอย่างเป็นทางการแล้วบน Apple App Store ขยายการช่วยการเข้าถึง | BitPinas

ที่ปรึกษาธุรกิจ Creation ขยายการแสดงตนด้วยสำนักงานใหม่ในฮ่องกง

ข่าวกรองล่าสุด

ความแตกต่างในการควบคุม Cryptocurrency ในญี่ปุ่นและสหรัฐอเมริกาเน้นโดยทนายความ Pro-XRP - CryptoInfoNet

Garlinghouse ซีอีโอของ Ripple คาดการณ์ว่า SEC จะพ่ายแพ้ในระยะยาวในการต่อสู้กับ Crypto

DOJ แต่งตั้งบริษัทที่ปรึกษาสำหรับการติดตามบทบาทการแลกเปลี่ยน Crypto Binance เป็นเวลาสามปี: รายงาน – The Daily Hodl

David Schwartz สถาปนิก XRP ของ Ripple อธิบายการซื้อ ICO มูลค่า 40,000 ETH ของเขาและการสูญเสียโชคลาภ

แชทกับเรา

เพลโต ดาต้า อินเทลลิเจนซ์ค้นหาแนวตั้ง & Ai

Apple ภูมิใจนำเสนอ ReALM เข้าใจบริบทของหน้าจอ

ทำความเข้าใจบนหน้าจอ

การแข่งขันที่เหนือกว่า

อีกด้านของโมเดล

ข่าวกรองล่าสุด

แชทกับเรา

เพลโต ดาต้า อินเทลลิเจนซ์
ค้นหาแนวตั้ง & Ai