| ²é¿´: 713 | »Ø¸´: 0 | |||
BFTæäվгæ (СÓÐÃûÆø)
|
[½»Á÷]
FrankaÖúÁ¦GraspMolmoÑо¿£¬ÊµÏÖ¿É·º»¯ÈÎÎñµ¼ÏòץȡµÄ¹Ø¼üÍ»ÆÆ
|
|
Ñо¿±³¾°£º ´«Í³»úÆ÷ÈËץȡ¼¼Êõ¶àÒÀÀµÎïÌ弸ºÎÌØÕ÷£¬½ö¹Ø×¢×¥È¡Îȶ¨ÐÔ£¬È´ºöÊÓÁËÈÎÎñ¾ßÌåÐèÇó¡£ÀýÈ磬ͬһ°Ñµ¶ÔÚ¡°Çвˡ±Óë¡°°²È«´«µÝ¡±ÈÎÎñÖÐÐèÒªÍêÈ«²»Í¬µÄץȡλÖᣠÏÖÓÐÃæÏòÈÎÎñµÄץȡ£¨TOG£©·½·¨ÒòÊÜÏÞÓÚС¹æÄ£Êý¾Ý¼¯¡¢¼ò»¯ÓïÑÔÃèÊö¼°Õû½à³¡¾°¼ÙÉ裬ÄÑÒÔ·º»¯ÖÁÐÂÈÎÎñºÍδ¼û¹ýµÄÎïÌ壬µ¼ÖÂÔÚÕæÊµ¸´ÔÓ»·¾³ÖÐÁé»îÐÔ²»×ã¡£ Ϊ½â¾öÕâÒ»ÄÑÌ⣬Ñо¿ÍŶÓÒÔFranka Research 3Æß×ÔÓɶȻúе±ÛΪʵÑéÆ½Ì¨£¬Ìá³öÁËGraspMolmo¡ª¡ªÒ»ÖÖ¿É·º»¯µÄ¿ª·Å´Ê»ãÈÎÎñµ¼ÏòץȡģÐÍ¡£ ÆäºËÐÄÄ¿±êÊÇ£ºÍ¨¹ý½áºÏ×ÔÈ»ÓïÑÔÖ¸ÁîÓëµ¥Ö¡RGB-DͼÏñ£¬¾«×¼Ô¤²â·ûºÏÈÎÎñÐèÇóµÄץȡ·½Ê½£¬ÕæÕýʵÏÖ¡°»úÆ÷È˲»½öÄÜ×¥£¬»¹¶®ÎªºÎ×¥¡¢ÈçºÎ×¥¡±¡£ GraspMolmoÊÇÒ»ÖÖ¿É·º»¯µÄ¿ª·Å´Ê»ãÃæÏòÈÎÎñµÄץȡģÐÍ£¬ËüÔÚ¸ø¶¨×ÔÈ»ÓïÑÔÖ¸ÁîµÄÇé¿öÏÂÔ¤²âÓïÒåÉϺÏÊʵÄץȡ ºËÐÄ·½·¨£ºGraspMolmoÓëPRISMÊý¾Ý¼¯ GraspMolmoµÄÍ»ÆÆÀë²»¿ªÁ½´ó¹Ø¼üÖ§³Å£º´ó¹æÄ£ºÏ³ÉÊý¾Ý¼¯PRISMµÄ¹¹½¨£¬ÒÔ¼°»ùÓÚÊÓ¾õÓïÑÔÄ£Ð͵ĸßЧѵÁ·¡£ 1.PRISM£º´ó¹æÄ£ÈÎÎñÓïÒåץȡÊý¾Ý¼¯ PRISM£¨Purpose-driven Robotic Interaction in Scene Manipulation£©ÊÇÖ§³ÅGraspMolmoµÄºËÐÄѵÁ·Êý¾Ý£¬Í¨¹ý³ÌÐò»¯Éú³É¸²¸Ç¸´ÔÓ³¡¾°¡¢¶àÑù»¯ÎïÌåºÍ×ÔÈ»ÈÎÎñÃèÊöµÄ37.9ÍòÑù±¾¡£ Æä¹¹½¨Á÷³Ì°üÀ¨£º ³¡¾°Éú³É£º»ùÓÚShapeNet-Sem 3DÄ£ÐÍ¿âÓëACRONYMץȡÊý¾Ý¼¯£¬ÀûÓÃSceneSynthesizer¹¤¾ßÉú³É10,000¸ö¶ÀÌØ³¡¾°£¨Ã¿³¡¾°º¬2-12¸öÎïÌ壬¸²¸Ç91ÀàÈÕ³£ÓÃÆ·£©£¬²¢Ëæ»ú»¯¹âÕÕ¡¢Ïà»úÊӽǣ¨Ã¿³¡¾°10Êӽǣ©ºÍÎïÌåÅÅÁУ¬Ä£ÄâÕæÊµÔÓÂÒ»·¾³¡£ ÈÎÎñÓëץȡÃèÊöÉú³É£ºÍ¨¹ýGPT-4oÉú³ÉץȡµÄ×ÔÈ»ÓïÑÔÃèÊö£¨È硰ץȡƽµ×¹ø±ßÔµÄÚ²àºÍÍâ²à¡±£©£¬ÔÙ¾È˹¤ÑéÖ¤ÐÞÕý£¨45%Éú³ÉÃèÊö׼ȷ£¬55%ÐèÐÞÕý£©£¬È·±£ÃèÊöµÄ¿Õ¼ä¹ØÏµÓë½Ó´¥µã¾«¶È£» ͬʱÕë¶Ôÿ¸öÎïÌåÀà±ðÉú³ÉÁ½ÖÖ²îÒìÏÔÖøµÄץȡ·½Ê½£¨Èç±×ӵġ°ÎÕ±ú¡±Óë¡°ÎÕ±Éí¡±£©£¬²¢ÎªÃ¿ÖÖץȡÉè¼Æ4¸öÓïÒåÈÎÎñ£¨Èç¡°Óñ×Óµ¹Ë®¡±¡°¹Ò±×Óµ½¹³×ÓÉÏ¡±£©¡£ ÈÎÎñ-ץȡƥÅ䣺ͨ¹ýGPT-4oÆ¥ÅäÈÎÎñÃèÊöÓëץȡÃèÊö£¬¹¹½¨¡°³¡¾°-ÈÎÎñ-ץȡ¡±ÈýÔª×飬×îÖÕÐγɰüº¬Í¼Ïñ¡¢ÈÎÎñÖ¸Áî¡¢×¥È¡×ø±êºÍ×ÔÈ»ÓïÑÔÃèÊöµÄPRISMÊý¾Ý¼¯¡£ ÎÒÃÇÉú³ÉµÄÊý¾Ý¼¯PRISM-TrainºÍÆÀ¹À»ù×¼ÊÇÒ»ÏîÖØ´ó¹±Ï× PRISM²âÊÔ¡£Ê×ÏÈ£¬´ÓShapenet-Sem ×ʲúÉú³ÉºÏ³É³¡¾°£¬ ACRONYM [50]ץȡ¡£½ÓÏÂÀ´£¬Éú³ÉÒÔ¶ÔÏóΪÖÐÐĵÄץȡ¿Õ¼äÃèÊö£¬²¢ÊÖ¶¯¹ýÂË£¬Îª¶ÔÏóÀà±ðÉú³ÉÓÐȤÇÒ¶àÑùµÄÈÎÎñ GraspMolmoÄ£ÐÍѵÁ·£º GraspMolmo»ùÓÚÊÓ¾õÓïÑÔÄ£ÐÍ£¨VLM£©Molmo΢µ÷£¬½áºÏPRISM£¨45%£©¡¢TaskGrasp-Image£¨10%£©¼°ÆäËû¶àģ̬Êý¾Ý£¨ÈçVQA¡¢PixMo£©»ìºÏѵÁ·£¬±£ÁôÄ£ÐͶÔÐÂÎïÌåºÍ³¡¾°µÄ·º»¯ÄÜÁ¦£¬Í¬Ê±ÊÊӦץȡÈÎÎñÐèÇó¡£ Ä£ÐÍÊä³öͼÏñÆ½ÃæÉϵÄץȡµã£¬Í¨¹ýÉäÏßͶÉäºÍ×î½üµã²éѯƥÅäÎȶ¨×¥È¡Éú³ÉÆ÷£¨ÈçM2T2£©Ô¤²âµÄºòѡץȡ£¬×îÖÕÑ¡Ôñ×î½Ó½üµÄץȡ×÷Ϊ½á¹û¡£ ʵÑéÉè¼ÆÓëÑéÖ¤ ʵÑéÒÔFranka Research 3»úе±ÛΪӲ¼þƽ̨£¨´îÔØRGB-DÏà»úʵÏÖʵʱ¸ÐÖªÓëץȡ£©£¬Í¨¹ýÈý¼¶»ù×¼²âÊÔÖð²½ÑéÖ¤GraspMolmoµÄÐÔÄÜ£º 1. »ù×¼²âÊÔÓ볡¾°Éè¼Æ TaskGrasp-Image£º»ùÓÚÕæÊµRGB-DͼÏñµÄ´«Í³TOG»ù×¼£¬ÆÀ¹ÀÄ£ÐÍÔÚ¼òµ¥¶ÔÏóºÍÓÐÏÞÊÓ¾õ³¡¾°ÏµĻù´¡ÐÔÄÜ¡£ PRISM-Test£ºÈ«ºÏ³ÉÆÀ¹À¼¯£¨°üº¬Î´¼û¹ýµÄÎïÌåʵÀýºÍÀà±ð£¬ÈçTeaCup¡¢Fork£©£¬²âÊÔÄ£ÐͶÔÐÂÎïÌåºÍг¡¾°µÄ·º»¯ÄÜÁ¦¡£ PRISM-Real£ºÕæÊµÔÓÂÒ³¡¾°ÆÀ¹À£¨¸²¸Ç3Àà¼ÒÍ¥³¡¾°£º³ø·¿¡¢Êé×À¡¢¿ÍÌü£¬°üº¬9ÀàÎïÌåµÄ18ÏîÈÎÎñ£¬Èç¡°µ¹¿§·È¡±¡°°²È«µÝµ¶¡±¡°µ¹³ö»¨Æ¿Öеύ¡±£©£¬Ñé֤ģÐÍʵ¼ÊÓ¦ÓñíÏÖ¡£ ÎÒÃÇÔÚÈý¸ö´ú±í¼ÒͥʹÓð¸ÀýµÄÕæÊµ³¡¾°ÖнøÐÐÆÀ¹À£¬¾ßÓв»Í¬ÈÎÎñÓïÒåµÄ²»Í¬¶ÔÏó¡£ÎÒÃÇ»¹Õ¹Ê¾Á˶ÔË«ÊÖµÄÁãÑù±¾ÊÊÓÃÐÔÃæÏòÈÎÎñµÄץȡ¡£ÎÒÃÇչʾÁËGraspMolmoºÍ»ùÏßµÄÑù±¾×¥È¡Êä³ö ÈÎÎñ¡°µ¹³ö»¨¶ä¡±£¬»úÆ÷È˱ØÐëץס»¨Æ¿²¢½«Æä·×ª¹ýÀ´£¬ÒÔÇå¿Õ»¨Æ¿ »¨¶ä¡£GraspMolmoÕýÈ·µØÔÚ×î¼ÑλÖÃץס»¨Æ¿£¬½«Æä·×ª 2¡¢³¡¾°Éè¼ÆÑϸñÄ£ÄâÕæÊµÏÞÖÆ ²ÉÓõ¥ÊÓ½ÇRGB-D¹Û²â£¨Ìù½ü´«¸ÐÆ÷ʵ¼ÊÊäÈ룩£¬¹¹½¨¶àÎïÌå»ìÂÒ³¡¾°£¨Ä£ÄâÕæÊµÔÓÂÒ»·¾³£©£¬ÒÔ×ÔÈ»ÓïÑÔÏ´ïÈÎÎñÖ¸ÁÔö¼ÓÈÎÎñ¸´ÔÓ¶È£©£¬²¢ÍØÕ¹Ë«ÊÖץȡ²âÊÔ£¨ÑéÖ¤¸´ÔÓÈÎÎñÁé»îÐÔ£©¡£ ÔÚÔ½À´Ô½¾ßÓÐÌôÕ½ÐÔµÄÃæÏòÈÎÎñµÄץȡÖУ¬×¥È¡Ô¤²âµÄTop-1׼ȷÂÊ ÉèÖᣰ´ÕÕ£¬ÎÒÃÇÔÚTaskGrasp-ImageÆÀ¹ÀÖпçÈÎÎñ½øÐйéÒ»»¯¡£¶ÔÓÚÏÖʵÊÀ½çµÄÔÚÏ߯À¹À£¬ÎÒÃǷֱ𱨸æÔ¤²â³É¹¦ÂÊ£¨Ô¤²âµÄץȡÊÇ·ñ ÊÇ·ñÕýÈ·£©ºÍ×ÜÌå³É¹¦ÂÊ£¨Ô¤²âµÄץȡÊÇ·ñÕýÈ·£¬»úÆ÷ÈËÊÇ·ñ³É¹¦ ץסÎïÌå) ¹Ø¼ü³É¹ûÓëÍ»ÆÆ ʵÑé½á¹û±íÃ÷£¬GraspMolmoÔÚ¸´ÔÓÈÎÎñºÍÕæÊµ³¡¾°ÖбíÏÖÔ¶³¬ÏÖÓз½·¨£¬¾ßÌåÍ»ÆÆÈçÏ£º 1. ·º»¯ÄÜÁ¦ÏÔÖøÌáÉý PRISM-Test£¨ºÏ³ÉÔÓÂÒ³¡¾°£©£ºGraspMolmoץȡ³É¹¦ÂÊΪ62.5%£¬Ô¶¸ßÓÚ»ùÏß·½·¨£¨µÍÓÚ50%£©£¬ÑéÖ¤ÁËÄ£ÐͶÔÐÂÎïÌåºÍ³¡¾°µÄÇ¿·º»¯ÄÜÁ¦¡£ PRISM-Real£¨ÕæÊµ³¡¾°£©£ºÔ¤²â³É¹¦ÂÊ70.4%£¬ÕûÌå³É¹¦ÂÊ61.1%£¬ÏÔÖøÓÅÓÚ»ùÏß·½·¨£¨31%£©£¬ÔÚ¡°µ¹³ö»¨Æ¿Öеύ¡±µÈÈÎÎñÖУ¬GraspMolmoÄܾ«×¼Ñ¡Ôñ»¨Æ¿×î¼Ñ·×ªÎ»Öã¬Íê³ÉÈÎÎñ¡£ 2. ÁãÑù±¾Ë«ÊÖץȡÄÜÁ¦ ͨ¹ý½«Ë«ÊÖÈÎÎñ·Ö½âΪÁ½¸öµ¥±ÛÈÎÎñ£¨Èç¡°´ò¿ªË®Æ¿¡±·Ö½âΪ¡°ÌáÆðˮƿ¡±ºÍ¡°Å¡¿ªÆ¿¸Ç¡±£©£¬GraspMolmo³É¹¦Õ¹Ê¾ÁãÑù±¾Ô¤²âÓïÒåÕýÈ·µÄË«ÊÖץȡÄÜÁ¦£¬³õ²½ÑéÖ¤ÁËÆäÔÚ¸´ÔÓÈÎÎñÖеÄÁé»îÐÔºÍͨÓÃÐÔ¡£ 3. ÆÀ¹ÀÖ¸±êÓëÕæÊµ±íÏÖÇ¿Ïà¹Ø PRISM-TestµÄºÏ³ÉÆÀ¹À½á¹ûÓëÕæÊµ³¡¾°±íÏָ߶ÈÏà¹Ø£¨ÈçͼËùʾ£©£¬Ö¤Ã÷Æä×÷Ϊ¸ßЧÆÀ¹À»ù×¼µÄ¿É¿¿ÐÔ£¬ÎªºóÐøÑо¿ÌṩÁËÓÅÖʹ¤¾ß¡£ PRISM²âÊԵıíÏÖÊÇÏÖʵ³¡¾°Öгɹ¦µÄ¸üºÃÖ¸±ê ±È TaskGrasp-Image ¸üÓÐЧ ½áÓï GraspMolmoͨ¹ý´ó¹æÄ£ºÏ³ÉÊý¾Ý¼¯PRISMѵÁ·ÓëÊÓ¾õÓïÑÔÄ£Ð͵ÄÉî¶ÈÈںϣ¬£¬Í»ÆÆÁË´«Í³TOG·½·¨ÔÚ³¡¾°·º»¯ºÍÈÎÎñÓïÒåÀí½âÉÏµÄÆ¿¾±£¬ÔÚÕæÊµÔÓÂÒ»·¾³ÖÐʵÏÖÁ˸ßЧ¡¢ÖÇÄܵÄÈÎÎñµ¼Ïòץȡ¡£Æä¿ªÔ´µÄÊý¾Ý¼¯¡¢Ä£Ðͺͻù×¼£¬Îª»úÆ÷ÈËÎ޽ṹ»¯»·¾³²¿Êðµì¶¨ÁËÖØÒª»ù´¡¡£ δÀ´£¬Ñо¿ÍŶӽ«³ÖÐøÓÅ»¯Ä£ÐÍÐÔÄÜ£¨Èç¼õÉÙ¶ÔÍⲿץȡÉú³ÉÆ÷µÄÒÀÀµ£©£¬ÍØÕ¹Ó¦Óó¡¾°£¨È繤ҵװÅä¡¢¼ÒÍ¥·þÎñ£©£¬Íƶ¯»úÆ÷È˼¼ÊõÏò¸üÖÇÄÜ¡¢¸üͨÓõķ½Ïò·¢Õ¹¡£ ÂÛÎÄÏêÇ飺https://abhaybd.github.io/GraspMolmo/ |
» ²ÂÄãϲ»¶
ÈܽºÄý½ºÖƱ¸²£Á§·Û¹¤ÒÕ
ÒѾÓÐ0È˻ظ´
ÖйúµØÖÊ´óѧ£¨±±¾©£©¹¤³Ì¼¼ÊõѧԺѦÆôÁú¿ÎÌâ×éÕÐÊÕ2026Ä격ʿÉú
ÒѾÓÐ3È˻ظ´
¹¤³ÌÈÈÎïÀíÓëÄÜÔ´ÀûÓÃÂÛÎÄÈóÉ«/·ÒëÔõôÊÕ·Ñ?
ÒѾÓÐ65È˻ظ´
ÕÐÊÕ˶£¬²©Ê¿£¬²©Ê¿ºó¼°ÁªÅࣺÉ豸״̬¼à²â£¬ ¿É¿¿ÐÔÓëά»¤£¬È˹¤ÖÇÄÜ£¬Í¼Ïñ´¦Àí
ÒѾÓÐ0È˻ظ´
·ÛÄ©ÈÈѹÉúÅ÷´ú¼Ó¹¤
ÒѾÓÐ0È˻ظ´
Òѱà¼
ÒѾÓÐ4È˻ظ´
IEEE»áÒéEiÊÕ¼¸ßУÖ÷°ì-IEEEµÚÈý½ìÄÜÔ´ÓëµçÆø¹¤³Ì¹ú¼ÊѧÊõ»áÒé-EEE 2026
ÒѾÓÐ0È˻ظ´
Ei»áÒé-µÚÁù½ìÁ÷ÌåÓ뻯ѧ¹¤³Ì¹ú¼ÊѧÊõ»áÒé-ICFCE2026
ÒѾÓÐ1È˻ظ´
Ñàɽ´óѧ½ðÊô²ÄÁÏרҵ¡ª¡ªÍõÇà·å¿ÎÌâ×é2026Äê˶ʿÉúÕÐÊÕÐëÖª
ÒѾÓÐ0È˻ظ´













»Ø¸´´ËÂ¥