会议室里再次陷入了沉默。
一个没有任何机构背景,用著中国大眾邮箱,名字极其隨意的队伍,直接把当前计算机视觉的最高记录翻了一倍。
这听起来就像是一个拙劣的愚人节玩笑。
但数据偏偏是铁打的事实。
“有没有可能是我们自己团队的谁,不小心把內部测试的某个超前结果传上去了?”李飞飞拋出了第一个假设。
约翰直接摇头。
“不可能,李老师。”约翰苦笑,“我们团队现在最好的模型,昨天晚上刚跑完一轮,top-1才刚过30%。连人家的尾灯都看不到。这结果跟我们完全不在一个量级上。”
“那会不会是测试集的標註答案泄露了?”大卫提出了第二个假设,“如果是有人拿到了標准答案,直接把答案改个名字上传,也能得到这个分数。甚至可以故意答错一些,控制在60%左右,避免百分之百太显眼。”
李飞飞立刻看向陈冉。
“陈冉,联繫imagenet项目的数据管理员,调取测试集所在的最高权限访问日誌。我要看从发布到现在的所有记录。”
陈冉立刻拿起手机开始打电话。
会议室里的气氛压抑得让人喘不过气。
如果真的是测试集泄露,那整个imagenet项目的公信力將遭到毁灭性的打击。
101看书 找书就去 101 看书网,101??????.??????超全 全手打无错站
十分钟后,数据管理员把日誌文件发了过来。
陈冉打开文件,快速瀏览。
“没有泄露。”陈冉指著屏幕上的记录,“日誌显示,测试集从发布到现在,只有三个经过授权的內部高级帐號下载过。而且这三次下载记录,都是在项目启动初期为了做本地环境配置。最近三个月內,没有任何人访问过测试集原始数据所在的安全分区。”
“黑客攻击呢?”大卫追问。
“防火墙没有报警记录。”陈冉说,“而且我们的测试集伺服器是不对公网开放的物理隔离节点,想要拿到数据,除非有人亲自跑到机房拔硬碟。”
假设再次被推翻。
“既然不是答案泄露,那这就见鬼了。”约翰双手抱头,“如果不是作弊,那这个正確率意味著什么?”
大卫看著电脑屏幕上的乱码发呆。
“意味著他们用的方法,已经跟我们不在同一个理论框架里了。”大卫说。
“陈冉,你最了解中国那边的情况。”
李飞飞问,“会不会是中国那边找了大量的人力,对著测试集一张一张標註出来的?重赏之下必有勇夫,为了那三万美元的奖金,这种人海战术在理论上是可行的。”
陈冉还没说话,约翰先反驳了。
“这绝对不可能。”约翰语气坚定。
“为什么?”陈冉问。
“imagenet的分类不是区分猫和狗那么简单。”约翰语速飞快,“李老师,您忘了测试集的分类都是什么吗,一百二十种不同的狗!普通的数据標註工,哪能分得清诺威奇梗和凯恩梗?哪能分得清阿拉斯加雪橇犬和西伯利亚哈士奇在模糊背景下的区別?”
约翰指著屏幕上的一个分类標籤。
“再看看植物类,普通標註工能看出一张带点反光的叶子到底是哪种蕨类植物吗?这需要专业的生物学知识!普通人盯著看一天也分不出个所以然。”
约翰越说越激动。
“要达到接近六成的top-1准確率,他们不仅需要找人看,还需要找动物学家、植物学家、汽车型號鑑定专家一起来看!普通人根本做不到这种精度,更不用说还要保证几千张图片的一致性了。”
大卫在旁边跟著点头。
“我算一笔经济帐。”大卫补充说,“如果他们真的用人力標註,要请这么多专家来会诊十五万张图片,还要保证绝对的保密不走漏风声,这个成本早就远远超过了三万美元的奖金。逻辑上完全说不通。没有人会花三十万美元去赚三万美元。”
人海战术的假设也被彻底推翻。
李飞飞深吸了一口气。
“参赛系统是允许参赛队伍提交论文和源码的,对吧?”李飞飞问。
“对,这是选填项。”陈冉点头。
“我们看一下他们的详情页。”李飞飞说。
四个人同时点进“玉泉路扛把子”这个id的提交详情页。
页面加载出来。
论文栏,空著。
源码栏,空著。
算法架构说明栏,空著。
只有那一份预测结果的excel表格,孤零零地掛在附件下载区里。
约翰靠向椅背,双手摊开。
“没有任何理论说明,没有任何代码实现,只有一个乾巴巴的结果。”约翰盯著屏幕,“这怎么解释?魔法吗?”
大卫摸了摸下巴。
“就好像有人直接从未来把答案送过来了一样。”大卫说。
会议室里再次安静下来。
大卫这句无心的话,让陈冉觉得后背有些发凉。
李飞飞站起身,走到会议室的白板前。
她看著白板上之前画满的各种特徵提取算法的流程图,觉得这些东西现在看起来就像是上个世纪的古董。
“不管我们能不能理解,不管他们用了什么方法。”李飞飞转过身,看著会议桌前的三个人,“这个结果是真实存在的,它通过了我们所有的验证机制。”
“那排行榜还更新吗?”约翰问。
“如果不更新,我们就是在否定我们自己建立的评测体系。”李飞飞毫不犹豫地说,“更新。”
“可是李老师,一旦这个数据放出去,北美这边的学术界可能就不只是炸锅那么简单了。”陈冉有些担忧,“大家会觉得我们这个榜单出了严重的漏洞。”
“那就让他们去查漏洞。”李飞飞语气坚定,“科学就是在不断打破认知中前进的。既然有人做到了,我们就必须承认。”
陈冉点头,手指放在了滑鼠上。
“我马上操作。”
点击。
確认。
数据同步。
於是,在2010年1月的这个上午。
imagenet挑战赛的官方排行榜,迎来了一次毫无预兆的刷新。
让原本的榜单显得有些菜鸡互啄。
顶替他们的,是一个全新的名字。
第一名:玉泉路扛把子。
top-1正確率:59.8%。
top-5正確率:76.3%。
原先排名第一的团队成绩是29%和69%。
这两个指標之间的巨大鸿沟,大到让所有刷新页面看到榜单的人,都会以为自己的显示器出了故障。
李飞飞合上自己的笔记本电脑。
“陈冉,一会记得发一封邮件给那个qq邮箱,邀请他们提交一下预测使用的方法。语气客气一些,但是要表达出我们迫切的渴望。”
“不过我怀疑他们是有一些技术秘密不想透露,我们不一定能等得到他们的回信。”
“所以,从今天开始,你手头其他的杂活先放一放。”李飞飞看著自己的学生,“密切关注中国那边所有和计算机视觉相关的实验室动向。”
“中国那边的实验室?”陈冉问。
“对。”李飞飞点头,“能做出这种成绩的,绝对不是几个散兵游勇。背后一定有一支顶级的团队,甚至可能是国家级的算力支持。只要他们还在做研究,就一定会发论文。有任何新的论文,或者相关的技术博客发布,第一时间整理髮给我。”
“明白。”陈冉说。
第649章 玉泉路扛把子登顶榜首
同类推荐:
这些书总想操我_御书屋、
堕落的安妮塔(西幻 人外 nph)、
将军的毛真好摸[星际] 完结+番外、
上门姐夫、
畸骨 完结+番外、
每天都在羞耻中(直播)、
希腊带恶人、
魔王的子宫、

