搜索结果究竟有多差?比较 Google、Bing、Marginalia、Kagi、Mwmbl 和 ChatGPT [译]
在 搜索引擎优化的诞生与消亡 一文中,Xe 提出了这样一个有趣的实验:
尝试一下这个实验。拿一个开源项目如
yt-dlp
来说,试着用一个泛泛的词汇如“youtube 下载器”去搜索它。你会发现根本搜索不到它,因为大量只为了排名而产生的低质量内容占据了搜索结果。尽管实际上yt-dlp
可能正是你想要的 YouTube 视频下载工具。
普遍来看,我所接触的大多数技术人员似乎认为 Google 的搜索结果比十年前差了很多(参见 Mastodon 调查、Twitter 调查、Threads 调查)。然而,还有一部分人士坚称搜索结果仍然优秀。比如,一位引人注目的创新型思想家这样表示:
我认为那种“甚至 Google 搜索现在都很糟糕”的担忧被过分夸大了1
我怀疑现在的情况是,一些人已经习惯于在糟糕的软件环境中工作,以至于他们自己都没意识到,就像下意识地在编辑器里不停按 ctrl+s 或者在文本框里写东西时按 ctrl+a; ctrl+c 一样(来源链接)。每个精通现代网络的用户都有自己的一套小技巧,用来从搜索查询中得到还算不错的结果。观察许多用户使用电脑的情况来看,这并不是普遍现象,即便是在那些在各种技术领域(比如机械工程 2)相当有能力的人群中也是如此。然而,那些抱怨搜索结果质量不佳的人,可能只是跟风“一切都很糟糕”的说法,对搜索质量发表了毫无根据的评论(来源链接)。
既然直接尝试简单的查询很容易,那我们就来试试。我们将使用五种搜索引擎加上 ChatGPT 来做三种类型的查询,并关闭广告拦截器 (ad blocker),以体验普通用户的上网感受。我以前在浏览一个带有可疑广告的网站时,电脑曾被恶意软件感染,希望这次不会再发生(那次我很幸运,因为恶意软件在电脑上动作太大,不可能不被发现)。
其中一种查询是我一个朋友在配置她的新电脑时用到的一系列典型查询。我的这位朋友是一位非科技领域的优秀工程师,她想学习“如何使用电脑”。我观察她配置电脑的过程,指出了她在与网站和软件互动时心理预设上的一些盲点。
我在高中时遇到的第二类问题是,无法找到答案的问题。这是因为我所咨询的人(比如老师)给出的答案显然不正确,而我也不知道该如何找到正确答案。等我上大学并能使用大学图书馆后,我通过各种教科书找到了答案。尽管这些问题很简单,高中生完全有能力理解,但关键在于找到答案。接下来,我们将探讨这些答案的可寻性。第三类查询是我写这篇文章时偶然想了解的本地信息。
在评估这些查询时,难免带有主观色彩。比如,很难明确判断是适度相关的无诈骗结果更好,还是夹杂诈骗的高度相关结果更佳。在这篇文章中,我认为诈骗是个严重问题。以这个例子来说,我会优先考虑那些适度相关但无诈骗的结果。就像我在其他 文章 中所做的,我提供了简要总结和详细结果描述,你也可以根据自己的判断来评估这些服务。
在下方表格中,每列代表一种查询,每行是一个搜索引擎或 ChatGPT。查询结果从差到好依次为:糟糕、非常差、差、还行、好、极好。结果颜色上,差的偏红,好的偏蓝。
查询内容包括:
- 下载 YouTube 视频
- 广告拦截器
- 下载 Firefox
- 为什么更宽的轮胎抓地力更强?
- 为什么不断缩小 CPU 晶体管的尺寸?
- 2023 年冬季温哥华的雪预报
YouTube | Adblock | Firefox | 轮胎 | CPU | 雪 | |
---|---|---|---|---|---|---|
Marginalia | 还行 | 好 | 还行 | 差 | 差 | 差 |
ChatGPT | 很差 | 很好 | 好 | 很差 | 很差 | 差 |
Mwmbl | 差 | 差 | 差 | 差 | 差 | 差 |
Kagi | 差 | 很差 | 很好 | 极差 | 差 | 极差 |
极差 | 很差 | 差 | 差 | 差 | 极差 | |
Bing | 极差 | 极差 | 很好 | 极差 | 还行 | 极差 |
Marginalia 在某些方面表现相对较好,有时能提供还算可以但不算特别出色的答案,然后对于它回答不了的问题就提供无答案或明显不相关的答案。它的诈骗率相对较低,低于其他所有搜索引擎(尽管在这些查询中,ChatGPT 没有返回任何诈骗信息,而 Marginalia 则有一些)。
有意思的是,Mwmbl 允许用户直接修改搜索结果的排名。我对一个查询做了这样的修改,如果在我的修改后进行评分,它的评分将是“很好”,但是当你专门为了某个标准而优化时,要做得好其实很容易,因此 Mwmbl 的评分是在没有我对排名标准进行修改的情况下给出的。
关于 Google 搜索结果,我发现一个有趣的现象:除了 Google 倾向于呈现最新的搜索结果外,还特别偏爱显示最近上传的 YouTube 视频。这导致我们接触到一些对大多数人来说几乎无用的视频,似乎只有视频制作者自己可能从中获益,他们显然是在试图通过视频赚取广告收入。比如,在搜索“广告拦截器”时,其中一个 YouTube 视频是一个人在那里啰嗦了 93 秒,讲述大家应该怎样使用广告拦截器,然后搜索了“广告拦截器扩展”。他们点击了首个搜索结果,并错误地宣称这是“官方的 Google 产品”,意思是这款广告拦截器要么是 Google 制造的,要么得到了 Google 的官方认证,因为它排在搜索结果的首位。随后,他们又啰嗦了 40 秒完成广告拦截器的安装。安装完毕后,他们错误地声称这是“Google Chrome 上最有效的广告拦截器之一”。这个视频的观看量达到了 14k。作为对比,Steve Yegge 花费了一年时间制作高品质视频,他的最高观看量的视频也仅有 8k,而通常的观看量还不到 2k。这个人通过制作与他们不熟悉的主题相关的低质量视频,利用 Google 的算法倾向于展示最新内容而不考虑质量,从而在搜索排名上超越了 Steve Yegge 的视频,因为他们找到了可以轻易排名靠前的关键词。我们将在后文更详细地探讨 Google 的其他特点。
ChatGPT 照常展示了它的实力,在某个案例中显著超越了传统对手,在另一个案例中表现尚可,在另一个案例中则回避了直接回答问题,在许多查询中生成了一些无意义的内容(像往常一样,对于 ChatGPT 来说,随机变动可能会大幅改变结果3)。尽管人们常批评 ChatGPT 产生无意义的内容,但我认为这种批评并不过分,正如我们在 2015 年,也就是大语言模型出现之前,撰写的关于 AI 的文章中所提到的,这类批评其实被高估了,因为人类和传统计算系统也会犯相同的错误(https://danluu.com/customer-service/)。
在这个案例中,搜索引擎返回了多种类型的误导性结果。以预报雪情的例子来说,我们遇到了故意制造的虚假信息,包括一个通过在假冒预报网站上投放可疑广告来赚取广告收入的案例,以及另一个案例,其中误导用户以为预报显示寒冷多雪的冬季(实际上恰恰相反),目的似乎是为了让用户报名一些不必要的除雪服务。其他故意制造的虚假信息还包括:一个看似客观的评测网站,实则是个假网站,用来引导用户安装某个特定的广告拦截器;这个广告拦截器似乎是个诈骗软件,试图让用户为屏蔽广告付费,并且不允许退订;还有一个假的“有机”博客帖子,试图让用户安装一个 Chrome 扩展,将所有购物信息泄露给某个服务(很多情况下,我们无法判断一篇博客文章是不是假的或者是软文,但在这个例子中,他们将假博客文章放在了产品的域名上,虽然它看起来像是一个完整的博客,实际上只有这一篇虚假的文章),等等。
还有许多结果看起来不是故意的欺诈,而仅仅是为了吸引广告点击而设计的普通的搜索引擎优化(SEO)垃圾内容。这些内容大部分是在大型语言模型(LLM)出现之前的网站,所以它们的风格并不像 ChatGPT 产生的虚假内容,但本质上并无太大差别。这些网站的目的有时是让用户点击实际上是诈骗的广告,有时则似乎是为了吸引用户点击真实的非诈骗广告。搜索引擎还返回了许多似乎是非故意的人为误导结果,例如在 Quora、Reddit 和 Stack Exchange 这类用户内容突出的平台上,人们错误地自信地提供了错误的答案。
在这些查询中,即使忽略掉看起来是由大型语言模型生成的文本,我也认为主流搜索引擎(如 Google 和 Bing)在返回各种误导性或相关结果方面比 ChatGPT 还要糟糕。虽然我不认为对大型语言模型误导性结果的担忧是毫无根据的,但传统生态系统存在的问题是,这个系统极力推动将对软件供应链最有利可图的内容放在用户面前,这通常与最佳结果大相径庭。
比如,如果你的应用商店支持“你可能还喜欢”的推荐功能,那么对于赌博成瘾管理类应用而言,最具价值的广告位往往会被赌博应用占据。如今,任何公司都不会明目张胆地在成瘾管理应用上允许赌博广告,因为这对用户来说过于敌意显露。但是,生产赌博应用的公司肯定会试图操纵系统来突破过滤屏障,他们有时候能做到这一点。就网络搜索而言,我最近又试了一次,其中一家主要搜索引擎的顶部结果是一篇充斥广告的搜索引擎优化(Search Engine Optimization, SEO)博客垃圾,内容是关于成瘾管理的。页面顶部有一个分多部分的广告,前两个链接分别是“支付真钱的游戏”和“支付真现金的游戏”。通常,我看到的是本地化的结果(许多.ca 域名,因为我在加拿大),所以你自己尝试可能会得到不同的结果。
同样,如果最好的结果是一个优秀的免费广告拦截工具,比如 ublock origin,那么顶部的广告位对于那些生产设计用来诱骗你为次品广告拦截器付费的公司来说价值巨大,这些广告拦截器通常附带着几乎无法取消的订阅服务。因此,这些诈骗性广告拦截器会出价高于免费广告拦截器来争夺顶部广告位。这些公司还会在直接的搜索引擎优化和间接的如市场营销等 SEO 活动上投入更多资源。因此,除非搜索引擎更有效地对抗这种以利益为驱动的行为,否则顶部结果往往会被付费广告拦截器占据,尽管这些付费广告拦截器通常对用户来说不如免费的广告拦截器好。如果你与那些从事排名工作的人交流,你会发现许多最主要的排名信号来源于点击和参与度,但这只有在用户足够精明,知道什么是最佳结果的情况下,才会引导他们找到最佳结果,然而通常情况下他们并不是这样的。人类评估员也会对页面质量进行评估,但这同样存在问题。
很多谷歌 (Google) 员工认为,广告其实有积极作用,因为它们向用户介绍了他们本来不会了解的选项。然而,不使用广告拦截器进行浏览的用户会遇到多种误导性广告,这些广告通过各种手段欺骗用户,例如伪装成窗口,或者在讨论战胜赌博成瘾的页面顶部宣传“玩游戏赚真钱”,这个页面利用搜索引擎优化 (SEO) 技术,在赌博成瘾相关搜索中获得了高排名。理论上,通过投入足够资源可以缓解这些问题,但我们观察到,即便是市值数万亿的公司也未投入足够资源来对抗搜索引擎优化、垃圾邮件等问题,导致这类诈骗广告仍然罕见。相反,很多排名靠前的结果实际上是诱导用户进入诈骗网站的广告。
在他们最初的页面排名论文中,谢尔盖·布林 (Sergei Brin) 和拉里·佩奇 (Larry Page) 指出,基于广告的搜索与提供优质搜索结果的动机本质上是不一致的:
目前,商业搜索引擎主要依赖广告作为其商业模式。但是,这种以广告为中心的模式并不总能保证向用户提供优质的搜索服务。比如,在我们的原型搜索引擎里,输入“手机”进行搜索时,排在最前面的结果之一是一项研究:“手机使用对驾驶员注意力的影响”。这篇研究详细讨论了驾驶时打手机的分心风险。之所以排在首位,是因为它在 PageRank 算法(一种衡量网页引用重要性的方法)中被评为高度重要 [Page, 98]。若搜索引擎为显示手机广告而收费,很难向付费广告商解释为何会显示这样的搜索结果。基于这种原因和其他媒体的历史经验 [Bagdikian 83],我们预计,以广告为资金来源的搜索引擎会固有地偏向广告商,忽视消费者的需求。
评估搜索引擎的偏见对专家而言都是一大挑战,更何况普通用户。例如,OpenText 曾被曝光,向企业出售在特定搜索词下的顶部位置 [Marchiori 97]。这种偏见比简单的广告更加隐蔽,因为很难界定谁“应该”位于榜首,谁又是付费上榜。这种模式曾引发公愤,导致 OpenText 不再是一个有效的搜索引擎。市场或许会容忍更隐蔽的偏见......这种偏见虽难以察觉,但可能对市场产生深远影响。此外,依赖广告收入的搜索引擎往往会提供较差的搜索结果。例如,我们发现一个大型搜索引擎在输入某大型航空公司名称作为搜索词时,不会显示该公司的官方网页。原因是这家航空公司为自己的名称付费做了广告。一个更优秀的搜索引擎不会需要这样的广告,而且可能会因此失去来自该航空公司的广告收入。从消费者的角度来看,搜索引擎越优秀,他们就越少需要依靠广告找到所需信息。这当然会动摇现有搜索引擎基于广告的商业模式......我们认为,广告问题导致了太多利益冲突,因此极其重要的是,要有一个既透明又属于学术领域的有竞争力的搜索引擎。
显然,Google 如今已经被广告所主导。尽管他们明确指出,用户难以区分真实搜索结果与付费广告的狡猾手段,Google 和 Bing 却让广告越来越像真实的搜索结果,以致于大多数用户通常分辨不出自己点击的是广告还是真正的搜索结果。另外,正是因为用户倾向于将所有结果视为“自然”搜索结果,这篇文章里的搜索结果才按照它们在页面上的出现顺序进行排序。例如,如果搜索页面顶部先展示了四条广告,然后才是第一个自然搜索结果,那么这四条广告会被排在前四位,而自然搜索结果则排在第五位。我曾听到 Google 员工说过,AMP 并未影响搜索排名,因为它“仅仅”控制了哪些结果会出现在搜索结果上方的“轮播图”中。好像在搜索结果上方先插入一个轮播图,再放上一堆广告,把真正的搜索结果推到视线以下,并不会影响用户对搜索结果的互动方式似的。同样,搜索引擎常常会将顶部位置“出售”给各公司,这意味着那些不为自己品牌名称购买广告的公司,在搜索结果中往往会被竞争对手排在前面。这种做法也被声称不影响搜索结果的排名,这虽然在技术上是正确的,但对于普通用户来说,这种说法几乎没有任何意义。
当我尝试运行论文中的查询:“cellular phone”(无引号)时,Google Store 上购买 Google 自家的 Pixel 7 的链接位居搜索结果首位,其余顶部结果主要是 Amazon 上销售的各种 Android 手机。接下来是维基百科关于移动电话的页面,然后是一连串试图销售手机的商业链接和充斥着搜索引擎优化(SEO)垃圾信息的网页,这些网页试图通过广告或链接诱导用户购买手机(紧随其后的 7 个结果均为商业性质,随后是一个充满广告、以手机定义为主题的低质量 SEO 博客页面,然后是另外 3 个商业链接,接着是另一个定义手机的充满广告页面)。这些商业链接的质量普遍较低,例如,维基百科下方的首个链接就是 Best Buy 加拿大的移动电话页面。页面上前两个产品是 eufy 版本的 AirTag 的广告位。接下来的结果包括与 Rogers 绑定的分期付款 iPhone,与 TELUS 绑定的分期付款 Samsung 手机,以及 Samsung 的 AirTag、与 Freedom Mobile 绑定的不同颜色的分期付款 iPhone、iPhone 13 的屏幕保护器、另一个 Samsung AirTag 产品、解锁的 iPhone 12、Samsung 的墙壁充电器等;这些都是极低质量的结果,很多产品实际上并未被消费者购买(从产品的评论数量可以看出,大多数顶级产品的评论数为 0,中位数为 1 或 2,尽管 Best Buy 加拿大有许多受欢迎且评论众多的产品)。其他出现的商业链接同样质量低下。Sergei 和 Larry 曾提到的一个重要研究结果,“The Effect of Cellular Phone Use Upon Driver Attention”,在这些商业链接下被埋没了,无法显现。在另一方面,Google 也通过购买广告参与其中,甚至采用欺骗性手段,如支付安装程序以诱导用户安装 Chrome 而非 Firefox。
不过,在审视我们的测试查询结果之后,我脑海中浮现出了一些问题:
- Marginalia 这个由个人创建的搜索引擎是怎样做到出类拔萃的?
- Marginalia 或其他小型搜索引擎有潜力替代 Google 成为大众用户的首选吗?
- 多个小型搜索引擎集合起来能否提供比 Google 更精准的搜索结果?
- Mwmbl 采用的由用户主导的内容策划方式是否行之有效?
- 一个类似于 1996 年 Metacrawler 的搜索引擎,通过汇总多个搜索引擎、ChatGPT、Bard 等的结果,能否在搜索效果上显著胜过 Google?
第一个问题本可以单独作为一篇文章来探讨,考虑到这篇文章已经有 17000 字了,我们可能会在其他时候再深入研究。我们之前已经指出,一些 个体 可以 表现出极高的生产效率,但每个案例的具体情况各有不同。
关于第二个问题,我们在 2016 年探讨过一个类似的话题,包括了广义上的 "我能在一个周末复制这个十亿美元公司的模式",以及具体到关于开源软件如何轻松超越 Google 的评论,例如:
如今,你所需的大多数技术都可以在开源软件(OSS)中找到,并且都是最先进的。请允许我以 meta64.com(我的公司)为例。我利用 Lucene 索引大量新闻文章,并通过搜索简单从 RSS 内容抓取生成的 Lucene 索引来提供搜索服务。我认为 Lucene 技术接近完美,而我正在使用的搜索方法与 Google 所需的几乎相同。Google 的真正技术优势在于他们能够部署的庞大服务器网络,这对我们这些小规模公司来说代价高昂。但从软件角度来看,我预计在未来 10 年内,像我的这种技术将超越 Google。
和
规模扩展总是充满挑战,但随着 Lucene 的不断改进,终将迎来一个时刻:谷歌的优势不再显著,届时我们可以通过集群 Lucene 节点和分布式计算来处理搜索相关任务,并利用类似 Hadoop 的技术实现我们自己的开源排名算法。尽管目前尚未达到这一目标,但技术的进步是不可阻挡的,开发者的选择同样至关重要。虽然亚马逊和谷歌看似势不可挡,但不要低估渐进式改进在长期中的力量。想当年,Windows 曾是无可匹敌的霸主,如今它的地位又在哪里呢?
在那篇 2016 年的文章中,我们发现那些认为开源解决方案不久就会超越谷歌的人显然没有意识到,要构建一个能与谷歌抗衡的主流搜索引擎,需要解决许多艰巨的问题。这些问题包括实时索引诸如 Twitter、报纸等快速更新的网站,以及至关重要的自然语言处理 (NLP) 技术,这些都非常复杂。自 2016 年以来,这些问题变得更加艰难,因为需要索引的实时内容不断增加,用户对 NLP 的期望也随之提高。人们对搜索引擎的要求也在增加,使得这个问题更加棘手,因此,谷歌作为主流搜索引擎的地位,对于比如说十亿用户来说,似乎仍然难以撼动。
另一方面,如果你想为少数用户打造一个实用的搜索引擎,这似乎比以往任何时候都更容易。因为对许多查询而言,谷歌的搜索结果比过去更差。在我们的测试查询中,我们发现很多顶级结果充斥着搜索引擎优化 (SEO) 的垃圾内容,这个问题比十年前更加严重,即便是在大语言模型 (LLMs) 兴起之前,这个问题就已经恶化,并且仍在持续恶化。通常我使用搜索引擎时不会遇到这个问题,但当我观察“普通”用户的搜索行为,或像在这篇文章中那样尝试一些简单查询时,发现大多数结果质量都很差,这在过去并不常见。
我发现 Google 在搜索不太热门的网页时表现不佳。当我准确记得某个网页的内容并尝试进行精确字符串搜索时,Google 经常无法找到这个页面。这可能是因为该页面没有被索引,或者它存在于索引的某个较慢的区域,导致搜索结果无法及时返回。为了找到这个页面,我不得不回忆起某个链接到该页面的其他页面的文本(这个过程可能需要多次点击,不仅是一个页面那么简单)。我得记住一个页面,它又链接到其他页面,依此类推,然后通过 archive.org 去追踪那些已经失效的链接。这在 2005 年的搜索中几乎从未发生,而到了 2015 年也很少发生,但现在寻找东西时,我经常遇到这种情况。即使在 2015 年,Google 的搜索结果也并不全面。例如,Google 搜索并不会索引每一条推特。但那时,我发现用 Google 搜索找推文比用 Twitter 的搜索功能更有效,几乎没有我找不到的由 Google 索引的推文。但现在,我想要找的大多数推文都在 Google 搜索中找不到,即使我使用 "[推文中的确切字符串] site:twitter.com" 进行搜索。在最初的 Page Rank 论文中,Sergei 和 Larry 提到,“由于人类只能输入或说出有限的量,且随着计算机技术的进步,文本索引的效果将比现在更好。”(尽管机器可以产生几乎无限的内容,但仅仅索引人类生成的内容就非常有价值)。在大语言模型 (LLM) 出现之前,Google 完全有能力索引每一条推文和每个公共网站上的每一个人类发言,但他们似乎选择将资源用于其他地方。相比之下,公共网络的索引程度比以往任何时候都要低,至少自网络搜索初期以来就是这样。
回顾过去,当 Google 能够针对简单的搜索查询返回满意的结果,并且几乎索引了我想找的所有公开网页时,独立搜索引擎很难做到比 Google 更优。以 2016 年的 Marginalia 为例,当时对我而言,它不过是一种新奇事物。因为无论 Marginalia 在哪些方面有不错的表现,Google 都能提供足够好的结果,特别是在我搜索那些不太为人所知的网页时,Google 总能给出正确答案,这对小型搜索引擎来说是极大的挑战。但现在,由于 Google 实际上没有索引我想要搜索的许多网页,独立搜索引擎的相对较小索引库对我而言并不是一个问题。事实上,有些独立搜索引擎比 Google 提供的搜索引擎优化 (SEO) 垃圾要少,这使得它们更适合我的需求,因为我通常不关心实时搜索结果,不需要复杂的自然语言处理 (NLP),也不希望将购物选项融入我的搜索结果中,很少需要具有图片理解能力的图像搜索等。
至于一系列小型搜索引擎是否能为大量用户提供比 Google 更好的结果这一问题,我认为这已不再是问题,因为多年来答案一直是肯定的“是”。然而,许多人对此仍持怀疑态度。例如,一位 Google 的技术领导者 (TLM) 对本文开头提到的 bluesky 思想领袖进行了回应:
有人试图争辩,如果搜索领域更具竞争性,有许多小型提供商而不是几个大公司,那么它将更能抵抗基于机器学习 (ML) 的搜索引擎优化滥用。
但如果连 *google* 都难以应对这一问题,那么市场份额仅占 5% 的小公司又如何能做到呢?
这似乎是对 Hillel Wayne 的“算法单一文化”等观点的回应。对此,我们的 bluesky 思想领袖回答道:
大约 95% 的情况下,当有人声称某些小型、独立公司能够比市场领导者更好地完成一些困难的任务时,这不过是自我安慰。规模经济确实运作得很好!
在过去,我们曾经探讨过一些市场领导者提供次品,而其他许多小公司却能提供更优质产品的案例(参见 这里)。在未来的文章中,我们会深入探讨规模经济(economies of scale)和规模非经济(diseconomies of scale)在科技领域是如何相互作用的。但就本文而言,足以说明尽管通常的“经济学 101”中的鸡尾酒会理论认为规模经济应是搜索质量的主导因素,实际结果却并非总是如此。
关于 Mwmbl 用户策划结果是否可行的问题,我认为可能行不通,至少在没有更多监管的情况下是如此。仅需浏览 Mwmbl,就能发现最后一次排名编辑是由用户“betest”执行的,他在“RSS”的顶部条目中添加了某种博客垃圾。虽然似乎可以撤销这一改动,但却难以找到方法来报告这种更改或将用户标记为垃圾邮件发送者。
至于像 Metacrawler 这样聚合多个搜索引擎结果的服务,在今天是否能产生更优结果的问题,这可能已经不太重要了。因为要么作为商业服务合法运营几乎是不可能的,要么需要支付高昂的授权费用。但从技术角度来看,现代的 Metacrawler 如今似乎还是相当不错的。Google 很快使 Metacrawler 变得无关紧要,因为其提供的搜索结果明显优于其他搜索引擎的聚合结果,但今天的情况似乎已经发生了变化。
在关于 Xe 和我们的思想领袖的辩论中,Xe 认为简单的搜索查询被无用信息淹没,而思想领袖则认为“对于谷歌搜索现在糟糕的抱怨被夸大了”,看来 Xe 的观点更为正确。虽然谷歌不公开展示过去对查询的返回结果,但许多人依然记得,曾经直接的查询往往能得到满意的结果。谷歌之所以在 90 年代迅速走红,甚至在 AltaVista 的资深用户中受欢迎,他们过去需要通过添加许多限定词来获得好的搜索结果,而在谷歌,这一切都不是必须的。但现在,情况完全反转了,我们需要添加限定词,只对特定网站进行搜索等方式,才能从谷歌获得过去简单查询所能得到的良好结果。事实上,我们现在所做的努力,比起 AltaVista 时代更加复杂。
特别感谢 Laurence Tratt, Heath Borders, Justin Blank, Brian Swetland, Viktor Lofgren(顺便一提,我在写这篇文章之前并不认识他,只是在查询之后联系他讨论 Marginalia 的搜索结果),Misha Yagudin, @hpincket@fosstodon.org, Jeremey Kun 和 Yossi Kreinin 对于他们的评论、更正和讨论的贡献
附录:其他搜索引擎
- DuckDuckGo:我曾使用广告屏蔽器比较过 DuckDuckGo 和 Bing,发现它们的搜索结果非常接近。在这里,我又试了试 DuckDuckGo,排除了 Bing 的广告后,虽然结果不如以前那么相似,但还是挺接近的,因此我觉得没必要单独列出 DuckDuckGo 的结果。DuckDuckGo 是我默认使用的搜索引擎,我认为它就像 Google 一样,如果你会用,效果很好。但对于文章中那种简单直接的查询,它可能就没那么出色了。
- wiby.me:和 Marginalia 一样,wiby.me 也是一个专门寻找较为冷门结果的搜索引擎。我用 wiby.me 尝试了之前的几个查询,结果挺有意思,因为它们与其他搜索引擎的结果完全不同。不过,对于我尝试的查询,wiby.me 并没有给出相关的结果。
- searchmysite.net:对某些查询有些许相关性,但没 Marginalia 那么准确。相比 Google、Bing 和 Kagi,它的搜索结果中骗局和充斥广告的页面要少得多。
- indieweb-search.jamesg.blog:看起来遇到了服务器故障。每次查询都会出现“由于服务器错误,无法处理您的请求”的提示。
- Teclis:搜索框还在,但任何搜索都会显示“由于遭受大量机器人滥用,Teclis.com 已关闭。Teclis 的搜索结果仍然可以通过 Kagi 搜索结果获得,主要是通过‘非商业 Web’筛选器,也提供了 API 接口。”首页上还有一则说明,指出“因为极高的机器人流量(占 99.9%),Teclis 在网站上的搜索功能已被停用。”
附录:返回良
正如我们所提到的,人们有不同的方法来取得良好成效。如果你有更佳的方法,我很乐意听听你的建议。但请注意,通常在我发表一篇指出某方法不行的帖子时,最常见的建议往往就是那些被广泛提及但实际不起作用的方法,即便我在帖子中已明确指出这些普遍建议是行不通的。比如,我关于文件系统正确性的这篇帖子中最常见的评论就是,通过使用重命名的技巧可以避免所有这些问题,虽然帖子里已经明确指出这种方法是行不通的,并解释了原因,还引用了一篇论文讨论了其不可行之处。几年后,我就这一主题进行了一次更深入的演讲,我指出人们一直在提这个无效的方法,我在演讲中收到的最常见评论就是你不必担心所有这些,因为你只需要使用重命名的技巧就行了(并且不,仅仅是因为 ext4 有auto_da_alloc
功能,并不意味着这种方法就有效,因为这只有在你确认自己使用的是一个能自动将错误代码替换为正确代码的兼容文件系统时才行得通,而这种情况下,直接编写正确的代码会更为简单)。如果你对于为什么更宽的轮胎有更好的抓地力,或者对这个现象的解释有何建议,请确保你的解释不是这篇帖子中所指出的那些常见但错误的解释,并且这种解释需要能够解释所有相关的行为特征。
关于如何为其他查询获得好的结果,鉴于这篇文章已经有 17000 字之长,我打算在未来的一篇文章中详细讨论专业与非专业计算机用户是如何与计算机互动的。
附录:查询结果总结
每个问题的答案按照从好到坏的顺序排列,这个排序是基于我个人对结果好坏的主观感受。这些查询大部分在 2023 年 11 月进行,但也有几个在 12 月中旬完成。在执行查询时,我很少亲自撰写自然语言查询。然而,普通用户常常使用自然语言查询,因此我随意地以自然语言形式进行了“轮胎”和“雪”方面的查询。在简单、直接的查询主题下,我们采用了 ChatGPT 的免费版本来完成本次发布,这意味着这些查询是通过 ChatGPT 3.5 版本进行的。理想情况下,我们会针对每个问题使用关键词和自然语言查询,进行更多查询等,但考虑到这篇文章已有 17000 字(折合标准书页约 70 页),若再增加更多查询并采用完整的查询矩阵,文章长度很快就会接近一本书。对于工作和某些数据分析,我有时会做更全面的项目,但在这里,我们不可能涵盖全面的查询集。我们所能做的,就是尝试几个具有代表性的查询,并凭借我们的判断来决定这是否符合我们和其他人通常观察到的行为。因此,我认为为了涵盖略微更广的内容而做出大约四倍的努力并不划算。
关于搜索引擎,所有查询都是在一个新开的隐身窗口中进行,且清除了 cookies。唯一的例外是 Kagi,因为它不支持未登录搜索。对于 Kagi 的查询是通过一个全新账户完成的,没有任何个性化设置或过滤器。尽管这些查询是使用同一账户连续进行的,但基于早期查询的点击情况,后续查询可能存在某种个性化排名。这些查询在加拿大不列颠哥伦比亚省温哥华进行,似乎某些搜索引擎对此有所本地化的排名处理。
- 下载 YouTube 视频
- 理想状况下,搜索结果的首位应当是
yt-dlp
或是基于yt-dlp
的简洁图形界面程序。即便是指向youtube-dl
或其他更新较少的项目的链接,也是可以接受的。 - 优秀结果(
yt-dlp
排在首位,或许还包含youtube-dl
,且没有诈骗网站):无 - 良好结果(
youtube-dl
排在首位,或许还包含yt-dlp
,且没有诈骗网站):无 - 可接受结果(
youtube-dl
排在首位,或许还包含yt-dlp
,比其他搜索引擎的诈骗网站少):- Marginalia: 最顶端的链接指向
youtube-dl
。大部分链接都与主题无关,但其诈骗网站数量远少于大型搜索引擎。
- Marginalia: 最顶端的链接指向
- 较差结果(包含一些有用链接,但同时也链接到许多诈骗网站)
- Mwmbl: 部分链接指向不良网站和诈骗网站,但数量较大型搜索引擎为少。前十名中有一个间接指向
youtube-dl
的链接,以及一个youtube-dl
的图形用户界面链接。 - Kagi: 主要是链接到一些欺诈性网站,但在向下翻阅几页后,可以找到一个指向 2010 年版
youtube-dl
的 web.archive.org 链接。
- Mwmbl: 部分链接指向不良网站和诈骗网站,但数量较大型搜索引擎为少。前十名中有一个间接指向
- 非常差的结果(未能提供任何有用的信息)
- ChatGPT: 基本上避而不答,但如果你不只是简单地提出想要解答的问题,通过巧妙设问还是有可能得到答案的。
- 糟糕透顶的结果(既无用又充满诈骗信息)
- Google: 大多数链接都是指向试图欺诈你或向你收费提供劣质版免费软件的网站。还有一些带广告的列表文章链接,提供的建议毫无价值。完全没有指向有用结果的链接。此外,还有链接到各种类似于博客垃圾的 YouTube 视频。
- Bing: 大多数链接都是指向试图欺诈你或向你收费提供劣质版免费软件的网站。同样有一些带广告的列表文章链接,其中的建议毫无价值。可以说,它们几乎没有提供任何有用的结果(尽管有人可能会认为第 10 个结果尚可,尽管它看起来像是恶意软件)。
- 理想状况下,搜索结果的首位应当是
- 广告拦截器
* 理想状况下,首选的链接应该直接指向 ublock origin。如果没有,那么任何指向 ublock origin 的链接也算不错 * 优秀结果(ublock origin 是首位结果,无欺诈性链接): * ChatGPT: 首个推荐是 ublock origin * 良好结果(ublock origin 排名靠前,但不是首位;排在 ublock origin 之前的结果要么显然不是广告拦截器,要么虽不及 ublock origin 但基本可以免费使用;没有直接诈骗的链接):无 * 可接受结果(ublock origin 在搜索结果中,比其他搜索引擎的诈骗链接少,且诈骗链接不多) * Marginalia: 第 3 和第 4 个结果可以导航至 ublock origin,第 8 个结果正是 ublock origin。没有明显的直接诈骗链接,只有一个与 SEO 相关的虚假广告链接(相比大型搜索引擎要好得多) * 较差结果(没有链接到 ublock origin,大多链接到要求付费才能使用完整功能或默认允许部分广告通过的广告拦截器): * Mwmbl: 许多不相关链接及一些指向 ghostery 的链接。存在一个诈骗链接,但比传统商业搜索引擎要少 * 非常差的结果(几乎所有链接都是指向设置付费墙以获取完整功能的广告拦截器,或默认允许一些广告通过) * Google: 大量链接到“加入了可接受广告计划的广告拦截器,即发布商同意其广告满足特定标准”。一些似是而非的诈骗链接。没有任何指向 ublock origin 的链接。还有链接到一些类似博客垃圾的 YouTube 视频。 * Kagi: 与 Google 类似,但诈骗链接更多,尽管比 Bing 少 * 极差结果(几乎所有链接都是指向设置付费墙以获取完整功能的广告拦截器,或默认允许一些广告通过,并且有大量诈骗链接): * Bing: 与 Google 类似,但诈骗链接更多,且没有 YouTube 视频垃圾
-
下载 Firefox
- 理想状况下,我们希望获得直接下载 Firefox 的链接,不含任何假冒或诈骗链接
- 优秀结果(提供下载 Firefox 的链接;无诈骗链接):
- Bing: 提供下载 Firefox 的链接
- Mwmbl: 提供下载 Firefox 的链接
- Kagi: 提供下载 Firefox 的链接
- 良好:
-
ChatGPT: 对于这个问题的分类有些微妙,因为虽然这些指令技术上不正确,但人类很容易就能理解并下载火狐浏览器。
-
可接受的结果(提供一些间接的火狐浏览器下载链接;没有诈骗):
- Marginalia: 提供了一些间接的方法,通过指令下载火狐浏览器。
-
差劲的结果(提供下载火狐浏览器的链接,但夹带诈骗):
- Google: 大部分链接都是合法的,但第七个链接是个诈骗,企图让用户安装恶意软件;第十个链接是个广告,似乎是诈骗,试图获取用户的信用卡信息。
-
为什么更宽的轮胎抓地力更强?
- 理想情况下,应该提供一个清晰的解释,不仅是表面原因,还要解释这一现象背后的原理。
- 很好/好/尚可的结果:无
- 差劲的结果(没有或极少数明显错误的结果):
- Mwmbl: 仅有一个明显错误的结果,没有其他。
- Marginalia: 有两个明显错误的结果,没有其他。
- 非常糟糕的结果:(极少数看似可信但错误的结果)
- ChatGPT: 典型的 ChatGPT 错误想象,对很多人来说似乎可信(听起来像许多不正确的互联网评论,但表达得更为精准)。
- 糟糕的结果(大量看似可信但错误的结果,常见于广告网站):
- Google / Bing / Kagi: 充斥广告的错误结果,常有诈骗性质的广告。
-
为什么不断缩小 CPU 晶体管的尺寸?
- 理想情况下,应该链接到一个清晰的解释,最佳的解释通常在 VLSI 教科书中,但在讲义和演示文稿中也能找到很好的解释。
- 很好的结果(链接到非常好的解释,无诈骗):无
- 好的结果(链接到还不错的解释,无诈骗):无
- 尚可的结果(链接到可以进一步搜索并找到好解释的内容,不会误导,且不会把糟糕的解释排在前面):
-
Bing: 链接顶部部分能回答问题,进一步搜索可能找到正确答案。但同时夹杂大量无关答案和充斥广告的 SEO 垃圾。
-
差劲结果(无结果、少数明显不相关或众多似是而非的错误结果,偶有可用结果):
- Marginalia: 无答案
- Mwmbl: 一条显然无关的答案
- Google: 第五个链接含正确关键词,或许深入搜索能找到答案。大部分链接提供误导或部分错误答案,许多指向 Quora,未解答问题。还有不少指向其他 SEO 差劲答案。
- Kagi: 第十个链接深入浏览后可找到正确答案。其他链接效果不佳。
-
极差结果:
- ChatGPT: 未能直接回答问题。进一步询问其答案会导致其产生错误的解释。
-
2023 年冬季温哥华降雪预报
- 理想答案不明确,但较好答案可能是环境加拿大的降雪预报,预测降雪远低于常年水平(且气温偏高)。
- 极佳结果(链接至环境加拿大 2023 年冬季降雪预报或同等优质内容):无
- 好结果:无
- 可接受结果(链接至某种合理的冬季降雪预报,非虚构广告内容):无
- 差劲结果(无结果或显然无关):
- Marginalia: 无结果
- ChatGPT: 结果错误,但问题前加“User\n”后,链接至正确网站(导航至好结果较难),稍变提示可能偶得可接受结果。
- Mwmbl: 多个明显无关结果
- 极差结果:无
- 极糟结果(链接至假冒预报结果):
- Bing: 大多无关。最相关看似第五个链接,实为诈骗站点,编造天气预报,通过 SEO 网站广告赚钱。
-
Kagi: 前四个搜索结果来自一个诈骗预报网站,这也是 Bing 搜索的第五个链接。
-
Google: 大部分结果都不相关,第一个结果更是来自一个当地除雪公司的虚假答案。该公司预测未来会有大雪和寒冷天气,试图诱使人们购买一年的除雪服务。其余结果则是充斥着广告的、为了搜索引擎优化(SEO)而制作的无用内容。
附录:详细的查询结果
下载 YouTube 视频
对于我们的第一个查询,我们将搜索“下载 YouTube 视频”(Xe 建议的搜索词“YouTube 下载器”得到的结果非常相似)。最佳的搜索结果应该是 yt-dlp
,或者是一个基于 yt-dlp
的轻量级且免费的应用。yt-dlp
是基于现已停止更新的 youtube-dl
的分支 youtube-dlc
的一个派生版本。如若这些旧版下载器仍能使用,那么提供它们的链接也是可接受的。
-
一些 YouTube 视频下载网站声称经过了“诺顿安全网”的审核,保证网站和工具的安全。但任何与该网站的互动都会弹出安装浏览器扩展和启用通知的提示。尝试下载视频时,会弹出一个全屏广告,要求安装一个名为 CyberShield 的扩展,且似乎无法关闭这个广告,除非点击安装。即使点击了链接但最终未安装 CyberShield,也无法下载视频。谷歌搜索“cybershield chrome 扩展”显示,Cyber Shield 是一个浏览器扩展,声称能阻止弹出广告,但实际上会在浏览器中显示广告,包括销售软件广告、假软件更新和技术支持诈骗。因此,CyberShield 很可能是恶意软件。
-
另一些 YouTube 下载器网站在与网站互动时会弹出下载浏览器扩展的提示。输入视频链接后,会弹出一个诈骗网站的广告,但视频确实开始下载了。这意味着如果你小心避免与诈骗内容互动,还是可以在这里下载 YouTube 视频的。
-
PC 杂志发布了一篇关于如何从 YouTube 下载视频的列表式文章。文章最推荐的方法包括付费下载 YouTube 视频、使用 VLC(尽管他们试验时发现不起作用)、一些分别需要每年支付 15 美元和 26 美元的软件、以及“FlixGrab”。文章还警告说许多下载器网站通常涉嫌诈骗,不推荐使用这些网站。每个建议旁边都有多于一个的广告。
-
一些 YouTube 下载器网站通过在页面上弹出的广告欺骗用户点击,这些广告会在用户与页面进行任何互动之前出现。
-
还有一些 YouTube 下载器网站通过弹出窗口诱导用户点击诈骗广告。
-
一些 YouTube 下载器网站利用弹出窗口诱使用户点击诈骗广告,例如:“Samantha 24,温哥华 | 我想要性爱,写到 WhatsApp | 关闭/继续”。在网站上点击任何内容(包括任何按钮或其他地方)都会导致尝试安装一个名为“Adblock Ultimate”的软件。
-
ZDNet 发布的文章列表中,首先推荐的是 Clipware(一种软件),这款软件在安装程序中似乎捆绑了许多恶意软件、广告软件和垃圾软件:警告链接。文章列表中充斥着广告,并配有自动播放视频。
-
[YouTube 视频] 两分钟以上的广告之后,是一个关于如何订阅 YouTube 高级版(YouTube Premium,视频观看次数达到 200 万)的视频。
-
[YouTube 视频] 视频开头请求观众观看完整视频(可能是为了赚取广告费?),并试图推荐一款需要付费的视频下载软件。
-
[YouTube 视频] PC 杂志的视频指出,你可能不需要下载视频,因为可以使用分享按钮,然后建议阅读他们的相关文章(搜索结果中的第三项)了解如何下载视频。
-
一个 YouTube 视频下载网站,充满了诈骗性广告。任何与该网站的互动都会促使你安装“终极广告拦截器”(Adblock Ultimate)。
-
另一个 YouTube 视频下载网站,有弹出式窗口诱导点击诈骗性广告。
-
还有一个充斥着欺诈性广告的 YouTube 视频下载网站。
在 10 个“常规”的搜索结果中,有 9 个结果以不同方式试图让用户安装恶意软件或涉及广告诈骗。只有一个网页没有这样做,但它也未推荐任何优质的免费 YouTube 视频下载方法,而是列举了多种付费方案。此外,我们还发现了三个 YouTube 视频,这些视频似乎都是针对搜索引擎优化的博客垃圾视频。有趣的是,我们这次并未从谷歌那里看到很多广告,虽然上次我关闭广告拦截器进行谷歌测试搜索时确实遇到了广告泛滥的情况。
必应
-
一些 YouTube 视频下载网站。这是通过谷歌搜索发现的第二个网站,其中充斥着诈骗网站的广告。
-
[进一步探索 ... "根据热门推荐给你"] 另一个 YouTube 视频下载网站,不是通过谷歌搜索找到的。这个网站有许多闪烁的广告,自称提供“圣诞节半价优惠”(这是在 11 月中旬进行的搜索)。试图下载视频时,会出现一个假装下载的进度条,并提示“下载太慢?尝试 [我们的程序]”。等待一段时间后,会出现一个视频下载链接,但这实际上是一个陷阱,点击后会试图安装名为“oWebster 搜索扩展”的插件。通过谷歌搜索“oWebster 搜索扩展”,可以发现这是一种劫持浏览器、显示广告的恶意软件。搜索结果中,安装方法和卸载方法占据了前列。很多提供卸载方法的链接其实也是诈骗,会安装其他恶意软件。避免安装这种恶意软件后,再次点击下载链接会弹出一个窗口,试图让你安装该网站的软件。如果关闭这个弹窗再次尝试下载,结果依旧是这个弹窗,因此这个网站很可能是个完全的诈骗,根本不提供视频下载服务。
-
[进一步探索] 与该网站互动时,会弹出一些带有吸引人女性照片的假广告,声称她们想与你聊天。点击视频下载按钮时,它会试图让你安装一个假冒的广告拦截器,这个拦截器实际上会 显示更多的弹窗广告。不过,这个网站看起来确实提供了视频下载功能。
-
[进一步探索] 情况与第 3 点相同。
-
[进一步探索] 情况与通过谷歌搜索发现的第一个网站(那个试图诈骗你的 NortonSafeWeb YouTube 视频下载网站)相同。
-
[进一步探索] 一个可以将视频转换成 MP4 格式的网站。我没有验证这个网站是否真的有效或者是否只是个诈骗,因为它甚至没有声称能够下载 YouTube 视频。
-
再次提到 Google (1)。那个 NortonSafeWeb 提供的 YouTube 下载网站实际上是个骗局。
-
[进一步探索] 指向 youtube.com 主页的链接。
-
[进一步探索] 一个带有弹窗的 YouTube 下载网站,弹窗中的广告试图诱使你点击。关闭弹窗后,会出现另外 12 个广告。其中一个广告伪装成 YouTube 下载按钮,诱骗点击。如果滚动屏幕,可以看到一个文本框和一个下载 YouTube 视频的按钮。但输入有效的 URL 后,系统会报错,称找不到该 URL 对应的视频。
-
有一个巨大的广告牌,上面有一个下载按钮。但这个按钮是假的,点击后只会跳转到该网站。该网站大声宣称软件没有广告软件、间谍软件等。许多网民评论说,他们的防病毒软件将这款软件标记为恶意软件。也有评论指出,虽然这款软件偶尔能用,但大多数时候效果并不理想。该软件的网站上有一个嵌入的 YouTube 视频,显示“此视频因违反 YouTube 服务条款而被移除”。奇怪的是,提供给 Mac 和 Linux 用户的下载链接并非该软件,而是
youtube-dl
的安装指南;考虑到 Windows 版本可能是恶意软件,这似乎说得通。Windows 的下载按钮会引导你到一个页面,从那里可以下载 Windows 可执行文件。此外,还有一个链接会引导到一个充满广告的页面,这些广告假扮成普通按钮,试图诱骗你点击。 -
一篇 PC 杂志的列表文章。
-
一则广告宣称其 YouTube 下载程序“今日下载量达 345,764,132 次”;在 Reddit 上搜索这款产品的名字,似乎显示它是恶意软件。
-
一种付费下载软件的广告。
这是第一页的内容总结。
就像 Google 一样,没有找到好的结果,大多是欺诈和疑似欺诈的软件,这些软件或许不是直接的骗局,但往往是围绕某个开源项目的轻量级外壳,收费使用而非免费提供。
边注
- 12 岁的回答建议使用 youtube-dl,但该链接已被删除,显示“由于汉堡地方法院的裁定,此网站已被屏蔽。”
- 一些像在常规搜索引擎中看到的 SEO(搜索引擎优化)文章
- Leawo YouTube 下载器(我对此不了解,但初步搜索并未发现其是恶意软件,与谷歌和必应的搜索结果不同)
- 常规搜索引擎中的 SEO 列表文章
- 针对某款不明软件的错误报告
- 一位博主推荐的“4K 视频下载器”。初步搜索显示,这不是骗局或恶意软件,但它的部分功能需付费解锁,不如免费的
yt-dlp
或基于yt-dlp
的免费软件 - 一篇讲述如何安装和使用
yt-dlp
的博客文章。文章原先是关于youtube-dl
,后来更新为yt-dlp
。 - 还有一些软件,虽然需要付费,但你可以通过免费的方式获得相同的功能,即使在 reddit 上搜索这些软件也能找到破解版
- 一篇推荐过时软件的列表文章,如 RealPlayer。整个博客似乎都是充满了低质量的推荐。
- 一个名为“键盘大师”的脚本,用于下载 YouTube 视频。如果你已经使用了这款软件,它可能很有用,但如果你没有,这可能不是解决这个问题的最佳方案。
总的来说,这是目前为止最佳的搜索结果。第一个链接虽然失效,但你仍然可以轻易地通过它找到 youtube-dl
。我不太会考虑使用 Leawo YouTube 下载器,但至少它不像谷歌或必应的搜索结果那样,主要是关于该项目是恶意软件或骗局的信息,这已经有所改进。我们还找到了 yt-dlp
的推荐,包括一篇博客文章,作者只是想帮助那些试图下载 YouTube 视频的人。
Kagi
- 1. NortonSafeWeb 的 YouTube 下载网站。只要与这个网站有任何互动,系统就会提示你安装一个浏览器扩展并激活通知功能。尝试下载视频时,会出现一个强制性的全屏弹窗,要求安装名为 CyberShield 的扩展,而且似乎无法关闭这个弹窗,除非点击安装。
- 2. 另一个连接到 NortonSafeWeb YouTube 下载网站的链接。不知为何,这个链接被标记为“2003 年 12 月 20 日”,似乎暗示该网站建立于此日期,但这显然是错误的。
- 3. 某个 YouTube 下载网站。选择下载任意视频时,你会被引导到一个充斥着诈骗广告的网站。
- 4. 另一个 YouTube 下载网站。在这个网站上任何操作都会弹出多个诈骗广告,并且网站还会请求开启通知。紧接着,一个声称“广告已移除”的弹窗出现,提供了一个所谓详细信息的链接,实际上这也是一个广告链接。
- 5. 另一个指向上述网站的链接。
- 6-7. 在“有趣发现”小节下,有两个 GitHub 仓库的链接。一个是用于把 YouTube 视频转成文本的工具,另一个则是利用 Google Takeout 从 Google Photos 或个人 YouTube 频道备份照片的方法。
- 8. 一些 YouTube 下载网站。
- 9-13. 在“往昔回声”小节下,有四个无关的链接和一个链接到 YouTube-dl 的 GitHub 页面,但链接到的是 archive.org 上的 2010 年版本。
- 14. 一篇有关 YouTube 使用帮助的 SEO 垃圾博客文章。该文章中有一个链接,声称是下载 YouTube 视频的 Greasemonkey 脚本,但实际上链接只会导向一个充满诈骗广告的页面。
- 15. 一款软件,收费 5 美元/月,用于从 YouTube 下载视频。
Mwmbl
-
一个 Youtube 视频下载网站,但这是其他搜索引擎没找到的。网站有个巨大的广告板,上面显示“503 NA - 服务逐渐废弃”。点击下载链接只会弹出一些广告窗口,随后这些广告窗口消失,只留下显示 503 信息的广告板。
-
一款售价 20 美元的 Youtube 视频下载软件。
-
一篇 2016 年的博客文章,介绍如何安装和使用
youtube-dl
(一种视频下载工具)。文章侧边栏有两个质量较低的广告,似乎并非诈骗。文章主体中间插入了两个广告,与大型搜索引擎提供的类似内容相比,这篇文章的广告数量显得很少。 -
另一个 Youtube 视频下载网站。网站上有个巨大的横幅,声称自己是“唯一一个 100% 无广告且无弹出窗口的 YouTube 下载器”,虽然这可能不完全准确,但网站看起来确实没有广告和弹出窗口。下载链接似乎能正常工作。
-
一个 Youtube 视频,教人们如何在 Linux 系统上安装和使用
youtube-dlg
(youtube-dl
的图形界面版本)。(该搜索是在 Mac 电脑上进行的)。 -
一个链接,原来指向 2007 年的一篇博客文章,介绍如何下载 Youtube 视频,但现在会自动跳转到一个 2020 年的充满广告的低质量 SEO 博客文章,内容主要是一些不太实用的建议。文章中有两个自动播放的视频。根据 Archive.org 的记录,2007 年的博客文章曾经提供了一些当时相对合理的下载方法,所以这个结果并非始终如此糟糕。
-
在一家主流网站上的博客文章实际上是一篇推广文章,旨在推广一个特定的视频下载器。在 Reddit 社交网站上的评论显示,用户认为这个应用是个既浪费钱又不起作用的东西。该网站还充斥着对其他产品的欺骗性和误导性广告。例如,我尝试点击了一个声称能在“产品”上节省钱的广告。它加载了一个假的“检测电脑兼容性”的动画,然后又出现了另一个类似的动画,最后显示我的电脑兼容,我可以节省钱。我只需安装这个扩展程序。关闭这个窗口后,又弹出一个新标签,上面写着“等等!你真不想在结账时自动节省钱吗?”选项包括“是的,获取优惠券”和“不,不节省”。选择“不,不节省”实际上是一个广告,它会引导你回到一个试图让你安装 Chrome 扩展的链接。
-
那个声称是“Norton 安全网”的 YouTube 下载器网站,链接却错误地指向了一个下载 Instagram 视频的网站版本,而不是 YouTube 视频。
-
一个 Google 帮助链接,解释如何下载你个人上传的 YouTube 视频。
-
一篇充斥 SEO 技巧的博客垃圾。打开后,会立即弹出一个让你订阅他们新闻通讯的窗口。关闭这个窗口后会出现另一个窗口,提供“订阅”和“稍后”选项。点击“稍后”确实可以关闭这个窗口。在关闭了这些弹窗之后,文章介绍了如何为 Windows 安装一些软件。搜索这款软件的评论时,会发现像“这是一个潜在不需要的程序 (PUP)/可能不需要的应用程序 (PUA),可能会下载不必要的甚至是恶意应用到你的电脑”的评论。
这些情况基本上和 Google 或 Bing 搜索时的情况相似。
ChatGPT
鉴于 ChatGPT 更擅长处理对话式的查询,我们决定用这个问题进行测试:“我如何下载 YouTube 视频?”
我们第一次尝试是在星期一上午 10:38 太平洋时间,回应是:“我们的系统现在有些忙,请稍后再试。”第二次尝试得到的答案是,除非支付 YouTube Premium 费用,否则不应该下载视频。但如果你还是想下载,可以尝试使用第三方应用和网站。随后,我们追问:“哪些是最好的第三方应用和网站?”得到的回答是另一个警告,不建议使用第三方应用和网站,接着是一条颇具讽刺意味的 GPT 警告:
我不支持或提供有关下载 YouTube 视频的特定第三方应用或网站的信息。在处理在线内容时,必须小心并严格遵守法律和道德指南。
ad blocker
接下来,我们试着查询“广告拦截器”。我们希望得到的答案是 ublock origin
。如果不是,那么至少是一个默认情况下能拦截广告的软件。再不然,就是一个既不是骗局也不会添加额外广告或其自有广告的软件。虽然最佳选择可能随时改变,但我看过的比较显示,ublock origin 在性能上往往是最好的,或者至少是最佳之一,而且它是免费的,并且能拦截广告。
-
"AdBlock — 最佳广告拦截器"。该页面下方说明了“AdBlock 参与了可接受广告计划,因此它不会屏蔽那些不显眼的广告”,这意味着它并不完全屏蔽所有广告。
-
Adblock Plus | 全球排名第一的免费广告拦截器。其页面上提到“默认情况下,可接受的广告会被允许,以支持网站运营”,因此它默认也不会屏蔽所有广告。
-
AdBlock。其页面说明“自 2015 年起,我们加入了可接受广告计划,合作出版商会确保他们的广告符合特定标准。被认定为非侵扰性的广告会默认向 AdBlock 用户展示”,因此它同样不会屏蔽所有广告。
-
"Adblock Plus - 免费广告拦截器",这与第 2 点相同,不会默认屏蔽所有广告。
-
"AdGuard — 世界最先进的广告拦截器!" 该页面试图推销一款付费软件“AdGuard for Mac”。有网帖提到,有用户在寻找能屏蔽 AdGuard 注入广告的拦截器。貌似 AdGuard 可以免费下载,但如果你不付费订阅,似乎会遭遇更多广告?
-
"AdBlock Pro" 在 Safari 应用商店上架,含有应用内购买功能。看来要付费才能解锁包括视频广告拦截在内的某些功能。
-
[YouTube] "YouTube 如何处理广告拦截的反弹效应"。这是一个 30 秒的视频,开头有 15 秒的广告,但视频本身并无实质内容。
-
[YouTube] "我对 YouTube 广告拦截争议的看法"
-
[YouTube] "2023 年在 Google Chrome 中免费屏蔽广告的方法";视频下的第一条评论指出:“这视频并未讲述如何停止 YouTube 广告”。视频中,讲述者先是简短地说了几句,接着在 Google 上搜索
ad blocker extension
并点击了第一个链接(与我们的第一个链接相同),然后说:“我现在访问的这个网站基本上是 Google 的官方网站……[安装后,弹出一个支付页面,询问是否支付 30 美元或选择月付或年付方式]”。 -
App Store 上的 "AdBlock for Mobile" 在 iOS 应用商店的评分为 3.2 星。很多评论指出,这款应用实际上并没有太大效果。
-
MalwareBytes 广告拦截器(MalwareBytes ad blocker)。快速搜索显示,它并不能拦截所有广告,但尚不清楚这是故意为之还是程序上的错误。
-
"在 Chrome 中拦截广告 | AdGuard 广告拦截器",情况与之前提到的第 5 项相似。
-
[广告] NordVPN
-
[广告] “2024 年最佳免费广告拦截器 - 100% 免费广告拦截。”这则广告一看就很可疑,因为它宣称的年份是假的(这个搜索是在 2023 年 11 月中旬进行的)。这是针对 TOTAL Ad Block。网上搜索显示,TOTAL Ad Block 是一个欺诈性应用,不允许用户取消订阅,并试图盗取用户的资金。(来源链接)
-
[广告] “100% 免费且易于下载 - 自动广告拦截器。”实际上这是针对 Avast 浏览器的广告,而不是广告拦截器。网上搜索显示,与直接运行 Chromium 相比,这个浏览器的安全性较低,并且它从用户那里收集了异常多的信息。(来源链接)
没有发现指向 ublock origin 的链接。尽管链接到了一些欺诈性网站,但数量并不像在寻找 YouTube 视频下载器时那么多。有很多链接指向那些故意只默认拦截部分广告的广告拦截器。
必应
- 1. [广告] “自动广告拦截器 | 100% 免费且易于下载”。[这个链接实际上是指向 Avast 安全浏览器,它不仅仅是个广告拦截器,而是一个基于 Chromium 开发的浏览器。根据一些快速搜索,这个浏览器似乎是 Chromium 的一个变体,且[有着比直接使用 Chromium 更低的安全性](https://palant.info/2020/01/13/pwning-avast
当您点击指向 ublock origin 的链接时,会跳转到一个页面,上面显示 ublock origin 在 trustpilot 的评分为零星。页面上有多个显眼的大按钮,上面写着“点击这里开始屏蔽广告”,这实际上是在诱导用户安装一个名为 TOTAL ad block 的软件。在页面右下角,一个类似广告位的图片上写着“访问 ublock origin 的网站”,但实际上这个链接并不会引导您访问真正的 ublock origin,而是跳转到一个假冒的网站(假的 ublock origin)。
- 4. [广告] “AVG 免费杀毒软件 2023 | 100% 免费,安全下载”。这个至少并不假装自己是一个广告拦截软件。
- 5. [来自 adblockplus.org 的探索内容] 一个指向 adblock plus 博客的链接。
- 6. [来自 adblockplus.org 的探索内容] 一个指向 adblock plus 功能列表的链接。
- 7. “Adblock Plus | 世界排名第一的免费广告拦截器”。
- 8-13. 指向 Adblock Plus 网站上各种页面的子链接。
现在我们已经向下滚动了三屏,所以类似于上面的谷歌搜索结果,主要是一系列的广告,随后是指向某个单一网站的链接。广告的标识远比我在其他网站上见过的都要不明显。根据我们对于用户如何将广告与自然搜索结果混淆的认识,大多数用户可能没意识到顶部的搜索结果其实是广告,而把那些引导至假冒广告拦截器或者虚假评论网站的链接误认为是自然搜索结果。
边际笔记
- 来自 judaism.stackexchange.com 的问题:“使用广告拦截软件是否合适?”
- 关于 Ghostery 的广告推广博文。Ghostery 的价格页面显示,要想去除“私人赞助链接”需要付费,这意味着某些功能是付费的。维基百科指出:“自 2018 年 7 月起,从 8.2 版本开始,Ghostery 会向用户展示其自己的广告”,但这似乎是可选择的?
- https://shouldiblockads.com/ 解释了为什么你可能会选择屏蔽广告。首选推荐是 ublock origin。
- “找到最适合您的广告拦截器 - Firefox 插件博客”。首推 ublock origin,并提供了其他广告拦截器的准确信息。
- 一篇关于个人为何安装广告拦截器的博客文章。
- Opera 浏览器。
- 反对广告拦截器对抗手段的博客文章。
- ublock origin。
- Fairphone 论坛上的讨论,关于是否应安装广告拦截器。
- SEO 站点的广告推广博文(即该站点专注于 SEO 优化,通过博文产生回链,吸引更多网站流量)。
到目前为止,这可能是我们看到的最佳搜索结果,因为第三和第四项结果推荐了 ublock origin,第一个结果明确指出它不是广告拦截器。尽管第二个结果是 Ghostery 的广告推广博文,但这比我们在 Google 和 Bing 上看到的结果要好。
Mwmbl
- 一条指向 VC 思想领袖关于广告拦截观点文章的 bitly 链接。
- 一条通向 cryptojackingtest 的链接,该链接转到 Opera 浏览器。
- 指向 ghostery 的链接。
- 另一条指向 ghostery 的链接。
- 一条链接指向一个叫做 1blocker 的服务,似乎是一款付费广告拦截器。搜索其评论时,发现有人说:“我试用了 1blocker 的免费版,忘了取消订阅,结果被自动收取了 20 美元的年费 [原文如此]”(但评论也显示这款广告拦截器是有效的)。
- 关于 Ad Guard 的博客垃圾信息。网站上有一个横幅广告,为这款广告拦截器提供 40% 折扣。
- 一个广告满载的网站,似乎因为包含“检测到广告拦截器”这一字样而被列入搜索结果(我在打开页面时并未看到这些文字,但它们出现在了 Mwmbl 的页面预览中)。首页几乎全是广告,只有一个“阅读更多”的按钮。点击后,会跳转到另一个同样充满广告的页面,那里才有所谓的“内容”,即卡通。
- 另一个因包含“检测到广告拦截器”字样而出现在搜索结果中的网站。
- Malwarebytes 的广告拦截器,看起来并不起作用。
- 关于 YouTube 加强广告拦截器打击的文章在 HN 的评论。浏览至第 41 条评论时,有人推荐了 ublock origin。
Mwmbl 允许用户推荐搜索结果,因此我尝试注册并添加 ublock origin。但 Gmail 把注册邮件归为垃圾邮件。在我添加 ublock origin 后,当我退出登录、使用隐身窗口搜索“广告拦截器”时,它现在成了第一搜索结果,其他结果都下降了一名。如前所述,Mwmbl 的评分是在我修改搜索结果之前的,而非之后。
Kagi
-
- "Adblock Plus | 全球排名第一的免费广告屏蔽工具"。
- 2-11. Adblock Plus 网站上其他页面的相关链接。
-
- "AdBlock — 最佳广告屏蔽工具"。
-
- "Adblock Plus - 免费广告屏蔽工具"。
-
- "YouTube 对广告屏蔽工具的打击",这是一篇讨论该主题并引用相关讨论的博客文章。
- 15-18. 在 "有趣发现" 部分,介绍了三篇关于 YouTube 如何打击广告屏蔽工具的文章。其中一篇用全屏弹窗强制推广 TOTAL Adblock,提供了 "关闭" 和 "打开" 两个按钮。但 "关闭" 按钮无效,任何链接或 "打开" 按钮均会引导至 TOTAL Adblock 的广告页面。看似无法关闭这个广告并阅读真正的文章,除非通过开发者工具之类的方式移除广告元素。另一篇文章标题为“FBI 现在建议网上搜索时使用广告屏蔽工具”,文章的主要部分被一个巨大的广告占据。下滑可以看到更多广告。
-
- "AdBlock"。
-
- Adblock 网站的另一个链接:“Chrome 广告屏蔽器 - 现在下载并安装 Chrome 的 AdBlock!”。
- 21-25. "往日回顾" 部分提供了 optimal.com 的广告屏蔽器,一篇介绍如何绕过 adblock 的 Medium 文章,一篇由 Mozillan 撰写的题为 "广告屏蔽器为何有效" 的博文,这是对 Ars Technica“广告屏蔽对你喜爱的网站有何毁灭性影响”一文的回应,以及 "为什么你需要全网广告屏蔽器(第一部分)" 和 "一个流行的广告屏蔽器也在帮助广告行业"(副标题为:“数以百万计的人使用 Ghostery 工具来阻止在线追踪,他们中的一些人可能不知道这其实在为广告行业提供数据")。
在内容质量上,与 Google 和 Bing 相当,但在骗局链接数量上处于两者之间。
ChatGPT
我们尝试了这个问题:“我该如何安装最佳广告屏蔽工具?”
首先推荐的是 ublock origin,其次是 adblock plus。这似乎是最佳结果,相比其他选择有明显优势。
下载 Firefox
谷歌
- 1-6. 提供了下载火狐浏览器的链接。
- 7. 一篇含有广告的博客文章,企图引导用户下载含有恶意软件的假冒火狐浏览器。
- 8-9. 提供了下载火狐浏览器的链接。
- 10 [广告] 一个可疑网站声称提供火狐浏览器下载,但实际上这些下载链接会引导你到其他网站,这些网站会诱使你注册账户,并要求提供个人信息和信用卡号码。如果你尝试下载火狐浏览器,会弹出一个含有上述内容的窗口。至少有一个网站与赌博有关,因此这个网站可能通过推荐用户到赌博网站来获利。
大部分链接是有效的,但在前十个链接中有两个是诈骗链接。幸好我们没有再次遇到 2017 年的情况,当时谷歌在火狐浏览器的搜索结果中支付费用以获取更高的排名。在几乎所有搜索引擎都会返回大量诈骗链接的搜索查询中,前十个链接有两个是诈骗链接可能还可以接受,但在大多数搜索引擎都不会返回虚假或诈骗链接的情况下,这种情况应评为“差”。尽管有人可能会认为大多数用户只会点击前几个链接,不会注意到第 7 个链接,但我认为如果谷歌确信大多数用户不会点击到第 7 个和第 10 个诈骗链接,那么他们就应该只展示前几个链接。
必应
- 1-12. 提供了下载火狐浏览器或相关内容的链接。
- 13. [广告] Avast 浏览器的链接。
这是搜索结果的第一页。看上去很不错,没有发现任何看起来像诈骗的链接。
边际笔记
- 1. “在 UNIX stackexchange 上,是从官网下载 Firefox 更好,还是使用包管理器(package manager)更佳?”
- 2-9. 各种与 Firefox 相关但并非下载链接的网址。
- 10. “互联网下载加速器在线帮助”。
显然不如 Bing,因为没有一个链接直接指向 Firefox 的下载页面。这取决于你如何权衡用户避免上当受骗与获取正确下载链接的重要性,这可能比 Google 好也可能更差。在这篇文章中,由于诈骗链接被较重视,因此边际笔记在这方面的排名高于 Google。
Mwmbl
- 1-7. Firefox 下载链接。
- 8. 一个与 Firefox 无关的 Tumblr 链接,标题是“爱自己,下载 Firefox”(这是整个博客的标题,而非某篇特定博文的标题)。
- 9. Firefox Nightly 版本的下载链接。
- 10. 一个声称可以下载 Firefox 的非常可疑链接。尝试下载这个可疑的 Firefox 时,会弹出一个广告,试图诱使你下载 Opera 浏览器。我并未实际运行 Opera 或 Firefox 的安装文件,所以无法确认它们是否安全可靠。
kagi.com
- 1-3. Firefox 下载链接。
- 4-5. 在“有趣发现”标题下,一则指向标题为“尝试在 Windows 上下载和安装 Firefox 会发生什么”的失效推文的链接(之前曾提到,在 Windows 上下载 Firefox 时,系统会弹出推荐使用 Edge 浏览器以“保护您的电脑”的提示)(https://web.archive.org/web/20220403104257/https://twitter.com/plexus/status/1510568329303445507),以及一篇充斥广告的文章(不过值得一提的是,这些广告看起来并非诈骗广告)。
- 6. 下载 Firefox 的链接。
- 7-10. 三个下载旧版本 Firefox 的链接,以及一篇关于 Firefox 与 eBay 合作的博客文章。
- 11. Mozilla 官方主页。
- 12. 下载 Firefox 的链接。
可能处于 Bing 和边际笔记之间。虽然没有诈骗链接,但有许多无关的链接。与一些大型搜索引擎不同,这些链接大多是为 Windows 版本的 Firefox 提供的下载链接,而我使用的是 Mac,这些链接对我来说并不适用。
ChatGPT
当询问“如何下载 Firefox 浏览器?”时,ChatGPT 返回了一些在技术上不太准确的下载指南。虽然这些指南正确地引导用户访问了 Firefox 的官方网站,但其余部分可能让用户感到困惑。这种情况有点类似于书籍边注,用户可以通过点击网站上的链接来下载浏览器,但过程并不十分直接。尽管如此,我认为用户最终还是能够找到正确的下载步骤。与 Marginalia 相比,ChatGPT 在这个问题上的表现更好,更有可能帮助用户成功下载。
为何更宽的轮胎抓地力更强?
正确解释这个问题,至少需要考虑以下几点:
- 以一种适中宽度的轮胎作为基准。
- 适当增加轮胎和轮圈的宽度(确保改动后的配置仍适合车辆,无需大幅修改),通常会提高干燥路面的刹车性能和赛道圈速。
- 在湿滑路面,更宽的轮胎配置往往能实现更短的刹车距离(尽管这很大程度上依赖于具体配置)和更快的圈速,但也更容易在较低速度时水滑。
- 只增加轮圈的宽度而保持轮胎不变,通常能在一定程度上提高圈速。
- 只增加轮胎宽度而不变更轮圈,通常会导致圈速变慢。
- 轮胎气压变化对性能的影响。
- 在小的侧滑角度下,提高轮胎气压可以增加横向力。
- 一般来说,适度降低轮胎气压可以提高轮胎的有效摩擦系数。
关于这个问题,存在许多标准的误解或不完整的答案,包括:
-
更宽的轮胎由于表面积增加而提供更强的抓地力。
- 但实际上,在合理的轮胎气压下,更宽的轮胎并不会显著增加表面积。
-
事实上,更宽的轮胎并不因为增加的表面积提供更多的抓地力,因为摩擦力是表面积和一个固定常数的乘积,而表面积受空气压力影响。
- 然而,实验观察表明,更宽的轮胎确实能带来更好的操控性和制动性能。
-
更宽的轮胎可以使用更软的材料,因此更宽轮胎提供更多抓地力的真正原因在于软质材料的使用。
- 虽然这是一个解释,但它通常被误认为是唯一原因。事实上,更宽的轮胎即使不考虑材料的软硬,也能提供更强的抓地力。这一点可以通过安装相同轮胎在更宽的轮毂上(在一定范围内)来观察到。
-
轮胎变宽时,接触面的形状改变使得侧向抓地力增强,这与诸如“轮胎负载敏感性 (tire load sensitivity)”或“动态负载 (dynamic load)”等复杂因素有关。
- 这种解释可能有其合理之处,但对于更宽的轮胎在制动时提供更多抓地力的原因仍有待阐明。而且,如果不解释这些复杂术语背后的机制,这种解释与简单归因于“魔法”的说法没有本质区别。
- 当对这些复杂的术语进行解释时,这些解释往往只针对抓地力增强的某一方面,比如只解释侧向抓地力的增强,而没有解释为什么制动距离会减少。
- 这种解释可能有其合理之处,但对于更宽的轮胎在制动时提供更多抓地力的原因仍有待阐明。而且,如果不解释这些复杂术语背后的机制,这种解释与简单归因于“魔法”的说法没有本质区别。
-
1. 一张“知识卡片”上写着:“更大的轮胎提供更宽的接触面,优化性能和牵引力”,但这并没有提供任何实质性解释。点击链接后,是一篇充斥着 SEO 和错误声明的博客文章,比如声称“在雪地条件下,窄轮胎比宽轮胎更可靠”等。
-
2. 在一个“问题下拉菜单”中提问“更宽的轮胎是否提供更多的抓地力?”,答案是“在干燥路面上,更宽的轮胎确实提供更多的抓地力,但也增加了打滑的风险”。但点击链接后,并没有解释为什么,也没有回答实际的问题。
-
3. 另一个“问题下拉菜单”中问“更大的轮胎是否提供更好的牵引力?”,答案是“更大的轮子提供更好的牵引力,因为轮胎上的橡胶更多,意味着更好的道路抓地力”,但这个解释没有道理。点击链接后,发现链接实际上在谈论轮径,而且还回答错了问题。
-
4. 又一个“问题下拉菜单”中问“更宽的轮胎为什么有更多的抓地力?”,然后是一些标准的错误解释。
-
5. 对于“更宽的轮子是否改善操控性?”的问题,答案是“更宽的轮子和轮胎会降低转向的摩擦系数”。但点击链接后,并没有解释为什么,也没有回答实际的问题。
-
6. 关于“更宽的轮胎有什么缺点?”的问题,答案是“操控和转向更加困难”。但点击链接后,只看到了多个错误的声明,没有解释为什么。
-
7. 对于“更宽的轮胎是否增加摩擦力?”的问题,答案是“力可以表示为压力乘以面积。对于宽轮胎,虽然面积大,但单位面积的力小,反之亦然。因此,无论轮胎的宽度如何,摩擦力都是相同的。”。由于无法加载页面,无法验证,但从表述上看,这个解释似乎是错误的。
-
8. 提问“20 英寸轮胎比 18 英寸轮胎有什么优势?”但实际回答的是另一个问题。点击链接后,发现内容是低质量的 SEO 博客垃圾。
-
9. 关于“赛车为何使用宽轮胎?”的提问,回答称:“宽轮胎能更有效地应对路面的湿滑或碎石。赛道上常有砾石、尘土、橡胶碎片和油渍等,这些都会降低牵引力。宽轮胎通过增加接触面积,可以更好地解决这些小问题。此外,宽轮胎的磨损特性也有所改善。”尽管这在技术层面上看似正确,但实际上并未直接回答问题,且具有一定误导性。
-
10-49. 存在许多错误的问题下拉菜单。这些菜单通常不仅答错了问题,有时甚至是错误的答案对应正确的问题,有时则是正确的答案对应错误的问题。我刚刚意识到,点击这些问题下拉菜单,会连续出现更多类似的下拉菜单。
-
50. 在“r/cars”中提出的问题“为什么更宽的轮胎有更强的抓地力?”与我所问的相同,提问者总结说:“这听起来是个很傻的问题,因为直觉上更宽的轮胎=更强的抓地力,但我不知道为什么。”而其中排名第一的答案完全没有道理:“较小的接触面积意味着更大的压力,但与大面积相比有相同的垂直力。如果相同的负荷分布在更广的区域,每一平方英寸的轮胎所承受的压力就会减少,因此更不容易被引擎产生的力量所克服。”第二个答案是一个典型的 Reddit 式回答:“把你的科学废话扔出窗外。”第三个答案虽然给出了一个关于更宽轮胎为何有更好侧向抓地力的表面上看似合理的解释,但实际上仍有误导之嫌。就像其他许多回答一样,这个答案强调更宽的轮胎带来更好的侧向抓地力,并详细阐述了其原因,但更宽的轮胎同时也缩短了刹车距离,而现有解释并未能说明这一点,因此似乎忽略了问题的重要部分。总之,其余的回答几乎都未尝试解释这一现象。
-
51-54. 其他几个 Reddit 回答也未能解答这一问题,尽管其中一个链接到了 https://www.brachengineering.com/content/publications/Wheel-Slip-Model-2006-Brach-Engineering.pdf,该文档虽然包含一些有价值的内容,但并未直接回答提出的问题。
-
55. 有人利用 SEO(搜索引擎优化)技巧为自己的 YouTube 视频制作博客文章,但这些视频并未解答问题。
-
56. 一个充斥着大量广告的网站,弹出窗口试图诱导用户点击广告等;网站内容是从其他页面复制过来的,用以构建一个以 SEO 为目的的广告网站(广告网站上的答案是错误的)。
必应
- 1. 知识卡片错误地声称“与地面的接触面积更大。”
- 2-4. 轮播图中的链接均未正确回答问题。其中,必应的第 3 个链接相当于谷歌搜索结果中的第 50 个。第 2 个链接并非错误,但也未解答问题。第 3 个链接是某人 YouTube 视频的 SEO 博客文章(与 google.com 的第 55 个链接相同),视频并未提供问题的答案。第 3 和第 4 个链接实际上是同一个,也未解答问题。
- 5. “更宽的轮胎意味着更强的抓地力”。这是另一个人 YouTube 视频的 SEO 博客文章。该视频同样未回答问题。
- 6-10. [进一步探索] 的结果。第 6 个明显错误,第 7 个与第 3 和第 4 个链接相同,第 8 个是第 2 个链接,同样是为 YouTube 视频做 SEO 博客文章,而且视频并未解答问题,第 9 个和第 10 个是普通的 SEO 博客文章,内容充满错误信息。
- 11. 与第 2 和第 8 个链接相同,仍然是为 YouTube 视频做 SEO 博客文章,视频未解答问题。
- 12-13 [进一步探索] 的结果。第 12 个是一种广告网站,通过全屏弹出窗口诱导用户进行点击,从而通过广告点击转到普通网站,为广告发布者带来收入。第 13 个是制作了关于这个话题 YouTube 视频的人的网站。虽然它未回答问题,但至少提供了一个实际的信息来源。
在进一步浏览后发现,许多其他链接与上述相同,似乎没有一个链接能够解答问题。
边缘笔记
最初的搜索查询未能找到任何结果。去除查询中的问号后,只找到了一个结果,这个结果与从 bing 搜索得到的第(3)和(4)项结果一致。
Mwmbl 栏目
- 《纽约时报》发表的一篇题为“女性为何面临更高利息”的文章。这是唯一检索到的结果。
去除问号后,搜索到的是一篇关于自行车轮胎的文章,题为“冬季使用宽胎自行车:你需要了解的几点”。
Kagi
- 一张知识卡片错误地显示了这样的信息:“更宽的轮胎与地面的接触面更大,因此能提供更强的牵引力。”
- 来自谷歌的第 50 个搜索结果
- Reddit 上的一个问题,回答中有许多错误
- Reddit 上的另一个问题,同样回答众多且不正确。最受欢迎的回答是:“原因和你用手掌在桌子上滑动比用一根手指滑动需要更多力气是一样的。轮胎接触路面的橡胶越多 = 摩擦力越大。”
- 来自必应的搜索结果,包括第 3 和第 4 条
- 一个标题为“更宽的轮胎是否能提供更多抓地力?”的 YouTube 视频。点击播放后,需要先看 1 分 30 秒的广告。视频本身质量不错,但它仅回答了标题中的问题,而没有解释原因。视频的第一个广告看起来像是一个广告收益欺诈。视频的第一个链接实际上会重定向到另一个链接,任何点击都会通过广告推广链接引导你去浏览某个产品。
- “为什么更宽的轮胎意味着更强的抓地力”,这是针对第 6 条的 SEO(搜索引擎优化)博客垃圾内容
- 针对另一个 YouTube 视频的 SEO 博客垃圾内容
- 针对第 6 条的 SEO 博客垃圾内容
- Quora 上的一个回答,最热门的回答并未解答问题,而且由于我未登录或不是付费会员,无法查看所有回答。
- 来自谷歌的第 56 个搜索结果,包含从其他网站剽窃的内容,以及充斥着试图诱导点击广告的弹窗广告的网站
- 聊天开始前的 GPT 生成的无意义文本,以及一个满是广告的页面。不同寻常的是,我点击的一些广告似乎是正常的,而非诈骗。
- 一个充斥着弹窗广告、试图诱使用户安装恶意软件的广告农场博客。
- 听起来像是 ChatGPT 生成的无意义文本的页面。页面有一个“最后更新”的时间戳,该时间戳是服务器端生成的,以匹配你访问页面的确切时间。页面通过一个全屏弹窗广告试图诱导用户点击,这些广告据我所知并非诈骗。
- 一个错误地声称“总结来说,更宽的轮胎并不提供更好的牵引力,其牵引力与较窄轮胎相似”的页面。页面上还有一些诱导用户安装恶意软件的广告。
ChatGPT
提供了一系列不切实际的理由。这些理由的语法虽然比大多数网络搜索结果要好,但依旧不准确。不足为奇的是,ChatGPT 在这个问题上的表现并不理想。它经常在更简单、更容易推理、并且训练数据中有大量正确答案的问题上表现不佳,比如 Joss Fong 指出,当她侄女向 ChatGPT 询问关于重力的问题时,它给出的回答毫无逻辑:“... 这就是羽毛慢慢下落而石头迅速坠落的原因 — 地球在拉扯它们,但由于石头更重,所以拉力更大。”
总体而言,目前没有搜索引擎能够提供完全正确的答案。在这方面,边缘笔记(Marginalia)表现得最好,因为它只提供了少数几个错误答案的链接,并且没有将用户引向任何诈骗网站。
为何不断缩小 CPU 中的晶体管尺寸?
我高中时就对此感到好奇。我的 AP 物理老师曾告诉我,缩小晶体管可以让 CPU 变得更小,从而使整个电脑体积缩小。然而,即便在我 14 岁那年,我也认为这是一个荒谬的回答,这和现在 ChatGPT 给出的虚构答案没有什么两样——那时的电脑通常比现在大很多,里面有许多空白空间,而 CPU 相对于机箱内的空间来说几乎可以忽略不计。更何况,随着电脑体积的减小,CPU 的尺寸实际上是在增加而非减少。我曾询问其他人,但都未获得满意的答案。那时互联网还处于初期阶段,我也找不到其他答案,只知道“晶体管变小会让速度更快”或“体积小意味着电容低”。但为什么会更快?为什么电容会降低?具体来说,是哪些几何特性使得晶体管在尺寸缩小时能加速?通常我们不会认为缩小尺寸就能加快速度,比如,如果简单地按比例缩小一根导线,似乎并不会使其传输速度加快,因为其横截面积按平方减小,使得单位长度的电阻成平方增加。但由于长度也按比例减小,总电阻只是线性增加。同样,电容也是线性减少,因此这些因素相互抵消。不过,对于晶体管而言,直接按比例缩小会加快其速度(当时的晶体管足够大,且导线延迟相对较小,因此缩小晶体管尺寸能显著提高性能)。如果有合适的解释,你可以在几分钟内向学过物理的高中生讲解这个原理,但我直到阅读了一本 VLSI 教科书后才找到这个问题的答案。
如今网上的资料丰富,肯定有多种优秀的解释。为了验证这一点,我用更专业的搜索词进行了搜索,找到了一些不错的结果。不过,让我们看看使用之前提到的初级搜索词会发生什么。
谷歌
- 1. 一张知识卡片这样描述:“更小的晶体管可以完成更多计算任务而不过热,从而更加节能。”虽然这不完全错误,但也不能完全解释“为什么”。这篇文章虽然有趣,但却讲述了另一个话题,并没有解释这一点。
- 2. [问题下拉菜单] “晶体管为何越来越小?”打开网站就会立刻弹出广告。该网站实际上并未解答这个问题,只是说明:“自 20 世纪 50 年代第一块集成电路问世以来,硅晶体管一直按照摩尔定律缩小,这有助于在微芯片上集成更多这类装置,从而提升它们的计算能力。”
- 3. [问题下拉菜单] “晶体管为什么需要小型化?”回答说:“两个导体之间的电容取决于它们的物理尺寸:尺寸越小,电容就越小。由于小电容意味着更高速度和更低功耗,因此小型晶体管可以以更高的时钟频率运行,同时散发更少的热量。”这个答案本身没有问题,但该网站并未解释晶体管缩小如何加速处理速度的缩放原理。该页面更多地关注离散元件,并指出:“通常,电阻器、电容器和电感这类被动元件变小并不会带来太多优势,反而在很多方面会变得更差。因此,这些元件的小型化主要是为了节省印制电路板的空间。”,实际上是在回答另一个问题。
- 4. [问题下拉菜单] “为什么微芯片在变得越来越小?”一些 SEO 博客垃圾文章并没有真正解答这个问题,只是笼统地说“更小即意味着更快”。
- 5. [问题下拉菜单] “微处理器为什么变得越来越小?”这个链接指向了 stackexchange。最佳回答认为,芯片越小,生产效率越高,成本就越低。我认为这并不是一个充分的解释,因为缩小尺寸本身也非常昂贵,那么为何还能降低成本呢?即便成本不降低,企业仍会出于性能考虑而追求更小的晶体管,所以这个回答忽略了一个关键点,甚至可以说是核心原因。
#2 答案部分解释了这个问题:“原因在于,随着晶体管门极尺寸的缩小,阈值电压和门极电容(需要的驱动电流)也随之降低。”但这个解释不够完整,也没有用直观的物理原理来阐述原因。其他回答如“CPU 不断缩小的主要原因是在计算领域,更小就意味着更强大”等,实际上并没有真正解答问题。通过搜索这些术语,可以找到* 6. “为什么 CPU 和 GPU 制造商努力缩小产品尺寸...”。其中最高票答案是“更小的晶体管运行速度更快,耗电更少。小就是好。”这样的非解答。由于这是在 Quora 上,而我不是付费用户,其他答案被一个界面遮挡,只能通过开通免费试用并订阅 Quora+ 来查看全文并支持作者。
- 7-10. 是 Quora 上其他答案的链接。由于我不是付费用户,大部分屏幕内容都是广告。我所能阅读的内容并没有回答这个问题。
必应
- 1. 知识卡片分为几个部分。前面部分比较难以理解,但最后一部分提供了部分答案。点击这部分内容,可以跳转到 Stack Exchange 上的一个问题,那里提供了更详细的信息。这部分答案包含了足够的信息,通过搜索可以找到更全面的解释。
- 2-4. [人们还关心的问题] 提供了一些相关的回答,但没有直接解答原问题。
- 5. 针对另一个问题的 Stack Exchange 上的答案。
- 7-10 [进一步了解] 提供了一些与原问题完全不相关的问题的答案,唯一例外的是 10,这是一个充斥着广告的博客,虽然与原问题相关,但内容中夹杂了许多广告,文本只是部分相关。
Kagi
- 1. 在 r/askscience 提出的问题:“为什么 CPU 和 GPU 的晶体管变小需要花费数年时间?”有一些回答尚可,但它们实际上回答的是另一个问题。
- 2-5. 其他
温哥华 2023 年冬季的雪量预测
加拿大环境部的最新雪量预报显示,2023 年冬季温哥华地区的雪量将显著低于常年水平,同时温度预计会高于常年水平。
谷歌
-
一家当地铲雪公司在其知识卡片上错误地宣称:“2023/2024 季节的预测显示,我们将迎来另一个降雪充足且温度在冰点附近波动的冬季。请提前做好准备。”在打开该页面时,接下来的内容是:“让 Alblaster(公司名)来负责您的铲雪和撒盐工作。我们会主动应对冬季天气,确保您、您的员工和顾客不受即将到来的风暴影响。”这个链接的真正目的,是通过编造假预测,无论是否真有必要,都要促使你购买他们的铲雪服务。
-
【问题下拉框】“2023 年温哥华的冬季预测如何?”错误地预测会有“相当多的降雪”。
-
【问题下拉框】“2023 年加拿大的冬季预测是怎样的?”链接到了安大略省的冬季预测,不仅是错的省份,还是错的海岸,也并未真正回答下拉框中的问题。
-
【问题下拉框】“2023 至 2024 年 B.C.省的冬季预测是什么?”预测 B.C.将经历一个湿润和温和的冬季,这并非错误,但也没有直接回答问题。
-
【问题下拉框】“2023 至 2024 年冬季的预测是什么?”给出了美国天气的预测。
-
充斥着广告的博客垃圾文章,文中充满了大量无关紧要的内容。文章内容自相矛盾,未能回答问题,并且网页上半部分被一个巨大的弹出广告所覆盖。
-
来自同一来源的另一篇充满广告的博客垃圾文章。文章中同样没有回答问题。
-
这是一篇布满广告的文章,它回答了一些相关问题,但并没有回答本问题。
-
这篇文章广告密布到几乎无法阅读,大部分内容都在讨论厄尔尼诺现象。文章最终指出,由于厄尔尼诺效应,B.C.的降雪量可能低于正常水平,但鉴于 B.C.面积近 100M 平方公里,且预测并不适用于全省各地,因此你或许可以揣测这些关于 B.C.的评论是否适用于温哥华,但这个链接并不能提供确切答案。
-
这篇文章广告极多,但提供了一张标有“冬季降水”的地图,主要展示的是降雪而非降雨情况。这张地图和加拿大环境部的地图大相径庭,不过从中可以看出温哥华“冬季降水”减少的趋势,因此这张地图还是有一定的参考价值。
必应
- 1-4. [新闻轮播] 这些文章广告密集,完全没有回答提出的问题。多数文章中,广告占据了超过一半的页面面积。
- 5. 有个页面似乎包含了答案,但数据看起来完全是虚构的。页面上有一个展示“冬季风暴”日概率的图表。根据我搜索的时候的数据,未来两周内每天大约有 50% 的概率发生“暴风雪”。而真实的预测显示这个概率每天只有 1% 或更低。这个页面看起来像是通过搜索引擎优化(SEO)来吸引流量,借此赚取广告收入的假预报。
- 6-8. [同一网站的更多链接] 各种充满广告的页面。其中一个是“联系我们”的页面,但其主要内容实际上是诱导用户点击某种看似诈骗的月付服务广告。
- 9-14 [探索 6 个相关页面...根据流行程度为您推荐] 只有一个链接稍微相关。这个链接是一个“农民年鉴”的预测,和加拿大环境部的预测大相迳庭。这个农民年鉴页面的主要目的似乎是促销农民年鉴相关产品,同时也包含了一些常规广告。
Kagi
- 1. 与必应上的 5 号结果一样,是个 SEO 优化的假预报。
- 2-4. 更多来自于这个诈骗天气网站的结果。
- 5-7. [新闻] 与问题无关的结果。
- 8. 来自与谷歌同一网站的垃圾文章(6 号)。
- 9-13. 同一网站的更多 SEO 垃圾内容。
- 14. 与谷歌的 1 号结果相同,是个假预报。
- 15. 这个页面被错误地标记为“2009 年 12 月 25 日”的,但实际上是近期的页面,且没有相关内容。
边际
没有任何结果。
Mwmbl
- 1. 一篇 2022 年的新闻文章,报道了一次停电事件,文章中布满了自动播放的视频广告和其他各种广告。
- 2. 一篇 2021 年的文章,指出费城的雪预报出现了错误。文章加载缓慢,几秒钟后会出现一个充满广告的全屏弹窗。
- 3. 2016 年的一篇文章,讲述了俄亥俄河最后一次结冰的情况。
- 4. 一篇来自俄勒冈州地方新闻网站的文章,发表于 2023 年 2 月,讨论了当时的雪预报。网站上有自动播放的视频广告和许多其他广告。点击一个标题为“亚马逊讨厌你这么做,但他们无法阻止你(太天才了)”的随机广告会引导你尝试安装一个 Chrome 扩展(一种浏览器插件)。这个广告伪装成一个看似正常的博客帖子,表面上是为了帮助用户省钱。但当你试图离开这个“博客帖子”时,会出现一个全屏弹窗,诱导你安装这个扩展。访问该网站的主页可以发现,整个网站实际上都是为了诱导用户安装这个 Chrome 扩展而设计的。这是搜索结果的最后一条。
ChatGPT
“2023 年冬天温哥华的雪预报是什么?”
ChatGPT 没有直接回答这个问题,而是推荐使用某个网站、应用程序或天气服务。
当我询问“能否指引我到一个提供天气预报的网站、应用或天气服务?”时,ChatGPT 提供了一些随机的天气网站,但这些网站并没有提供季节性的雪预报。
我尝试了几次。有一次,我不小心连同“用户\n”一起粘贴了整个 ChatGPT 的问题。那次,ChatGPT 建议我使用“加拿大气象中心、环境加拿大或其他有信誉的天气网站”。当我询问正确网站时,首选的回答是“环境加拿大天气”,这个网站似乎至少有一个看起来合理的季节性雪预报。其他提供的链接则是一些不相关的网站。
附录:谷歌“知识卡片”搜索结果
我通常发现谷歌的“知识卡片”搜索结果质量不佳,无论是对那些具体问题(这些问题答案很容易找到),还是对那些荒谬的问题,例如“跑步是什么时候发明的”。这个问题多年来一直有个著名但荒诞的回答:“1748 年。跑步是由 Thomas Running 发明的,他当时尝试一次走两步”(这个回答原本来自 Quora)。
我曾经创建了一个文档,收集我所遇到的所有知识卡片,以统计其中正确的比例。我不确定是否会将这些内容整理成一篇文章,因此这里提供一些我随机查询的例子及其知识卡片的结果(如果你好奇的话,我在跟踪时发现大多数知识卡片的结果是不正确的)。
-
“oc2 Gemini 独木舟长度”
- 文章中提到了一个 20 英寸长的婴儿,但我们真正感兴趣的是名为 Gemini 的 oc2 独木舟的长度,它为 24'7"。
-
“Feedly 收入”
- 有一个网站声称 Feedly 的年收入为 520 万美元,但这个数据似乎是凭空捏造的,因此可信度存疑。
-
“从 JFK 机场到 BLI 机场有哪些直飞航班?”
- 我发现有关阿拉斯加航空和达美航空每月提供 30 次从 JFK 到 BLI 的直飞航班的信息是错误的。网站上的信息似乎是为了产生知识卡片而编造的,实际上并无此类直飞航班。
-
“加拿大航空温哥华至纽瓦克航线”
- 虽然搜索结果显示 AC 7082 航班计划于次日上午 11:50 出发,但事实上,这个航班已经有数月未运行,且当天并无 AC 7082 航班。
-
“TYR Hurricane Category 5 氯丁橡胶厚度”
- 错误信息称厚度为 1.5 毫米,但实际上可能并非如此。
-
“英特尔工程师人数”
- 搜索结果错误地提供了一个电话号码 (604) 742-3501,而不是英特尔工程师的实际数量。
-
“波士顿 up118s 钢琴尺寸”
- 虽然搜索结果显示尺寸为“5826298 x 5826899 x 582697 英寸”,但这显然不可能,因为它是一架钢琴。
-
“竞技跳棋玩家人数”
- 搜索结果显示仅有 2 名玩家,但这个数字的准确性值得怀疑。
-
“菲沙河当前流速”
- 缺少具体的流速信息。
-
"97 到 129 公里每小时 (60 到 80 mph)"(这个说法是错误的)
-
"futura c-4 surfski 重量"
- "39 磅"(这实际上是另一款 surfski 的重量;该文章中恰巧也提及了 futura c-4)
附录:常见问题解答
正如我文章开头所提及的,我常收到的反馈大多与文章已明确涵盖的内容相关,因此在此不再赘述。然而,每当我发表涉及特定主题的文章时,总会收到许多类似的评论。实际上,我在这篇文章发布后不久就收到了如下评论。
这不是经过同行评审的研究,纯属无稽之谈
正如我在这篇博客中所言,
学术论文本身并没有什么特殊魔力。我的名字出现在几篇发表作品上,其中一篇甚至在其领域的顶级会议上获得了最佳论文奖。但说实话,我的普通博客文章的严谨程度通常都高于我个人的论文,甚至高于我所阅读的大部分论文。
当我撰写学术论文时,常常需要与合作者协调,他们有时会坚持添加一些夸大或误导性的内容以使论文看起来更有吸引力,而我在这方面的反对意见通常受到限制。在我的博客上,我不受这些限制,可以根据自己的能力尽可能准确地呈现结果,哪怕这意味着结果可能看起来没那么引人注目或不太可能获奖。
同样的原则也适用于这里。事实上,我在这个领域(信息检索,或简称 IR)获得过最佳论文奖。但我并不认为 IR 领域的论文普遍严谨。我曾极力推动我在顶级会议获奖论文BitFunnel的严谨性,虽然我在某些方面取得了成功,但在其他方面则失败了。而且那篇论文存在一些问题,这是我在博客文章中绝不会接受的。我怀疑那些发表此类评论的人大多数并不真正阅读论文,即便他们读了,也可能无法真正理解其中的内容。
另一个常见的反馈是
你的表格有误。我在 Kagi 搜索引擎上尝试了这些查询,得到了好的结果。
我不太明白为什么大家对 Kagi 这么上心,但到目前为止,所有这些反馈似乎都来自 Kagi 的用户。没人能在轮胎、晶体管或雪的搜索(请再次注意,这不是在找日常的天气预报,查询中的“2023 年冬季”已经很明显了)中得到满意的结果。而且,如果你不使用广告拦截器,其他搜索结果也不怎么样。我猜下一个告诉我他们搜索效果不错的人也可能是这样,但考虑到目前为止零成功率,这似乎不大可能。
比如,有个用户声称他们的搜索结果都很好,但他们只是固定了 GitHub 的结果,而且只进行了在 GitHub 上能得到好结果的搜索。实际上,这比使用 Google 或 Bing 并且精心设计搜索词要糟糕,因为当 GitHub 不是合适的搜索平台时,你的搜索结果会出现很多干扰。当然,你也可以说如果编写精准的搜索词,Bing 的搜索结果也很棒,所以很奇怪为什么这么多 Kagi 用户愤怒地给我写信,而 Google 或 Bing 的用户却没有。Kagi 似乎触及了 Tesla 和 Apple 曾经触及的用户心理,这些公司成功地吸引了用户的深厚情感,当有人批评他们喜爱的东西时,用户便会愤怒地为自己钟爱的产品辩护,并写下毫无意义的辩护,这对 Kagi 来说是个好现象。我收到的这类评论不仅来自一个 Kagi 用户,而是众多用户。
这里有一个对话的例子:
他们:这根本不算科学!你那表格全错了!我在 Kagi 上试过所有这些搜索,结果棒极了!Kagi 的所有搜索都应该评为优秀! 我:那你在轮胎/CPU/雪的搜索里得到了什么结果? 他们:我没做那些搜索。但 Adblock 的搜索结果很棒! 我:你得到的结果是什么? 他们:[不愿意给我看结果,反而给我发了一个只展示第一个结果的截图,那是 GitHub 的链接] 我:你是把 GitHub 设为首选了吗? 他们:是的 我:所以,你并没做完所有的搜索,却说你做了,然后事实是你把 GitHub 设为搜索结果的首位,这和在 Google 或 Bing 中加入 GitHub 作为搜索词其实没什么两样,这在文章中已经明确提过,是有效的做法。你这么说是想让我把 Kagi 的所有搜索都评为优秀吗?为什么我不直接为所有搜索引擎编写准确的搜索词,然后把所有搜索引擎都评为优秀?
这里的主要教训似乎是,就像 Tesla 和 Apple 一样,当有人告诉你 Kagi 有多棒时,你不能全信他们的话,因为他们不知怎的吸引了一群狂热的超级粉丝(顺便说一句,我正在用 MacBook 写这篇文章,并且使用 iPhone,所以我确实认为 Apple 的产品最适合我,但这并没有让我对许多 Apple 粉丝的奇特言论视而不见)。
-
这个人确实接着说,“但的确,像科技行业/贸易这类的东西确实被大语言模型(Large Language Model)生成的垃圾淹没了”。然而,在这篇帖子里我们看到的结果通常都是非大语言模型生成的文本,很多都是大语言模型出现之前的页面,而且在技术相关领域内的低质量结果似乎并不局限于此,甚至也没那么糟糕。再比如,我们的蓝天思考领袖在波特兰的一个本地乐队。如果我搜索"乐队名称 成员",我得到的知识卡片上写着:不同乐队名称 是一个在英国 G l a s t o n b u r y , S o m e r s e t 成立的独立摇滚乐队,乐队由成员名和乐器组成。 (https://danluu.com/seo-spam/#fnref:B)
-
以 youtube 下载器为例,我通常会先在 HN(Hacker News)上搜索,这样通常能得到不错的结果。如果这样做不行,我会转而在 reddit 上搜寻(但绝不用 reddit 自带的搜索功能),这会带来好坏掺杂的结果。进一步分析这些结果会发现,第二个结果(
yt-dlp
)很靠谱,但其他大多数结果质量较差。不同的人有不同的搜索策略,比如 Laurence Tratt 会搜索 "youtube downloader cli",Heath Borders 则倾向于搜索 "YouTube Downloader GitHub";这两种方法同样有效。对于那些能巧妙搜索几乎任何内容的人来说,他们可能不会意识到大多数用户并不知道如何高效搜索。从我观察那些在专业人士指导下使用电脑的普通用户来看,很明显,很多熟练用户严重低估了自己的知识水平。例如,我听到不少程序员说他们之所以能熟练使用电脑,是因为“我会随机点击看看结果如何”。虽然他们确实这么做,但当这个建议传给不熟悉电脑的用户时,通常会导致混乱,因为这些新手可能随机点击了不该点击的地方。事实上,这些专业人士并不是真的随机点击,而是基于对可能结果的预判来尝试各种操作。在搜索方面也是一样,他们可能会建议“只需在查询中加入 site:reddit.com”。但这样做往往会使搜索结果变差而不是变好,因为你需要知道哪些搜索词适合用这种方式,哪些则不适合。[返回] -
有一次无意中在查询前加上了“User\n”,结果意外地得到了一个好结果,而不是糟糕的结果。这让我想起了一个有趣的现象:如果你让ChatGPT 来“写关于”Colin Percival 的内容,它会“认为”他已经去世,但如果你用“写写关于”作为请求,它又会认为他还活着。现在,多级排名在搜索排名中已经很常见,所以通过运行一些随机扰动的查询,并利用第二级排名器来获取好的结果似乎是可行的,甚至 ChatGPT 也可能内置了这样的机制。[返回]
-
在 Google 不再准确地返回我想找的推文之后不久,我开始使用 Twitter 搜索,并且效果还不错。但在收购 Twitter 之后,搜索功能常常出现各种问题。有一段时间,大概 3 到 5 个月,我发现搜索根本找不到我的任何推文。即使在那段时间之前和之后,我尝试搜索推文的确切片段,搜索结果也常常无法找到相关推文,这迫使我不得不采用各种奇怪的搜索方法,尝试寻找可能与我要找的推文有关的链接,然后手动跟踪这些链接以定位到那条推文。[返回]