2005全球中文搜索引擎质量对比
据权威预测,未来4年全球搜索市场每年将以高达 35%的增长速度快速成长,到 2007年全球搜索市场的整体规模将达到 70亿美元; 今后 3年内,我国搜索引擎市场的年增长率更是将达 60%至 70%。2004年我国搜索引擎市场达到了 8.8亿元, 2006年将达到 24亿元。目前搜索引擎已从一种单纯的IT技术上升为搜索力经济,有望成为继无线增值和游戏之后,互联网企业又一重要的利润增长点。因此,搜索引擎的质量 也提到了前所未有的高度。
2005年9月,清华大学IT可用性实验室再次对中文搜索引擎进行了较为全面的对比研究。研究对象为Google、一搜(Yisou—雅虎中国提供、百度(Baidu)、中搜(Zhongsou)、爱问(iAsk—新浪提供)、搜狗(Sogou—搜狐提供)。
搜索引擎质量主要指网页搜索质量评测,网页搜索是搜索引擎的基础与根本。搜索引擎质量评测包括标准搜索方式下检索结果相关性、网页覆盖率、死链率、作弊率、中文分词。
相关性
搜索引擎相关性是指用户输入的查询内容与搜索引擎提供的文件内容或相关网站资源之间的符合关系,同时也是搜索引擎的搜索结果符合用户需要内容的能力。搜 索引擎的相关性关系着用户的搜索效率和满意程度,相关性好的搜索引擎可以节省用户的时间和网络资源,对于任何一个搜索引擎,相关性至关重要。
本次相关性评估采用从真实的Log数据库中提取的检索词作为测评样本,由外部程序按照一定规则和程序进行评估,并对评估采用多种衡量参数进行相关性比较。
图1 相关性评分
结论:
评估数据显示,对于一般检索词,六家搜索引擎标准搜索方式下网页检索结果相关性不存在显著差异,Google、百度和中搜稍占优势;相应地,上述三家找到相关结果所需的时间相对较短。
网页结果覆盖率
网页覆盖率又称为索引库大小,指搜索引擎索引的网页数量。每个搜索引擎索引的网页具体数量评测中表现为相对值,对所有搜索引擎结果的覆盖率可以做对互联网公开数据覆盖的参考。为减少覆盖率受重复网页的影响,评测中用同一排重算法对结果集排重。
图2 网页覆盖率排重结果图(纵坐标是网页数量)
结论:
各组评测结果之间无明显差异。在动态网页覆盖率测评中Google、百度占优,全部网页覆盖率测评中Google、百度、中搜相对较好。
网页死链率
死链指搜索结果中指向已不存在(或无法访问)的互联网资源的链接。死链受时间、地域、网络状况等多种因素影响。
图3 平均死链率(3个词不达意表的平均值)
结论:
死链率测试受网络和服务器状态影响,死链与评测样本选择有关系但不明显。3个评测样本数据显示,死链率从低到高前3名分别是一搜、百度、搜狗,爱问相对于其他搜索引擎有差距。
作弊率评估
网页作弊率是指网页通过程序或人工的手段,非法地提升自己在搜索引擎中的排序,提高自身的点击率等非法获益行为。评测样本选取与相关性评测相同,抓取6个搜索引擎结果,汇总后多个评测者根据作弊评测标准对每个结果进行标记,统计结果中的作弊数据比率。
图4 作弊率统计结果
结论:
搜索结果作弊数据比率中搜最低,百度、爱问次之,这3家在作弊数据比率上与其他搜索引擎相比有一定优势。
结果重复率
重复是影响网页质量的一个重要因素。重复内容多不但影响用户感受,还很耗费系统资源,影响检索效率。本次重复率评测只做了Google、百度、中搜三家 搜索引擎前5页重复率评测。评测样本选取方法与相关性评测相同,共160个评测样本,每页取10条结果,不包括付费数据。
图5 前5页总重复率
结论:
评测结果显示,百度的重复最低。在而重复数据中,转载重复占大多数,而转载主要又表现为新闻转载。
中文分词
中文分词,是指把输入计算机的汉语语句自动切分为词的序列的过程。特定情况下分词结果中也包括一些词组和词素。本次中文分词评估是针对搜索引擎将连续性 的中文检索词序列进行切分的处理结果进行的评估。前几项评测为搜索引擎的常规评测,检索中得分词评测带有探索性质,测试点较多。本次中文分词测评分为两部 分:中文分词总体测评和中文分词单项测评。
图6 中文分词综合测评结果
说明:
可接受指分词结果完全正确和部分正确,纵轴是可接受结果占全集的比率。
结论:
中文分词总体测评正确率统计,百度占优,中搜其次。用户可接受横向对比中,百度、中搜、Google相对较好。
中文分词单项测评召回率/精确率统计结果显示,中外人名自动辨识仍然是搜索引擎中文分词部分的难点;而新鲜词汇的识别和区分方面,6家搜索引擎做得都很 好。横向测评中,歧义字段分词部分,搜狗和中搜的正确率相对较高,Google和一搜需要进一步改进;中外人名识别部分,中搜,百度和爱问表现相对较好; 中国地名识别部分,爱问和百度精确率较高,一搜需要改进。总体上,中文分词单项测评中,本地搜索引擎表现要占有较大优势。
搜索引擎质量评估汇总
表1 网页覆盖率排得结果(6家搜索引擎url总数12234条)
说明:
每一项,最大值为100分,各搜索引擎相应值与最大值相除,结果为各家该项得分。(见表2、3)
表2 搜索引擎评测质量汇总
表3 搜索引擎评测质量汇总转换最大值归一表
结论:
本土搜索引擎在以网页搜索为代表的搜索引擎质量方面有较大突破。网页搜索质量方面本土搜索引擎百度和中搜技术进步明显,许多指标开始超过Google。 百度在总体指标上已超过Google成为第一。本土搜索引擎的技术进步突出表现在相关性、网页覆盖率、反作弊、中文分词等方面。在中文分词技术上,本土搜 索引擎有明显优势。
中文搜索引擎领域的服务细分进一步深入。地图成为细分搜索的又一个热点。在Google提供英文BBS搜索几年后,中搜于今年推出了中文BBS搜索。搜索细分评测数据表示中搜MP3有较大优势。爱问MP3搜索与中搜MP3搜索后台数据相同。
搜索引擎功能日益丰富,从服务功能对比看,海外搜索引擎对本土搜索需求变化不如本土搜索引擎敏感,服务功能不如本土搜索引擎丰富。
Link to the original research report
2005年9月,清华大学IT可用性实验室再次对中文搜索引擎进行了较为全面的对比研究。研究对象为Google、一搜(Yisou—雅虎中国提供、百度(Baidu)、中搜(Zhongsou)、爱问(iAsk—新浪提供)、搜狗(Sogou—搜狐提供)。
搜索引擎质量主要指网页搜索质量评测,网页搜索是搜索引擎的基础与根本。搜索引擎质量评测包括标准搜索方式下检索结果相关性、网页覆盖率、死链率、作弊率、中文分词。
相关性
搜索引擎相关性是指用户输入的查询内容与搜索引擎提供的文件内容或相关网站资源之间的符合关系,同时也是搜索引擎的搜索结果符合用户需要内容的能力。搜 索引擎的相关性关系着用户的搜索效率和满意程度,相关性好的搜索引擎可以节省用户的时间和网络资源,对于任何一个搜索引擎,相关性至关重要。
本次相关性评估采用从真实的Log数据库中提取的检索词作为测评样本,由外部程序按照一定规则和程序进行评估,并对评估采用多种衡量参数进行相关性比较。
图1 相关性评分
结论:
评估数据显示,对于一般检索词,六家搜索引擎标准搜索方式下网页检索结果相关性不存在显著差异,Google、百度和中搜稍占优势;相应地,上述三家找到相关结果所需的时间相对较短。
网页结果覆盖率
网页覆盖率又称为索引库大小,指搜索引擎索引的网页数量。每个搜索引擎索引的网页具体数量评测中表现为相对值,对所有搜索引擎结果的覆盖率可以做对互联网公开数据覆盖的参考。为减少覆盖率受重复网页的影响,评测中用同一排重算法对结果集排重。
图2 网页覆盖率排重结果图(纵坐标是网页数量)
结论:
各组评测结果之间无明显差异。在动态网页覆盖率测评中Google、百度占优,全部网页覆盖率测评中Google、百度、中搜相对较好。
网页死链率
死链指搜索结果中指向已不存在(或无法访问)的互联网资源的链接。死链受时间、地域、网络状况等多种因素影响。
图3 平均死链率(3个词不达意表的平均值)
结论:
死链率测试受网络和服务器状态影响,死链与评测样本选择有关系但不明显。3个评测样本数据显示,死链率从低到高前3名分别是一搜、百度、搜狗,爱问相对于其他搜索引擎有差距。
作弊率评估
网页作弊率是指网页通过程序或人工的手段,非法地提升自己在搜索引擎中的排序,提高自身的点击率等非法获益行为。评测样本选取与相关性评测相同,抓取6个搜索引擎结果,汇总后多个评测者根据作弊评测标准对每个结果进行标记,统计结果中的作弊数据比率。
图4 作弊率统计结果
结论:
搜索结果作弊数据比率中搜最低,百度、爱问次之,这3家在作弊数据比率上与其他搜索引擎相比有一定优势。
结果重复率
重复是影响网页质量的一个重要因素。重复内容多不但影响用户感受,还很耗费系统资源,影响检索效率。本次重复率评测只做了Google、百度、中搜三家 搜索引擎前5页重复率评测。评测样本选取方法与相关性评测相同,共160个评测样本,每页取10条结果,不包括付费数据。
图5 前5页总重复率
结论:
评测结果显示,百度的重复最低。在而重复数据中,转载重复占大多数,而转载主要又表现为新闻转载。
中文分词
中文分词,是指把输入计算机的汉语语句自动切分为词的序列的过程。特定情况下分词结果中也包括一些词组和词素。本次中文分词评估是针对搜索引擎将连续性 的中文检索词序列进行切分的处理结果进行的评估。前几项评测为搜索引擎的常规评测,检索中得分词评测带有探索性质,测试点较多。本次中文分词测评分为两部 分:中文分词总体测评和中文分词单项测评。
图6 中文分词综合测评结果
说明:
可接受指分词结果完全正确和部分正确,纵轴是可接受结果占全集的比率。
结论:
中文分词总体测评正确率统计,百度占优,中搜其次。用户可接受横向对比中,百度、中搜、Google相对较好。
中文分词单项测评召回率/精确率统计结果显示,中外人名自动辨识仍然是搜索引擎中文分词部分的难点;而新鲜词汇的识别和区分方面,6家搜索引擎做得都很 好。横向测评中,歧义字段分词部分,搜狗和中搜的正确率相对较高,Google和一搜需要进一步改进;中外人名识别部分,中搜,百度和爱问表现相对较好; 中国地名识别部分,爱问和百度精确率较高,一搜需要改进。总体上,中文分词单项测评中,本地搜索引擎表现要占有较大优势。
搜索引擎质量评估汇总
表1 网页覆盖率排得结果(6家搜索引擎url总数12234条)
说明:
每一项,最大值为100分,各搜索引擎相应值与最大值相除,结果为各家该项得分。(见表2、3)
表2 搜索引擎评测质量汇总
表3 搜索引擎评测质量汇总转换最大值归一表
结论:
本土搜索引擎在以网页搜索为代表的搜索引擎质量方面有较大突破。网页搜索质量方面本土搜索引擎百度和中搜技术进步明显,许多指标开始超过Google。 百度在总体指标上已超过Google成为第一。本土搜索引擎的技术进步突出表现在相关性、网页覆盖率、反作弊、中文分词等方面。在中文分词技术上,本土搜 索引擎有明显优势。
中文搜索引擎领域的服务细分进一步深入。地图成为细分搜索的又一个热点。在Google提供英文BBS搜索几年后,中搜于今年推出了中文BBS搜索。搜索细分评测数据表示中搜MP3有较大优势。爱问MP3搜索与中搜MP3搜索后台数据相同。
搜索引擎功能日益丰富,从服务功能对比看,海外搜索引擎对本土搜索需求变化不如本土搜索引擎敏感,服务功能不如本土搜索引擎丰富。
Link to the original research report