SogouT
SogouT是搜狗公司等合作开发的网际网路语料库,包括了来自网际网路各种类型的1.3亿个原始网页, 压缩前的大小超过了5TB。该语料库同时还包括使用用户行为挖掘方法构建出的1万余个查询以及对应的标準答案集合,对于中文信息检索、自然语言处理等方面的研究都有较大的推动伤。同时该语料库採取免费方式向国内外研究同行发放,目前已向国内多家研究机构及日本、美国等地的研究机构发放了複製件。
发展背景
在网际网路语料库极度鼓胀的大前提下,如何提高正确答案集合标注的效率以及客观性是一个越来越困难的工作。为了解决这一困境,清华大学智慧型技术与系统国家重点实验实提出了“基于用户行为分析的搜寻引擎自动评价方法”的解决思路。这一思路的核心是利用对搜寻引擎的用户查询、点击行为的巨观分析,自动挑选适用于搜寻引擎评价的查询集合,并进一步自动定位对应这些查询的标準答案。由于挑选查询集合和标準答案的过程由计算机来完成,因此可以及时、準确、客观地反映搜寻引擎的真实性能。
基于这一核心技术,实验室开发了一系列相关网际网路套用产品,其中就包括“搜寻仪”及与搜寻公司合作开发的sogouT网际网路语料库。