首页
外语
计算机
考研
公务员
职业资格
财经
工程
司法
医学
专升本
自考
实用职业技能
登录
计算机
搜索引擎会通过日志文件把用户每次检索使用的所有查询串都记录下来,每个查询串的长度不超过255字节。假设目前有一千万个查询记录(重复度比较高,其实互异的查询串不超过三百万个;显然,一个查询串的重复度越高,说明查询它的用户越多,也就是越热门)。现要统计最热门的
搜索引擎会通过日志文件把用户每次检索使用的所有查询串都记录下来,每个查询串的长度不超过255字节。假设目前有一千万个查询记录(重复度比较高,其实互异的查询串不超过三百万个;显然,一个查询串的重复度越高,说明查询它的用户越多,也就是越热门)。现要统计最热门的
admin
2019-05-11
64
问题
搜索引擎会通过日志文件把用户每次检索使用的所有查询串都记录下来,每个查询串的长度不超过255字节。假设目前有一千万个查询记录(重复度比较高,其实互异的查询串不超过三百万个;显然,一个查询串的重复度越高,说明查询它的用户越多,也就是越热门)。现要统计最热门的10个查询串,且要求使用的内存不能超过1GB。以下各方法中,可行且效率最高的方法是____________。
选项
A、将一千万个查询串存入数组并进行快速排序,再统计其中每个查询串重复的次数
B、将一千万个查询串存入数组并进行堆排序,再统计其中每个查询串重复的次数
C、利用哈希表保存所有的查询串并记下每个查询串的重复次数,再利用小根堆选出重复次数最多的10个查询串
D、利用哈希表保存所有的查询串并记下每个查询串的重复次数,再利用大根堆选出重复次数最多的10个查询串
答案
C
解析
本题考查数据结构应用知识。
快速排序和堆排序都属于内部排序方法,要求待排序的元素序列都放在内存。按最坏情况考虑,一千万个查询串需要的存储空间为225千万字节,也就是2.25×10
10
字节,远超过1GB(约等于10
9
)的存储容量限制,所以选项A和B是不可行的。另外,即便不考虑存储容量限制,在只要求找出最大的10个元素时快速排序也是不适用的。
选项C和D的区别是利用大顶堆还是小顶堆。设想需要在1000个元素中找出10个最大元素,用小顶堆的思路是:先用前10个元素建个小顶堆(堆顶是最小元素),此后从第11个元素开始,顺序地将每个元素与堆顶元素比较,若小于或等于堆顶元素就舍弃之,若大于堆顶元素,则用该元素替换堆顶元素,并再次调整为小顶堆。重复该过程直到最后一个元素处理完,那么,在小顶堆中留下的10个元素实际上就是这1000个元素中的前10大元素。
本问题中需要在三百万个元素中按照重复次数找最大的10个元素,由于10个元素构成的小顶堆建立和调整时所花费的时间是个很小的常数c0,因此,采用这种方式在n为三百万个元素时找出10个最大者的运算时间是线性阶的(大约为n+e0,c0是小整数)。反之,如果采用大顶堆,一种情况是建立10个元素构成的大项堆,则在顺序地处理后面元素时,无法简单地确定需要替换该大顶堆中的哪个元素;另一种情况是建立由三百万个元素构成的大顶堆,在该数据量情况下,哈希表和大项堆都在内存存储,可能会突破1GB的存储容量限制,而且建立初始大顶堆的运算时间(有可能是达到4n)以及后面9次调整大顶堆的时间(9logn)的时间都远多于前面的小顶堆方案。
转载请注明原文地址:https://www.kaotiyun.com/show/GvVZ777K
本试题收录于:
程序员上午基础知识考试题库软考初级分类
0
程序员上午基础知识考试
软考初级
相关试题推荐
在公司内网中部署______可以最大限度地防范内部攻击。A.防火墙B.电磁泄密及防护系统C.邮件过滤系统D.入侵检测系统
下面关于ARP协议的描述中,正确的是______。A.ARP报文封面在IP数据报中传送B.ARP协议实现域名到IP地址的转换C.ARP协议根据IP地址获取对应的MAC地址D.ARP协议是一种路由协议
在Word2003的编辑状态中,若设置一个文字格式为下标形式,应使用“格式”菜单中的菜单项为(1)____;统计文档的字数,需要使用的菜单是(2)____;插入声音文件,应选择“插入”菜单中的菜单项是(3)_____。(1)____
SNMP的管理模型采用的是管理者,代理模型,它由______等几个部分组成。A.管理者、代理B.管理者、代理、委托代理C.管理者、代理和管理信息库D.管理信息库、管理信息结构和管理协议
某公司的网络地址是202.117.240.0/20,被划分成16个子网,则每个子网的子网掩码为(1)______,包含的最大的主机数是(2)_____。(2)______A.250B.254C.255D.256
Catalyst3500(CiscoIOS系统)中启用STP的命令格式是______。A.spanning-treevlan<vlan>B.nospanning-treevlan<vlan>C.setspantreeenable<vla
一个功能完备的计算机网络需要指定一套复杂的协议集。对于复杂的计算机网络协议来说,最好的组织方式是______。A.连续地址编码模型B.层次结构模型C.分布式进程通信模型D.混合结构模型
我国著作权法中,______系指同一概念。A.出版权与版权B.著作权与版权C.作者权与专有权D.发行权与版权
DHCP协议的功能是______。A.远程终端自动登录B.为客户机自动分配IP地址C.使用DNS名字自动登录D.为客户自动进行注册
以下知识产权保护对象中,__________________不具有公开性基本特征。
随机试题
心肌代谢活动增强可使冠脉血流量增加,下列哪一因素作用最强
RNA聚合酶全酶识别启动子的位置在
确定早孕最可靠的辅助方法是
[*]
下列选项中,符合所给图形的变化规律的是()。
设根结点的层次为0,则高度为k的二叉树的最大结点数为【】。
移动硬盘或U盘连接计算机所使用的接口通常是()。
Theauthormentionsthatshehashadtodeveloptimemanagementskills.Mostteacherspraiseparent-studentsfortheirassiduit
Thosepersonswhosereligious______heavilyreliedonrituals,suchasinfantbaptism,weremorelikelytosupporttheDemocrats
Completethetablebelow.WriteNOMORETHANTHREEWORDSAND/ORANUMBERforeachanswer.
最新回复
(
0
)