`

搜索引擎工程师的7种武器

阅读更多

发信人: pennyliang (pennyliang), 信区: SearchEngineTech
标 题: 搜索引擎工程师的7种武器
发信站: 水木社区 (Sat Mar 22 09:23:09 2008), 站内

precomputing:offline/online structure,indexing,dp等都属于这个范畴
representing: 数据结构,问题简化
distributing: 复杂计算分解
mirroring: 大量计算需求的均衡处理。
caching: 磁盘和内存,访问模型等

+
architecture: 完美的体系架构
pratical tricks: 现实的小技巧

以上是我认为一个搜索引擎工程师需要具备的几个条件,或者解决问题时需要考虑的方面。
大家认为呢?

我知道这个坑很烂,但确属我近来心得总结。和大家分享一下。。。要是有人去面试,可以从这7个方面谈,肯定很唬人。

-----------------------
发信人: mo7 (Moqi), 信区: SearchEngineTech
标 题: Re: 搜索引擎工程师的7种武器
发信站: 水木社区 (Sat Mar 22 21:33:50 2008), 站内

数据处理 data processing?
【 在 babel (烧刀子) 的大作中提到: 】
: dp是什么?

-----------------------

发信人: pennyliang (pennyliang), 信区: SearchEngineTech
标 题: Re: 搜索引擎工程师的7种武器
发信站: 水木社区 (Sat Mar 22 22:07:55 2008), 站内

举个例子吧
网上看到这样个文章,去某搜索引擎公司面试
http://www.netfetch.cn/netfetch/article.asp?id=527

"是在100w个数中找最大的前100个数,我这个题目上次讨论过,用小根堆加线性扫
描作,应该是比较快的",--这是他的解答

这个问题显然就没有回答到最佳。如果考虑distributing.
那么为什么不能把100万个数,分成100分,每份1万个数,在1万个数中用堆挑最大的100个数,然后在把100份的答案merger到一起呢?



进一步如果能把IO和计算重叠起来,整个过程并行处理,效果更加,这就属于other tricks的范畴了

------------------------

发信人: pennyliang (pennyliang), 信区: SearchEngineTech
标 题: Re: 搜索引擎工程师的7种武器
发信站: 水木社区 (Mon Mar 24 13:53:32 2008), 站内


【 在 semibookworm (劣币驱逐良币) 的大作中提到: 】
: 标 题: Re: 搜索引擎工程师的7种武器
: 发信站: 水木社区 (Mon Mar 24 12:42:26 2008), 站内
:
: data mining/NLP等会在搜索引擎整体中起到什么样的作用呢?
~~~~~~~~~~~~~~~~~~~~~~~~~~~~
这个给researcher搞

: 看了这些描述,感觉搜索引擎平台性能更重要呀
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
这个是工程师的地盘。。。
:

--------------------------------------

发信人: pennyliang (pennyliang), 信区: SearchEngineTech
标 题: Re: 搜索引擎工程师的7种武器
发信站: 水木社区 (Mon Mar 24 14:59:35 2008), 站内

简言之,工程就是多快好省,廉价,成熟,快速,是工程的手法。

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics