支票在佩奇宿舍书桌里躺了几个礼拜.在此期间,两位创业者忙着筹建公司和设立银行账户.1998年9月7日,google公司成立,佩奇是首席执行官,而布林做总裁,布林和佩奇在雇用了第一个雇员,他们的同学雷格 希尔维斯通之后,意识到他们应该找个公办的场所了,因为他们三个不能在谢尔盖的宿舍里工作.他们向谢尔盖女朋友的一个朋友苏珊 沃吉西基租了一个临时的办公场所.
admin
2008年6月23日
admin
2008年6月23日

The srearch 第三章,简单而纯碎的梦想这一节
拉里·佩奇 佩奇
发给特里·维诺格拉德的一封电子邮件 日期是1996年7月15日,下面是它的一部分:
我几乎没有任何硬盘空间了。我大概下载了........2400万个不同的url,1亿个链接。我想我大概还需要8G的空间来存储他们.......现在的零售价是1000美元4G........而我只存储量全部网页的15%,不过这个工作看来前景很不错.
因为它的大小和规模,这个项目发展成计算机科学系和校园管理办公室里流传的一个传奇.backrub网页捕获器曾经一度消耗量斯坦福几乎一半的带宽。考虑到斯坦福是全世界网络连接最发达的机构,这个事实还是让人吃惊。这个项目至少有一回曾经导致斯坦福的整个网络瘫痪。佩奇后来说:“很幸运,斯坦福拥有许多有卓见的人,他们并没有因为我们占用了那么多资源而太责怪我们。”
不过斯坦福的管理者们却被许多网管指责,打多少网管都不能理解为什么google的服务是不断的索取他们网页的副本。回到1996年,没有人被搜索引擎因为目标,下载某个网站所有内容的申请常常被认为等同于入侵。典型的访客也许会在网站上点来点去,在不同地方浏览几个页面,然后去就去别的网站,但是,backrub消费整个网站,以闪电般的速度索引每一张页面,通常的网站都承受不了这样的负担,他们会因为backrub贪婪的要求而不堪重负,既是是那些能够受得了backrub的请求的网站也感觉这样的过程是一种侵犯,破坏了一些没有写明的原则,就算其中没有更大的阴谋.
admin
2008年4月17日
1996年8月,他们在斯坦福的网站上发布了google的第一版本
每天看几页 评论:0 浏览: Tags: 斯坦福
这个引擎不光是好用,随着网络的发展壮大它也会越变越好。pagerank[这种算法的名称取自佩奇的姓(page)因此叫做PageRank] 通过分析链接来工作,所以网络越大,链接就越多,引擎提供的结果就更准确。这个事实促使这两位发明人给他们的心引擎命名为Google.这是googol的变体,googol代表"1"后面跟100个"0".1996年8月,他们在斯坦福的网站上发布了google的第一版本.
1998年时的首页
在斯坦福内部的一小批人中间,google轰动一时。备受鼓舞的佩奇和布林开始改进他们的服务,在索引中加入全文搜索和更多页面。然而,搜索引擎要求惊人数量的计算机处理资源。研究生通常没有钱去购买新的计算机,佩奇和布林也不列外。他们借钱建成了google--从网络实验室弄来一块硬盘,从计算机科学装配中心弄来一个闲置的cpu。他们把佩奇的宿舍改装成计算机实验室,把那些零部件组装成一个计算机怪物,然后把它整个接入斯坦福的校园宽带网。在往佩奇的房间塞满设备之后,这两个年轻的学生又把布林的房间改成办公室和编程中心。
admin
2008年4月11日
举IBM的例子说明pagerank
每天看几页 评论:0 浏览: Tags: IBM PageRank
还是以上面的IBM的案例做为例,让我们假设只有几个网站的链接指向这个孩子的网站,再假设没有多少网站指向这几个网站的链接。与之形成鲜明对比,,数千条链接指向英特尔,而且平均起来看。这些网站也拥有上千条指向他们的链接. 在pagerank[这种算法的名称取自佩奇的姓(page)因此叫做PageRank] 体系下,这个孩子的网站会被认为不如英特尔的网站重要,在这个例子中,佩奇和布林分级方法可以判断出英特尔的网站比那个郊区孩子的网站重要,至少是在同IBM的关系这一方面.
这不过是一个简化了的说明,当然。佩奇和布林还要改正许多运算上的死角。总之,更受欢迎的网站在他们的评级表上会排在顶端,而相对人气弱的网站就排在底部了.
佩奇把他的项目称为backrub(克莱因伯格首先定义了--文献计量学 backRub项目就是要做反向追踪) 这个项目旨在发现网络中的链接存储,它们以进行分析,然后再网上重新发布它们。不过通过再次发布的链接,任何人都可以知道到底有谁同网络上的任何给定网页建立连接.不管从那个角度来看,这都是一个雄心勃勃的计划。但是佩奇一开始就没有让backrub在数量有限的测试页面上工作。恰恰相反,他目标远大:为什么不一下子解决所有问题,直接在整个万维网上做?
要完成这样一个任务需要非比寻常的、无所畏惧的投入.尽管佩奇只是打算存储链接而不是整个网络的内容,他还需要搜索整个网络来找到这些链接. 在1995年这样的做法还很少见。
当佩奇构思backrub的时候,网络文件数据估算大约有1000万张,而链接它们的数量还是未知的,佩奇估算链接数量大概是1已左右。而实际的数量远大于此。
1996年3月,佩奇把网页捕获器指向一张网页--他在斯坦福的主页,然后把它放出去觅食,网页捕获器就从哪里开始工作。这就是网络的美丽之处,不管你从何处开始,最终你总是可以达到几乎每一个角落。
admin
2008年4月9日
克莱因伯格首先定义了--文献计量学 backRub项目就是要做反向追踪
每天看几页 评论:0 浏览: Tags:
《搜》第三章 为了 共同的兴趣 《超级连接环境下的权威来源》
接上一个话题,继续讨论。
克莱因伯格首先定义了一个术语--文献计量学,然后,他引用了这个一领域的权威人士--充满传奇色彩的加菲尔德,他被普遍认为是文献引用分析之父。接着,他又引用了那些在加菲尔德工作的基础上取得新紧张的学者(埃格希、宾斯奇和奈恩)。最后,克莱恩伯格在他的集线器与权限理论的基础上,提出了自己的结论.
学术出版物必须遵循科学探讨的基础原则,通过引用前人的研究,表明通往逻辑性结论的清晰道路你引用他人研究成果的行为,反映了这些作品对你研究而言所代表的等级和权威性。这是启发了google运行方式的重要概念。
...
admin
2008年4月9日
《搜》第三章 为了 共同的兴趣 《超级连接环境下的权威来源》
每天看几页 评论:0 浏览: Tags:
作者是康奈尔大学的乔恩·M·克莱因伯格
文献统计学是研究书面文献以及它们的引文的结构学问.很久以来,文献统计学就关注引文的使用。通过研究引文,也就是衡量他们的权威性。从这个意义上来讲,它们是以特定的社会体系为基础来评价权威性的。这个社会体系是由通过引文联系起来的论文或期刊.
这个领域最广为人知的衡量标准是加菲尔德印象因子。根据标准的定义,某期刊j在某个 年份的影响因子是由之前两年发表于期j刊的论文平均被引用的次数决定的 。现在我们不考虑两年的时间是否是适宜的衡量区间。我们可以发现影响因子事实上是一中以单纯地计算网络上的各个节点的入度为基础进行排序的标准。
...
admin
2008年4月9日
《搜》第二章 搜索、隐私和政府 google知道我们住在哪里?
每天看几页 评论:0 浏览: Tags:
这会被永久地记入你的档案--一位小学校长
你知道吗?google知道我们住在哪里?
20世纪60年代,美国社会心理学家米格兰姆(Stanley Milgranm)提出了“六步分离”(Six Degrees of Separation)的理论.他认为,最多过6个人,你就能够与任何一个陌生个体建立联系。它也常常被译成六度互联或六度空间.
马克.莫汉就遇到类似情况.他住在洛杉矶,是一名注册会计师.他用google搜索了自己的名字,对自己看到的信息非常不悦,他为满足虚荣心而进行搜索,可是在搜索到的结果中,却找到了加利福尼亚州会计事务管理委员会某张网页的链接,根据该网页的记录,他曾经受到行业处罚,而他自己否认了这个说法.为此莫汉起诉了google,yahoo.和其他很多搜索引擎,不过舆论普遍认为他会败诉.不过,其实的教训很清楚的:在别人的眼中,你就是索引里说的哪个人.如果你不喜欢,那就改变索引吧.奇怪的是,所有被莫汉起诉的搜索引擎都采取了这种办法--他们把那张具有伤害性的网页排到后面,而莫汉有争议的个人资料排得更靠前.
...
admin
2008年4月9日
google建立了一个自动化的自主服务模式,以便广告商能够使用信用卡在网上购买文字广告。同GoTo不同的,google的搜索服务已经拥有可观的访问流量,而且布林和佩奇特意将google的广告结果同它的自然搜索结果分开。后者google同GoTo最主要的区别,因为goto是以纯商业搜索引擎的形式创立的-虽然后来它也采取了这种好象正教分离的结果显示方式.
后来GoTo控告google公司侵犯了他们的专利权,这场官司几年之后才得到解决.现在已经隶属yahoo的goto 公司接受google上亿美元赔偿之后放弃了诉讼.
...
admin
2008年4月9日
《搜》中提到了什么是图灵测试?Feed验证
每天看几页 评论:0 浏览: Tags:
它是英国数学家阿兰·图灵于1950年在一篇开创性的论文中提出的。这篇文章中,图灵提出了一个模型,用于测试一台机器是否是智能的.学术界对这种测试本身及其具体的操作规程一直争论不休,不过我们可以了解一下它大致的工作原理。
我们先将一台问答器与一台机器和一个人分别连接起来。提问者并不知道哪端连着机器,那端连着人。这名提问者要通过向两者提问来判断哪个是机器,那个是人。如果一台机器可以骗过提问者,使其相信自己是人类,那么它就通过图灵测试,可以被认为是具有智能的.
...
工作的突破性就在于他们发明了一种新的算法。这种算法的名称取自佩奇的姓(page)因此叫做