空间有形 梦想无限

hi,it's onebird‘s blog。My homepage is onebird.net.

python md5用于判重

onebird | 24 六月, 2007 18:49

1 # -*- coding: gbk -*-
  2 #!/usr/bin/env python
  3 from sets import Set
  4 import os
  5 import md5
  6 class CAvoidSame:
  7         def __init__(self,md5fname):
  8                 self.md5fname = md5fname;
  9                 self.md5set = Set()
 10                 if os.path.exists( self.md5fname ) == False:
 11                         fMD5=open(self.md5fname,"w+")
 12                         fMD5.close()
 13                         return
 14                 else:
 15                         fMD5=open(self.md5fname,"r+")
 16                         while True:
 17                                 md5data = fMD5.read(16)
 18                                 md5datalen = len(md5data)
 19                                 if md5datalen == 16:
 20                                         self.md5set.add(md5data)
 21                                         continue
 22                                 if md5datalen == 0:
 23                                         fMD5.close()
 24                                         break
 25                                 nToFill = 16 - md5datalen
 26                                 while nToFill > 0:
 27                                         md5data+="0"
 28                                         fMD5.write("0")
 29                                         nToFill-=1
 30                                 self.md5set.add(md5data)
 31                                 fMD5.close()
 32                                 break
 33         def IsInAddIfNot(self,aStr):
 34                 m = md5.new(aStr)
 35                 bIsIn = m.digest() in self.md5set
 36                 if bIsIn == False:
 37                         fMD5 = open(self.md5fname,"a")
 38                         fMD5.write(m.digest())
 39                         fMD5.close()
 40                         self.md5set.add(m.digest())
 41                 return bIsIn
 42                         
 43         
 44 if __name__ == "__main__":

 45         avoidSame = CAvoidSame("test.md5")
 46         print avoidSame.IsInAddIfNot("aaa")
 47         print avoidSame.IsInAddIfNot("bbb")
 48         print avoidSame.IsInAddIfNot("ccc")
 49         print avoidSame.IsInAddIfNot("aaa")
 50         print avoidSame.IsInAddIfNot("bbb")
 51         print avoidSame.IsInAddIfNot("ddd")

Python传递对象都是传引用的

onebird | 24 六月, 2007 18:15

实验如下

  1 class A:
  2         def __init__(self):
  3                 self.n =1
  4 def f(a):
  5         a.n = 2
  6 def g(a):
  7         a.n = 3
  8         return a
  9 a = A()
 10 print a.n
 11 f(a)
 12 print a.n
 13 b = A()
 14 print b.n
 15 b = g(a)
 16 print b.n
 17 print a.n
 18 b.n =100
 19 print a.n

 

结果

onebird@bee:~$ python test.py
1
2
1
3
3
100

酷酷酷

onebird | 18 六月, 2007 00:33

今天想起来,除了酷讯外 酷我,酷流,优酷 三家公司都是我差点去的。

不过好像这四家发展都不错。其实北京真的很小,我在北京接触的人基本上反复遇到。

还遇到不少同村同乡。

关于本站的不稳定性

onebird | 17 六月, 2007 01:56

本站的机器只有512M,使用lifetype系统。

由于lifetype程序实现有问题,导致没一个apache进程需要14M的空间。

导致内存不够发生swap。

目前通过对链接数和链接保持时间设置进行了优化,情况稍好一些。

但是还是不行

目前还可以的优化方式是:

1 使用lighttpd+php_fastcgi 或使用apache woker模式(php需要重新编译)

2 修改lifetype系统(不过据说内存消耗在模板生成上 估计不是太好改)

3 加上缓存处理

 

计划 先做 1 ,3 

 

今天放风筝 放到100米高(估计)

onebird | 11 六月, 2007 23:18

其实还有线但是不干放了因为已经越过一个小区。怕挂到路边造成交通事故。

真想到草原去放风筝啊。(不过草原好像也会绊倒马) 。

到哪儿才能放个爽呢。 

走进酷讯,走进生活搜索--南开精英交流会

onebird | 09 六月, 2007 12:50

======前言=====================

今天和陈华到南开做了一次活动,酷讯-Eling软件开发联盟合办的走进酷讯,走进生活搜索--南开精英交流会。会议筹备的时间很短,但很成功,接触了南开软件,计算机,数学等等计算机技术爱好者。

======为什么去南开====================

我是公司的第一位研发工程师。早期酷讯的南开的工程师占了研发团队的1/4(现在少了,以北大的居多)。而且所有南开的RD都获得过优秀员工(当然不是所有的人都是优秀员工的~~,优秀员工还是很少的说)。由于现在南开的同事青黄不接了,所以我们觉得会学校捞一些更优秀的同学和师弟。

====接近正文====================

承办此活动是我当年担任主席的亿灵软件开发联盟这样一个社团(http://cs.nku.cn/eling 这个比赛网站还是我做的,美工不错吧) 本届eling的小廖主席和研会孙主席格外热心,本来我们只想搞一个小规模的交流会演变成了走进酷讯,走进生活搜索-南开精英交流会,和南开软件,信科,数学等对计算机兴趣很高的同学做了交流

===活动======================

陈华和我两点多从北四环出发经京津塘至白堤路一路堵车终于提前半小时赶回学校。只至走到鞍山西道我才想起来路改怎么走(我大学期间真乖,除了到白堤路家乐福买方便面,和到鞍山西道赛博风荷园等攒机器就没怎么出过校门)

 

先是和一些本科时候的老同学和acm的优秀成员等朋友一起吃了顿快餐(很快吃完的正餐)。

交流会在南开倒数第二悠久的主楼举行。首先是陈华介绍了一下酷讯的发展历程,之后我即兴介绍了一下酷讯的工程师文化。提问的人比较多,问题分三类:1 公司发展的问题,如公司如何包含用户隐私啊,更远的未来有什么想法啊,和分类信息网站的关系啊 2 技术问题 这么多网站怎么抓啊,抓全度和实时性能否都保证啊,抽取有什么办法效率如何啊,怎么保证安全性啊 3 实习和招聘的问题,招聘有何要求啊,有无培训啊,工程经验少行不行啊。

 

总体感觉在南开校园IT相关专业的同学对酷讯还是有预先的了解。对google生活搜索,麦田的一些评论文章也都熟悉。活动进行了两个小时,最后和大家一一告别怀这饥饿的肚子回到了北京。

 

希望酷讯能汇集来一些南开更优秀的同学。

====其它=====================

1 活动DM

 

2 活动PP

 

3 南开PP

 

 

4 酷讯PP

 

 

5 招聘目标

 

掌握检索系统及Lucene评析(1)

onebird | 04 六月, 2007 00:19

Lucence目前非常流行。很多小的垂直搜索公司和一些站内搜索都使用它甚至一些大公司也用基于lucene的nuthch系统来做搜索引擎。

  网上有很多文章介绍Lucene,主要的有车东的一些文章,人民大学99级一位大四学生的毕业论文(毕业设计用C++重写Lucene),还有一些网友的使用心得。但是这些文章主要是对Lucence的背景和基本结构介绍,使用说明,参数设置经验。阅读这些文章只能起一些了解的作用。

 因为自己想写一个非特化的检索查询子系统,读了Lucence代码尤其是索引格式的那一部分。在blog上谈谈我觉得Lucene的优点和缺点。以及改进之处(包括我自己设计检索系统的一些想法) (查看全文)

[转载]酷讯与Google生活搜索及其他垂直搜索网站或分类信息网站的比较 by leeleft

onebird | 31 五月, 2007 23:18

酷讯与Google生活搜索及其他垂直搜索网站或分类信息网站的比较
2007年05月22日 星期二 15:05
先说一句:本文只是做比较,关于酷讯该如何调整自己的战略和战术,尚未考虑成熟。


 (查看全文)

招聘技术类实习生

onebird | 31 五月, 2007 23:07

酷讯公司招聘技术类实习生

         酷讯(http://www.kooxoo.com)是一款生活信息搜索引擎,是涵盖住房、招聘、火车票、飞机票、旅游、汽车等方面的专业搜索平台,并利用酷洼、个人空间等web2.0版块为用户提供互动交流渠道。作为中国生活信息搜索引擎门户,酷讯不仅有新的概念和产品,更是开创了众多令人耳目一新的搜索新技术和搜索新体验,并赢得了“世界上第一款会‘冒泡’的搜索引擎”的称号。

酷讯公司是2006年底,陈华、吴世春在北京创立的公司,并在同年前后两次共获得1200万美元的风险投资。

酷讯正凭借着专注、可信赖的搜索服务,成长为生活搜索的代名词。

 

C++研发工程师

1.       C++语言编程高手,

2.       对算法设计/数据结构有深刻的理解;

3.       很强的分析问题和解决问题的能力,攻关疑难问题的强烈兴趣;

4.       有高昂的创业激情,能承担较大的工作压力

5        精通linux下的编程(plus)

javascript工程师

1.       精通HTML、CSS、JavaScript、XML、AJAX;

2.       熟悉linux开发环境;

3.       思维严密,适合做程序开发;

 

PHP工程师

1.       熟练掌握PHP

2.       熟练掌握HTML,CSS,Javascript等网页技术

3.       计算机相关专业大三以上年级学生

4.       有高昂的创业激情,能承担较大的工作压力

与google竞争

onebird | 19 五月, 2007 21:43

Google.cn 发布了生活搜索。定位与酷讯完全一致,从很大程度可说是模仿酷讯。其实这是个好事情,为什么就不多解释了。

 我想说的就是今后要和同事更加努力,以最接近事情本质的方式去改进产品。虽然目前google的产品质量比我们还差很远 ,但是我们要有足够的危机感平静努力有创意的去工作。

 以后我会定期发布一些http://google.cn/shenghuo的质量对比报告,有兴趣的朋友请给我提意见。

 其它不说了:

有敢于和google团队竞争,保持领先有信心的朋友请加入酷讯!联系人onebird at gmail.com 

 

Accessible and Valid XHTML 1.0 Strict and CSS
Powered by LifeType - Design by BalearWeb