存档

2009年11月2日 的存档

思考了很久。准备把Python作为主要语言。
ASP\PHP:仅能用于WEB方便,如果做为其他方面,比如客户端开发,不现实。ASP模板引擎基本没有,而且不能根据条件引用不同的脚本,效率太低。PHP则函数库太乱,应用方便不是很多。
Python:包括嵌入式,PC程序,WEB都可以做,有成熟的模板引擎。有社区的支持,Google,豆瓣都能找到Python的身影。
还有一个原因是各个平台都支持了Python。Linux,Unix,Mac系统默认安装Python,塞班手机S60,Winows PPC,Windows PC都可以通过安装软件支持,基本上所有平台都能运行Python,有点像Java哦。
当然。这只是一方面,最近两三年的目标是垃圾站,所以,采集也是一个很重要的功能,用火车头之类的毕竟不是很方便,如果用python,效率很高。方便定制。当然现在技术还是很菜,我绝对一个星期必须写出两个Python小程序。用于练手,就像以前学习其他语言一样,孰能生巧。
今天看了一下urllib函数库,和正则表达式方面的,要联系采集,这两个还是很重要的。

import urllib2
import re

def Key(key):
f=urllib2.urlopen(‘http://www.baidu.com/s?wd=’+key);
t=f.read();
p=re.findall(r’<td class=f><a[^>]+href=”([^"]+)”‘,t);
for u in p:
getTitle(u);
return;

def getTitle(u):
k=urllib2.urlopen(u);
x=k.read();
n=re.search(r”,x);
if n:
print ‘\n\n\nUrl:’+u;
print ‘Title:’+n.group(1);
return;

Key(“无线上网卡”);

十一 2nd, 2009 | Filed under Python