标签归档:DOM

Python 之 XML与文本操作

一直想做一个自动读取RSS,自动更新的站。今晚正好没有事,先写个Demo。
临时先保存到文本文件中。顺便复习一下Python。
用到了MD5,XML.DOM,URllib,OS库,都是默认的。
直接插代码吧。

import sys
#coding=gb2312
reload(sys)
sys.setdefaultencoding('utf-8')
import md5
import os
import urllib
import xml.dom.minidom as xxs

#Config
tmpPath='E:/Else/rss-engins/'

#FileName2Md5
def md5str(t):
	h=md5.new()
	h.update(t)
	return str(h.hexdigest())
	
#FileSystem
def saveFile(t,c):
	f='data/'+md5str(t)+'.txt'
	if os.path.isfile(f):
		return
	fi=open(tmpPath+'index.txt','a')
	fi.writelines(t+'\n')
	fg=open(tmpPath+f,'w')
	fg.writelines(c)
	
#RSS
def saveRss(f,c,encoding):
	fp=open(f,'w')
	if encoding=='gb2312':
		c=c.decode('gb2312').encode('utf-8')
		c=c.replace('encoding="gb2312"','encoding="utf-8"')
	fp.writelines(c)
	fp.close()
	return f
def getRss(url):
	ul=urllib.urlopen(url)
	t=ul.read()
	ul.close()
	return t
def rssMain(url,encoding):
	f=tmpPath+'xml/'+md5str(url)+'.xml'
	if os.path.isfile(f):
		return "isok"
	return saveRss(f,getRss(url),encoding)

#getInfo
def getRssInfo(url,encoding):
	t=rssMain(url,encoding)
	if t=='isok':
		print '该路径已经采集过了。'
		return
	t=xxs.parse(t)
	ri=t.getElementsByTagName("channel")[0].getElementsByTagName("item")
	for item in ri:
		title=str(item.getElementsByTagName("title")[0].childNodes[0].data)
		content=str(item.getElementsByTagName("description")[0].childNodes[0].data)
		print '保存文章('+title+')中...'
		saveFile(title,content)

#处理
def BaiduHi(RS):
	for rs in RS:
		print '加载用户:'+rs+'(http://hi.baidu.com/'+rs+'/rss)...'
		getRssInfo(r'http://hi.baidu.com/'+rs+'/rss','gb2312')
		print '用户:'+rs+'处理完毕。\n'
		
def SohuBlog(RS):
	for rs in RS:
		print '加载用户:'+rs+'(http://'+rs+'.blog.sohu.com/rss)...'
		getRssInfo(r'http://'+rs+'.blog.sohu.com/rss','utf-8')
		print '用户:'+rs+'处理完毕。\n'
		
#RSS服务器列表
RssServer=['mqycn','yilin','loveinmyhome','guojing021','900ip','037123']
BaiduHi(RssServer)

RssServer=['appler969','saber-bing','02040229','seahai','satanqueen','douzwang']
SohuBlog(RssServer)

现在就可以采集以上一个百度hi用户的最新博文了。呵呵,核心还是RSS。

===============================================================
使用说明:读取RSS,并生成记录到本地。
索引文件为index.txt。每条新闻记录为一行。对应的内容文件为data/{md5(文章名)}.txt

===============================================================
更新日期:2009-12-13
添加了是否读取的判断,如果读取,则不再采集

===============================================================
更新日期:2009-12-24
修改了部分编码。解决了UTF-8出粗的问题。
添加了搜狐博客的测试代码。

可以方便的给DOM对象添加方法,可支持所有浏览器

Test
Test
/*
文件名:set-Object.html
设计者:苗启源
功  能:可以方便的给DOM对象添加方法,可支持所有浏览器
主  页:http://www.miaoqiyuan.cn/p/set-Object
*/
var $=function(id){return document.getElementById(id);}
//SetObject 设置对象属性
var setObject=function(c,d){for(p in d){c[p]=d[p];if(p=="init")c.init();}return c;}
//扩展属性
var __isIE=function(){return window.ActiveXObject}
var __Name=function(t){if(this.tmp)this.name=this.tmp;else this.name='Hello'}
var __setClass=function(t){if(__isIE){this.className=t}else{this.setAttribute('class',t);}}
var __getClass=function(){if(__isIE){return this.className}else{return this.getAttribute('class');}}

//测试对象
var ob=$("Demo");var ob2=$("Demo2");
setObject(ob,{tmp:'Demo',init:__Name,setClass:__setClass,getClass:__getClass});
setObject(ob2,{init:__Name,setClass:__setClass,getClass:__getClass});
document.write(ob.name+"\n");
document.write(ob2.name+"\n");
document.write(ob.getClass()+"\n");
document.write(ob2.getClass()+"\n");
ob.setClass('newDemoClass');
ob2.setClass('newDemo2Class');
document.write(ob.getClass()+"\n");
document.write(ob2.getClass()+"\n");

W3C-DOM简要文档

下面时程序生成,测试页面:http://www.miaoqiyuan.cn/products/w3c-dom.htm
这里就不截图了

W3C简要文档
动态创建内容时所用的W3C DOM属性和方法
方法:document.createElement(tagName)
说明:创建指定元素
方法:document.createTextNode(文本)
说明:创建文本节点
方法:_dom.appendChild(子元素)
说明:添加新节点
方法:_dom.getAttribute(属性名)
说明:返回元素的属性
方法:_dom.setAttribute(属性名,属性值)
说明:设置元素属性
方法:_dom.inserBefore(新元素,子元素)
说明:在字节点前插入元素
方法:_dom.removeAttribute(属性名)
说明:删除属性
方法:_dom.removeChild(子元素)
说明:删除节点
方法:_dom.replaceChild(新元素,子元素)
说明:替换节点
方法:_dom.hasChildNodes()
说明:是否有子元素
用于处理XML文档的DOM元素属性
方法:childNotes
说明:返回所有子元素的数组
方法:fristChild
说明:第一个下级元素
方法:lastChild
说明:最后一个下级元素
方法:nextSibling
说明:下一个元素
方法:previousSibling
说明:上一个元素
方法:nodeValue
说明:指定元素的读写属性
方法:parentNode
说明:返回元素的父节点
用于遍历XML文档的DOM元素方法
方法:getElementById(ID名)
说明:根据ID获取DOM对象
方法:getElementsByTagName(TagName)
说明:根据TagName返回对象数组
方法:getElementsByName(Name)
说明:根据Name返回对象数组
方法:hasChildNodes()
说明:判断是否有子元素
方法:getAttribute(属性名)
说明:返回元素的属性
版权所有:苗启源

document的使用方法

属性 描述
activeElement 获取当父 document 拥有焦点时获得焦点的对象。
alinkColor 设置或获取元素中所有激活链接的颜色。
bgColor 不赞成。设置或获取表明对象后面的背景颜色的值。
charset 设置或获取用于解码对象的字符集。
cookie 设置或获取 cookie 的字符串值。
defaultCharset 从当前的区域语言中获取默认字符集。
designMode 设置或获取表明文档是否可被编辑的值。
dir 设置或获取表明对象的阅读顺序的值。
doctype 获取与当前文档关联的文档类型声明。
documentElement 获取对文档根结点的引用。
domain 设置或获取文档的安全域名。
expando 设置或获取表明是否可对象内创建任意变量的值。
fgColor 设置或获取文档的前景(文本)颜色。
fileCreatedDate 获取文件创建的日期。
fileModifiedDate 获取文件上次修改的日期。
fileSize 获取文件大小。
implementation 获取当前文档的 implementation 对象。
lastModified 获取页面上次修改的日期,若页面提供的话。
linkColor 设置或获取对象文档链接的颜色。
parentWindow 获取容器对象所在窗口的引用。
protocol 设置或获取 URL 的协议部分。
readyState 获取表明对象当前状态的值。
referrer 获取将用户引入当前页面的位置 URL。
uniqueID 获取为对象自动生成的唯一标识符。
URL 设置或获取当前文档的 URL。
URLUnencoded 获取文档的 URL,去除所有字符编码。
vlinkColor 设置或获取用户已访问过的链接颜色。
XMLDocument 获取对由对象引出的的 XML 文档对象模型(DOM)的引用。
XSLDocument 获取对 XSL 文档的顶层结点的引用。

属性

集合

集合 描述
all 返回对象所包含的元素集合的引用。
anchors 获取所有带有 name 和/或 id 属性的 a 对象的集合。此集合中的对象以 HTML 源顺序排列。
applets 获取文档中所有 applet 对象的集合。
childNodes 获取作为指定对象直接后代的 HTML 元素和 TextNode 对象的集合。
embeds 获取文档中所有 embed 对象的集合。
forms 获取以源顺序排列的文档中所有 form 对象的集合。
frames 获取给定文档定义或与给定窗口关联的文档定义的所有 window 对象的集合。
images 获取以源顺序排列的文档中所有 img 对象的集合。
links 获取文档中所有指定了 HREF 属性的 a 对象和所有 area 对象的集合。
namespaces 获取 namespace 对象的集合。
scripts 获取文档中所有 script 对象的集合。
styleSheets 获取代表与文档中每个 link 或 style 对象的实例相对应的样式表的 styleSheet 对象的集合。

事件

事件 描述
onactivate 当对象设置为活动元素时触发。
onbeforeactivate 对象要被设置为当前元素前立即触发。
onbeforecut 当选中区从文档中删除之前在源对象触发。
onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即触发。
onbeforeeditfocus 在包含于可编辑元素内的对象进入用户界面激活状态前或可编辑容器变成控件选中区前触发。
onbeforepaste 在选中区从系统剪贴板粘贴到文档前在目标对象上触发。
onclick 在用户用鼠标左键单击对象时触发。
oncontextmenu 在用户使用鼠标右键单击客户区打开上下文菜单时触发。
oncontrolselect 当用户将要对该对象制作一个控件选中区时触发。
oncut 当对象或选中区从文档中删除并添加到系统剪贴板上时在源元素上触发。
ondblclick 当用户双击对象时触发。
ondeactivate 当 activeElement 从当前对象变为父文档其它对象时触发。
ondrag 当进行拖曳操作时在源对象上持续触发。
ondragend 当用户在拖曳操作结束后释放鼠标时在源对象上触发。
ondragenter 当用户拖曳对象到一个合法拖曳目标时在目标元素上触发。
ondragleave 当用户在拖曳操作过程中将鼠标移出合法拖曳目标时在目标对象上触发。
ondragover 当用户拖曳对象划过合法拖曳目标时持续在目标元素上触发。
ondragstart 当用户开始拖曳文本选中区或选中对象时在源对象上触发。
ondrop 当鼠标按钮在拖曳操作过程中释放时在目标对象上触发。
onfocusin 当元素将要被设置为焦点之前触发。
onfocusout 在移动焦点到其它元素之后立即触发于当前拥有焦点的元素上触发。
onhelp 当用户在浏览器为当前窗口时按 F1 键时触发。
onkeydown 当用户按下键盘按键时触发。
onkeypress 当用户按下字面键时触发。
onkeyup 当用户释放键盘按键时触发。
onmousedown 当用户用任何鼠标按钮单击对象时触发。
onmousemove 当用户将鼠标划过对象时触发。
onmouseout 当用户将鼠标指针移出对象边界时触发。
onmouseover 当用户将鼠标指针移动到对象内时触发。
onmouseup 当用户在鼠标位于对象之上时释放鼠标按钮时触发。
onmousewheel 当鼠标滚轮按钮旋转时触发。
onmove 当对象移动时触发。
onmoveend 当对象停止移动时触发。
onmovestart 当对象开始移动时触发。
onpaste 当用户粘贴数据以便从系统剪贴板向文档传送数据时在目标对象上触发。
onpropertychange 当在对象上发生对象上发生属性更改时触发。
onreadystatechange 当对象状态变更时触发。
onresizeend 当用户更改完控件选中区中对象的尺寸时触发。
onresizestart 当用户开始更改控件选中区中对象的尺寸时触发。
onselectionchange 当文档的选中状态改变时触发。
onstop 当用户单击停止按钮或离开 Web 页面时触发。

方法

方法 描述
attachEvent 将指定函数绑定到事件,以便每当该事件在对象上触发时都调用该函数。
clear 目前尚未支持。
close 关闭输出流并强制将数据发送到显示。
createAttribute 以指定名称创建 attribute 对象。
createComment 以指定数据创建 comment 对象。
createDocumentFragment 创建一个新文档。
createElement 为指定标签创建一个元素的实例。
createEventObject 生成当使用 fireEvent 方法时用于传递事件相关信息的 event 对象。
createStyleSheet 为文档创建样式表。
createTextNode 从指定值中创建文本字符串。
detachEvent 从事件中取消指定函数的绑定,这样当事件触发时函数就不会收到通知了。
elementFromPoint 返回指定 x 和 y 坐标的元素。
execCommand 在当前文档、当前选中区或给定范围上执行命令。
focus 使得元素得到焦点并执行由 onfocus 事件指定的代码。
getElementById 获取对 ID 标签属性为指定值的第一个对象的引用。
getElementsByName 根据 NAME 标签属性的值获取对象的集合。
getElementsByTagName 获取基于指定元素名称的对象集合。
hasFocus 获取表明对象目前是否拥有焦点的值。
mergeAttributes 复制所有读/写标签属性到指定元素。
open 此方法以两种方式工作。该方法打开一个文档用于收集 write 和 writeln 方法的输出。在这种情况下,只使用前两个参数 url 和
name。若指定了附加参数,此方法将打开一个窗口,这与 window 对象的 window.open 方法相同。
queryCommandEnabled 返回表明指定命令是否可于给定文档当前状态下使用 execCommand 命令成功执行的 Boolean 值。

queryCommandIndeterm 返回表明指定命令是否处于模糊状态的 Boolean 值。
queryCommandState 返回表明命令当前状态的 Boolean 值。
queryCommandSupported 返回表明当前命令是否在当前区域上支持的 Boolean 值。
queryCommandValue 返回文档、范围或当前选中区对于给定命令的当前值。
recalc 重新计算当前文档中的全部动态属性。
releaseCapture 释放当前文档中对象的鼠标捕捉。
setActive 设置对象为当前对象而不将对象置为焦点。
write 在指定窗口的文档中写入一个或多个 HTML 表达式。
writeln 在指定窗口的文档中写入一个或多个 HTML 表达式,后面追加一个换行符。

对象

元素 对象 描述
BODY body 指定文档主体的开始和结束。
implementation 包含了关于对象支持的模块信息。
location 包含关于当前 URL 的信息。
selection 代表了当前激活选中区,即高亮文本块,和/或文当中用户可执行某些操作的其它元素。
TITLE title 包含文档的标题。

样式

样式属性 描述
compatMode 设置或获取表明此对象是否应用标准兼容模式的值。

注释

此对象在 Microsoft® Internet Explorer 3.0 的脚本中可用。

使用 document 对象可以对 HTML 文档进行检查、修改或添加内容,并处理该文档内部的事件。在 Web 页面上,document 对象可通过
window 对象的 document 属性引用,或者直接引用。

document 对象在主文档的任意时间均可用,但是对于目前正在轻便动态 HTML(DHTML) 行为中使用的 HTML
组件(HTC)来说却不可用。这是因为轻便的行为仅当在 HTC 文件中不使用 document
对象时才可被定义。结果将使得轻便的行为比常规行为运行更加快速和有效率。但是,轻便的 DHTML 行为可以与常规的 DHTML
行为一样的方法访问主文档的 document 对象。

ondocumentready 事件将通知 DHTML 行为包含该行为的主 Web 页面的 document 对象可用。只要
ondocumentready 被触发,行为就可以开始处理主 document 属性。

行为中的脚本可以在 HTC 或主文档中引用 document 对象。如果要在 HTC 文件中编码脚本,应使用 element.document
来引用主文档的 document 对象。

示例

下面的例子使用了 document 对象检查文档标题并在消息框中显示该标题(如果非空)。

if (document.title!=””)
alert(“标题为 ” + document.title)

下面的例子演示了在浏览器的状态栏上显示鼠标当前位置的事件句柄函数,所得位置相对于文档的左上角。

显示示例

<HTML>
<HEAD><TITLE>报告鼠标移动</TITLE>
<SCRIPT LANGUAGE=”JScript”>
function reportMove()
{
window.status = “X=” + window.event.x + ” Y=” + window.event.y;
}
</SCRIPT>
<BODY onmousemove=”reportMove()”>
<H1>欢迎!</H1>
</BODY>
</HTML>

标准信息

没有应用于此对象的公共标准。

应用到

[ 对象名称 ]
平台 版本
Win32:
Unix:
Win16:
WinCE:
Mac:
版本数据当鼠标指向链接或链接获得焦点时在此列出。
CUSTOM, window
将鼠标光标移动到应用到清单中的元素即可显示关于列出平台的可用信息。

能轻松加入FLASH,获取URL提交的数据,获取DOM对象并能轻松修改ClassName的JS框架:myw3sys

还有一片关于文件搜索的文章要发,准备测试截图的时候忽然想到了前几天些个一个JS框架,也发上来
测试地址为:http://labs.myw3.cn/JS/myw3sys/
文件下载地址:http://labs.myw3.cn/js/resource/myw3sys.js

通过该JS框架,可以:
1,通过_Swf("wjgww.swf",320,240,2);在网页中插入一个wjgww.swf的Flash文件
2,使用_Query("a")来获取通过GET提交的a对应数据
3,用_Get("li","tagname",_Get("das"))[0]来获取ID为das的第一个tagname为li的子对象
4,用_Get("dax").Class.add("x1")来修改classname,实现超炫的效果

/*

MyW3 Js Tools Kit 1.0

更新说明:
1.Swf添加了透明支持
2.增加了_Get对象
3.增加了修改Class函数
4.增加了Query查询GET提交的数据

函数:_Swf(s,w,h,d,i)
功能:加载SWF文件;
用法:_Swf(Flash文件名,宽,高,文件背景是否透明,FlashURI);
宽高:可以是数字,也可以为站父对象的百分比(如:100%),可以省略,默认100%;
文件背景是否透明:1为透明,其他未不透明,可以省略,默认透明;
FlashURI:Flash默认的保存路径,可以省略,默认未myw3_res指定的路径;

函数:_Get(o,t,p)
功能:获取DOM对象;
用法:_Get(对象标识,标识类型,父对象);
对象标识:根据标识类型根据对象标识获取对象;
标识类型:id、tagname、name,可以省略,默认id;
父对象:可以省略,默认documet;

函数:_Query(key)
功能:查询GET提交的数据;
用法:_Query(关键字);

函数:o.Class.add(classname),o.Class.get(),o.Class.remove(classname)
功能:添加/删除/查看对象的ClassName
用法:_Class(对象).add(Class名称),_Class(对象).get(),_Class(对象).remove(Class名称)

请尊重作者的劳动成果,保存下面的版权连接
版权所有:MyW3

*/
var myw3=new myw3sys();
var myw3_res=”/Js/resource/”; //资源文件的默认路径
var _Myw3_QueryData=new Array();

function myw3sys(){
this.cn=new function(){
this.ver=”1.00.0710″;
this.sid=”80710″
this.home=new function(){
this.name=”MyW3 Js Tools Kit”
this.url=”http://labs.myw3.cn/js/resource/myw3sys.js”
this.homesite=”http://labs.myw3.cn/js/myw3sys/”
this.GoHome=function(){location.href=this.homesite;}
this.Download=function(){location.href=this.url;}
return this.url;
}
}
this.cn_query=function(_q){
if(_Myw3_QueryData.length==0)
__CreateQueryDate();
for(i=0;i<_Myw3_QueryData.length;i++){
if(_Myw3_QueryData[i][0]==_q){
return _Myw3_QueryData[i][1];
}
}
}
this.cn_class=new function(){
var q=(window.ActiveXObject)?”className”:”class”;
this.q=q;
this.add=function(c){
if(this.get()&&this.get()!=”undefined”){
if(this.get().indexOf(c)==-1)
tmp=this.get()+” “+c;
}else{
tmp=c;
}
po.setAttribute(q,tmp);
}
this.remove=function(c){
if(this.get()){
var tmp=this.get();
tmp=tmp.replace(” “+c,””);
tmp=tmp.replace(c+” “,””);
if(this.get().indexOf(” “)==-1){tmp=tmp.replace(c,””);}
}
po.setAttribute(q,tmp);
}
this.get=function(){
return po.getAttribute(q);
}
}
this.cn_swf=function(s,w,h,d,i){
s=s.replace(“fla”,”swf”);
if(!w)
w=”100%”;
if(!h)
h=”100%”;
if(!d)
d=1;
//d==0?transparent:Opaque;
if(!i)
//默认的FlashURI
i=myw3_res;
d=d==1?”transparent”:”Opaque”;
document.writeln(‘‘);
}
this.cn_get=function(o,t,p){
if(!p)
p=document;
switch(t){
case “name”:po=p.getElementsByName(o);break;
case “tagname”:po=p.getElementsByTagName(o);break;
default:po=document.getElementById(o);break;
}
if(po){
po.Class=new _Class;
}
return po;
}
}
function __CreateQueryDate(){
var _Myw3_QueryData_S=location.search;
if(_Myw3_QueryData_S!=””){
var _Myw3_QueryData_Ss=_Myw3_QueryData_S.replace(“?”,””).split(“&”);
for(var i=0;i<_Myw3_QueryData_Ss.length;i++){
var MyW3_QueryData_Sa=_Myw3_QueryData_Ss[i].split(“=”);
_Myw3_QueryData[i]=new Array(MyW3_QueryData_Sa[0],MyW3_QueryData_Sa[1])
}
}else{
_Myw3_QueryData[0]=new Array(0,0);
}
}

//_Class请勿修改,否则导致程序不正常
function _Class(){
return myw3.cn_class;
}

function _Swf(s,w,h,d,i){
myw3.cn_swf(s,w,h,d,i);
}

//兼容Beta1.0版本的myw3_swf
function myw3_swf(s,w,h,i){
myw3.cn_swf(s,w,h,1,i);
}

function _Get(o,t,p){
return myw3.cn_get(o,t,p);
}

function _Query(Q){
return myw3.cn_query(Q);
}

function _Help(){
myw3.cn.home.GoHome();
}