2006-11-03
我有银子弹-HTML的parser 工具列表及示范链接
其实想说的是鸡汤, 美丽的rubyful soup 和Hpricot 的 HTML Parser for Ruby
http://www.crummy.com/software/BeautifulSoup/
Rubyful Soup 1.0.4 released February 1, 2006
http://www.crummy.com/software/RubyfulSoup/
http://code.whytheluckystiff.net/hpricot/
接下来将解释如何用Html的解析工具,把网站上想要的内容刮下来, 请稍候。
可以看看已经讨论过的相关内容先
http://www.railscn.com/viewtopic.php?t=473
http://www.railscn.com/viewtopic.php?t=1038
http://www.rubyrailways.com/data-extraction-for-web-20-screen-scraping-in-rubyrails/
这个WWW::Mechanize, a handy web browsing ruby object 也被用作HTML 解析用.
http://rubyforge.org/projects/mechanize/
Hpricot处理Html快,解析XML也是相当的快
http://www.rubyinside.com/parse-xml-quickly-and-easily-with-hpricot-166.html
偷上瘾了,因为太简单了, 今天最新的新闻贴:
初步鉴定结果:
技术含量 一个星 代码量 五颗 文章长度 6颗星
THE Unbelievably Easy Way to Steal Other Web Sites: Addictively Amazing!
http://web2withrubyonrails.gauldong.net/2006/11/02/the-unbelievably-easy-way-to-steal-other-web-sites-addictively-amazing/
评论
bd7lx
2006-11-06
如
<script>a<1</script>
a<1
老的版本会忽略partial tags and Javascript 之类的_tag, 已经修正了
<script>a<1</script>
a<1
老的版本会忽略partial tags and Javascript 之类的_tag, 已经修正了
aardvark
2006-11-06
bd7lx 写道
kuky 写道
这个东东能解析javascript吗? 能把使用js生成的动态的内容转成静态内容刮下来吗?
应该可以,但具体的可能要试验下,给个link 一起作实验吧
Javascript runs on browsers...
bd7lx
2006-11-06
kuky 写道
这个东东能解析javascript吗? 能把使用js生成的动态的内容转成静态内容刮下来吗?
应该可以,但具体的可能要试验下,给个link 一起作实验吧
bd7lx
2006-11-04
ouspec 写道
bd7lx 写道
真得不理解你怎么象刺客一样悄悄地跟着
本来想写点东西, 给吓回去了
你的反应也太快乐
本来想写点东西, 给吓回去了
你的反应也太快乐
无意中看到的,对你没兴趣。
我对你有兴趣,如果你真是female,想请你录Podcast
bd7lx
2006-11-04
从3月到8月还是有变化的, 光守着一个帖子还是看不出“科技”的发展速度
这里的ROR新闻-不是狗咬人,没有技术含量的, 也不是人咬狗,故意猎奇耸人听闻
关注变化, 就需要了解新的状态, 讨论变化, 增加见识
cookoo早就提到了“Why最近写了个新的ruby html parser“
我仅仅是把它翻到上面显眼处
这里的ROR新闻-不是狗咬人,没有技术含量的, 也不是人咬狗,故意猎奇耸人听闻
关注变化, 就需要了解新的状态, 讨论变化, 增加见识
cookoo早就提到了“Why最近写了个新的ruby html parser“
我仅仅是把它翻到上面显眼处
引用
2006-8-13 周日, 上午3:04 标题: 引用回复
derk 写道:
我想问下 如何取代 src中的内容 ?
代码:
<html>
<head>
</head>
<body>
<img src ="test.jpg"></img>
<EMBED src="\test.mp3" width="300" height="45" type="audio/mpeg" loop="false" autostart="true" volume="0"></EMBED>
</body>
</html>
soup.find('img')['src']
soup.img['src'] = 'test2.jpg'
Why最近写了个新的ruby html parser,速度很快,可以参考一下:
http://code.whytheluckystiff.net/hpricot/
_________________
^..^
(OO)~ Run, Piggy, Run!
derk 写道:
我想问下 如何取代 src中的内容 ?
代码:
<html>
<head>
</head>
<body>
<img src ="test.jpg"></img>
<EMBED src="\test.mp3" width="300" height="45" type="audio/mpeg" loop="false" autostart="true" volume="0"></EMBED>
</body>
</html>
soup.find('img')['src']
soup.img['src'] = 'test2.jpg'
Why最近写了个新的ruby html parser,速度很快,可以参考一下:
http://code.whytheluckystiff.net/hpricot/
_________________
^..^
(OO)~ Run, Piggy, Run!
cookoo
2006-11-04
axgle 写道
不好意思,那时候还没Hpricot,现在我就不会建议用rubyful_soup了。
ouspec
2006-11-03
bd7lx 写道
真得不理解你怎么象刺客一样悄悄地跟着
本来想写点东西, 给吓回去了
你的反应也太快乐
本来想写点东西, 给吓回去了
你的反应也太快乐
无意中看到的,对你没兴趣。
axgle
2006-11-03
bd7lx介绍的这个比较实用,收藏。
cookoo在 http://www.railscn.com/viewtopic.php?t=473 的介绍也不错,我喜欢类似这样的有实用价值的东西.
cookoo在 http://www.railscn.com/viewtopic.php?t=473 的介绍也不错,我喜欢类似这样的有实用价值的东西.
buaawhl
2006-11-03
这类 Template DOM Manipulation 技术,做个简单的替换(Node, Attribute, Text 之类的)还可以。
涉及到“循环,嵌套,替换 attribute 中间的某一段,Java Script中的某一段”,就没戏了。
涉及到“循环,嵌套,替换 attribute 中间的某一段,Java Script中的某一段”,就没戏了。
bd7lx
2006-11-03
真得不理解你怎么象刺客一样悄悄地跟着
本来想写点东西, 给吓回去了
你的反应也太快乐
本来想写点东西, 给吓回去了
你的反应也太快乐
ouspec
2006-11-03
图片看不到
- 浏览: 67226 次

- 详细资料
搜索本博客
我的相册
1114487_749854
共 53 张
共 53 张
最近加入圈子
最新评论
-
Four cool IBM的ruby教程 ...
好东西,学习
-- by zlst -
DSL介绍视频讲座-同步播 ...
分享不是坏事。简单地发个链接,虽然没有“增值”部分,毕竟让不知道有这么个pres ...
-- by aardvark -
DSL介绍视频讲座-同步播 ...
引用嘿嘿,说实话,学ruby并非的一定要在这里讨论。bd71x,放开手脚灌吧。 ...
-- by liuyifan.com -
男儿西北有神州
http://docs.google.com/View?docid=adgp94 ...
-- by bd7lx -
男儿西北有神州
永不消逝的电波? 李侠的原型是李白烈士,上海黄渡路保存着他的故居
-- by leonson






评论排行榜