用Lynx过滤出搜索结果链接


利用lynx -dump的和grep awk组合,导出搜索结果链接列表:
lynx -dump 将结果页面和链接分别导出
grep KEYWORD 过滤出包含KEYWORDS的行
grep -v KEYWORD 过滤出不包含KEYWORDS的行
awk '{print $2}' 打印出第2列

lynx -dump "http://www.google.com/search?q=baidu" | grep http | grep -v google | grep -v cache|awk '{print $2}'
http://www.baidu.com/
http://www.baidu.com/search/jiqiao.html
http://mp3.baidu.com/
http://site.baidu.com/
http://bar.baidu.com/robots/
http://bar.baidu.com/mp3/
http://www.21cnbj.com/industrynews/se_doc/baidu.htm
http://union.baidu.com/
http://kaihui0.tripod.com/


lynx -dump "http://www.baidu.com/baidu?word=google"| grep http|grep -v baidu|awk '{print $2}'
http://www.google.com/
http://www.google.de/
http://groups.google.com/
http://images.google.com/
http://www.google.com.sg/
http://ww.google.com/
http://www.google-watch.org/
http://www.googlecn.cn/
http://www.googlebeijing.com/

作者:车东 发表于:2004-05-28 18:05 最后更新于:2007-04-15 19:04
版权声明:可以转载,转载时请务必以超链接形式标明文章 的原始出处和作者信息及本版权声明

Comments

第一次用lynx 发现比links看网页方便多了..
这个lynx -dump可以直接取出所有链接地址 只用一行就搞定了 很方便, 不过不好根据链接标签之间的内容来做进一步的判断 有些遗憾.

发表一个评论

(如果你此前从未在此 Blog 上发表过评论,则你的评论必须在 Blog 主人验证后才能显示,请你耐心等候。)

相关文章

关于

此页面包含了发表于2004年05月28日 下午06时28分的 Blog 上的单篇日记。

此 Blog 的前一篇日记是 BirthdayAlarm.com 帮你记住朋友的生日

此 Blog 的后一篇日记是 Google官方网站增加对SEO(Search Engine Optimization)的说明

更多信息可在 主索引 页和 归档 页看到。

Creative Commons License
此 Blog 中的日记遵循以下授权 Creative Commons(创作共用)授权.
Powered by
Movable Type 3.36