时间:2015-05-13 来源:

PythonShow-Me-the-Code第0009题提取网页中的超链接 【系统运维】

第 0009 题:一个HTML文件web外包,找出里面的链接.

0009.提取网页中的超链接.py

#!/usr/bin/env python #coding: utf-8 from bs4 import BeautifulSoup import urllib import urllib2 import sys reload(sys) sys.setdefaultencoding("utf-8") # 要分析的网页url url = 'http://www.ruanyifeng.com/blog/2015/05/co.html' def findAllLink(url): ''' 提取网页中的超链接 ''' # 获取协议,web外包 alist) return alist if __name__ == '__main__': for i in findAllLink(url): print i 拿阮一峰博客上一篇文章测试网页html切图排版,效果如下:

思路:对于提取网页中的超链接,网页html切图排版先把网页内容读取出来,承接网站前端然后用beautifulsoup来解析是比较方便的.但是我发现一个问题,html切图报价就会包含javascript:xxx和#xxx之类的web外包,所以要对这些进行特殊处理.

$(function () { $('pre.prettyprint code').each(function () { var lines = $(this).text().split('\n').length; var $numbering = $('').addClass('pre-numbering').hide(); $(this).addClass('has-numbering').parent().append($numbering); for (i = 1; i ').text(i)); }; $numbering.fadeIn(1700); }); });

点击次数:1600
作者:
web前端行业资讯
Web new NewsList
英特尔宣布与法拉利跨界合作欲将AI技术用于赛车运动 ,,2018年01月11日甲骨文服务器出漏洞:攻击者用漏洞挖矿获取加密货币 ,,2018年01月11日用深度学习设计图像视频压缩算法:更简洁、更强大 ,,2018年01月11日Ubuntu内核和NVIDIA更新:修复Meltdown和Spectre两处漏洞 ,,2018年01月11日AntDesign3.1.1发布,阿里企业级UI设计语言 ,,2018年01月11日微信「跳一跳」带火小游戏,开发者如何快速上手? ,,2018年01月11日谷歌公布最新安卓系统份额:你用上奥利奥了么? ,,2018年01月11日腾讯开发出“3D音效”算法:普通耳机实现3D实时语音效果 ,,2018年01月11日谷歌工程师点赞中国程序员实现Node.js启动超4倍提速 ,,2018年01月11日三星电子总裁兼CE部门负责人金炫奭:万物互联时代到来 ,,2018年01月11日NVIDIA和大众合作建立智能驾驶助手 ,,2018年01月11日GIMPS项目报告发现已知最大素数 ,,2018年01月11日微软与生物技术公司开展AI驱动的血液检测同时诊断数十种疾病 ,,2018年01月11日微软跨平台移动开发工具套件HockeyApp宣布免费 ,,2018年01月11日《硅谷》里神乎其神的压缩技术,AI正在一点点做出来 ,,2018年01月11日LinuxMint19代号敲定为“Tara”预计2018年5月至6月期间发布 ,,2018年01月11日Facebook发布wav2letter工具包,用于端到端自动语音识别 ,,2018年01月11日开源数据库ArangoDB正进行约1156万美元股权融资 ,,2018年01月11日IntelCPU漏洞闹大:腾讯云紧急升级 ,,2018年01月11日2018年1月全球数据库排名:Redis夺回第八 ,,2018年01月11日Lyft将联手无人驾驶公司于CES上展示无人驾驶汽车 ,,2018年01月11日京东X无人超市首家社会门店开业:刷脸进、微信自动结算 ,,2018年01月11日担心被AI取代是杞人忧天?高晓松跨年演讲说的有几分对 ,,2018年01月11日免费授权技术许可Intel宣布在未来CPU中集成雷电3 ,,2018年01月11日算法决定你在社交媒体上看到的信息 ,,2018年01月11日谷歌安全博客披露“英特尔内核漏洞”更多细节 ,,2018年01月04日Postgres10开发者新特性 ,,2017年12月28日阿里巴巴、狗尾草、苏大联合论文:基于对抗学习的众包标注用于中文命名实体识别 ,,2017年12月28日柯洁的2017:20岁,与AI斗与人类斗,其乐无穷 ,,2017年12月28日如果机器人拥有痛觉,这个世界会有哪些不一样? ,,2017年12月28日先序遍历创建二叉树,对二叉树统计叶子节点个数和统计深度(创建二叉树时#代表空树,序列不能有误)c语言 【编程语言】2015年07月28日UVA10099-TheTouristGuide(floyd+最小值的最大化)【编程语言】2015年05月29日Cocos2d-xLua中多场景切换生命周期 【综合】2015年05月19日jquery无限级联菜单案例分享2014年01月29日在Word2010中选择性粘贴嵌入数据对象2014年01月28日gridview的item放大问题,setOnItemSelectedListener不执行的解决办法, 【架构设计】2015年07月14日IOSSDK详解之UIAlertController(IOS8之后替代AlertView和ActionSheet) 【移动开发】2015年04月01日Linux开发工具-Eclipse【综合】2015年02月28日C++STL迭代器方法之advance与prev方法浅析 【移动开发】2015年07月29日SpringToolSuitev3.8.1发布,一个Spring集成开发工具 ,,2016年08月04日PHPhasencounteredanAccessViolation错误的解决方法2014年01月29日C#特性【编程语言】2015年01月27日如何用u盘制作linux和windows公用启动盘 【编程语言】2015年05月12日局部加权回归、逻辑斯蒂回归、感知器算法—斯坦福ML公开课笔记32016年11月15日用C#实现鼠标框选效果的实现代码2014年01月30日Android消息处理源码分析(2) 【编程语言】2015年07月08日卷积操作的GPU粗粒度并行实现及测试(优化) 【研发管理】2015年03月03日LeetCodeDistinctSubsequences2015年02月09日机房收费系统(三)软件需求说明书【移动开发】2015年08月15日爬呀爬-分级基金小助手2017年01月18日Thereisnogetterforpropertynamedin'classjava.lang.String' 【数据库】2015年08月04日SQLServer数据库占用过多内存的解决方法2014年01月28日【php】投票系统管理员部分,增加投票与删除投票2014年12月29日Node.js+MongoDB+AngularJSWeb开发 【互联网】2015年07月07日IOS和安卓系统比较 【移动开发】2015年05月19日spring容器启动之我见(四、获取容器和获取容器中的bean)【编程语言】2015年06月05日Java全角字符转换为半角字符的实现方法2014年01月28日开源Rexsee打造百万移动开发者基础 ,,2016年06月23日Android界面刷新的方法分享2014年01月30日ppt中插入和处理视频的方法2014年01月28日
我们保证
We guarantee
> psd效果文件手工切图,保证图片效果最好体积最小利于传输
> 100%手写的HTML(DIV+CSS)编码,绝对符合W3C标准
> 代码精简、css沉余量小、搜索引擎扫描迅速,网页打开快捷
> 应用Css Sprite能够减少HTTP请求数,提高网页性能
> 跨浏览器兼容(IE6、7、8、9,Firefox火狐,Chrome谷歌)