飞书案例:
1,把网页全屏显示,ctrl+鼠标滚轮,缩放整个网页到最小,尽量把一个屏幕的内容都完整显示出来就行
原因:有的网页里,包含正文内容部分的div源码部分,是动态显示出来的,是根据当前浏览的页面高度才显示文字内容都的
白话讲:就是那文章你看到中间那部分,按F12查看源码,发现源码里只显示正在看的中间这一段的内容,前面后面的内容没有,直到滚动网页内容,源码也跟着在变。
ps:网页内容不多时,缩放到一个屏幕显示完整,这时源码就显示完整 不会动了
2,缩放网页到最小后,按F12,设置开发者面板靠右侧(点左上角那三个点,下图1、2步)
3,点面板左上角的小箭头,鼠标移动到网页正文内容,选中包含正文容部分的源码,右键菜单复制outerHTML,(下图3、4、5、6步)
主要是删除:a-zA-Z/-(<"),=>:;_*~?& 这些字符
1,CV大法,释放剪切板里的屎到文本编辑器, 保存
2,这里用 python 处理,我很懒直接面向cmd操作,这里得到行首有数字的文本
3、如果正文内容行首没有数字编号之类的,则直接用下面的代码删除行首的数字。
如果内容不多,行首有数字编号的,自己微调,手动加上。
如果行首数字批量相同,建议用支持列选的文本编辑器,批量替换
4、行处理,删除每行两个中文字符之间的长数字