无忧启动论坛
标题:
还是提取链接的,123
[打印本页]
作者:
kangyi
时间:
2007-8-9 06:42
标题:
还是提取链接的,123
无忧的贴图欣赏区共有428页,用传送带(不宜用迅雷,因为他要一个一个搜索备选资源,浪费时间)添加批量任务,全部下载完成后,用文本合成器合并,改后缀名为htm
接着用search&replace将里面的帖子的相对链接改为绝对链接,形如 a href="viewthread.php?tid=*
然后断开“本地连接”,用浏览器打开这个htm文档,加载完毕后右键选择“用传送带下载所有”当下所有php后缀的文档,也就是所有的帖子了
然后再把这些帖子合并
合并完毕后重复前边的做法,右键批量下载,就可得到所有图片的地址了
------------------
以前123mm给做了一个直接从htm代码中提取jpg链接的东东,可效果不太好,特别是htm体积很大的时候,只提取出了几个,漏掉了很多,而且筛选的也不太准,里面时常夹杂一些奇怪的东东;P
期待mm参考一下这个文档改进一下
http://www.wewill.cn/show.aspx?id=1195&cid=8
------------------
google找了半天,貌似还没有这种工具:funk:
[
本帖最后由 kangyi 于 2007-8-9 06:44 AM 编辑
]
作者:
123
时间:
2007-8-9 14:21
很无聊的东西,那文档好像是vb2005的,忘得差不多了,看不懂。
下面我写的应该没什么问题吧?
// TODO: Add your control notification handler code here
UpdateData();
CFile fil;
fil.Open(m_htm,CFile::modeRead);//打开htm文件
char*buf=new char[fil.GetLength()+1];
ZeroMemory(buf,fil.GetLength()+1);
fil.ReadHuge(buf,fil.GetLength());//读取整个文件到内存
CString str;
str=buf;
CFile fil2;
fil2.Open(m_list,CFile::modeWrite|CFile::modeCreate);
str.MakeLower();//转换成小写
int i=0,j=0,k=0,l=0;
while(1)
{
i=str.Find("http://",j);
j=str.Find(".jpg",i);
k=str.Find("\"",i);
l=str.Find("'",i);//查找http://后的第一个引号
if(l<k&&l>-1)k=l;
if(k<j)
{
j=k+1;
continue;
}//找到的引号在.jpg的前面,这次不算
if(i!=-1)//如果找到
{
CString str2;
str2=str.Mid(i,j+4-i)+"\r\n";//提取的链接
fil2.Write(str2,str2.GetLength());
}
else
{
break;
}
}
fil.Close();
fil2.Close();
作者:
kangyi
时间:
2007-8-9 21:53
看不懂
拜托给弄臣exe:$ :hug:
作者:
123
时间:
2007-8-9 22:40
跟以前发的一样啊
作者:
kangyi
时间:
2007-8-9 22:55
:lol :$ 帮忙找一下这方面的软件好吗,也可以是其附带的一个功能
:(
作者:
123
时间:
2007-8-10 14:14
原帖由
kangyi
于 2007-8-9 22:55 发表
:lol :$ 帮忙找一下这方面的软件好吗,也可以是其附带的一个功能
:(
webdup
作者:
kangyi
时间:
2007-8-11 16:57
webdup后边n个全角空格,厉害:lol
欢迎光临 无忧启动论坛 (http://bbs.wuyou.net/)
Powered by Discuz! X3.3