今天一个朋友找我做个火车头C#插件 处理采集网址规则多级网址获取结果插件,这里记录下过程,和主函数。
主要复写 ChangeStepHtml 函数。
public string ChangeStepHtml(string pageurl, string html, System.Net.WebHeaderCollection request, System.Net.WebHeaderCollection response)
{
string data = pageurl; // 获取 URL
string newhtml = html; // 获取 网页源码
if (data.Contains("www.baidu.com")) // 判断是否要获取真实地址
{
Regex Replace_reg1 = new Regex("href = \"(.+?)\""); //正则匹配 原网址
MatchCollection mats_reg1 = Replace_reg1.Matches(html);
foreach (Match mat_reg1 in mats_reg1)
{
newhtml = newhtml.Replace("旧网址", "新网址"); //替换匹配到网址
}
}
return newhtml; //返回新 源码
}
本人也承接各类软件开发,网站开发,等业务。有需要联系我。