火车头C#插件 处理采集网址规则多级网址获取结果

  今天一个朋友找我做个火车头C#插件 处理采集网址规则多级网址获取结果插件,这里记录下过程,和主函数。

主要复写 ChangeStepHtml 函数。

public string ChangeStepHtml(string pageurl, string html, System.Net.WebHeaderCollection request, System.Net.WebHeaderCollection response)

        {

            string data = pageurl; // 获取 URL

            string newhtml = html; // 获取 网页源码

            if (data.Contains("www.baidu.com")) // 判断是否要获取真实地址

            { 

                Regex Replace_reg1 = new Regex("href = \"(.+?)\""); //正则匹配 原网址

                MatchCollection mats_reg1 = Replace_reg1.Matches(html);

                foreach (Match mat_reg1 in mats_reg1)

                {

                    newhtml = newhtml.Replace("旧网址", "新网址");  //替换匹配到网址

                }

            }

            return newhtml; //返回新 源码

        }

本人也承接各类软件开发,网站开发,等业务。有需要联系我。

发表评论

您的电子邮箱地址不会被公开。