最近获得网页的几个老程序都不能用了。
我原来用 如下代码获得网页html 源码:
<pre name="code" class="csharp"> <span style="font-family: Arial, Helvetica, sans-serif;">HttpWebRequest request = (HttpWebRequest)WebRequest.Create(httpUrl);</span> HttpWebResponse response = (HttpWebResponse)request.GetResponse();
用了WebBrowser控件,它类似于IE浏览器。
获得WebBrowser控件中网页<body>部分的HTML源码代码如下:
String content = webBrowser1.Document.Body.InnerHtml; PS:只有<body>部分的HTML源码代码
不难,但是没有找到,记录一下吧。
本文介绍了作者遇到的一些老网页抓取程序失效的问题,并提供了一种新的解决方案,即使用WebBrowser控件来获取网页的HTML源码。这种方法类似于IE浏览器的工作方式,能够有效获取到网页<body>部分的源码。
992

被折叠的 条评论
为什么被折叠?



