Thinkgamer
diff --git a/‎0-Spider/tiebaSpider/README.md‎
Lines changed: 1 addition & 25 deletions b/‎0-Spider/tiebaSpider/README.md‎
Lines changed: 1 addition & 25 deletions
diff --git a/‎0-Spider/tiebaSpider/spider1/README.md‎
Lines changed: 25 additions & 0 deletions b/‎0-Spider/tiebaSpider/spider1/README.md‎
Lines changed: 25 additions & 0 deletions
diff --git a/‎0-Spider/tiebaSpider/main.py‎ renamed to ‎0-Spider/tiebaSpider/spider1/main.py‎ b/‎0-Spider/tiebaSpider/main.py‎ renamed to ‎0-Spider/tiebaSpider/spider1/main.py‎
diff --git a/‎0-Spider/tiebaSpider/spider.py‎ renamed to ‎0-Spider/tiebaSpider/spider1/spider.py‎ b/‎0-Spider/tiebaSpider/spider.py‎ renamed to ‎0-Spider/tiebaSpider/spider1/spider.py‎
diff --git a/‎0-Spider/tiebaSpider/spider.pyc‎ renamed to ‎0-Spider/tiebaSpider/spider1/spider.pyc‎ b/‎0-Spider/tiebaSpider/spider.pyc‎ renamed to ‎0-Spider/tiebaSpider/spider1/spider.pyc‎
diff --git a/‎0-Spider/tiebaSpider/tiebaname/name.txt‎ renamed to ‎0-Spider/tiebaSpider/spider1/tiebaname/name.txt‎ b/‎0-Spider/tiebaSpider/tiebaname/name.txt‎ renamed to ‎0-Spider/tiebaSpider/spider1/tiebaname/name.txt‎
diff --git a/‎0-Spider/tiebaSpider/spider2/tieba/tieba/spiders/tieba1.py‎
Lines changed: 2 additions & 1 deletion b/‎0-Spider/tiebaSpider/spider2/tieba/tieba/spiders/tieba1.py‎
Lines changed: 2 additions & 1 deletion
@@ -1,25 +1 @@
-# 项目说明
-
-该项目为爬取指定贴吧的前三页帖子的发帖用户和回帖用户的用户名
-
-data 目录为存放数据的目录，其中以天为单位创建二级目录，以贴吧名为三级单位存储抓取结果
-
-目录结构类似于：
-
-data
-
---20170626
-
------戒赌吧.txt
-
------网易吧.txt
-
-tiebaname 目录为存放贴吧名字的目录，将要爬取的贴吧名字写入该目录下的name.txt文件中
-
-目录结构类似于：
-
-tiebaname
-
---name.txt
-
-采用的是python 的beautifulSoup库，效果不太理想，但后续会逐步改善，可能换成别的框架
+这两个文件夹下的爬虫都是为了实现爬取贴吧前三页帖子的发帖人和回帖人，spider1使用的是BeautifulSoup+urllib2，spider2使用的是scrapy
@@ -0,0 +1,25 @@
+# 项目说明
+
+该项目为爬取指定贴吧的前三页帖子的发帖用户和回帖用户的用户名
+
+data 目录为存放数据的目录，其中以天为单位创建二级目录，以贴吧名为三级单位存储抓取结果
+
+目录结构类似于：
+
+data
+
+--20170626
+
+-----戒赌吧.txt
+
+-----网易吧.txt
+
+tiebaname 目录为存放贴吧名字的目录，将要爬取的贴吧名字写入该目录下的name.txt文件中
+
+目录结构类似于：
+
+tiebaname
+
+--name.txt
+
+采用的是python 的beautifulSoup库，效果不太理想，但后续会逐步改善，可能换成别的框架
@@ -4,6 +4,7 @@
 import urllib
 import time
 
+
 class TiebaSpider(scrapy.Spider):
 
     name = 'tieba'
@@ -34,5 +35,5 @@ def parse(self, response):
         fw = open("data/%s_all_href.txt" % time.strftime('%Y%m%d'), "a")
         for ahref in ahref_list:
             href = "https://tieba.baidu.com" + ahref
-            fw.write(href+"\n")
+            fw.write(href + "\n")
         fw.close()