muyimo
diff --git a/‎0-Spider/tiebaSpider/.idea/misc.xml‎
Lines changed: 4 additions & 0 deletions b/‎0-Spider/tiebaSpider/.idea/misc.xml‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎0-Spider/tiebaSpider/.idea/modules.xml‎
Lines changed: 8 additions & 0 deletions b/‎0-Spider/tiebaSpider/.idea/modules.xml‎
Lines changed: 8 additions & 0 deletions
diff --git a/‎0-Spider/tiebaSpider/.idea/tiebaSpider.iml‎
Lines changed: 11 additions & 0 deletions b/‎0-Spider/tiebaSpider/.idea/tiebaSpider.iml‎
Lines changed: 11 additions & 0 deletions
diff --git a/‎0-Spider/tiebaSpider/.idea/workspace.xml‎
Lines changed: 358 additions & 0 deletions b/‎0-Spider/tiebaSpider/.idea/workspace.xml‎
Lines changed: 358 additions & 0 deletions
diff --git a/‎0-Spider/tiebaSpider/README.md‎
Lines changed: 21 additions & 1 deletion b/‎0-Spider/tiebaSpider/README.md‎
Lines changed: 21 additions & 1 deletion
diff --git a/‎0-Spider/tiebaSpider/main.py‎
Lines changed: 10 additions & 0 deletions b/‎0-Spider/tiebaSpider/main.py‎
Lines changed: 10 additions & 0 deletions
diff --git a/‎0-Spider/tiebaSpider/spider.py‎
Lines changed: 139 additions & 0 deletions b/‎0-Spider/tiebaSpider/spider.py‎
Lines changed: 139 additions & 0 deletions
diff --git a/‎0-Spider/tiebaSpider/spider.pyc‎
5.02 KB b/‎0-Spider/tiebaSpider/spider.pyc‎
5.02 KB
diff --git a/‎0-Spider/tiebaSpider/tiebaname/name.txt‎
Lines changed: 163 additions & 0 deletions b/‎0-Spider/tiebaSpider/tiebaname/name.txt‎
Lines changed: 163 additions & 0 deletions
@@ -1 +1,21 @@
-test
+# 项目说明
+
+该项目为爬取指定贴吧的前三页帖子的发帖用户和回帖用户的用户名
+
+data 目录为存放数据的目录，其中以天为单位创建二级目录，以贴吧名为三级单位存储抓取结果
+
+目录结构类似于：
+
+data
+--20170626
+-----戒赌吧.txt
+-----网易吧.txt
+
+tiebaname 目录为存放贴吧名字的目录，将要爬取的贴吧名字写入该目录下的name.txt文件中
+
+目录结构类似于：
+
+tiebaname
+--name.txt
+
+采用的是python 的beautifulSoup库，效果不太理想，但后续会逐步改善，可能换成别的框架
@@ -0,0 +1,10 @@
+# coding: utf-8
+
+from spider import Spider
+
+if __name__ == "__main__":
+    import time
+    print("Start At:",time.asctime( time.localtime(time.time()) ))
+    spider = Spider()
+    spider.start()
+    print("Stop At:",time.asctime( time.localtime(time.time()) ))
@@ -0,0 +1,139 @@
+# coding: utf-8
+
+from bs4 import BeautifulSoup
+import urllib2
+import urllib
+import time,os
+
+class Spider:
+
+    def __init__(self):
+        self.search_url = 'https://tieba.baidu.com/f?kw='
+        self.tieba_list = []      # 存储要爬取的若干个贴吧的链接
+        self.url_list = []        # 存放每个贴吧前三页的帖子链接
+        self.timesleep = 2        # 每次访问tieba的url时间间隔
+        self.pages = 3            # 设置要抓取多少页
+        self.current_href = ''    # 当前爬取的贴吧链接url
+
+        # 在data目录下创建日期和贴吧名的txt文件
+        if not os.path.exists('data/%s' % time.strftime('%Y%m%d')):
+            os.mkdir('data/%s' % time.strftime('%Y%m%d'))
+
+    def error(self,loc,url,e):
+        fw = open("error/error.log","a")
+        fw.write(time.asctime( time.localtime(time.time()) )+"\t"+loc+"\t"+url+"\t"+str(e))
+        fw.close()
+
+    # 模拟浏览器进行登录
+    def get_page(self,href):
+        res = urllib2.urlopen(href)
+        # 如果访问成功的话返回读取的内容，否则返回空的字符串
+        if res.code == 200:
+            return res.read()
+        else:
+            return ""
+
+        # 从文件中加载贴吧名并组成url
+    def read(self):
+        try:
+            with open("tiebaname/name.txt", "r") as fr:
+                for line in fr.readlines():
+                    # urllib.quote(line.strip()) 将关键字转变成url 格式
+                    self.tieba_list.append(self.search_url + urllib.quote(line.strip()) + "&ie=utf-8&pn=")
+            fr.close()
+        except Exception as e:
+            self.error("read", "read error", e)
+            pass
+        finally:
+            return self.tieba_list
+
+
+    # 解析每个帖子共有几页
+    def get_num(self,url):
+        try:
+            if self.get_page(url):
+                body = BeautifulSoup(self.get_page(url), "html.parser")
+                num_li = body.find_all("li", class_="l_reply_num", style="margin-left:8px")[0]
+                num = num_li.findAll('span', class_='red')[1].get_text()
+                # print(num)
+                return int(num)
+            else:
+                pass
+        except Exception as e:
+            self.error("get_num",url,e)
+            return 1
+
+    # 解析每一个贴吧前三页的所有帖子连接
+    def parse_href(self,one_tieba_url):
+        self.url_list = []  # 存放一个贴吧前三页所有帖子的链接
+        try:
+            for i in range(0,self.pages):
+                url = one_tieba_url + str(i * 50)
+                try:
+                    # i* 50 控制翻页，每页显示50个
+                    if self.get_page(one_tieba_url+str(i*50)):
+                        body = BeautifulSoup(self.get_page(url), "html.parser")
+                        div_list = body.find_all("div", class_="threadlist_title pull_left j_th_tit ")  # 解析到每一个帖子
+                        for div in div_list:
+                            # print(div.a.get('href'),div.a.get_text())
+                            # print("https://tieba.baidu.com" + div.a.get('href'))
+                            self.url_list.append("https://tieba.baidu.com" + div.a.get('href'))
+                    else:
+                        pass
+                except Exception as e:
+                    self.error("parse_href",url,e)
+                    pass
+                # time.sleep(self.timesleep)
+        except Exception as e:
+            self.error("parse_href",one_tieba_url,e)
+            pass
+
+    # 解析每个贴吧前三页所有帖子的发帖人和回帖人的用户名
+    def parse_username(self):
+        try:
+            # 解析每个帖子对应的发帖人和回帖人
+            for url in self.url_list:
+                filename = urllib.unquote(self.current_href.split("kw=")[1].split("&ie=")[0])              # 贴吧名字，也是文件名
+                fw = open('data/%s/%s.txt' % (time.strftime('%Y%m%d'), filename), 'a')
+
+                try:
+                    fw.write(url+"\t")
+                    num = self.get_num(url)
+                    for i in range(1,num+1):
+                        one_url = url+"?pn="+str(i)   # https://tieba.baidu.com/p/5183701449?pn=1
+                        # print("total %s papges, now parse is %s page，url is：%s"%(num,i,one_url))
+                        # 解析用户名
+                        if self.get_page(one_url):
+                            li_list = BeautifulSoup(self.get_page(one_url), "html.parser").find_all('li',class_='d_name')
+                            for li in li_list:
+                                # print(li.a.get_text())
+                                fw.write(li.a.get_text().encode("utf-8")+"\t")
+                            # time.sleep(self.timesleep)
+                        else:
+                            pass
+                    fw.write("\n")
+                    fw.close()
+                    print(url)
+                except Exception as e:
+                    self.error("parse_username",url,e)
+                    pass
+
+                time.sleep(self.timesleep)
+        except Exception as e:
+            self.error("parse_username",url,e)
+            pass
+
+    def start(self):
+        self.read()  # load tieba_prepare name
+        for url in self.tieba_list:
+            try:
+                self.current_href =url
+                print("Start:",self.current_href,time.strftime("%Y-%m-%d %H-%M-%S")) #self.current_href,
+                self.parse_href(url)  # 解析该贴吧对应的前三页的每个帖子的链接
+                self.parse_username() # 解析每个帖子的发帖人和回帖人
+            except Exception as e:
+                self.error("start","parse error at start",e)
+                pass
+
+            time.sleep(self.timesleep)
+            print("Over:",time.strftime("%Y-%m-%d %H-%M-%S"))
@@ -0,0 +1,163 @@
+戒赌
+足彩
+福彩
+汉中彩票
+体彩
+竞彩
+双色球
+深圳
+上海
+北京
+武汉
+福建
+浙江
+广州
+哈尔滨
+吉林
+青岛
+杭州
+山东
+重庆
+nba
+曼联
+科比
+皇家马德里
+巴塞罗那
+切尔西
+ac米兰
+北京国安
+山东鲁能
+国际米兰
+拜仁慕尼黑
+火箭
+广州FC
+詹姆斯
+麦迪
+利物浦
+阿森纳
+尤文图斯
+洛杉矶湖人
+上海申花
+热火
+梅西
+德国队
+江苏舜天
+小小罗
+天津泰达
+死飞
+欧洲杯
+中超
+cba
+河南建业
+曼城
+国足
+意大利国家队
+多特蒙德
+英超
+中国足球
+库里
+内马尔
+罗伊斯
+足球
+篮球
+网球
+浙江绿城
+苹果
+iphone
+长春亚泰
+英格兰
+辽宁宏运
+贵州人和
+上海东亚
+重庆力帆
+西甲
+马德里竞技
+德甲
+世界杯
+艾弗森
+韦德
+马刺
+易建联
+北京金隅
+广东宏远
+李毅
+扒皮
+美女
+小米
+电影
+内涵
+动漫
+nba
+头像
+遮天
+exo
+爆照
+减肥
+鹿晗
+神回复
+dota
+文字控
+心理学
+美食
+校花
+绿帽子小同学
+旅行
+小说
+笑话
+90后
+高考
+权志龙
+吴亦凡
+手绘
+梦幻西游
+旅游
+dota2
+les
+胥渡
+爱情
+整形
+隆鼻
+腐女
+gay
+搞笑
+柯南
+剑网
+凡人修仙
+周杰伦
+刘诗诗
+爱情公寓
+陈奕迅
+李敏浩
+音乐
+bigbang
+帅哥
+淘宝
+进击的巨人
+张杰
+网名
+魅族
+手机
+短句
+张艺兴
+金秀贤
+手工
+路过的一只
+娱乐圈
+内涵图
+章鱼卡
+君似毒
+黄子韬
+秦时明月
+杨幂
+言情小说
+化妆
+天天酷跑
+情感
+2012
+恐怖
+维尼夫妇
+整容
+vae
+爱所以存在
+吴世勋
+吃货