Skip to content

Commit 79ee24f

Browse files
committed
github & douban
1 parent f94963e commit 79ee24f

File tree

6 files changed

+131
-0
lines changed

6 files changed

+131
-0
lines changed

douban/douban_comment.py

Lines changed: 29 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,29 @@
1+
# coding:utf-8
2+
# 爬取豆瓣电影短评
3+
import sys
4+
reload(sys)
5+
sys.setdefaultencoding('utf-8')
6+
import requests
7+
import urllib
8+
from bs4 import BeautifulSoup
9+
import time
10+
11+
url = 'https://movie.douban.com/subject/26683290/comments'
12+
13+
headers = {
14+
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36 Core/1.47.933.400 QQBrowser/9.4.8699.400',
15+
}
16+
17+
data = requests.get(url, headers=headers)
18+
soup = BeautifulSoup(data.text, 'lxml')
19+
# users:用户列表 comments:评论列表
20+
users = soup.select('div.comment > h3 > span.comment-info > a')
21+
comments = soup.select('#comments > div.comment-item > div.comment > p')
22+
23+
24+
# print comments[4].get_text().strip().replace('\n',' ')
25+
f = open('./text.txt','wb')
26+
for index,item in enumerate(comments):
27+
print users[index].get_text() + ':' + item.get_text().strip().strip('\n')+'\n'
28+
f.write(users[index].get_text() + ':' + item.get_text().strip().replace('\n',' ')+'\n\n')
29+
f.close()

douban/douban_img.py

Lines changed: 31 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,31 @@
1+
import requests
2+
import urllib
3+
from bs4 import BeautifulSoup
4+
import time
5+
import os
6+
7+
url = 'https://movie.douban.com/chart'
8+
9+
headers = {
10+
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36 Core/1.47.933.400 QQBrowser/9.4.8699.400',
11+
}
12+
13+
data = requests.get(url, headers=headers)
14+
soup = BeautifulSoup(data.text, 'lxml')
15+
imgs = soup.select(' div > div > table > tr > td > a > img')
16+
17+
img_link = []
18+
folder_path = './img/'
19+
20+
if os.path.exists(folder_path) == False:
21+
os.makedirs(folder_path)
22+
23+
for i in imgs:
24+
# print i.get('src')
25+
img_link.append(i.get('src'))
26+
# # print i.get('data-actualsrc')
27+
28+
for index,item in enumerate(img_link):
29+
urllib.urlretrieve(item, folder_path + str(index)+'.jpg')
30+
print 'Done'+ str(index)
31+
time.sleep(4)

douban/douban_photosR.py

Lines changed: 31 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,31 @@
1+
import requests
2+
import urllib
3+
from bs4 import BeautifulSoup
4+
import time
5+
import os
6+
7+
url = 'https://movie.douban.com/subject/26683290/photos?type=R'
8+
9+
headers = {
10+
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36 Core/1.47.933.400 QQBrowser/9.4.8699.400',
11+
}
12+
13+
data = requests.get(url, headers=headers)
14+
soup = BeautifulSoup(data.text, 'lxml')
15+
imgs = soup.select(' div > div.article > ul > li > div.cover > a > img')
16+
17+
img_link = []
18+
folder_path = './photosR3/'
19+
20+
if os.path.exists(folder_path) == False:
21+
os.makedirs(folder_path)
22+
23+
for i in imgs:
24+
img_link.append(i.get('src').replace('thumb','photo'))
25+
26+
# print img_link
27+
28+
for index,item in enumerate(img_link):
29+
urllib.urlretrieve(item, folder_path + str(index)+'.jpg')
30+
print 'Done'+ str(index)
31+
time.sleep(10)

douban/text.txt

Lines changed: 40 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,40 @@
1+
银河系漫游指南:这部片深刻地告诉我们 一个有好剧本的诚哥有多可怕 ☄
2+
3+
丁小猫:这一次要给新海诚打200分,在我鄙视他不过只是纯情小清新的10年前,没料到有朝一日会在电影院里哭到断气。恍惚看到了穿越时空少女时期的细田守。为所有的少女心和中二病鼓掌,青春不死就能相遇,就能拯救地球。现在我抹着眼泪走出影厅,看到后排的少年摘下眼镜,嚎啕大哭起来。。。
4+
5+
翻滚吧!蛋堡:新海诚用这样的故事去温暖城市中每一个仍然愿意相信爱的人。在这么大的世界里,能够遇见你,竟然需要如此用力。穿越错位的时空,仰望陨落的星辰,你没留下你的名字,我却无法忘记那句“我爱你”。
6+
7+
摩西摩西:新海诚的作品此前一直因剧情单薄为人诟病,现在好了,这部不光有壁纸级别的画面,还有能被各个层次及年龄段的人所接纳观赏的剧情,不再沉闷,还很感人。电车,时空,云海,星光,这些标志性的元素一个没少,但他一直都在超越自己。可以说,凭此片新海诚将正式踏入当今日本动画界大师级导演的行列。
8+
9+
萤星:我们曾在过去的梦境里相遇 我们将在未来的现世中重逢 RAD的配乐做到了完美
10+
11+
Underdyingsun:假,大,空。
12+
13+
土豆:谢谢城哥,又可以换桌面了
14+
15+
Sherlock:新海诚,是动画之耻。
16+
17+
安德烈娜:除了画面都很一般,还有大家是不是真的没看过触不到的恋人??
18+
19+
CharlesChou:和《追逐繁星的孩子》同个毛病——一个平时专注于言情的人看了科幻小说之后可能就是这样的,他执着于用新学到的概念来包装自己的认知,而不是放手让这个概念去革新它。
20+
21+
有意识的贱民:只有新海诚才能让我一次又一次感受到爱情的纯粹与美好。被爱情伤得遍体鳞伤的我,不再相信爱情的我,突然会想,不如再勇敢地去谈一场恋爱?嗯,好像可以!
22+
23+
三倍空気嫁:错过和努力才是爱和青春的墓志铭
24+
25+
同志亦凡人中文站:新海诚终于会讲一个复杂故事了,不容易啊!当年那部搔首弄姿、无病呻吟的“言叶之庭”差点让我转成终身黑,“君之名”却轰出了我睽违已久的少女心。彗星降临的末世情怀,穿越时空的灵之绳结,只有7秒钟记忆的鱼...星空、爱情以及所有的遇见都是注定。
26+
27+
koukou.VS.靠靠:可以给8颗星吗?跟看完预告片想象的剧情完全不一样好吗?!必须超级安利的片子。除了神木弟弟,上白石妹妹的声音也好好哦。 难得看到late show满席的片子了。预计票房会超级好。
28+
29+
kino:高配版大鱼海棠,奶奶是夏日大作战穿越来的。新海诚老生常谈,节奏没把握好,人物单薄,插入曲太满,突发式琼瑶情节多,怪不得赞新海诚的论文入不了学院派教授的眼。第一次看到电影带OP,简直呆。日本最近几年天灾频频,哭的观众大概被这个触动了吧。总之二次元言情向,影迷慎看。岩井俊二打了个酱油~
30+
31+
紫苏バジル:聚结成状,交错纠缠,时而回转,中断,却又再次续接。这就是组纽。这就是时间。这就是结。黄昏,不是白昼亦不是夜晚,是我努力却看不清你的脸。たそがれ、誰そ彼。我已记不得你的名字,却还记得喜欢你。
32+
33+
哪吒男:你我相逢在黑夜的空中,你有你的我有我的方向,你记得也好,最好你忘掉,在这交会时互放的光亮。
34+
35+
Markou:我要是有两个即使我说今晚世界要毁灭了我要救大家还义无反顾相信我帮助我的死党,即使今晚世界没有毁灭,我也感觉我拯救了全世界
36+
37+
Cindy:和前作相比并没觉得有变好??反倒在大屏幕更加显得像在看幻灯片,故事情节在哪里?觉得太没有人间性,想要做的很像人却都是完全没有感情的人偶。而且好多个瞬间都感受到作品透露着深处的冷漠,和表面包装的浪漫温暖美好相对比更让人害怕。
38+
39+
枫蓝如水:“别在我们还没认识之前就跑来找我啊”,一如既往穿过了时空如是动人。监督说就像电影里一样,其实我们每一天都活在任何可能性的前一日里。可他描绘的苍穹与星空与“地球之眼”都仿佛从未改变过般有着打动人的庞大温柔。而东京。就算就坐在新宿,也不可思议地觉得他的东京美得无以伦比如同幻象
40+
File renamed without changes.
File renamed without changes.

0 commit comments

Comments
 (0)