马上消费金融股份有限公司8月招聘面试题127道202088

当使用Scarpy创建爬虫时,当爬取网易云音乐首页信息时,scrapygenspider的第二个参数直接输入" 163.com"就可以了()

此题为判断题(对，错)。

正确答案:错

在Scrapy工程的settings.py文件中,哪个配置项,如果设置为True,那么Scrapy就会自动跳过网站不允许爬取的内容()

A.ROBOTSTXT_OBEY

B.ROBOTSTXT_JUDGE

C.ROBOTSTXT

D.ROBOTSTXT_IF

正确答案:A

Scrapy每一次发起请求之前都会在这里检查网址是否重复。因此如果确实需要再一次爬取数据,在Redis中把这个Key删除即可。()

此题为判断题(对，错)。

参考答案：对

按照()爬取的网页内容根据目录层次深浅来爬行页面,处于较浅目录层次的页面首先被爬行,当同一层次中的页面爬行完毕后,爬虫再深入下一层继续爬行。

A、深度优先策略

B、广度优先策略

C、PageRank优先策略

D、随机爬行策略

参考答案：B

()是Hadoop的前身,是一种分布式爬虫工具,更适合集群爬取。

A、Crawler

B、Jsoup

C、Hertrix

D、Nutch

参考答案：D

马上消费金融股份有限公司8月招聘面试题面试题面试官常问到的一些题目整理如下：问题 Q1：什么是PYTHONPATH？可用的回答：它是导入模块时使用的环境变量。每当导入模块时，也会查找PYTHONPATH以检查各个目录中是否存在导入的模块。解释器使用它来确定要加载的模块。问题 Q2：遇到反爬机制怎么处理？可用的回答：反爬机制: headers方向判断User-Agent、判断Referer、判断Cookie。将浏览器的headers信息全部添加进去注意：Accept-Encoding；gzip,deflate需要注释掉问题 Q3：如果让你来防范网站爬虫，你应该怎么来提高爬取的难度？可用的回答： 1. 判断headers的User-Agent； 2. 检测同一个IP的访问频率； 3. 数据通过Ajax获取； 4. 爬取行为是对页面的源文件爬取，如果要爬取静态网页的html代码，可以使用jquery去模仿写html。问题 Q4：.什么是关联查询，有哪些？可用的回答：将多个表联合起来进行查询，主要有内连接、左连接、右连接、全连接（外连接）问题 Q5：什么是_init_?可用的回答：_init_是Python中的方法或者结构。在创建类的新对象/实例时，将自动调用此方法来分配内存。所有类都有_init_方法。问题 Q6：创建一个简单tcp服务器需要的流程？可用的回答： 1.socket创建一个套接字 2.bind绑定ip和port 3.listen使套接字变为可以被动链接 4.accept等待客户端的链接 5.recv/send接收发送数据问题 Q7：scrapy和requests的使用情况？可用的回答： requests 是 polling 方式的，会被网络阻塞，不适合爬取大量数据 scapy 底层是异步框架 twisted ，并发是最大优势问题 Q8：生成器？可用的回答：生成器的本质就是一个逐个返回元素的函数，即“本质函数”最大的好处在于它是“延迟加载”，即对于处理长序列问题，更加的节省存储空间。即生成器每次在内存中只存储一个值问题 Q9：Python中的生成器是什么？可用的回答：实现迭代器的方法称为生成器。这是一个正常的函数，除了它在函数中产生表达式。问题 Q10：用Python匹配HTML tag的时候，和有什么区别？可用的回答：术语叫贪婪匹配( )和非贪婪匹配( )算法题面试官常问到的一些算法题目整理如下（大概率会机考）：算题题 A1：水果分到篮子里题目描述如下：In a row of trees, the i-th tree produces fruit with type treei.You start at any tree of your choice, then repeatedly perform the following steps:1. Add one piece of fruit from this tree to your baskets. If you cannot, stop.2. Move to the next tree to the right of the current tree. If there is no tree to the right, stop.Note that you do not have any choice after the initial choice of starting tree: you must perform step 1, then step 2, then back to step 1, then step 2, and so on until you stop.You have two baskets, and each basket can carry any quantity of fruit, but you want each basket to only carry one type of fruit each.What is the total amount of fruit you can collect with this procedure? Example 1:Input: 1,2,1Output: 3Explanation: We can collect 1,2,1.Example 2:Input: 0,1,2,2Output: 3Explanation: We can collect 1,2,2.If we started at the first tree, we would only collect 0, 1.Example 3:Input: 1,2,3,2,2Output: 4Explanation: We can collect 2,3,2,2.If we started at the first tree, we would only collect 1, 2.Example 4:Input: 3,3,3,1,2,1,1,2,3,3,4Output: 5Explanation: We can collect 1,2,1,1,2.If we started at the first tree or the eighth tree, we would only collect 4 fruits.对于每一个 i，都会产生 treei 类型的水果。有两个篮子，每个篮子只能放一种类型，但同类型的不限次数。问最多能摘的水果数量。思路:1. 一开始用的回溯法：用两个变量表示篮子，都有水果时就追加。第三种类型的出现时就进行回溯，回到上一个水果的点再次进行判断。效率上最差就算 O(n) 吧。反正没passed就是了，90个里过了80个. 1.2. 有个要注意的点：回溯的点选择： 1,0,6,6,4,6在 tree2 (6) 这个点，出现了 1,0,6 三种类型，开始回溯，回溯的点是 0, 6 (1, 2) 。在 tree4 (4) 这个点，出现了 0,6,4 三种类型，开始回溯，回溯的点需要是 6, 4 (2, 4) 这个6是相邻的第一次出现的点。-2. O(n) 的进阶：对于每一个点来说可以存储一些属性来取消回溯： 1,0,6,6,4,6count: 这个点可采集到的两种类型的水果数量。repeat_count: 相邻的同类型水果数量。capacity: 篮子里的水果类型。self-value: 这个点可以采集的水果类型。那么对于下一个点，只需要判断：1. 是不是同类型：同类型 repeat_count 和 count 都 + 1. 不是看2.2. 是不是在篮子里：是则只把 count + 1 ，同时 repeat_count 和 self-value 更新为1与此点的类型。不是看3.。 2.1 篮子没满，没满就 count + 1 重置 self-value repeat_count 并在 capacity 加上这

网站一般在()文件中描述被爬取的规则。

A、License.txt

B、robots.txt

C、ReadMe.txt

D、hentrix.txt

参考答案：B

使用Hertrix爬取网页时建议使用()模式。

A、Mirror

B、KW3

C、ARC

D、TXT

参考答案：A

配置了Hertrix爬取设置后,在()模块可以新建任务并运行。

A、Logs

B、Jobs

C、Reports

D、Setup

参考答案：B

配置Hertrix的爬取设置是在()模块。

A、Logs

B、Help

C、Profiles

D、Reports

参考答案：C

整站采集的步骤一般是()。

A、匹配href连接地址;与原本地址拼接;读取网页中的A标签;找到关联网页并爬取

B、读取网页中的A标签;匹配href连接地址;与原本地址拼接;找到关联网页并爬取

C、找到关联网页并爬取;读取网页中的A标签;与原本地址拼接;匹配href连接地址

D、找到关联网页并爬取;与原本地址拼接;匹配href连接地址;读取网页中的A标签

参考答案：B

马上消费金融股份有限公司8月招聘面试题127道202088

更多 “马上消费金融股份有限公司8月招聘面试题127道202088” 相关考题

相关内容

最新试卷

热门试卷