国产99视频精品免视看6

    1. <em id="yud1w"><acronym id="yud1w"><u id="yud1w"></u></acronym></em>
      
      
      <button id="yud1w"></button>

      python

      当前位置:首页?>?SEO工具?>?当前文章

      SEO工具

      python多线程采集百度PC下拉词

      2020-08-24 200赞 python中国网
      每篇文章努力于解决一个问题!python高级、python面试全套、操作系统经典课等可移步文章底部。

        下拉词是扩词一个重要的渠道,市面上有收费刷百度下拉的,所以百度下拉词还是颇受欢迎。批量获取百度下拉词的脚本如下(线程数默认是1,现在百度反爬比之前严重!线程最好是1。【多线程写同一个文件需要加锁否则可能数据错乱】):

        1、准备关键词文件kwd.txt。(一行一个关键词)

        2、结果会存储为bdpc_xiala.txt。(结果没有进行去重处理,近义词一般会有相同的下拉词)

        3、百度下拉框的地址可以通过抓包找到,目前返回json数据,直接浏览器抓包即可。

        4、现在抓包是这个:https://www.baidu.com/sugrec?ie=utf-8&prod=pc&wd=seo

      # ‐*‐ coding: utf‐8 ‐*‐
      """
      提取百度pc下拉词
      准备kwd.txt,一行一个
      下拉接口抓包获取
      默认线程数2,请求头的cookie用你自己登陆账号后的cookie
      """
      import requests
      import threading
      import queue
      import gc
      
      
      # 获取某词下拉地址源码
      def get_html(url,retry=2):
          try:
              r = requests.get(url=url,headers=my_header, timeout=5)
          except Exception as e:
              print('获取源码失败', url, e)
              if retry > 0:
                  get_html(url, retry - 1)
          else:
              html = r.json()
              return html
      
      
      # 提取下拉词
      def get_kwds(html):
          kwds = []
          if html:
              try:
                  kwd_list = html['g']
              except Exception as e:
                  pass
              else:
                  for data_dict in kwd_list:
                      kwd = data_dict['q']
                      kwds.append(kwd)
          return kwds
      
      
      # 线程函数
      def main():
          while 1:
              kwd = q.get()
              url = 'https://www.baidu.com/sugrec?ie=utf-8&prod=pc&wd={}'.format(kwd)
              try:
                  html = get_html(url)
                  kwds = get_kwds(html)
              except Exception as e:
                  print(e)
              else:
                  for wd in kwds:
                      f.write(wd + '
      ')
                      print(wd)
                  f.flush()
              finally:
                  del kwd,url
                  gc.collect()
                  q.task_done()
      
      
      if __name__ == "__main__":
          # 结果保存文件
          f = open('bdpc_xiala.txt','w',encoding='utf-8')
          # 关键词队列
          q = queue.Queue()
          for kwd in open('kwd.txt',encoding='utf-8'):
              kwd = kwd.strip()
              q.put(kwd)
          # 请求头设置
          my_header = {
              'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',
              'Cookie':'BIDUPSID=EB1F44AB7896D7EFA4F0FD243C29FF17; PSTM=1567562976; BAIDUID=EB1F44AB7896D7EFA4F0FD243C29FF17:SL=0:NR=10:FG=1; BDUSS=BZWlZuSXpNWmNjM3BTSktnM2xhbGhIdUlqeW1ITEdvclpzSHpIS3p2WUMwc2hkRVFBQUFBJCQAAAAAAAAAAAEAAAAGtiZkNzcyNDgzMjAwZG9uZwAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAJFoV0CRaFdeF; plus_cv=1::m:49a3f4a6; MSA_WH=400_655; lsv=globalTjs_3a11c3d-globalT_androidcss_4630b37-wwwT_androidcss_c5f9a54-searchboxcss_591d86b-globalBcss_aad48cc-wwwBcss_777000e-framejs_c9ac861-atomentryjs_5cd4b30-globalBjs_99ad350-wwwjs_b674808; BD_UPN=19314353; BDORZ=FFFB88E999055A3F8A630C64834BD6D0; BDICON=10294984.98; delPer=0; BD_CK_SAM=1; rsv_i=c2b6G%2F3avQC%2FfgLjK6Tg5dByzXJGjTHszykjx0XgYlZZgizi3%2F9wOVrzCucTWKLxPYYUs%2BqPpygizpeQMUWhVScLKRxzaaw; FEED_SIDS=732051_1030_14; plus_lsv=f197ee21ffd230fd; Hm_lvt_12423ecbc0e2ca965d84259063d35238=1572225355,1572415847,1572418912; Hm_lpvt_12423ecbc0e2ca965d84259063d35238=1572418912; BAIDULOC=12966109.384666294_4841881.341700486_100_131_1572418911981; SE_LAUNCH=5%3A26206981_0%3A26206981; BDPASSGATE=IlPT2AEptyoA_yiU4VKH3kIN8efjWvW4AfvESkplQFStfCaWmhH3BrUzWz0HSieXBDP6wZTXdMsDxXTqXlVXa_EqnBsZolpOaSaXzKGoucHtVM69-t5yILXoHUE2sA8PbRhL-3MEF2ZELlQvcgjchQZrchW8z3JTpxz1z5Xocc0T1UKR2VLJxJyTS7xvRHvcPNuz94rXnEpKKSmBUADHRVjYcSQyWXkD5NOtjsAm1Q0WrkoXGurSRvAa1G8vJpFeXAio1fWU60ul269v5HViViwh9UOI7u46MnJZ; H_WISE_SIDS=137151_137734_137755_136649_137663_137071_128070_134982_136665_120196_136768_137002_137788_136366_132909_136456_137690_135847_131246_137746_132378_136681_118893_118876_118846_118827_118802_132782_136800_136431_136093_133352_136862_137089_129652_136194_124637_137105_137572_133847_132551_137468_134046_129646_131423_137212_137466_136034_110085_127969_137613_131951_136611_137252_128196_137696_136636_137767_137207_134347_134231_137618_137449; kleck=638cabc3ad33a7a082343c4553a47c42; BDRCVFR[x4e6higC8W6]=mk3SLVN4HKm; PSINO=7; H_PS_PSSID=1440_21084_20697_29567_29220; sug=3; sugstore=0; ORIGIN=0; bdime=0; H_PS_645EC=db34IWhem1lYO7OwXVBPbsx2yQuIu3jmqGT9FUp09TItjsTj8omDTLnov6%2BIZQe6dqc',
              }
          # 设置线程数
          for i in list(range(1)):
              t = threading.Thread(target=main)
              t.setDaemon(True)
              t.start()
          q.join()
          f.flush()
          f.close()
      
      
      seo是指什么意思
      seo快排
      seo是什么职业
      seo网站
      seoul是什么国家
      seo01短视频在线观看
      seo软件
      seo1短视频下黑帽seo
      seo排名工具
      seo是指
      semester
      seminar
      semir是什么牌子
      色盲测试图
      semi
      sem是什么
      sempre
      semaphore
      semester的中文意思
      seminar什么意思中文
      php是什么
      php是世界上最好的语言
      php文件用什么软件打开
      php是什么语言
      php教程
      php货币
      phpstudy
      php面试题2019
      phpmyadmin
      php框架
      python是什么
      python怎么读
      python数据分析
      python教程
      python课程
      python3
      python能做什么
      python是什么意思
      python基础教程
      python菜鸟教程
      电子邮箱格式
      电子邮件地址怎么写
      电子科技大学
      电子琴简谱大全100首
      电子琴
      电子书免费txt下载全集
      电子琴入门教程
      电子烟和真烟哪个危害大
      电子车票怎么检票
      电子烟
      
      

        百度PC下拉词的代码如上,大家可以尝试用用,有问题及时联系。

      文章评论

      python多线程采集百度PC下拉词文章写得不错,值得赞赏
      国产99视频精品免视看6