getting upstream

2024-08-22 11:12:11 +02:00
parent f3ab4db625
commit 850538a92f
3 changed files with 53 additions and 16 deletions
--- a/lib/scrap_jobs.py
+++ b/lib/scrap_jobs.py
@@ -1,4 +1,5 @@
 from helpers import *
+from login import solveCaptcha
 DEBUG = True

 def log(*s):
@@ -6,20 +7,25 @@ def log(*s):
        print(s)

 def scrap_indeed_com(url,entry,session):
-    log("[scrap_indeed_com] url: ",url)
+    moz_cookies = getCookiesFromBrowser(url)
+    print("[scrap]cookies:", moz_cookies)
+    session.headers = {
+                "User-Agent" : "Mozilla/5.0 (X11; Linux x86_64; rv:127.0) Gecko/20100101 Firefox/127.0",
+                "Referer" : "https://ch.indeed.com/jobs?&from=searchOnHP",
+                "Cookie" : moz_cookies# """CTK=1i5q619l6jvkj800; indeed_rcc="LV:CTK:RQ"; CSRF=aEb4JWpfbYPy3j3g2rsUPDSixXqBe1Oe; INDEED_CSRF_TOKEN=4p83HqsTMan9QrVZun2Q0wrFeCoGm9mG; LV="LA=1724238852:LV=1724234376:CV=1724238852:TS=1724234376"; _cfuvid=27ptQm94DDaFeIjNGSNxW3g9GyDAJExtQz_RNr0jvE0-1724238843162-0.0.1.1-604800000; JSESSIONID=F196631331EF16D28C0E00AC7A43CB10; OptanonConsent=isGpcEnabled=1&datestamp=Wed+Aug+21+2024+13%3A14%3A47+GMT%2B0200+(Central+European+Summer+Time)&version=202210.1.0&isIABGlobal=false&hosts=&consentId=b0f6c692-930d-4929-9251-9a4f7bc72f61&interactionCount=1&landingPath=NotLandingPage&groups=C0001%3A1%2CC0002%3A0%2CC0003%3A0%2CC0004%3A0%2CC0007%3A0&AwaitingReconsent=false; _ga_LYNT3BTHPG=GS1.1.1724238849.2.1.1724238908.0.0.454081609; _ga=GA1.1.1356051481.1724234379; SURF=WCl9mMSuWXP2jp3GlLMyXzkQkAdKDg7W; FPID=FPID2.2.Dd22VS9g0Vfjh5dQoT9s%2Bws7zDmpmQlIzsYP9ZLW8kg%3D.1724234379; FPLC=Qmy8DxSR81EJxewKgZ7RfgP%2BdXEXWWU4RKVUs2Pn1vEIp%2Fu2Upaqz5%2Blgf05XLqfdY7S4qGRwWAbQqAbKQZb%2FBWQxZwpmvOzw%2Bhgpkfvj320PLIwamECv9iYH%2Bx%2FrQ%3D%3D; RQ="q=quereinsteiger&l=&ts=1724238933002&rbsalmin=0&rbsalmax=0:q=python+qt&l=&ts=1724234491003&rbsalmin=0&rbsalmax=0"; __cf_bm=X3BsfEnAGodB.ELxHVfYTAYd4K4n3TUbHVV7OyKMjBg-1724238843-1.0.1.1-4QMaUgbvnumBKmzwOcY2o0Taikgpvn72OoTXG_ZtU8q3qOCuf06riyYIJlXD.zsd7JxmZ_VdN1S9cCbGwXid6w; gonetap=closed; SHARED_INDEED_CSRF_TOKEN=4p83HqsTMan9QrVZun2Q0wrFeCoGm9mG"""
+                }
    jobs = []
-  #  if(session == 0):
-    with requests.Session() as session:
-        session.headers = {
-                "User-Agent" : "Mozilla/5.0 (X11; Linux x86_64; rv:127.0) Gecko/20100101 Firefox/127.0"
-                } 
+    log("in scrap jobs,url",url)
+    if(session == 0 or session == -1):
+        with requests.Session() as session:
+            page = session.get(url)
+            log(page)
+    else:
        page = session.get(url)
        log(page)
-#    else:
-#        page = session.get(url)
-#        log(page)
+    solveCaptcha(session,page)
    soup = BeautifulSoup(page.content,"html.parser")
-    #print(soup.prettify())
+    print(soup.prettify())


    results = soup.find_all("li",class_= 'css-5lfssm eu4oa1w0') #top level list element
@@ -196,3 +202,4 @@ def scrap_jobagent(url,entry,session):
    
    return arrayToClass(ar_title,ar_company,ar_location,ar_date,ar_link,tag)

+