Spaces:

Aqdas
/

Products_Scrapping_Daraz.pk

Runtime error

App Files Files Community

Products_Scrapping_Daraz.pk / app.py

Aqdas

Update app.py

fbd7dad verified 10 months ago

raw

history blame contribute delete

10.7 kB

	import streamlit as st
	import pandas as pd

	def get_page_num(category):
	import requests
	import math
	import json
	from time import sleep
	import random

	url = "https://www.daraz.pk/{}/"
	params = {
	"ajax": "true",
	"page": "1",
	"spm": "a2a0e.pdp.cate_3.7.792b39a8ijxOu0"
	}

	headers = {
	"User-Agent": "Mozilla/5.0 (X11; CrOS x86_64 14541.0.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
	}

	response = requests.get(url.format(category), params=params, headers=headers)

	# get data of the input category
	if response.status_code == 200:
	data = json.loads(response.text)
	sub_categories = [i['value'] for i in data['mods']['filter']['filterItems'][1]['options']]
	# print(sub_categories)
	sub_cat = []
	total_page = []

	if len(sub_categories) == 1: # if there is only one category
	total_products = int(data['mods']['resultTips']['tips'].split()[0].replace(',',''))
	if total_products <= 40 and total_products > 0:
	page_num = 1
	else:
	page_num = math.floor(total_products/40)

	sub_cat.append(sub_categories)
	total_page.append(page_num)

	else: # If there is more than one category
	for cat in sub_categories:
	sleep(random.random() * 3)
	print(url.format(cat))
	response = requests.get(url.format(cat), params=params, headers=headers)
	data = json.loads(response.text)
	total_products = int(data['mods']['resultTips']['tips'].split()[0].replace(',',''))

	if total_products <= 40 and total_products > 0:
	page_num = 1
	else:
	page_num = math.floor(total_products/40)

	sub_cat.append(cat)
	total_page.append(page_num)

	return dict(zip(sub_categories, total_page))
	else:
	return 'request failed'



	def fetch_all(total_page, category):
	products_data = []
	failed_fetch = []
	from time import sleep
	import random
	import requests
	import math
	import json
	cookie = 'lzd_cid=7f1ceb5d-2600-4a26-be64-2667cfebec91; t_uid=7f1ceb5d-2600-4a26-be64-2667cfebec91; t_fv=1702218509671; _tb_token_=f833be637387a; lzd_sid=1b68e6504b32dd3aea16bc05a3e066d6; cna=gM6uHemxBRICAW5d5vQ57lhr; _gcl_au=1.1.771646885.1702218513; _scid=8c7e8337-e396-48b9-9c3c-583c58ac2095; _fbp=fb.1.1702218515160.263289771; _tt_enable_cookie=1; _ttp=E2zZy8UNpfbfLI204FcRrfQLr-t; _bl_uid=b2l7ep2mz5FkIOyU5cC6zpLn41h5; XSRF-TOKEN=3dd5420c-4af2-42f4-9110-1d95ddeb1ce4; _scid_r=8c7e8337-e396-48b9-9c3c-583c58ac2095; _ga=GA1.2.1262335521.1702218514; _sctr=1%7C1704654000000; mi_p_source=undefined; mi_p_medium=undefined; mi_p_campaign=undefined; mi_p_term=undefined; mi_p_content=undefined; mi_p_gclid=undefined; mi_source=google; mi_medium=organic; mi_campaign=; mi_term=; mi_content=; mi_gclid=; _ga_5L4FRV3KPW=GS1.1.1704696624.4.1.1704696641.43.0.0; _ga_C6SBBPVWWK=GS1.1.1704696624.4.1.1704696641.43.0.0; lwrid=AQGNG20qIm%2B9EVBm5pjV18ZuIyxx; xlly_s=1; hng=PK\|en-PK\|PKR\|586; curTraffic=lazada; userLanguageML=en-PK; epssw=1*i5fB11i_F1XdGEz47zEGttFFh2EnCVz4Jr8M-qEEzrPSCVeId5MyCxHMQWfcCJX4jhAWHU1CbYwQdp62dsnEY79vOxrMjCBWXxEWhv1Gx3CI3p1bjGfWhGxGDxd5HCCULOkS1bCv-3zjowtYvfNIIO1KQQJR_Sqm116A3Dmn-p3JyLB4xDmnxJsNYMDpeo2OetzRy99-xmxJXNWokfNntcSV_9UCrdM3xDDpeDmndLHB; age_limit=18Y; t_sid=tWCKXzfL5dKHJ6P9hwes1SRmzmkVjxe3; utm_channel=NA; _m_h5_tk=66b9f7f529c772a8433e5669e94795f7_1705656645823; _m_h5_tk_enc=db2346c0c8701b95f3e9fa73a1bb8829; daraz-marketing-tracker=hide; JSESSIONID=B7914CD57669FACF1D3CEC5DD16F1DCF; tfstk=e_Gv0zGWQ94fh9SUEIpo_4pikl8kEj32ymuCslqcC0n-R2S0ChJ4C53YqlV0Gn8tX2ojoRcmlfCt2uB0Ih84CGinXPqj6V5T5ViwulY2Equ4_5tHxpAnuq52kcP9tDchLeN6xHAu8Gx505MmRKLAxzLvenxAtRGUlpNCDv9s6jUYHk6021C9SreYAqZR4glJ_-EIluC14Whn9p31xkUGhULRQOybzYLe2xK_aqCLykYkrOWaemU8xULRQOybzzEHz0WNQ8nA.; l=fBIMqdfPPaW2mUTtBOfanurza77OSIRvXuPzaNbMi9fP_-Cp5-FCW1INsGL9C3HNFswHR3kC9mckBeYBYIXN3PYinmnv_CkmnXr9aX5..; isg=BNzcaeHm1UWTzKGUhk2R8EJyrfOOVYB_YmiEt7bd6EeoAXyL3mVQD1KzYHH5wrjX'

	session = requests.Session()

	for number in range(1, total_page):
	st.write(f"finished page {number}")
	sleep(random.random() * 5)
	url = f"https://www.daraz.pk/{category}/"

	params = {
	"ajax": "true",
	"page": str(number),
	"spm": "a2a0e.searchlistcategory.pagination.5.7d725753tvFnfz"
	}

	headers = {
	"User-Agent": "Mozilla/5.0 (X11; CrOS x86_64 14541.0.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36",
	"Cookie": cookie + str(session.cookies.get_dict())
	}


	request = session.get(url, headers=headers, params=params, allow_redirects=True)

	if request.status_code == 200:

	# Sometimes it failed on json load, this try except can handle this problem
	try:
	data = json.loads(request.text)
	if 'listItems' in data['mods'].keys():
	products_data.append(data)
	else:
	failed_fetch.append(f'Data could not fetch from page {number}')

	except:
	failed_fetch.append(f'json failed at page {number}')
	continue

	else:
	failed_fetch.append(f'Request failed of page {number}')

	return products_data, failed_fetch

	def main_scrap(main_category):
	page_nums_dict = get_page_num(main_category) # get all sub-categories and there total page loop number

	extract_data = {} # a dict for saving all sub categories data
	failed_data ={} # a dict for storing failed to get data

	for category, page_num in page_nums_dict.items(): # loop through sub categories
	category_data, failed_scrap = fetch_all(page_num, category) # get first category data
	extract_data[category] = category_data # create a key with category name and save all list of list structure data
	failed_data[category] = failed_scrap # same

	st.write('Finish Scrap Successfully')
	# when the loop compeletes
	return extract_data, failed_data


	def get_relevant(list_40):
	# Gets data of a 40 product list structure
	data_dict = {
	'name': [i.get('name', 'None') for i in list_40['mods']['listItems']],
	'current_price': [i.get('utLogMap', 'None').get('current_price', 'None') for i in list_40['mods']['listItems']],
	'original_price': [i.get('utLogMap', 'None').get('originalPrice', 'None') for i in list_40['mods']['listItems']],
	'x_ad': [i.get('utLogMap', 'None').get('x_ad', 'None') for i in list_40['mods']['listItems']],
	'voucherIds': [i.get('utLogMap', 'None').get('voucherIds', 'None') for i in list_40['mods']['listItems']],
	'productUrl': [i.get('productUrl', 'None') for i in list_40['mods']['listItems']],
	'ratingScore': [i.get('ratingScore', 'None') for i in list_40['mods']['listItems']],
	'review': [i.get('review', 'None') for i in list_40['mods']['listItems']],
	'location': [i.get('location', 'None') for i in list_40['mods']['listItems']],
	'sku': [i.get('sku', 'None') for i in list_40['mods']['listItems']],
	'description': [i.get('description', 'None') for i in list_40['mods']['listItems']],
	'brandName': [i.get('brandName', 'None') for i in list_40['mods']['listItems']],
	'sellerId': [i.get('sellerId', 'None') for i in list_40['mods']['listItems']],
	'sellerName': [i.get('sellerName', 'None') for i in list_40['mods']['listItems']],
	'image': [i.get('image', 'None') for i in list_40['mods']['listItems']],
	'itemSold' : [i.get('soldInfo',{'soldNum':None}).get('soldNum','None') for i in list_40['mods']['listItems']],
	'isAD' : [i.get('isAD','None') for i in list_40['mods']['listItems']],
	'inStock': [i.get('inStock','None') for i in list_40['mods']['listItems']],
	}

	return data_dict


	def category_info(category_data):
	# get data of a single category that is split into list 40
	all_products = {
	'image': [],
	'name': [],
	'current_price': [],
	'original_price': [],
	'ratingScore': [],
	'review': [],
	'productUrl': [],
	'sellerName': [],
	'itemSold' : [],
	'inStock': [],
	'isAD' : [],
	'x_ad': [],
	'voucherIds': [],
	'location': [],
	'sku': [],
	'description': [],
	'brandName': [],
	'sellerId': [],
	}
	for products_40 in category_data:
	return_dic = get_relevant(products_40)
	all_products['image'].extend(return_dic['image'])
	all_products['name'].extend(return_dic['name'])
	all_products['sellerName'].extend(return_dic['sellerName'])
	all_products['review'].extend(return_dic['review'])
	all_products['ratingScore'].extend(return_dic['ratingScore'])
	all_products['itemSold'].extend(return_dic['itemSold'])
	all_products['inStock'].extend(return_dic['inStock'])
	all_products['isAD'].extend(return_dic['isAD'])

	all_products['location'].extend(return_dic['location'])
	all_products['brandName'].extend(return_dic['brandName'])
	all_products['current_price'].extend(return_dic['current_price'])
	all_products['original_price'].extend(return_dic['original_price'])
	all_products['productUrl'].extend(return_dic['productUrl'])
	all_products['description'].extend(return_dic['description'])

	all_products['x_ad'].extend(return_dic['x_ad'])
	all_products['voucherIds'].extend(return_dic['voucherIds'])
	all_products['sku'].extend(return_dic['sku'])
	all_products['sellerId'].extend(return_dic['sellerId'])
	return all_products


	def extract_clean(main_category_name):
	category_combine = {
	'image': [],
	'name': [],
	'current_price': [],
	'original_price': [],
	'ratingScore': [],
	'review': [],
	'productUrl': [],
	'sellerName': [],
	'itemSold' : [],
	'inStock': [],
	'isAD' : [],
	'x_ad': [],
	'voucherIds': [],
	'location': [],
	'sku': [],
	'description': [],
	'brandName': [],
	'sellerId': [],
	}


	extract_data, failed_data = main_scrap(main_category_name) # extract_data is a dict, contains all the sub-cat data
	for c in extract_data.keys():
	dict_cat = category_info(extract_data[c]) # return a dict where all the split 40 combines column: list_of_value

	for cat_keys in dict_cat.keys():
	category_combine[cat_keys].extend(dict_cat[cat_keys])

	import pandas as pd
	df = pd.DataFrame(category_combine)
	df = df.astype(str)
	df['productUrl'] = df['productUrl'].str.strip('//')
	df.description = df.description.str.strip('[]').str.strip("'")

	return df, extract_data.keys()


	# Streamlit app
	def main():
	df = pd.DataFrame({
	})

	st.title('Products Data Scrapping > Daraz.pk')

	category = st.text_input('Please Input the category name')

	if st.button('Start Scrap'):
	df, categories = extract_clean(category)

	if not df.empty:
	st.dataframe(df)


	if __name__ == "__main__":
	main()