Python
[python] test dataset (json) 파일 만들기
닉의네임
2022. 6. 26. 10:41
반응형
데이터 셋으로 활용할 test 데이터를 만들어 보자
원천데이터는 900gle shopping 의 데이터를 활용.
create_dataset.py
# -*- coding: utf-8 -*-
import json
from elasticsearch import Elasticsearch
def create():
script_query = {
"match_all": {}
}
response = client.search(
index=INDEX_NAME,
body={
"size": SEARCH_SIZE,
"query": script_query,
"_source": ["name"]
}
)
es_data = []
for hit in response["hits"]["hits"]:
row = dict(name=str(hit["_source"]["name"]))
es_data.append(row)
f = open("similarity_data.json", 'w', encoding='utf-8')
f.write(json.dumps(es_data, ensure_ascii=False))
f.close()
if __name__ == '__main__':
INDEX_NAME = "goods"
SEARCH_SIZE = 10
client = Elasticsearch(http_auth=('elastic', 'dlengus'))
create()
print("Done.")
결과 물
similarity_data.json
[
{
'name': '고야드 플로트 백 숄더 쁘띠 플로 버킷백 PETIT 스페셜-그레이'
},
{
'name': '고야드 쁘띠플로 버킷백 PETITFLOT 스페셜 03098 10237403'
},
{
'name': '해외고야드 방돔백 패브릭 스트랩 VENDOME BAG 기본컬러 블랙브라운 VENDOMEBAGFABRI'
},
{
'name': '고야드 알핀 알팡 미니 백팩 스폐셜 컬러'
},
{
'name': '고야드 보잉 25 클러치 파우치 전'
},
{
'name': '고야드 클러치 세나 PM 스페셜-레드'
},
{
'name': '명품가죽끈 뉴고야드-엠보카멜 카멜 Q-H805'
},
{
'name': '고야드 세나 클러치 MGM SENAT 스페셜 03446 10237202'
},
{
'name': '고야드 AURA-J 클러치 몬테카를로 PM'
},
{
'name': '고야드 세나 클러치 Green'
}
]
반응형