全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211125733.9 (22)申请日 2022.09.15 (71)申请人 广东数鼎科技有限公司 地址 510623 广东省广州市天河区华夏路 26号1104室 (部位: 自编1104B),1105 室 (仅限办公) (72)发明人 蓬蕾 程博 周策 汤昊 黄锡轩  (74)专利代理 机构 广州三环 专利商标代理有限 公司 44202 专利代理师 吕金金 (51)Int.Cl. G06Q 30/00(2012.01) G06F 16/35(2019.01) G06F 16/951(2019.01) G06F 16/9535(2019.01)G06F 40/216(2020.01) G06K 9/62(2022.01) G06V 10/26(2022.01) G06V 10/74(2022.01) G06V 10/762(2022.01) G06V 10/764(2022.01) (54)发明名称 一种二手车虚假车源的识别方法和装置 (57)摘要 本发明公开了一种二手车虚假车源的识别 方法和装置, 包括根据网络爬 虫技术获取各车源 的初始数据; 对初始数据进行处理得到由型号匹 配模型输出的型号结果和由车商匹配模型输出 的车商结果构成的待分类数据; 对待分类数据中 的各车源的各项特征指标进行分析处理, 得到疑 似虚假车源 数据; 对疑似虚假车源 数据中的各车 商的综合特征进行分析, 以筛选不可靠车商, 得 到待识别数据; 对待识别数据中的车源进行处 理, 以得到虚假车源的概率。 本发明实施例提供 的二手车虚假车源的识别方法和装置, 通过数据 获取、 型号和车商匹配、 疑似虚假车源识别、 不可 靠车商识别和虚假车源判断, 最终得到可信度高 的二手车源数据, 提高了数据的准确率, 能够自 动且全面地识别虚假车源。 权利要求书3页 说明书11页 附图4页 CN 115482014 A 2022.12.16 CN 115482014 A 1.一种二手车虚假车源的识别方法, 其特 征在于, 包括: 根据网络爬虫技术获取各车源的初始数据, 其中, 所述初始数据包括初始型号数据和 初始车商数据; 基于预置的型号匹配模型和预置的车商匹配模型对所述初始数据进行处理, 得到由所 述型号匹配模型输出 的型号结果和由所述车商匹配模型输出的车商结果构成的待分类数 据; 选用预置的虚假车源概率预测模型A对所述待分类数据中的各车源的各项特征指标进 行分析处 理, 得到疑似虚假车源数据; 基于图片背景识别技术、 车源类型离散度和销售时间变异度, 对所述疑似虚假车源数 据中的各 车商的综合特 征进行分析, 以筛 选不可靠车商, 得到待识别数据; 基于预置的虚假车源概率预测模型B, 对所述待识别数据中的车源进行处理, 以得到虚 假车源的概 率。 2.如权利要求1所述的二手车虚假车源的识别方法, 其特征在于, 所述预置的车商 匹配 模型, 其构建过程包括: 第一步, 获取各车源的车商信息的训练样本集; 第二步, 基于TF ‑IDF技术, 从所述训练样本集中提取每一车源的车商名称特征词, 构建 特征词库; 第三步, 基于NLP技术和所述特征词库, 从所述训练样本集中选取任意两个车源的车商 信息, 并分别计算上述两者的车商相似度; 第四步, 将相似度超过阈值的车商标记为同一个车商; 第五步, 循环所述第三 步和所述第四步, 直至遍历所述训练样本集中的全部车商; 第六步, 记录得到的所有所述同一个车商, 以此构建所述车商匹配模型。 3.如权利要求1所述的二手车虚假车源的识别方法, 其特征在于, 所述选用预置的虚假 车源概率预测模型A对所述待分类数据中的各车源的各项特征指标进行分析处理, 得到疑 似虚假车源数据, 具体包括: 采用特征工程提取反映所述待分类数据中的各车源情况的指标, 其中, 所述指标包括 衡量信息一 致性的指标、 信息发布规 律的指标和价格偏离度指标; 基于监督分类算法对所述待分类数据中的各车源进行分类, 建立用于预测车源为虚假 车源的概 率的模型; 将所述待分类数据输入所述模型中, 根据所述模型输出的概率值, 判断对应的车源为 虚假车源的概 率, 以此得到所述疑似虚假车源数据。 4.如权利要求1所述的二手车虚假车源的识别方法, 其特征在于, 所述基于图片背景识 别技术、 车源类型离散度和销售时间变异度, 对所述疑似虚假车源数据中的各车商的综合 特征进行分析, 具体包括: 基于灰度的阈值分割法对所述疑似虚假车源数据中的各 车源外观进行背景提取; 根据SSIM指标计算各背景图片的相似度; 用无监督聚类法将车型分成不同的类别, 计算每个车商销售的各所述类别的占比, 并 根据占比结果得到 离散程度; 基于正常车商的平均销售天数计算所述疑似虚假车源数据中的各车商的销售天数变权 利 要 求 书 1/3 页 2 CN 115482014 A 2异程度。 5.如权利要求1所述的二手车虚假车源的识别方法, 其特征在于, 所述基于预置的虚假 车源概率预测模型B, 对所述待识别数据中的车源进行处理, 以得到虚假车源的概率, 具体 包括: 若所述虚假车源概率预测模型B输出的概率值超过预设阈值时, 则将所述待识别数据 中对应的车源标记为虚假车源。 6.一种二手车虚假车源的识别装置, 其特 征在于, 包括: 数据获取模块, 用于根据网络爬虫技术获取各车源的初始数据, 其中, 所述初始数据包 括初始型号数据和初始车商数据; 型号和车商匹配模块, 用于基于预置的型号匹配模型和预置的车商匹配模型对所述初 始数据进 行处理, 得到由所述型号匹配模型输出的型号结果和由所述车商匹配模型输出的 车商结果构成的待分类数据; 疑似虚假车源识别模块, 用于选用预置的虚假车源概率预测模型A对所述待分类数据 中的各车源的各项特 征指标进行分析处 理, 得到疑似虚假车源数据; 不可靠车商识别模块, 用于基于 图片背景识别技术、 车源类型离散度和销售时间变异 度, 对所述疑似虚 假车源数据中的各车商的综合特征进 行分析, 以筛选不可靠车商, 得到待 识别数据; 虚假车源判断模块, 用于基于预置的虚假车源概率预测模型B, 对所述待识别数据中的 车源进行处 理, 以得到虚假车源的概 率。 7.如权利要求6所述的二手车虚假车源的识别装置, 其特征在于, 所述预置的车商 匹配 模型, 其构建过程包括: 第一步, 获取各车源的车商信息的训练样本集; 第二步, 基于TF ‑IDF技术, 从所述训练样本集中提取每一车源的车商名称特征词, 构建 特征词库; 第三步, 基于NLP技术和所述特征词库, 从所述训练样本集中选取任意两个车源的车商 信息, 并分别计算上述两者的车商相似度; 第四步, 将相似度超过阈值的车商标记为同一个车商; 第五步, 循环所述第三 步和所述第四步, 直至遍历所述训练样本集中的全部车商; 第六步, 记录得到的所有所述同一个车商, 以此构建所述车商匹配模型。 8.如权利要求6所述的二手车虚假车源的识别装置, 其特征在于, 所述疑似虚假车源识 别模块被 配置为: 采用特征工程提取反映所述待分类数据中的各车源情况的指标, 其中, 所述指标包括 衡量信息一 致性的指标、 信息发布规 律的指标和价格偏离度指标; 基于监督分类算法对所述待分类数据中的各车源进行分类, 建立用于预测车源为虚假 车源的概 率的模型; 将所述待分类数据输入所述模型中, 根据所述模型输出的概率值, 判断对应的车源为 虚假车源的概 率, 以此得到所述疑似虚假车源数据。 9.如权利要求6所述的二手车虚假车源的识别装置, 其特征在于, 所述不可靠车商识别 模块被配置为:权 利 要 求 书 2/3 页 3 CN 115482014 A 3

PDF文档 专利 一种二手车虚假车源的识别方法和装置

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种二手车虚假车源的识别方法和装置 第 1 页 专利 一种二手车虚假车源的识别方法和装置 第 2 页 专利 一种二手车虚假车源的识别方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:26:59上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。