雇主画像文献摘录笔记
英文摘录
《word2vec Parameter Learning Explained》2016
词向量参数学习
本文提供了word2vec模型的参数更新方程的详细推导和解释,包括原始的连续词袋模型(CBOW)和跳字模型(skip-gram),以及高级优化技术,包括分层softmax和负采样。文章还提供了梯度方程的直观解释和数学推导。此外,附录中还提供了神经网络和反向传播的基础知识回顾。
《Research on Tariff Recovery Risks Assessment Method Based on Electrical User Portrait Technology》2017
基于电力用户画像技术的电价回收风险评估方法研究
- 在分类精度方面,C4.5决策树算法是七种算法中最高的,与朴素贝叶斯算法相同。
- 就召回率而言,C4.5决策树算法命中了八个欠款家庭中的四个,并且在所有算法中发现了最高的召回率。
- 在精度比方面,C4.5决策树算法仅次于朴素贝叶斯算法。但在现实中,朴素贝叶斯算法只适用于八个欠款家庭中的一个。因此,它的高精度比没有实际意义。
采用C4.5算法完成电力用户电费回收风险评估。算例结果表明,所提出的模型和算法具有较高的可用性和准确性,为电力公司降低电价回收风险提供了依据。
《Construction of portrait system of listed companies based on big data》2019
基于大数据的上市公司画像系统构建
本研究的研究思路是基于大数据构建上市公司的画像系统。研究问题是如何利用大数据技术来分析上市公司的相关信息,以帮助投资者做出更准确的投资决策。
首先,研究采用了专家评估方法对研究报告进行维度评分。通过专家组的评分,选择得分最高的维度组合作为研究报告分析的划分,包括公司概况、专家意见、重大事件和风险评估。
其次,研究利用文本数据预处理工具对高质量相关公司的研究报告进行预处理,使用结巴分词工具对文本进行分词,得到不同维度的词袋。
然后,研究根据TF-IDF算法为每个分词进行权重赋值,形成不同维度下的词向量,并建立基于不同维度的二维权重矩阵。
接着,研究利用蜘蛛技术获取公司的网络舆情评价,并进行文本处理。使用深度学习技术对处理后的舆情评价进行分类,得到能反映人们对公司评价的及时性舆情标签。
最后,研究通过对BOE Technology Co. Ltd的股票评价信息进行情感分析,将投资者情绪分为积极、消极和中性三类,验证了在线舆论对投资者关注和信心以及投资者情绪的影响,进而影响金融资产价格的波动。
通过以上研究思路,本研究解决了如何利用大数据技术构建上市公司画像系统的问题,为投资者提供了更准确的投资决策参考。
《User Group Portrait Method of Integrated Energy System Based on Multi-Source Big Data》2021
基于多源大数据的综合能源系统用户群画像方法
首先,采用综合用电指标反映企业用电情况;其次,对采集的数据进行分类和预处理,经过聚类分析,形成群体画像,基于多维画像结果,对企业用电量进行分析。最后,选取4家企业进行实例分析,并提出优化建议。该研究方法可以指导科学用电,为电力企业的综合能源业务提供支持。下一阶段,将重点完善用电三级指标,提升画像的精确度。
《Knowledge Graph-based User Portrait Construction for Electricity Enterprise Suppliers》 2021
基于知识图谱的电力企业供应商用户画像构建
常见的用户画像从单一角度分析用户数据,忽略了不同属性之间的相关性,准确性差。本文基于知识图谱构建了电力企业供应商的用户画像,通过对供应商基本信息数据的整合和计算,建立了供应商知识图谱。
《Power user portrait model based on random forest》2022
基于随机森林的高级用户画像模型
创新点
- 提出了基于随机森林的电力用户画像模型:通过采集电力用户的信息数据,并综合准确地量化用户的特征,有效描述用户的利益和行为。该模型可以评估用户行为,并减少用户投诉。
- 使用决策树节点纯度的度量对用户进行筛选和分析:通过使用决策树节点纯度的度量,对电力用户进行筛选和分析,以生成决策树变量的上下停止规则。
- 与传统的逻辑回归模型进行对比和分析:对该模型和逻辑回归模型进行了测试和分析,结果表明该模型具有较强的区分能力和良好的稳定性,可以有效预测用户的行为。
- 分析了基于电力大数据技术的用户全景图:通过电力大数据技术,对用户进行全景分析,并提出了评估用户用电优先级的成熟模型。强调利用电力大数据技术包提供的资源和方法,解决用户用电的实际问题,帮助电力公司避免市场风险并提高服务水平。
总的来说,该研究通过引入随机森林模型和电力大数据技术,对电力用户进行全面分析和预测,提供了一种有效的方法来理解和预测用户行为特征,为电力企业和用户之间形成长期互利互惠的机制提供了准确的基础。
后续研究方向
- 模型优化:可以进一步优化和改进基于随机森林的用户画像模型,以提高预测用户行为的准确性和稳定性。可以尝试使用其他机器学习算法或深度学习方法进行比较和改进。
- 数据挖掘和特征提取:可以进一步挖掘和提取用户数据中的有效信息和特征,以更好地描述和预测用户行为。可以探索更多的数据处理和特征工程方法,以提高模型的性能。
- 用户行为分析:可以对用户行为进行更深入的分析,包括用户投诉行为的原因和模式识别。可以研究用户行为的时间序列特征,以预测用户未来的行为趋势。
- 用户策略和服务改进:可以基于用户行为模型提出针对不同类型用户的个性化策略和服务改进方案。可以研究如何通过改善用户体验和满意度来减少用户投诉,并建立长期的互利机制。
- 数据隐私和安全:可以进一步研究如何保护用户数据的隐私和安全,在数据存储和信息处理过程中采取有效的措施。可以探索数据共享和数据融合的方法,以平衡数据利用和隐私保护之间的关系。
这些研究方向可以进一步推动大数据用户行为分析领域的发展,并为电力企业提供更准确和有效的决策依据。
《Power Consumption Portrait of Users Based on Improved ISODATA Clustering Algorithm》2022
基于改进的ISODATA聚类算法的能源消耗画像
相比Kmeans聚类,ISODATA聚类不受初始化聚类中心的影响,并且聚类中心的数量也可以动态调整,范围是[k/2,2k]。
ISODATA 在每次调整所有样本时,都会重新计算样本的平均值,自动“合并”和“拆分”类,使每个集群都有合理数量的集群。综上所述,该算法在一定程度上解决了传统算法聚类时间长、精度低的问题。可以提高用户分类的可靠性和有效性。基于聚类结果,可以为负荷预测、电力营销策略、用户筛选和识别等提供有效的参考。
《Research on Personalized Recommendation Service of Mobile Library Based on User Portrait》2022
基于用户画像的移动图书馆个性化推荐服务研究
本文的创新点是基于用户画像的移动图书馆个性化推荐服务。通过多维度的用户、环境和知识资源特征的描述,提取用户兴趣向量,挖掘用户真实的检索意图和知识偏好,并将符合读者真实需求或偏好的知识排在前面;同时,根据用户的检索行为推断用户可能想获取某个方面的知识,并推荐与读者检索相关的知识。基于用户画像的推荐算法实现了智能和个性化的检索结果推荐。通过分析不同的用户画像,根据他们对检索内容的偏好,提供与其兴趣相关的知识内容;通过提取资源特征,结合用户检索和阅读各类知识之间的相关性,推荐相关性高的知识。
该研究使用了以下创新的技术:
- 用户画像技术:通过收集用户的个人信息、行为数据和偏好,构建用户的多维度画像,包括读者、上下文和知识三个维度。通过用户画像,可以更准确地理解用户的检索意图和知识偏好,从而提供个性化的推荐服务。
- 数据预处理技术:由于原始用户数据可能存在不完整、不一致和错误的情况,需要进行数据清洗、整合、转换和降维等预处理操作,以提高用户画像构建的准确性和适用性。
- 推荐算法:基于用户画像的推荐算法是实现智能和个性化推荐的关键。通过多维度特征的建模和用户兴趣向量的提取,可以对用户的真实检索意图和知识偏好进行挖掘,并将符合用户需求的知识排在推荐结果的前面。
- 移动增强现实(MAR)和移动虚拟现实(MVR):个性化推荐服务层中的一部分,通过结合用户画像和推荐算法,提供个性化的搜索和增强现实/虚拟现实体验,提高知识检索的个性化水平和用户体验。
这些创新的技术有助于解决传统图书馆推荐服务中存在的问题,提高移动图书馆的个性化推荐服务质量和效果。
《A personalised operation and maintenance approach for complex products based on equipment portrait of product-service system》2023
一种基于产品服务系统设备画像的复杂产品个性化运维方法
两种实验方法
- 故障症状关键词提取方法:首先,通过对复杂产品的领域知识进行分析,构建了故障症状关键词(FSK)词库。然后,使用卡方检验来判断故障类别与FSK词库中的词语之间的相关性。通过计算卡方值,筛选出与产品运维服务高度相关的FSK词语,建立了FSK词库。
- 故障症状特征向量构建方法:针对每个具体的复杂产品子系统,提取其中的故障症状关键词,并建立故障症状特征向量。首先,从案例文本中提取出故障症状关键词。然后,将案例文本视为由一组正交向量组成的向量空间,建立了故障症状特征向量。利用词频-逆文档频率(TF-IDF)算法计算每个故障症状关键词的权重,根据权重阈值筛选出重要的故障症状关键词,并构建了案例的故障症状特征向量。
通过以上两种实验方法,本研究实现了对复杂产品的运维服务的个性化操作和维护方法的建立。
展望
智能化决策支持系统
《User Portrait Based on Artificial Intelligence》2023
基于人工智能的用户画像
标签维度
- 用户信息:包括用户基本的个人信息,如性别、年龄、身高等;它还包括用户行为和偏好信息。用户对某些信息的收集和订阅等行为属于用户行为,用户自定义信息属于用户的首选项
- 资源信息:这里的资源可能包括产品、广告、新闻等与用户相关的信息。例如,在护肤产品推荐领域,产品影响力、价格、品牌等信息可视为标签信息
- 上下文信息:用户画像中的上下文是指用户行为发生的场景,如时间、地点等,可作为上下文信息。用户界面信息是用户角色中最重要的信息之一。因为在不同的业务场景中,用户特征也会不同。例如,在时间方面,用户在不同季节购买衣服的偏好会发生相应的变化。但是,如果根据用户的喜好,推荐用户去距离较远的景点,用户基本上不可能去到
根据人工智能预测算法的计算,如果使用系统的时间继续增加,推荐准确率将继续上升,接近100%。基于人工智能的用户画像预测算法的优势在于,它可以在一定程度上预测用户兴趣的变化,并且预测精度会随着数据的不断增加而逐渐提高。
《FairUP: A Framework for Fairness Analysis of Graph Neural Network-Based User Profiling Models》2023
《基于GNN用户画像模型的公正性分析框架》
现代用户画像方法捕捉了与数据的不同形式的交互,从用户-物品到用户-用户关系。图神经网络(GNNs)已经成为建模这些行为并构建高效有效用户画像的自然方式。然而,每种基于GNN的用户画像方法都有其自己的信息处理方式,因此产生了不利于这些技术基准测试的异质性。为了解决这个问题,我们提出了FairUP,一个标准化所需输入以运行三种最先进的基于GNN的用户画像模型任务的框架。此外,鉴于算法公平性在评估机器学习系统中的重要性,FairUP包括两个额外组成部分,用于(1)分析预处理和后处理的公平性以及(2)通过三种预处理去偏技术来缓解原始数据集中潜在的不公平性。该框架在多个方向上可扩展,第一个版本允许用户对四个真实世界的数据集进行实验。
《Leveraging Graph Neural Networks for User Profiling:Recent Advances and Open Challenges》2023
利用图神经网络进行用户画像:最新进展和开放挑战
所提出的教程旨在让CIKM社区熟悉利用图神经网络(GNNs)的现代用户画像技术。首先,我们将深入探讨用户画像和GNNs的基本原理,并概述相关文献。随后,我们将系统地审视专门为用户画像开发的尖端GNN架构,重点介绍在此背景下典型使用的数据。此外,我们将讨论关于GNN在用户画像潜在应用中的伦理考虑和超越准确性的视角,例如公平性和可解释性。在实践环节中,参与者将通过使用开源工具和公开可用数据集构建和训练最新的GNN模型,获得实际洞见,用于用户画像。观众将通过案例研究重点探讨偏见分析和用户画像解释对这些模型的影响。最后,我们将分析该领域现有和新兴的挑战,并讨论未来的研究方向。
《You Are How You Use Apps: User Profiling Based on Spatiotemporal App Usage Behavior》2023
你如何使用应用程序构成了你:基于时空应用程序使用行为的用户画像
MRel-HGAN模型:Multi-Relational Heterogeneous Graph Attention Network
- 图卷积操作,应对异构性
- 邻居采样策略,使图变得稀疏
- 注意力机制,融合不同语义,并分配适当权重
《A Feature-Based Coalition Game Framework with Privileged Knowledge Transfer for User-tag Profile Modeling》2023
基于特征的知识转移博弈用户标签模型
《Urban Knowledge Graph Aided Mobile User Profiling》2023
城市知识图谱移动行为用户画像
提出了KG-MUP,将知识表示和量化特征融合起来描述用户画像,分析移动用户的特征。
《Extracting Mobile User Profile using Easy-to-obtain and Less Invasive Data》2023
提取关于用户移动方式和访问地点的用户配置文件是各个领域的一项重要任务。由于用户的位置被大量收集,因此可以从不同的角度提取配置文件。然而,当几乎没有或根本没有可用的地理空间数据时(由于资源或隐私问题),提取用户配置文件的挑战就更大了。在这项工作中,我们调查了是否有可能仅根据安装的应用程序以及城市的人口和GDP/人均信息,从四个角度(设备价格、对特定地点的兴趣、对具有不同功能特征的地区的访问和流动性)提取移动用户的档案。结果表明,存在与用户特征一致的相关关联。此外,预测模型在准确性和召回率方面普遍取得了显著成果。最后,我们评估了一个为用户推荐应用程序的真实案例。考虑到所分析的观点,我们的模型获得了令人满意的结果。我们通过添加用户档案,将推荐的准确率从17.7%提高到21.40%。从这项工作中获得的知识与科学界和行业有关。基于数万用户的真实和最新数据,我们表明,可以根据用户提供的少量、侵入性较小的信息来推断用户的个人资料。这是第一部从四个不同的角度调查应用程序和城市的相关性以提取用户知识的作品。在未来的工作中,我们计划探索其他视角,如社会关系和坚持移动服务的倾向。我们还计划提高模型的性能,例如使用人口普查数据来增加用户知识。
《A Brief Analysis of Using Big Data Technology to Analyze the Impact of Ownership Structure on Company’s Operating Performance》2023
浅析运用大数据技术分析股权结构对公司经营业绩的影响
研究发现,股权集中度对公司经营业绩有积极影响。然而,股权制衡程度和股权流动性与公司经营业绩呈显著负相关。
ROE = 公司的净资产盈利
中文摘录
《海量非结构化网络招聘数据的挖掘分析_张学新》2017
《基于大数据平台的企业画像研究综述_田娟》2018
卷积神经网络(CNN)在文本处理方面取得了很好的结果,Kim 在 CNN 基础上提出 4 种改进的基准模型,即 CNN-rand,CNN-static,CNN-non-static 和 CNN-multichannel,并且通过实验证明,改进的 4 种基准模型在短文本处理的精确度上有所提高。文献中,作者利用 CNN-static 和 CNN-non-static 模型,引入中文的拼音序列来对原始的文本进行语义拓展,建立了字符级和词级的双输入矩阵,分类实验效果明显。
《基于大数据的校园招聘雇主画像研究_张东迅》2018
- 用户定性画像的核心是标签化,标签是用户定性画像的基础。
- 模糊C均值算法(FCM)是由硬聚类(HCM)发展而来的一种无监督学习聚类算法
- FCM 算法对初始聚类中心比较敏感。对于 FCM 聚类分析,传统的做法是首先用随机的方式选取 c 个初始聚类中心,根据这 c 个聚类中心对所有样本进行一个初始的分类,然后在不断的迭代中对这些聚类中心进行修正,最终获得目标函数值最小的聚类方案。随机初始聚类中心的方法,不同的初始点可能会产生不同的聚类结果,极易造成聚类结果的不稳定,该方式对聚类结果有较大影响。
- FCM 算法易陷于局部最小值点。FCM 算法是基于目标函数的聚类方法,每一次的收敛判定要依赖于目标函数,如果相邻两次迭代的聚类结果的巨累中心基本一致,变化很小,则认为算法已经收敛。但是 FCM 的目标函数是非凸函数,可能存在多个极值点,在算法迭代过程中,目标函数很可能收敛于某一个极小值点而非全局最小值点,所以 FCM 算法本质上是一种局部搜索方法。
- FCM 算法的聚类数目 c 需要人为事先给定。同其他聚类算法一样,传统的 FCM 算法需要人为的给定划分样本类别的聚类数目 c,一般是根据从业者认为的先验知识进行指定,该方式过分依赖相关从业人员对业务知识的数据特点的了解程度,如果设定 c 值不当,可能会影响最佳聚类的划分。
- FCM 算法对样本中可能存在的孤立点或噪声点十分敏感。由于 FCM 算法每个样本对所有类别的隶属度遵循∑uij=1的原则,所以一个样本对于一个类的隶属程度要受该样本点隶属其他类的程度的影响,每个聚类之间是相互影响而非相互独立的关系。当样本种存在孤立点或噪声点时,噪声数据严重影响着聚类的效果。
- GRNN 作为 RBF 神经网络的一个分支,是比较新的一种人工神经网络,但是已经广泛应用于教育行业、生物工程、食品科学、信号过程、结构分析、金融分析等诸多领域,因为 GRNN 较 BP 神经网络和 RBF 神经网络具有以下特点和优势:
- 传统的误差反向传播算法(Back Propagation,BP) 为了得到较小的误差和较好的效果,需要在迭代中反复训练样本,而 GRNN 网络中样本的训练过程是单程的,不需要迭代。
- 模式层神经元数目由目标训练样本自适应确定,一般来说训练样本的个数即为神经元的数目。
- BP神经网络各神经单元的权值要在迭代中通过误差的反向传播反复修改,而广义回归神经网络各层之间的连接权值由训练样本唯一确定,不会在网络训练过程中修改。
- 模式层神经节点的传递函数常采用高斯函数,该函数对输入信息具有优秀的局部激活特性,一旦输入信息接近于局部神经元的特征,就会显示出强大的吸引力。
- GRNN 凭借极强的非线性映射能力和柔性网络结构,以及高度的鲁棒性和容错能力,使其在非线性问题的求解方面具有无可比拟的优势。
- GRNN 样本训练过程中只有一个求解参数,即光滑因子,与 RBF 网络相比,GRNN 具有更强的逼近能力和更快的学习速度。
- 对于样本数据量较少和数据不稳定的情况,GRNN 同样有着比较好的预测和分类效果。
《质监大数据企业画像的研究及应用_吴行惠》2018
《基于Web文本挖掘的数据分析岗位需求研究_刘畅》2018
对应各指标编码:
- 城市A1-A5,对应一线-四线城市
- 学历 B1-B5,对应中专及以下-博士
- 工作月薪 C1-C7,对应3000 以下-18000 以上
- 经验 D1-D7,对应 0 经验-10 年以上经验
- 主要使用软件 E1-E3,对应SQL/Python、Excel/SPSS、无要求
寻找提升度高的关联规则,表示挖掘出的关联规则越有价值。
《基于知识图谱的企业画像》2019
《基于文本挖掘的网络招聘信息分析_杨静》2019
在秋招、春招期间爬取数据,数据量大。
《基于大数据方法的精准招聘研究_郭欢欢》2020
《基于文本挖掘的招聘信息分析和职位画像_李明》2021
研究创新之处:
- 选择的职位信息既包括职位自有特征,如薪资待遇、城市标签等结构化数据,也包括职位所在公司的简介信息、职责要求等非结构化文本型数据,信息维度高,可利用性强,得到的结论更具有参考价值。
- 以往对网络招聘信息的无监督学习中,招聘信息的分类工作停留在得到聚类的各簇中心,解释性不强。本文利用流形算法对聚类结果进行可视化,并通过关联分析进一步挖掘内在规律。
- 利用决策树集成方法改进回归和分类模型,得到模型中特征重要性最大的自变量,并通过岭回归模型的回归系数进一步解释各自变量的影响,并通过文本挖掘得到新指标佐证结论。
- 利用文本挖掘,绘制了各行业关键词词云图及内部职位的关系网络,在 LDA 模型进行主题建模后,引入 word2vec 模型构建字典,进一步优化结果。
常见聚类算法:
- K-means
- 层次聚类
- DBSCAN(基于密度)
评价指标:
《基于多源异构就业大数据的雇主用户画像关键技术研究_李利杰》2021
多分类问题和二分类问题之间存在一定的对应关系:如果一个分类问题 N 类可分,则这 N 类中的任何两类间一定可分;反之,在一个 N 分类问题中,如果已知其任意两两可分,则通过一定的组合法则,可由两两可分最终实现 N 类可分。本文构建决策树支持向量机多分类器实现用户画像价值评级预测,基本算法及流程如下:
- 计算特征样本集中的每两类的类间区分度 dij,搜索最小区分度对应的类别编码;
- 在样本子集 Si 与 Sj 上进行支持向量机训练,得到实现类 i,j 的支持向量机分类器,将其生成为决策树中的一个节点;
- 将样本子集 Si 与 Sj 合并为一个新的子集,并跟前序的 k-2 个样本子集构成新的含有 k-1 样本子集;
- 若分类数量达到 2,则直接对样本数据集执行支持向量机训练,得到分类器决策树的根节点。
《基于BERT的中文文本向量化表示_祖成》2021
BERT模型与以往的词向量模型相比独到之处在于它的输入是3个向量的和。3个向量分别对应词向量、分段向量和位置向量。其中词向量表示对当前词的编码,分段向量表示对当前词所在句子的位置编码,位置向量表示对当前词的位置编码,每一句话使用CLS和SEP作为开头饿结尾的标记,最后把三个向量叠加构成模型的输入部分。
BERT模型最核心的部分就是双向Transformer编码层。该层对文本进行特征提取,使用的是Transformer的Encoder特征抽取器,Encoder由自注意力机制和前馈神经网络组成,核心是self-attention,它可以发现每一个词和这句话里面其他词之间的关系,而且没有距离的限制,几十甚至几百个词之间的关系仍然能找到,这样就可以充分挖掘到每个词的左右上下文信息,从而就可以得到词的双向表示,其中E1,…,En表示模型的输入向量,中间是多层双向Transformer特征抽取器,T1,…,Tn表示模型的输出向量,使用该模型获取词向量便于后续文本分类等模型的应用。
《用户画像研究述评_李锐》2021
用户画像领域的不足:
- 重实践轻理论
- 数据缺乏多源性、融合性
- 缺乏“需求-画像-验证-反馈”的画像优化机制
《一种融合群组特征的个性化图书推荐模型_丁鑫》2022
《个性化广告推荐系统及其应用研究_张玉洁》2022
基于模型的协同过滤
展望:
- 分布式推荐系统
- 云边协同
- 隐私保护
- 学生用户偏好的时间维度
- 多源数据融合
《在线社区用户画像及自我呈现主题挖掘——以网易云音乐社区为例》2022
《基于网络招聘信息文本挖掘的企业竞争力识别研究_钱明辉》2022
《基于大数据驱动的用户画像自动生成模型设计_刘莉》2022
《基于大数据画像的个性化创新创业教育模式_张明丽》2023
标签维度
- 基本属性
- 姓名、性别、年级、专业
- 人格
- 自信、好奇、挑战性、毅力
- 思维
- 逻辑思维、批判思维、创新思维、发散思维、系统思维
- 知识
- 专业知识、基础知识、跨学科知识、实践知识、创新创业技能
- 行为
- 创新创业意愿、学习态度、沟通交往、表达能力、执行能力
《基于Multi-Aspect的融合网络用户画像生成方法_苗宇》2022
结合TF-IDF算法、循环神经网络和注意力机制,该文提出一种基于Multi-Aspect的融合网络用户画像生成模型,如图1所示。
《美团机器学习实践》笔记 2023
考虑使用 lambda/kappa 架构
【HARD】《融合画像和文本信息的轻量级关系图注意推荐模型》 2023
LightRGAN 模型:
- 初始嵌入层
- 用户画像和项目画像嵌入
- 文本嵌入网络
- 嵌入传播层
- 预测层
与其他模型对比:
《基于可变能力模型的人物画像系统设计与实现_李若尘》2023
使用基于 Python 的 Flask 作为 Web 框架。
《基于旅游大数据的用户画像建模及个性化推荐研究_班航》2023
用户对工作属性的情感画像
展望:根据数据变化的时间维调整画像
《基于图卷积网络的用户画像预测方法研究_郭星宇》2023
Transformer 注意力机制 -> 谷歌的BERT 模型
可以考虑在模型中识别不同的行为,赋予不同的行为不一样的权重,从而实现更精确的用户建模。比如在网上发布的公司评价大多是负面的。
考虑在词典上进行优化。
精读
《基于聚类的软件成本估算方法研究》2018
- 提出一种算法
- 提出一种基于某方法的某方法
- 设计并实现基于某算法的某系统
基于加权马氏距离的自适应模糊聚类方法
- 当前聚类的相异度距离不能很好表示软件相似程度,该算法不需要指定聚类数目,具有更高的精确度。
- 当前广泛采用的K-means、K-modes和K-prototypes等一般划分聚类都属于硬聚类,即一个样本数据只可能属于一个聚簇划分。然而硬聚类方法不能表示历史数据与样本之间的隶属程度的问题,影响软件成本估算结果的准确性。
- 欧氏距离的适用范围仅仅限定在正交空间,即各个软件成本的影响特性参数互相之间独立,而不具备相关性。显然在各个维度的特性参数相互独立时,欧氏距离是有效的。而在实际的软件评估案例中,各个特性参数属性之间存在多重关联,而使得估计两个软件项目之间的相似度上存在较大的误差。如业务操作数与实体数量存在一定的正相关关系。同时,对于量纲的问题,即度量属性的尺度问题,欧氏距离并没有很好的解决方法。同一个特性参数属性度量的单位不同,同样会导致估算结果的偏差。
展望
《基于深度学习的短视频直播营销推荐系统设计与实现》2022
一种动态检测失效流量的数据采集方法
- 改进了Scrapy框架中无法发现失效流量的问题
- 通过深度学习框架TensorFlow搭建模型并进行训练,使用交叉熵作为模型训练的损失函数,图3-3为模型训练过程中损失函数的变化情况,其中Loss为训练过程中模型的损失率,Epochs为模型将所有训练样本训练迭代的次数。可以发现,在迭代次数Epochs为20左右时,模型开始收敛。通过多次实验,模型的迭代次数在22时的损失趋向稳定并出现拟合,最终确定训练的迭代次数为22。
一种基于深度学习的短视频直播营销推荐模型
- 以DNN(Deep Neural Networks)推荐模型为基线模型
《基于知识图谱的舆情分析方法研究及系统实现》2023
一种以BERTopic为基线模型的主题挖掘方法
一种基于知识图谱的舆情话题热度预测模型
本实验先采集了微博的两个热点话题作为数据集来源,然后对话题热度进行归一化处理,最后采用均方根误差、平均绝对误差、决定系数和精准度对模型评价,将本模型与LSTM-GRU[52]、BEEP[53]、STH-Bass[15]、BiGRU-AM[54]、KST-GCN[55]进行实验结果的比对分析:LSTM-GRU模型是基于长短期记忆神经网络和门控递归单元的两层模型预测,有不错的预测效果;BEEP是2017年提出的可以对话题的热度进行预测的贝叶斯网络模型,同时考虑了时序特征以及网络结构特征;STH-Bass将巴斯模型引入到社交网络中单条推特热度预测问题中,能取得不错的效果;BiGRU-AM采用了一种BiGRU网络结合注意力机制解决信息过载问题,有较高的计算效率和预测精度;KST-GCN是基于图卷积网络的,将图数据与流量特征相结合,提高了预测性能。