javascript

git

java

python

git-remote

c++

github

django

c#

reactjs

html5

analytics

node.js

performance

branch-prediction

git-commit

git-revert

validation

email-validation

undefined

unicode-使用Javascript解码UTF-8

我在传递UTF-8编码字符串的XHTML网页中有Javascript。 它需要继续传递UTF-8版本,并对其进行解码。 如何解码UTF-8字符串以进行显示?

<script type="text/javascript">
// <![CDATA[
function updateUser(usernameSent){
    var usernameReceived = usernameSent; // Current value: Größe
    var usernameDecoded = usernameReceived;  // Decode to: Größe
    var html2id = '';
    html2id += 'Encoded: ' + usernameReceived + '<br />Decoded: ' + usernameDecoded;
    document.getElementById('userId').innerHTML = html2id;
}
// ]]>
</script>
trans by 2020-08-05T14:01:51Z

javascript-我的JS代码中的\ u200b(零宽度空格)字符。 哪儿来的?

我正在使用NetBeans IDE 7.0.1开发Web应用程序的前端。 最近,我遇到了一个非常讨厌的错误,终于修复了。

说我有代码

var element = '<input size="3" id="foo" name="elements[foo][0]" />';
$('#bar').append(element);

当我看到element92属性在Chrome中不起作用(未在其他浏览器中检查)时,我注意到出了点问题。 当我在Inspector中打开该元素时,它被解释为类似

<input id="&quot;3&quot;" name="&quot;elements[foo][0]&quot;" 
    size="&quot;foo&quot;" />

真是奇怪。 手动重新键入element字符串字符后,该错误消失了。 当我撤消该更改时,我注意到Netbeans提醒我有关旧代码中的一些Unicode字符。 它是\u200b-每个'='之后的零宽度,位于'] ['和字符串末尾。 所以该字符串看起来很正常,因为未显示零宽度的空格,但转义后我的字符串是

'<input size=\u200b"3" id=\u200b"foo" name=\u200b"elements[foo]\u200b[0]" />\u200b'

现在我到底从哪里弄到的?

我不确定我从哪里复制了2992525576692564964992的代码,但这绝对是以下之一:

  • 带有HTML模板文件的Netbeans Editor的其他窗格;
  • Google Chrome浏览器检查器,“复制为HTML”操作;
  • Google Chrome源代码查看页面(非常令人怀疑)。

但是我不能用这两种方式重现该错误。

我在Windows 7下使用Netbeans 7.0.1和Google Chrome 13.0。没有键盘切换器或类似的东西正在运行。 另外,我正在使用Git进行版本控制,但是我没有提取该代码,因此Git不太可能受到指责。 这不是我同事的愚蠢笑话,因为他们很有礼貌。

有什么建议弄乱了我的代码吗?

trans by 2020-08-01T18:22:58Z

在JavaScript中为Unicode值调用Asc()和Chr()的简便方法是什么?

我对Javascript不太熟悉,正在寻找返回字符的UNICODE值的函数,并给定UNICODE值的函数返回等效的字符串。 我敢肯定有简单的东西,但是我看不到。

例:

  • ASC(“ A”)= 65
  • CHR(65)=“ A”
  • ASC(“”)= 2580
  • CHR(2580)=“”
trans by 2020-08-01T15:32:45Z

unicode-为什么我不能在Java中将\ u000D和\ u000A用作CR和LF?

为什么在Java中不能将\ u000D和\ u000A用作CR和LF? 编译代码时出现错误:

illegal line end in character literal
trans by 2020-08-01T08:28:02Z

C ++-在字符串,u16string和u32string之间转换

我一直在寻找一种在Unicode字符串类型之间进行转换的方法,并且遇到了这种方法。 我不仅不完全了解该方法(没有评论),而且该文章还暗示将来会有更好的方法。

如果这是最好的方法,请您指出使它起作用的原因,否则,我想听听关于更好方法的建议。

trans by 2020-08-01T07:52:04Z

什么Unicode符号代表一个人?

是否存在代表人的Unicode符号? 我期望这样的事情:

pictogram of a stick figure

我需要一种简短的方式来表示人均价格,例如“ 25欧元/人”,但是用“人”一词代替一个人的Unicode字符。 好处是图片不会与英语捆绑在一起。

trans by 2020-07-30T01:09:53Z

CSS-“高”字形的HTML Unicode字符是什么?

我正在寻找一个unicode的右V形字符,左侧没有手柄,并且我希望最高点和最低点分开。 类似于搜索框中的Ubuntu(网站)箭头。

我不需要&raquo;(»)或&rarr;(→)或仅是>。第一个问题是有两个人字形,而不仅仅是一个。 另一个太小且有手柄。 第三个顶点太尖锐。

我查看了几乎所有的unicode图表,如果没有,则只需要使用一个映像即可(例如Ubuntu)。 我会处理的,但这是不得已的方法。

任何帮助将非常感激!

trans by 2020-07-29T17:11:34Z

unicode-如何制作python 3 print()utf8

如何在utf-8中将python 3(3.1)printRAW(chr(252))转换为stdout,或者如何输出原始字节?

Test.py

TestText = "Test - āĀēĒčČ..šŠūŪžŽ" # this is UTF-8
TestText2 = b"Test2 - \xc4\x81\xc4\x80\xc4\x93\xc4\x92\xc4\x8d\xc4\x8c..\xc5\xa1\xc5\xa0\xc5\xab\xc5\xaa\xc5\xbe\xc5\xbd" # just bytes
print(sys.getdefaultencoding())
print(sys.stdout.encoding)
print(TestText)
print(TestText.encode("utf8"))
print(TestText.encode("cp1252","replace"))
print(TestText2)

输出(在CP1257中,我将char替换为字节值printRAW(chr(252))):

utf-8
cp1257
Test - [xE2][xC2][xE7][C7][xE8][xC8]..[xF0][xD0][xFB][xDB][xFE][xDE]  
b'Test - \xc4\x81\xc4\x80\xc4\x93\xc4\x92\xc4\x8d\xc4\x8c..\xc5\xa1\xc5\xa0\xc5\xab\xc5\xaa\xc5\xbe\xc5\xbd'
b'Test - ??????..\x9a\x8a??\x9e\x8e'
b'Test2 - \xc4\x81\xc4\x80\xc4\x93\xc4\x92\xc4\x8d\xc4\x8c..\xc5\xa1\xc5\xa0\xc5\xab\xc5\xaa\xc5\xbe\xc5\xbd'

printRAW(chr(252))太聪明了...:D没有必要在ü上使用编码文本(因为它始终只显示字节表示而不是真实字节),根本不可能输出字节,因为无论如何都要进行打印并始终以[xC3][xBC]进行编码。

例如:printRAW(chr(252))引发错误:

printRAW(chr(252))

顺便说一下,尽管打印输出是相同的,printRAW(chr(252))返回ü


Python 3如何确定printRAW(chr(252)),如何更改它?

我做了一个printRAW(chr(252))函数,该函数可以正常工作(实际上它会将输出编码为UTF-8,所以实际上它不是原始的...):

 def printRAW(*Text):
     RAWOut = open(1, 'w', encoding='utf8', closefd=False)
     print(*Text, file=RAWOut)
     RAWOut.flush()
     RAWOut.close()

 printRAW("Cool", TestText)

输出(现在以UTF-8打印):

printRAW(chr(252))

printRAW(chr(252))也可以很好地打印ü(在UTF-8中,[xC3][xBC])并且没有错误:)

现在,我正在寻找可能更好的解决方案...

trans by 2020-07-28T08:22:34Z

asp.net-IIS是否执行非法字符替换? 如果是这样,如何制止它?

上下文:在IIS中运行的ASP.NET MVC,具有UTF-8%编码的URL。

使用标准项目模板,以及在HttpContext.Current.Request.Raw中的测试操作,例如:

public ActionResult Test(string id)
{
    return Content(id, "text/plain");
}

这适用于大多数%编码的UTF-8路由,例如:

http://mydevserver/Home/Test/%e4%ba%ac%e9%83%bd%e5%bc%81

与预期的结果京都弁

但是使用路线:

http://mydevserver/Home/Test/%ee%93%bb

网址未正确接收。

除了:HttpContext.Current.Request.Raw是%编码的代码点0xE4FB; 基本多语言平面专用区域; 但最终-一个有效的unicode代码点; 您可以通过以下方式手动进行验证:

string value = ((char) 0xE4FB).ToString();
string encoded = HttpUtility.UrlEncode(value); // %ee%93%bb

现在,接下来发生的情况取决于Web服务器。 在Visual Studio开发服务器(aka cassini)上,收到正确的HttpContext.Current.Request.Raw-长度为一的字符串,其中包含代码点0xE4FB。

但是,如果我在IIS或IIS Express中执行此操作,则会得到不同的HttpContext.Current.Request.Raw,特别是"î“»",代码点:0xEE,0x201C,0xBB。 您将立即认识到第一个和最后一个是我们百分比编码的字符串的开始和结束...那么中间发生了什么?

好:

  • 代码点0x93是HttpContext.Current.Request.Raw(源)
  • 代码点0x201c是HttpContext.Current.Request.Raw(源)

在我看来,IIS非常在处理我的网址时执行了某种形式的引号翻译。 现在也许在某些情况下可能有用(我不知道),但是当它发生在%编码的UTF-8块中间时,肯定是一件坏事。

请注意,HttpContext.Current.Request.Raw也显示已发生此转换,因此,它看起来不像是MVC错误。 还要注意Darin的评论,强调它在URL的路径vs查询部分中的工作方式有所不同。

因此(两部分):

  1. 我的分析是否缺少Unicode / URL处理的一些重要细节?
  2. 我如何解决它? (即使其成为我所期望的字符)
trans by 2020-07-27T08:15:20Z

Python 2.6中对csv文件的常规Unicode / UTF-8支持

当涉及UTF-8 / Unicode时,Python中的csv模块无法正常工作。 我在Python文档和其他网页中发现了适用于特定情况的代码段,但您必须清楚地了解要处理的编码并使用适当的代码段。

如何在Python 2.6中“正常工作”的.csv文件中读写字符串和Unicode字符串? 还是这是没有简单解决方案的Python 2.6的局限性?

trans by 2020-07-26T19:45:18Z

如何在PowerShell字符串文字中编码Unicode字符代码?

我如何在PowerShell字符串中编码Unicode字符U + 0048(H)?

在C#中,我将这样做:"\u0048",但这在PowerShell中似乎不起作用。

trans by 2020-07-24T22:40:35Z

UTF-8在Python日志记录中,如何?

我正在尝试使用Python的日志记录包将UTF-8编码的字符串记录到文件中。 作为一个玩具示例:

import logging

def logging_test():
    handler = logging.FileHandler("/home/ted/logfile.txt", "w",
                                  encoding = "UTF-8")
    formatter = logging.Formatter("%(message)s")
    handler.setFormatter(formatter)
    root_logger = logging.getLogger()
    root_logger.addHandler(handler)
    root_logger.setLevel(logging.INFO)

    # This is an o with a hat on it.
    byte_string = '\xc3\xb4'
    unicode_string = unicode("\xc3\xb4", "utf-8")

    print "printed unicode object: %s" % unicode_string

    # Explode
    root_logger.info(unicode_string)

if __name__ == "__main__":
    logging_test()

这在logging.info()调用中以UnicodeDecodeError爆炸。

在较低级别,Python的日志记录程序包使用编解码器程序包打开日志文件,并传递“ UTF-8”参数作为编码。 一切都很好,但是它试图将字节字符串而不是unicode对象写入文件,这会爆炸。 本质上,Python正在这样做:

file_handler.write(unicode_string.encode("UTF-8"))

什么时候应该这样做:

file_handler.write(unicode_string)

这是Python中的错误,还是我正在服用疯狂药丸? FWIW,这是一个库存的Python 2.6安装。

trans by 2020-07-24T17:52:07Z

unicode-Android WebView UTF-8不显示

我有一个webview,正在尝试将简单的UTF-8文本加载到其中。

mWebView.loadData("將賦予他們的傳教工作標示為", "text/html", "UTF-8");

但是WebView显示ANSI / ASCII垃圾。

显然是编码问题,但是告诉Webview显示Unicode文本时我缺少什么呢?

这是一个HelloWorld应用。

trans by 2020-07-24T12:35:00Z

有什么办法用编码UTF-8而不是Unicode返回PHP`json_encode`吗?

有什么方法可以返回UTF-8编码而不是Unicode的PHP {"a":"á"}吗?

$arr=array('a'=>'á');
echo json_encode($arr);

{"a":"á"}$arr=array_map('utf8_encode',$arr);无法修复它。

结果:{"a":"á"}

预期结果:{"a":"á"}

trans by 2020-07-24T00:37:31Z

快速通过Unicode将国家代码转换为表情符号标志

我正在寻找一种快速的方法来使类似:

let germany = "DE" 

进入

let flag = "\u{1f1e9}\u{1f1ea}"

D1f1e9E1f1ea的映射是什么我正在寻找.utf8作为字符串,但这返回一个整数。

FWIW我的总体目标是能够采用任意国家/地区代码并获得相应的表情符号标志。

编辑:我也很好,只要持有一个做此映射的表(如果有的话)。 我在附近搜索,但没有找到。

trans by 2020-07-22T14:44:21Z

语言不可知论-项目中的国际化

您如何在实际工作中实现国际化(i18n)?

在阅读了Joel的著名文章“绝对是每个软件开发人员的绝对最低要求”之后,我便对跨文化软件产生了兴趣,绝对肯定地了解Unicode和字符集(无借口!)。 但是,除了确保在可能的情况下使用Unicode字符串外,我还不能在实际项目中利用此功能。 但是,将所有字符串都设为Unicode并确保您了解使用的所有工作都采用什么编码,这只是i18n冰山一角。

到目前为止,我所做的所有工作都已由一组受控制的美国英语国家的人使用,或者说i18n只是在我们将该项目付诸实施之前我们没有时间进行工作。 因此,我正在寻找人们关于使软件在实际项目中更加本地化的任何提示或战争故事。

trans by 2020-07-21T17:31:17Z

使用Python获取字符的Unicode代码点

在Python API中,有没有一种方法可以提取单个字符的Unicode代码点?

编辑:万一重要,我正在使用Python 2.7。

trans by 2020-07-21T14:16:19Z

如何在C ++中打印Unicode字符?

我正在尝试打印俄语的“ф”(U + 0444西里尔小写字母EF)字符,该字符的代码为十进制1092。如何使用C ++打印该字符? 我本来以为可以按照以下方式进行工作,但是...

int main (){
   wchar_t f = '1060';
   cout << f << endl;
}
trans by 2020-07-17T23:25:56Z

为什么没有包含所有Unicode字形的字体?

就像标题所说的一样。 我理解正确地使用复合字符和影响其他字符和连字的字符正确地渲染所有unicode格式非常困难。 我们提供的字体似乎旨在最大程度地支持Unicode符号(Symbola,Code2001等),以及用于某些平面或字符范围的专用字体(BabelStone Han等)。

我对字体的基本技术细节了解不多。 有最大尺寸吗? 这是版权问题吗? 从本质上来说,重绘所有大约110,000个现有字形是否太难了? 我了解样式方面的问题,但是为什么不退回到带有所有字形的“默认”字体呢? 它们在unicode.org上,要全部重绘它们将非常困难,但随后您将拥有可以保证的后备字体。 如果您有权使用某些预先存在的字体,则可以将它们合成,这将大有帮助。 这样的字体将对人类有很大帮助,我看不到为什么它不存在的良好技术原因,或者至少看不到开源创建它的努力,所以我认为它是一个看不见我的原因 无法完成。

那是什么原因

trans by 2020-07-17T15:27:41Z

Unicode可打印字符的范围是多少?

谁能告诉我Unicode可打印字符的范围是多少? [例如。 ASCII可打印字符范围是\ u0020-\ u007f]

trans by 2020-07-17T14:39:33Z

1 2 3 4 5 6 7 8 9 10 11 12 13 下一页 共13页